OUR “ELECTRA” EDITION IN XML-TEI

Our edition in HTM-TEI of “Electra” by Galdós is based on the first edition of the work, published in Madrid by the Tipografía de la Viuda de Tello e Hijos in 1901. Only the spelling has been modernized according to the standards approved by RAE in 2010.

IMAGEN1

The five acts of the piece are summarised at the beginning of the edition to guide or help the readers with the understanding of a dramatic text. The dramatic text is offered complete and one can also select the whole piece and copy it at the same time, completely, without having to open each of the acts, and copy them separately in order to read it without an Internet connection.

IMAGEN9

 

Post by Mª Teresa Santa María

BETTE PROJECT

GHEDI has worked on the following drama texts in TEI: “Electra”, written by Pérez Galdós, and “Mancha que limpia”, by Echegaray. This February, It will be encoding four more dramas: “Casandra” y “Doña Perfecta” (Galdós),”Juan José”, (Dicenta ) and “A fuerza de arrastre”, (Echegaray). The goal is to encode other nineteen works for the begining of the next year following the same research alignment with other European projects such as “Théâtre Classique” (http://theatre-classique.fr), “Folger Digital Texts” (http://www.folgerdigitaltexts.org) o “Deutsches Textarchiv” (http://deutschestextarchiv.de).

Post by Mireya Fernández

Buscando nombres propios en una obra de teatro

GHEDI está creando la Biblioteca Electrónica Textual del Teatro en Español (1868-1936) (BETTE) en XML-TEI. Hemos comenzado marcando los parlamentos, los personajes (también mediante identificador) las acotaciones, partes estructurales básicas como actos, escenas… Para este post voy a utilizar el texto A fuerza de arrastrarse de José Echegaray preparado por mis colegas Concepción Jiménez, Elena Martínez, María Teresa Santa María y María Simón:

2016-04-07_08h37_39

En un momento dado decidimos también marcar los nombres propios en diálogos y acotaciones con elementos e identificadores para poder extraer más información del texto. El proyecto BETTE quiere cuidar la calidad filológica de los textos, por lo que no queremos realizar estas tareas mediante herramientas automáticas. Por supuesto tampoco queremos estar perdiendo el tiempo realizando tareas que nos aportan poco. Así que hay que encontrar maneras de trabajar que permitan ambos objetivos.

En mi opinión es importante entender y aprovecharse de lo que Susan Hockey llama “typographic encoding” en Electronic Texts in the Humanities. No partimos ni deberíamos partir de cero al intentar conseguir estructura en lenguaje de marcado. La escritura y la imprenta han sobrevivido bastante bien durante siglos sin la necesidad de etiquetas XML. Mucha de la información que codificamos hoy en día con ellas ya está en los textos (aunque muchas veces no de manera unívoca). Solo hay que intentar alcanzarla. Vamos a ver un ejemplo con los nombres propios en el texto.

En la mayoría de las lenguas europeas (a diferencia del alemán), los nombres propios se diferencian del resto de palabras por llevar siempre mayúscula su primera letra, independientemente de su posición en la oración. Es decir, los nombres propios ya están marcados tipográficamente (traduciendo el concepto de Hockey). Ese es el punto de partida. Lo que en último momento queremos tener en nuestro texto es esto:

2016-04-07_08h49_55

Vamos a construir una expresión regular que busque una palabra que empieza por mayúscula, que antes NO tenga un punto o algo similar (es decir, queremos que antes aparezca letra normales) y queremos que posteriormente tenga algo diferente a una letra normal (un espacio, una coma, un punto…): Para eso utilizamos la siguiente expresión regular y utilizamos (importante!) la opción “Coincidir mayúsculas/minúsculas” y echamos un ojo a ver qué encuentra en un fragmento del texto:

2016-04-07_09h00_11

Ha encontrado, efectivamente, Josefina, Blanca, Blanca, Tomás, Blanca… ¡Bastante bien! También ha ignorado l resto de mayúsculas tanto del speaker, del p y del stage, que efectivamente o no son nombres propios o ya están marcados como tales. Podríamos hacer una sustitución y tendríamos el siguiente resultado:

2016-04-07_09h02_01

Bueno, ya tenemos los nombres propios marcados con la etiqueta rs. Pero en realidad hemos dicho que queríamos ponerle un atributo y colocar un identificador para tener a todos los personajes señalados unívocamente. ¿Podemos ahorrarnos trabajo en eso?

Volvamos al texto sin rs y démosle una vuelta. Para los identificadores de cada personaje, BETTE utiliza un sistema de identificadores relativamente sencillo:

  • Los identificadores se componen de cuatro caracteres
  • Todos los caracteres deben ser en minúscula y sin acentos

Un personaje llamado Blanca tendrá el identificador #blanc, Josefina tendrá #jose y Pepa tendra #pepa.  Vamos a intentar crearlos de manera semiautomática para todos los personajes. En nuestra expresión regular ahora necesitamos diferenciar los cuatro primeros caracteres del resto:

2016-04-07_09h13_10

Veamos esta expresión regular paso por paso:

  1. (\w ): Busca una letra cualquiera y después un espacio
  2. ([A-ZÁ-ÚÑÜ][a-zá-úñü]{3}): crea un grupo con los primeros 4 caracteres españoles; el primero tiene que ser mayúscula, el resto minúscula
  3. ([a-zá-úñü]*?): luego encuentra el resto de caracteres del nombre
  4. (\W): encuentra algo que no sea una letra

Y esto lo reemplazamos por lo siguiente:

2016-04-07_09h15_34

  1. \1: Primero devuélveme el primer grupo, es decir, la letra y el espacio delante del nombre propio
  2. <rs key=”\L\2″>: después escribe el elemento rs con el atributo key. Dentro de este atributo, escribe como valor lo que tienes en el grupo 2, es decir, los 4 primeros caracteres del nombre. Y como los quiero en minúscula (quiero key=”blanc” y no key=”Blanc”), utilizo \L para hacero minúscula.
  3. \E\2\3: me devuelves los grupos 2 y 3, es decir, el nombre propio completo. Y como desde que te dije que utilizases \L estás convirtiendo todo en minúscula y quiero que pares, utilizo \E.
  4. </rs>\4: cierre el elemento y dame el último caracter

Mucha explicación. Si hacemos esto en nuestro fragmento de texto:

2016-04-07_09h20_19

¡Ha funcionado bastante bien! No perfecto, por ejemplo tenemos key=”tomá” y en realidad queremos key=”toma”. Además con este método podemos colocar identificadores que no queremos. Es por eso que es importante realizar estos pasos revisando el restulado final o reemplazándolo poco a poco. Lo importante es conocer las herramientas qe tenemos a disposición y amoldarlas a nuestras necesidades. Así podremos extraer y preparar interesantes datos de manera eficiente.

Post escrito por José Calvo Tello

Funciones útiles en Notepad++ para editar teatro en TEI

Mi trabajo dentro de GHEDI es dar apoyo y orientación técnica. De esta manera no solo ayudo a tomar decisiones sobre qué tecnologías utilizar y cómo implementarlas; los miembros del grupo también me envían dudas o problemas y les ayudo no solo a solucionar ese problema, también a poder resolverlos en el futuro de manera autónoma. Así que en este post quiero recopilar unas cuantas funcionalidades de Notepad++ que pueden resultar útiles al estar corrigiendo ciertos textos. El texto que voy a utilizar para ejemplificar este post es Casandra, de Galdós, preparado por mis colegas Roxana Beatriz Martínez, Marta Ortiz Canseco y Sila Gómez Álvarez, uno de los textos que ya forman parte de nuestro corpus de teatro BETTE.

No todos aquellos que trabajan con XML-TEI tienen que trabajar con Oxygen, sobre todo al principio. Uno de las funciones útiles de Notepad++ es la opción Vista> Document Map, tenemos un vistazo más amplio de la obra:

2016-04-07_07h37_13

Algo que he aprendido con el tiempo a hacer es trabajar siempre con la opción de “Mostrar todos los caracteres”. Aunque al principio pueden molestar esos dos manchurrones al final de cada línea, de esa manera podemos controlar caracteres raros que hagan que tu código escupa errores extraño; además siempre eres consciente del tipo de codificación End of Line que tienes en el documento:

2016-04-07_07h41_15

2016-04-07_07h41_19

Otra opción muy útil de Notepad++ es Pretty print. Esta se encuentra en el XML Tools plugin. La versión de Pretty print que hace esta  herramienta me gusta tanto que incluso cuando trabajo en otros proyectos con Oxygen, voy a Notepad++ para ponerle un Pretty Print como Dios manda y que no me rompa la línea de texto por donde el ancho de pantalla anda en ese momento (¡con qué derecho hace eso!). Por supuesto Pretty print no tiene ninguna influencia en el marcado. Pero para los seres humanos es de enorme utilidad pasar de una visualización de estructura plana como esta:

2016-04-07_07h44_48

A esto:

2016-04-07_07h44_58

Por último, una opción util de Notepad++ es la función “Ir a”, que podemos llamar mediante Control+G o “Buscar” > “Ir a la línea”. Pongamos que todavía estamos trabajando en que nuestro archivo esté bien formado. Para ello trabajamos con los mensajes que nos da el Check Syntax Now de Notepad++ y también cargamos el archivo en Firefox (cuyos mensajes de error son bastante más útiles que los de Notepad++, tengo que decir). Y leemos un error de este tipo:

2016-04-07_07h50_44

O sea, que tenemos un error por la línea 1761. Podemos, claro, hacer scroll hasta esa línea. O podemos simplemente utilizar la función “Ir a”. Con Control+G aparece la siguiente ventana, donde escribimos la línea a la que queremos ir:

2016-04-07_07h53_44

Y la herramienta nos llevará allí.

Algún truco más de Notepad++ que os apetezca comentar?

Post escrito por José Calvo Tello.

Grupo de investigación GHEDI -Grupo de Humanidades y Edición Digital- de UNIR

El grupo  de investigación GHEDI  -Grupo de Humanidades y Edición Digital-, de la Universidad Internacional de La Rioja (UNIR),  se constituyó durante el curso 2013-2014. En la actualidad formamos parte de este grupo 14 personas,  en su mayoría profesores de UNIR aunque también de otras universidades como es la University of Würzburg (Alemania).

Nuestra línea de investigación se centra en las Humanidades Digitales y nuestro principal objetivo es desarrollar un corpus textual de teatro. El camino a seguir en este proyecto  es la creación de una biblioteca electrónica textual del teatro en español (1868-1936) cuya etiqueta es BETTE.

El grupo GHEDI también ha centrado sus actividades de investigación en el desarrollo de ese modelo de edición digital ya mencionado sobre teatro en español. Este modelo se servirá de las posibilidades que ofrecen la web semántica y los estándares internacionales de marcación textual (TEI) para ofrecer a los lectores entradas y recorridos diferentes de lectura. De la misma forma, el uso del texto literario se adaptaría a las necesidades y modos de lectura de cada persona. Así, estaríamos contribuyendo a renovar el estudio y la investigación en Humanidades Digitales en España atendiendo a las líneas que marca la investigación internacional. Con todo, se pretende realizar una puesta en abierto de la edición digital aprovechando las posibilidades que ofrece la marcación textual internacional cubriendo el posible vacío que en este sentido pudiera existir en nuestro país.

Post escrito por Concepción M.ª Jiménez Fernández