Archivo por meses: agosto 2018

¿Cómo sería mi corpus ideal?

18 agosto, 2018Sin categoríaSemevadelalengua

Esta entrada es un poco distinta de lo que suelo escribir, ya que normalmente intento (con mayor o menor éxito) escribir para un público no especializado en lingüística. Hoy, sin embargo, escribo algo que seguramente sea de poca utilidad a aquellos que no son lingüistas y no trabajan con corpus (aunque espero que sí sea del gusto de aquellos que sí), así que me disculpo de antemano. Por si su curiosidad es más fuerte que mi advertencia y van a leerme igual, les explico primero qué es un corpus lingüístico: se trata de un conjunto de textos recopilados con el objetivo de hacer investigaciones lingüísticas. Pueden ser textos literarios, textos jurídicos, transcripciones de entrevistas; pueden ser textos de distintos periodos o de una franja temporal limitada, etc. Los corpus actuales suelen estar disponibles online y constar de una herramienta de búsqueda (con distintos grados de sofisticación).

En la mesa redonda del último día del CIHLE, Virginia Bertolotti le preguntó a Andreas Dufter cuál sería su corpus ideal para estudiar el latinismo sintáctico. Inspirada por esa pregunta, me he puesto a soñar en mi corpus ideal (para estudiar cualquier cosa). La lista que sigue contiene sobre todo una serie de deseos de carácter práctico (y no metodológico, aspecto en que creo que la lingüística hispánica tiene una situación envidiable respecto de muchas otras lenguas, con menos corpus y de peor calidad filológica). Ya, sin más preámbulos, mi carta a los Reyes Magos de Corpusiente (me disculpen el chiste, tenía que).

1. Lematización para guardarse las espaldas

Personalmente, desconfío bastante de la lematización (asignación a cada palabra de su correspondiente forma de diccionario, para poder recuperar, por ejemplo, las formas señora, señores y señoras si busco el lema señor) y el etiquetado (asignación a cada palabra de sus rasgos gramaticales, para poder buscar todos los verbos, o todos los sustantivos masculinos plurales, etc.) automáticos. Es cierto que la mayoría de softwares tienen un nivel de acierto bastante elevado, pero siempre he creído que los casos más difíciles de etiquetar automáticamente seguramente lo serán por ser los más interesantes y me parece absurdo arriesgarnos a perdérnoslos por confiar en un programa que se equivoca unas dos o tres veces por cada cien palabras.

Por eso preferiría una lematización y un etiquetado “de seguridad”, que en vez de escoger una etiqueta para las formas ambiguas (¿es cosa una forma verbal —El que mejor lo cosa, gana— o un sustantivo —Te voy a decir una cosa—?) les asignara las dos. Por supuesto, esto aumentará el caso de falsos positivos (encontrar muchos cosa verbales cuando me interesa el sustantivo), pero estos me parecen preferibles a los falsos negativos (perderme muchos cosa sustantivos que la máquina ha considerado verbales).

El CORPES se hace un lío cuando le pedimos que nos devuelva los casos de cosa verbal

2. Contexto suficiente de los resultados

Que los ejemplos tengan un contexto suficiente para que podamos descifrar bien el significado de las formas que nos interesan es absolutamente esencial (se lo dice una que dedica mucho tiempo a leer ejemplos con una de las formas más ambiguas de nuestra lengua: el famoso se). Pero muchos corpus son algo tacaños con el contexto que ofrecen. Es habitual que uno pueda acceder a más contexto pinchando en el ejemplo (así lo hacen los corpus de las Academias, véase el CORPES arriba), pero esa es una opción muy incómoda si hemos descargado los resultados para trabajar con ellos en algún tipo de hoja de cálculo (que es, desde luego, la forma óptima de trabajar, voy a ello en el siguiente punto). Una opción sería permitir que el usuario elija cuánto contexto previo y posterior quiere (medido en caracteres, palabras, oraciones, párrafos…), pero también sirve lo que hace el COSER, por ejemplo, que da siempre un contexto muy abundante (creo que con las dos intervenciones anteriores y las dos posteriores). Respecto al contexto vale la misma regla de oro que para todo lo demás: mejor que sobre que que falte.

El COSER no se corta con el contexto

3. Exportación de resultados

Este aspecto tan fundamental es, me parece, uno de los que está más descuidado en nuestros corpus. Poder exportar los datos rápidamente y de golpe a una hoja de cálculo (idealmente con una codificación estándar, que para algo se ha inventado el UTF-8).

Quizá la cosa más irritante del CDH sea que no hay un botón de exportar los resultados, a pesar de que el CORPES sí tiene uno. Seriously, RAE, de qué vas. Y si bien es cierto que el CORPES tiene una herramienta de exportación, ¿por qué no permite exportar todos los resultados a la vez? ¿Por qué solo de página en página? Las páginas pueden tener un máximo de 60 resultados, por lo que una búsqueda modesta, con 1000 resultados, requiere por lo menos 17 archivos, lo cual es, simple y llanamente, un disparate. ¿Y por qué en .txt? No pueden abrirse directamente en una hoja de cálculo, sino que hay que copiarlos y pegarlos.

Aunque al escribir esto descubro que el CORPES ha mejorado su herramienta de exportación, porque, aunque en .txt, al menos ahora hay un formato que los ofrece tabulados. Esto es absolutamente fundamental, que los datos estén tabulados. Por favor. Es lo único útil, todo lo demás necesita mucho formateado previo a poder trabajar con ellos (i.e., ¡para tabularlos!). El CODEA cumple (¿¿cumplía??, ahora solo puedo copiar y pegar los resultados) bastante bien con este requisito, salvo por un pequeño detalle que puede convertirse en una pesadilla si se hace una búsqueda lematizada amplia: la exportación se realiza con archivos distintos para cada forma encontrada. Es decir, si buscamos la forma pod* debemos descargarnos manualmente 113 archivos, ¡pinchando individualmente en cada uno de ellos! Siendo lo más probable que luego vayamos a querer juntarlos (algo que puede hacerse fácilmente con un programa como R, sí, pero esta no es todavía la herramienta que más usa la mayoría de filólogos hispánicos): ¿por qué no podemos descargarlos todos de una vez?

El CODEA ofrece un acceso diferenciado por forma a los datos

La realidad es que para poder ponernos a trabajar con los datos de la mayoría de nuestros corpus tenemos que dedicarle muchísimo tiempo a la preparación previa de los datos, cuando ofrecer el acceso a todos ellos de forma conjunta (y tabulada, ta-bu-la-da) debería ser algo extremadamente sencillo, pues se trata solo de cambiar el formato de la información que ya se da (y la presentación online suele ser tabulada). Por poner un ejemplo del absurdo, yo tengo un documento con las instrucciones que debo seguir para formatear los resultados del COSER a partir del código fuente de la página de resultados (que lleva mucho tiempo de cortar, pegar y remplazar en Word y Excel); un script para poder unir todos los archivos que devuelve CODEA (que lleva mucho tiempo de pinchar en archivos para descargarlos); otro script para descargar automáticamente el código fuente de los resultados de los corpus de la Academia que incluye tener que pasar las páginas de su web de forma automática (y que me llevó muchísimo tiempo escribir)… Es un dislate, con todo el pesar de mi corazón lo digo.

4. Ta-bu-la-ción y metadatos

Como no sé si he dejado suficientemente claro lo fundamental que me parece la tabulación de los datos, le voy a dedicar un apartado entero.

Hago antes un pequeño excurso, pues me pregunto si la renuencia a ofrecer los datos tabulados se debe a que existe mucho escepticismo frente a Excel (o cualesquiera de sus miles de equivalentes, muchos gratuitos: holi, Open Office) en nuestro campo. No sé si es por desconocimiento o por tradición, pero el estilo de trabajo casi pidaliano, con fichas a mano o en un Word, contando ejemplos de cabeza no ha desaparecido… Si este es vuestro caso y me permitís datos un consejo, por favor, id corriendo a abrir Excel. Sé que la primera vez que uno lo abre, se asusta. Y que da mucha pereza aprender a usar un programa nuevo. Que la curva de aprendizaje no es un mito, sino una frustración constante. Pero si le dedicáis un ratito, de verdad, solo un ratito, os vais a ahorrar millones de ratitos futuros. Con corpus que exporten los datos adecuadamente y un manejo normalito de Excel todos doblaríamos el número de artículos por año. O, mejor todavía, disfrutaríamos del doble de vacaciones. Trabajaríamos menos en finde. Se me hace la boca agua.

¿Por qué importa Excel? Porque una vez que tenemos los ejemplos metidos en una hoja de cálculo (debidamente tabulados, ahora voy a ello), Excel los puede contar de forma automática. Se pueden clasificar los ejemplos para diversos parámetros de una sola vez, sin tener que volver una y otra vez a Word o la corpus online. Se puede añadir un nuevo parámetro cómodamente (sin tener que volver a realizar la búsqueda). ¡Hay hasta filtros que permiten seleccionar ejemplos de un determinado tipo y contarlos automáticamente! Excel es calidad de vida, palabrita.

¿Y cómo debe ser la tabulación? Característica primera y fundamental: cada ejemplo debe ir en una fila distinta de nuestra hoja de cálculo. Aquí es problemático el formato actual del COSER, por ejemplo, precisamente porque da mucho contexto: si hay varios ejemplos de la búsqueda realizada que están muy cerca los señala dentro del mismo resultado. Esto complica luego el trasvase de los datos a un formato con el que trabajar, porque a) nos interesan los ejemplos individuales y b) a veces se repiten los resultados. Un ejemplo = una fila es la primera regla del club de los datos ordenados.

Segunda característica, también fundamental: el resultado directo de la búsqueda debe estar resaltado de alguna manera. Esto facilita su localización, especialmente si el contexto ofrecido es abundante, como debería, y hace que podamos trabajar más rápidamente. En el CIHLE se oyó alguna queja sobre que ya no leemos textos enteros, sino solo ejemplos sueltos, que cada vez hacemos menos trabajo propiamente filológico… En mi opinión, es fundamental combinar las dos tareas para trabajar de forma eficiente a la vez que rigurosa. Es decir, si me interesa codificar el género de los posesivos que siguen a detrás, no necesito leerme todo el ejemplo. Voy a leer muchos, de hecho, porque nuestros ojos no son capaces de aislar solo dos palabras y se van detrás de las demás, pero no lo necesito. Si me interesa saber la referencia de ese posesivo, en cambio, sí necesito leer los ejemplos y además necesitaré bastante contexto. Por eso necesitamos las dos cosas: contexto abundante y búsquedas resaltadas. Personalmente, me gusta mucho la manera en que se resalta la búsqueda en la red de corpus CHARTA, donde se da en una columna aparte, con el contexto previo en la columna de la izquierda y el posterior, en la derecha. Este formato es muy interesante porque, además de que los resaltados tipográficos corren el riesgo de perderse, permite organizar los ejemplos (usando el maravilloso botón de Excel para ordenar datos) a partir de los resultados, lo cual es muy útil para etiquetar rápidamente (usando la herramienta de rellenado automático de Excel, por ejemplo, o un sencillo cortaipega) categorías léxicas o morfológicas, como el género, el tiempo verbal, etc. Calidad de vida.

Tercera característica, absolutamente fundamental: metadatos. Todos los que podamos. Muchos corpus “racanean” también con esto, de manera que también haya que pinchar en los resultados para saber el año, el autor o el tipo de texto (los nuevos corpus de la Academia han empeorado en esto frente al CREA y al CORDE, por no meterme en los corpus de español en red como el Corpus del Español: Web/Dialects o el EsTenTen, que han sacrificado el catalogar mínimamente los textos por ofrecer grandes cantidades de datos). Tener que pinchar en los ejemplos nos quita años de vida otra vez. Nuestra herramienta de exportación debe dar todos los metadatos que tengamos (año, fecha, autor, código de documento en el corpus, localización —pueblo, provincia, país—, tipo de de texto…), cada uno en una columna distinta de la tabla. Y siempre mejor atomizar la información (si tenemos la información del pueblo, no darla como “Pueblo, Provincia” en una sola columna llamada “Ubicación”, por ejemplo, sino en dos columnas, una para pueblo y otra para provincia). También aquí, siempre, mejor que sobre que que falte.

Por último, numerar los resultados con un identificador único también es una buena práctica, aunque esto sí lo puede hacer de forma muy sencilla en Excel cada investigador. Lo dejamos como bonus 🙂

5. Acceso a los textos originales

Siempre que se pueda, me parece óptimo contar con acceso a una imagen del texto original o a la grabación para el caso de corpus orales, como hacen los corpus de la red CHARTA, Biblia medieval, CORDIAM, COSER, PRESEEA… Esto sí es algo muy frecuente en nuestros corpus y tiene que ver con el rigor que caracteriza a la escuela filológica española, así que solo puedo decir ¡viva!

Es más, muchos de estos corpus permiten la descarga de los textos completos, lo cual es fantástico. Ya que me pongo a pedir: aquí lo ideal sería darlos en formato txt (como Biblia medieval o Post Scriptum) y con una tablita de metadatos (¡por favor!), porque nos permite trabajar los textos desde programas externos con la flexibilidad que queramos dentro de nuestras posibilidades informáticas.

6. Descripción del corpus

Esto parece obvio, pero, por algún motivo que se me escapa, hay unos cuantos corpus que no explican cómo se han recopilado, cómo se han seleccionado los textos que se ofrecen o cómo se han transcrito. Me parece simplemente inaceptable. Sin nada más que añadir.

7. Un regalito para los directores del corpus

Acabo con una idea que, sobre todo, podría ayudar a los creadores de los corpus con solo un poquito de esfuerzo por parte de los usuarios (que mucho tenemos que agradecer a los primeros, por cierto). La idea tiene que ver con el primer punto, respecto de la lematización y el etiquetado automáticos y se trataría de un pequeño botón que permitiera marcar aquellos ejemplos que no corresponden a la búsqueda realizada y que guardara esa información para que los directores de los corpus pudieran revisarlo. Esto ayudaría a detectar y solucionar errores de forma eficiente y colaborativa. El COSER tiene una herramienta más o menos similar, que te permite descartar los resultados que no te interesen: en este caso se trataría de marcar aquellos que no se corresponden con la búsqueda realizada por un error de la lematización o del etiquetado. Los responsables de los corpus luego pueden revisarlo (o no, si deciden confiar ciegamente en sus usuarios) y así el corpus mejora poco a poco. Y lo mismo podría decirse de errores de transcripción o lectura: creo que no estaría de más que los usuarios pudieran ayudar a los creadores de corpus proponiendo mejoras o cambios de las transcripciones cuando crean que son necesarios.

Concluyo: no puedo agradecer suficientemente a todos aquellos que compilan corpus su labor. Mi vida y la de otros lingüistas es increíblemente más sencilla gracias a ellos y tienen toda mi admiración, porque sé lo exigente y agotador que es. Espero que esta carta de deseos les sirvan, si consideran que pueden ser útiles. Creo que la mayoría no son difíciles de implementar y no dan mucho más trabajo, pues solo requieren ofrecer de forma más eficiente información que ya está disponible (y organizada) de alguna manera. Quizá pido muchas cosas, pero soñar es gratis y eso es a lo que nos invitaba Virginia con su pregunta. Y, vosotros, ¿qué le pediríais a vuestro corpus ideal? ¿Qué os parecen mis ideas? 🙂

** Disclaimer **: Excel no me ha pagado un duro por escribir esta entrada. Que ya se podrían estirar en Microsoft, pero nada.

(Mi segundo) Congreso Internacional de Historia de la Lengua Española (y II)

12 agosto, 2018Sin categoríaSemevadelalengua

El CIHLE no dura solo dos días, sino cinco (aunque el miércoles fue un día de menos trabajo y dedicado a una excursión a las ruinas de Pachacamac), así que aquí llega la crónica del jueves y el viernes.

La primera comunicación que visité el jueves las impartía Hugo Roberto Wingeyer, sobre la permeabilidad de rasgos lingüísticos típicos del contacto con el guaraní en la escritura de alumnos paraguayos y del nordeste argentino. Algunos ejemplos de estos rasgos: la doble negación (nunca no hay) o faltas de concordancia (nuestras lenguas fue modificada).

A continuación fui a ver a Cecilia Quepons, que habló sobre la extensión semántica del famoso pinche(s) mexicano, que ha adquirido usos aparentemente adverbiales muy semejantes a los que ha adquirido puto en español (ya pinches entiendo, su página está muy pinche pobre, quiero pinche dormir), algo que nos ha interesado a Ana Estrada y a mí. Es fascinante ver cómo palabras distintas siguen evoluciones tan semejantes a ambos lados del charco.

Volví a cambiarme de sala para ir a ver a Ioanna Sitaridou, que trató un tema muy candente en los estudios de la gramática histórica del español: ¿era el español antiguo una lengua V2? Y ustedes dirán: “¿qué es una lengua V2?”. Pues una lengua que necesita que el verbo esté en segunda posición, como el alemán moderno. El verbo debe aparecer siempre (en las oraciones principales declarativas) en la segunda posición gramatical, así que ‘Juan está ahí’ se puede decir Juan ist dort (literalmente Juan está ahí)o Dort ist Juan (lit. Ahí está Juan), pero no *Ist dort Juan (lit. Está ahí Juan), un orden que sí es posible en español. Y ahora ustedes se estarán preguntando: «¿Y cómo puede haber debate sobre esto? ¡O era V2 o no lo era!». Pues no es tan fácil, porque las lenguas V2 (alemán incluido) tienen excepciones y resulta difícil saber si las excepciones del español antiguo son semejantes a las del alemán moderno, ya que no tenemos acceso a la intuición de sus hablantes. Eso sí, Ioanna sostiene que el español, de V2, nada.

La última charla antes del café fue la de Carlos Sánchez Lancis (con Cristina Buenafuentes de la Mata, que no ha podido venir), que habló de la gramaticalización de camino de como locución prepositiva: es decir, el sustantivo camino, que tiene un significado concreto muy claro, ha adquirido un significado equivalente a una preposición de dirección (Con lo deliciosa que es la comida peruana, voy camino de volver a España en forma de globo aerostático). Uno de los resultados de la investigación: mientras que en España preferimos juntar la preposición de con camino, en América lo hacen mayoritariamente con a.

Después de la pausa de café fui a ver a Javier Herrero Ruiz de Loizaga, que trató de la evolución de nada más y no más con el significado de ‘solo’, que es una forma que a todos nos suena (acertadamente) americana. Pero históricamente no más se documenta antes (¿Por eso no más?, replicaba don Quijote) y nada más se impuso en España en el siglo XIX, mientras que en América ha ido avanzando más lentamente.

Luego le tocó el turno a Pedro Álvarez de Miranda, que explicó el origen y el uso histórico de la frase la impresión del grifo, que Quevedo usa en cuatro ocasiones para referirse a mujeres viejas de nariz puntiaguda (Quevedo gonna quevedear). Como ya había dicho Luisa López Grigera (porque Pedro quiso muy honradamente aclarar de quién era el mérito del descubrimiento), el origen de esta expresión está en el sello de la casa editorial de Sébastian Gryphe, que usaba sellos como estos en honor a su apellido:

Pedro Álvarez de Miranda y el grifo

Después llegó la plenaria, a cargo de Rodolfo Cerrón Palomino, que disertó sobre el efecto de la forma del aprendizaje del español de los hablantes andinos de los siglos XVI y XVII sobre su variedad de español. Así, mientras que los quechuohablantes que aprendían el español en situación de inmersión (por ser mestizos, por ejemplo) o en contextos formales (como en los colegios de curacas) no presentaban los trastocamientos vocálicos típicos del español andino (vevienda por vivienda, por ejemplo), sí que lo hacían aquellos que aprendían el español de una forma más informal, a través del trato diario con los españoles. Las faltas de concordancia, sin embargo, parecen permear la escritura de todos estos hablantes, aunque en menor grado en los primeros.

Tras reponer fuerzas era la hora de la mesa redonda, sobre «Contacto y cambio semántico en la historia del español». Rocío Caravedo habló de la necesidad de incluir la perspectiva de la cognición y percepción de los hablantes en el estudio de su habla, con el ejemplo de los hijos de inmigrantes andinos en Lima, que, a pesar de ser monolingües en español siguen mostrando rasgos típicos del español andino, como es la concordancia variable de los pronombres le, la y lo. Wiltrud Mihatsch propuso una sugerente hipótesis del origen los marcadores tipo y onda (¿quedamos tipo 7?, con usos muy similares a en plan, por cierto) que combina el contacto lingüístico con el cambio pragmático: la contracultura de los años 60 y 70 introdujo una mayor importancia de los recursos atenuativos y el hecho de que marcadores de este tipo se encuentren también en otras lenguas, como el italiano, el portugués, el alemán.., etc., podría indicar que el origen esté en el famoso like del inglés. Cerró la mesa Azucena Palacios, hablando de fenómenos de contacto en Ecuador y en Paraguay. Azucena subrayó la importancia de estudiar el sistema propio de estas variedades de contacto, en vez de observarlos como meras rarezas caóticas causadas por otra lengua. Así, en español de Paraguay, ponerle un pasador a la niña por la cabeza no es una interferencia sin más, sino que es lo único que tiene sentido, porque ponérselo en la cabeza implicaría meterlo dentro (algo seguramente indeseado, al menos para niña).

Quiero ver más sesiones plenarias llenas de mujeres, gracias.

El viernes había un programa menos apretado, aunque no por ello menos interesante. Empecé el día con la charla de Paul O’Neill, que argumentó en contra de la noción de morfema y sostuvo que los hablantes no manejamos un conjunto de sufijos y raíces y las reglas para combinarlos, sino que memorizamos palabras enteras que están conectadas entre sí y formamos patrones de flexión. Apoyó esta argumentación con una serie de ejemplos de regularizaciones morfológicas dentro de los paradigmas verbales en la historia del español que sería un poco complicado reproducir aquí, pero os dejo con una frase literal de Paul con la que estoy muy de acuerdo: “La lengua is a mess, es un lío, pero a los hablantes no les importa”.

Paul disfrutando con patrones morfológicos

La siguiente sesión fui a ver a Larissa Binder, Johannes Kabatek, Philipp Obrist y Albert Wall (mis compis en Zúrich) que presentaron unas visualizaciones muy interesantes de la aparición a lo largo de la historia de la a que aparece en frases como El profesor remplaza al libro (que no significa lo mismo que El profesor remplaza el libro). Quedó muy claro que el uso de gráficos dinámicos (generados con el programa que inventó Hans Rosling en esta famosa charla), que representan la dimensión temporal por medio del movimiento de los símbolos, puede ayudar a entender mejor un fenómeno tan complejo como este, que necesita combinar muchos factores en su estudio. Por supuesto, insistieron también en adoptar una perspectiva crítica ante los nuevos métodos, que por muy llamativos que sean no son la panacea y no “muestran la evolución de la lengua”, sino que, como siempre, son conjuntos de datos estáticos procedentes de textos determinados y que, simplemente, se mueven. Esta sesión coincidía (ya es mala suerte) con la de Santiago U. Sánchez Jiménez, que habló sobre los usos, fijación y diacronía de la construcción en plan, que también me interesaba muchísimo. Ilustro aquí gráficamente (no dinámicamente) las sesiones paralelas:

Zuriqueses a la izquierda y Santi a la derecha (esta foto cortesía de Santiago del Rey)

Santiago del Rey presentó un estudio interesantísimo sobre la oralidad elaborada, es decir, la variedad lingüística empleada típicamente en registros cultos orientados a la oralidad (definición libre del término de servidora), como los textos dialógicos o teatrales. Estudiando el uso de las estrategias coloquiales empleadas en traducciones en español de diálogos latinos obtiene un hallazgo genial: existen elementos coloquiales del latín que se incorporan al español. Normalmente pensamos en los calcos del latín como elementos propios de los registros más formales, pero esto no tiene por qué ser así: el latín, como lengua de contacto, pudo influir también al español coloquial (como hace ahora el inglés, que se nos cuela tanto en las conferencias más científicas como en las charlas más informales).

Después del café, Johannes Kabatek presentaba su nuevo libro Lingüística coseriana, lingüística histórica tradiciones discursivas, editado por mis queridos Cristina Bleorțu y David Gerards. El libro recopila varios de los artículos de Johannes sobre estos temas, algunos de los cuales están ahora disponibles en español por primera vez. Uno de los que más me gustan a mí es el de “Lingüística empática” (y me atrevería decir que a Johannes también le gusta bastante por cómo le brillan los ojillos cuando le piden que hable de él…). Como dijo él mismo, “la lingüística necesita tiempo y nuestros doctorandos necesitan tiempo”. True dat.

La sala estaba hasta los topes

La última mesa redonda llevaba por título “Fuentes y métodos para el estudio de la variación sintáctica”. Virginia Bertolotti hizo un repaso a cómo ha evolucionado la lingüística “con datos documentados” (frente a la lingüística “con datos creados”) en las últimas décadas, explicando muy claramente que cada vez le pedimos más a los datos porque cada vez la disciplina exige más. E hizo notar algo sobre la necesidad de etiquetar los corpus con información sintáctica (exigencia de muchos lingüistas, sobre todo de aquellos que no recopilan corpus) con lo que estoy muy de acuerdo: ella no cree que debamos etiquetarlos sintácticamente porque “si ya supiéramos cómo era la sintaxis histórica del español no estaríamos creando el corpus”. Y es totalmente cierto: un etiquetado sintáctico automático seguramente se perdería todo lo interesante y un etiquetado manual… es justo lo que dice Viginia, un estudio exhaustivo de la gramática representada en el corpus. Andreas Dufter utilizó el ejemplo del hipérbaton (una ruptura de la cadena sintáctica, como en cuántos pisan faunos la montaña de Góngora, que significa ‘cuántos faunos pisan la montaña’, pero con cuántos y faunos separados, a pesar de que forman una unidad sintáctica) en la historia del español para responder a la pregunta de si los textos fuertemente latinizantes son legítimos para estudiar la sintaxis histórica del español. Es una pregunta apasionante, que se relaciona con esa idea laboviana de buscar la lengua vernácula, entendida como la lengua verdadera, pura y sin interferencias del estándar o de otras variedades de los hablantes. ¿Pero existe tal cosa? Y si existe, ¿es eso lo (único) que nos debe interesar? Creo que no somos pocos los que miramos la idea de la lengua vernácula con algo de escepticismo (por no decir prevención). Javier Elvira puso el foco de atención en aquellos cambios lingüísticos en los que una variante nueva no desplaza a una anterior y que, por diversos motivos, no forma una curva en S en su evolución. Un ejemplo bonito es el caso de alguien, que no hizo desaparecer a alguno, con el que competía, sino que encontró un hueco funcional distinto: ahora contamos con dos formas de significado similar pero de distribución sintáctica distinta (por ejemplo, decimos algún otro, pero no podemos decir ni alguien otro ni otro alguien, posibilidad que sí existía en español antiguo).

Venga, me vale con ver más mujeres en las sesiones plenarias

La última charla del congreso fue la plenaria de Daniel Jacob titulada “Cuantitativo o cualitativo: los límites y las oportunidades del corpus histórico”. Jacob listó y comentó una nutrida serie de nociones que afectan a la aparente dicotomía entre lo cuantitativo y lo cualitativo. Como no tendría sentido repasarlas todas, me quedo con una advertencia importante que siempre debe tenerse en cuenta, referida al efecto garbage in, garbage out, acuñado por primera vez por William D. Mellin: si tus datos son problemáticos, por muchos que sean estos y muy sofisticados que sean los métodos estadísticos que emplees, tus resultados serán igual de problemáticos.

La sesión de clausura que acababa (clausuraba, jijiji) el congreso

Bueno, el congreso acabó en realidad con la cenaza que nos metimos entre pecho y espalda la noche del viernes, ya todos relajados después de haber dado nuestras respectivas charlas, contentos de poder empezar a asimilar toda la información recibida con algo de pisco sour, digo, ceviche. Solo queda dar las gracias a los organizadores, que nos han tratado de miedo. The end.

(Mi segundo) Congreso Internacional de Historia de la Lengua Española (I)

9 agosto, 2018Sin categoríaSemevadelalengua

Desde el lunes se celebra el Congreso Internacional de Historia de la Lengua Española en Lima, un congreso trienal que es, sin duda, el evento más importante para los historiadores del español. Es la segunda vez que voy: la primera fue hace seis años en Cádiz (lo conté aquí).

Por ser un congreso tan grande y con bastantes sesiones pararlelas, no se puede ir a todas las charlas y uno se pierde muchas cosas a las que le hubiera gustado ir, pero voy a contaros mi itinerario de los dos primeros días.

La primera charla a la que fui el lunes fue «El problema del americanismo morfosintáctico desde el punto de vista histórico», en la que Juan Sánchez Méndez discutió sobre el hecho de que los rasgos morfosintácticos propiamente americanos suelen ser pocos, ya que lo más común es que el español de América y el de España difieran más bien en una cuestión de grado y no de presencia/ausencia de un fenómeno. Subrayó la necesidad de centrarse en la historia externa para proponer una periodización de la evolución del español de América, en la que el distingue cuatro etapas: los orígenes (siglo XV), con muchas variantes en convivencia; la época virreinal (siglos XVI a XVIII), más conservadora; la época ilustrada (siglo XVIII), donde hay una «revolución sintáctica», y la época contemporánea (desde el XIX), cuando se conforma el policentrismo del español.

A continuación Andrés Enrique-Arias mostró cómo la comparación de textos paralelos (distintas traducciones de un mismo original), en este caso las biblias medievales (aquí el corpus que él dirige, consúltenlo que es una maravilla), puede utilizarse para investigar la variación estilística a lo largo de la historia. La Biblia es especialmente útil para esto, porque sus distintos libros corresponden también a distintos géneros discursivos y porque contamos con muchas traducciones: es la solución perfecta a la «paradoja de Enrique»: un corpus lingüístico debe ser heterogéneo (para ser representativo) y homogéneo (para ser comparable). Con estos datos Andrés demostró que el uso del artículo más posesivo (la mi casa) fue quedándose como un uso muy marcado estilísticamente, con evocaciones literarias.

Antes del café, José María Enguita nos habló de la conservación en aragonés medieval de dos variantes del adverbio de lugar y (del latín IBI) e yde (de IBIDEM). Este es el mismo adverbio de lugar y del francés e hi del catalán, así como esa terminación tan rara que conserva el castellano en la forma hay.

Ya habiendo repuesto fuerzas, Anna María Escobar hizo un análisis de documentos coloniales de quejas escritos en los Andes, mostrando que, si bien en estos no llegan a traslucir los rasgos típicos del español andino producidos por contacto con las lenguas indígenas, sí puede observarse que los escritos por indígenas muestran distintas organizaciones discursivas que los escritos por notarios españoles.

A continuación tuvo lugar la primera sesión plenaria, una mesa redonda con el título «Sevilla frente a Madrid»: el título de un artículo clásico de Menéndez Pidal en el que proponía que las diferencias dialectales dentro del español americano podían explicarse por una mayor influencia de la flota de ultramar (con rasgos lingüísticos andaluces) en las zonas marítimas, frente a una mayor influencia de las hablas de la Corte madrileña en las capitales virreinales. Rafael Cano, Eugenio Bustos y Carlos Garatea hicieron un repaso al estado de la cuestión sobre la formación del español en América, así como de los problemas y desafíos que presenta explicar esta cuestión.

La mesa «Sevilla frente a Madrid». Foto de Elisa Borsari, gracias a Pedro Mármol

Después de comer volví a ver a Andrés Enrique-Arias, que venía con un programa muy completo. Esta vez hablaba de otro de sus proyectos, sobre el contacto entre español y catalán en Mallorca, haciendo hincapié en el cuidado que debemos tener al atribuir un fenómeno al contacto lingüístico y la necesidad de adoptar una perspectiva histórica. Valga un ejemplo de los que puso: en español de Mallorca es corriente escuchar cosas como pidió cuál era el camino, en el que el verbo pedir se usa con el significado de ‘preguntar’. Sabiendo que en catalán demanar tiene ambos significados (‘pedir’ y ‘preguntar’), es fácil pensar que este uso del español de Mallorca se debe a la influencia del catalán. Sin embargo, la realidad es que el español pedir tenia esa misma posibilidad y la perdió en otras variedades: en Mallorca el catalán como mucho ayudó a conservar un uso antiguo del español:

Pedir en el Diccionario de Autoridades

Le siguió María Teresa Echenique Elizondo, que dio un repaso de la presencia vasca en el continente americano e hizo una comparación de las influencias del quechua y el vasco sobre el español, como en los casos de objetos nulos (¿Compraste el periódico? Sí compré) que pueden encontrarse en ambas variedades.

Coronó el primer día la plenaria de John Lipski, sobre el español de las múltiples comunidades afrohispanoamericanas, ofreciendo una reconstrucción de su historia. No hay comunidad afrohispanoamericana que se le escape, os lo aseguro. Lipski nos visitó hace unos años en Zúrich y lo conté aquí, muy recomendable.

Carlos Garatea, el rector de la PUCP y Rolf Eberenz inaugurando el congreso. Foto de Elisa Borsari, gracias a Pedro Mármol

Como doce horas de historia de la lengua española son pocas, el martes volvimos a empezar tempranito, empezando con una sesión sobre perífrasis verbales en la que yo misma participaba. Empezó Dorien Nieuwenhuijsen con la historia de la gramaticalización de andar + gerundio: gramaticalización porque andar pierde su significado de ‘caminar’ para adquirir un valor gramatical, referido a acciones frecuentativas y en curso: ando pensando en comprarme un coche puede significar ‘camino mientras pienso en comprarme un coche’ o, más habitualmente, ‘últimamente pienso en comprarme un coche’.

Patricia Fernández analizó el distinto grado de gramaticalización de todas las perífrasis encontradas en El libro de la vida de Santa Teresa de Jesús, mostrando la enorme dificultad que tiene a veces decidir si algo ya es una perífrasis o todavía no con un trabajo de lo más exhaustivo.

Acabamos la sesión Olivier Iglesias y la menda (qué antigualla de expresión, ¿no?) hablando sobre la posición de los distintos pronombres y, particularmente, el pronombre se en las perífrasis a lo largo de la historia: podemos decir tanto María se puede venir como María puede venirse y también Se puede comer marisco en este restaurante o Puede comerse marisco en este restaurante, moviendo el pronombre a nuestra conveniencia. Lo que observamos en nuestros datos es que la posición del se antes del verbo se ve favorecida si este se es pasivo o impersonal (como en el ejemplo del marisco) y en textos más próximos a la oralidad, como cartas privadas.

Aquí, conferenciando. (Foto de Johannes Kabatek)

Ya liberada y tras una pausa fui a ver a Rosa Espinosa Elorza, que revisó un tema clásico de la fonología histórica: la vocalización de la /-l/ a final de sílaba, que dio dos resultados distintos, a veces una /u/ (salto > sauto > soto, piénsese en el souto del gallego) y a veces una /i/ (multo > muito > mucho, piénsese en el moito del gallego). Pero esa evolución a /i/ de la /l/ es poco frecuente y resulta sorprendente, por eso Espinosa Elorza se pregunta si no habría un paso intermedio en el que la /l/ se asimilaba a la consonante posterior (es decir, multo > mutto > muito > mucho). Muy sugerente, como siempre.

Concepción Company hizo un estudio de los sandhis externos (la «fusión» de dos sonidos contiguos pertenecientes a palabras distintas: me + encanta > mencanta) en un corpus de textos americanos, observando que tienen una tendencia muy fuerte a ocurrir únicamente con «palabras gramaticales» (artículos, preposiciones, pronombres…), por lo que esta propiedad podría considerarse evidencia de que la categoría de palabra gramatical sí tiene sentido en la teoría lingüística.

Micaela Carrera de la red presentó el corpus de cartas de semiletrados en la Gran Colombia en el siglo XIX que está compilando y transcribiendo y dio algunos ejemplos interesantísimos de la lengua que documentan, incluyendo algunos casos del fascinante ser focalizador (estoy es llorando ‘lo que estoy es llorando’).

La brillantísima plenaria de Silvia Iglesias fue una introducción a la pragmática histórica a partir del ejemplo de cómo se formulaban las peticiones durante los Siglos de Oro. Por mucho que nos pueda sorprender, la forma habitual de pedir algo entonces era usando el imperativo (cierra la puerta), con una compleja interacción con el uso de los tratamientos verbales para los distintos grados de cortesía, mientras que la forma habitual de hacerlo ahora, a partir de preguntas indirectas (¿podrías cerrar la puerta, por favor?) no se empleaba en absoluto (¡y de hecho la forma por favor aparece en el siglo XIX!).

Rita Eloranta y Anton Granvik discutieron las características lingüísticas de los documentos andinos que muestran las transcripciones de los inventarios que los indígenas recogían en los quipus: un sistema de numeración y contabilidad inca que se reflejaba a partir de nudos. Hay cosas interesantísimas en el mundo.

Un quipu del museo de Pachacamac. Habrá mil fotos mejores en la red, pero no tendrán la sombra de servidora tomando la foto reflejada en el cristal.

Acabamos el día con una mesa redonda titulada «América en la historiografía lingüística del español», a cargo de Pedro Álvarez de Miranda (con un fantástico repaso a la historia de los diccionarios y vocabularios que recogieron léxico americano a lo largo de la historia), Luis Fernando Lara (con unas observaciones muy interesantes acerca de la necesidad de prestar atencion a los distintos pueblos que conforman y conformaron las Américas para comprender la historia del español) y Jens Lüdtke (que reflexionó sobre las cuestiones ideológicas que interfieren a menudo el trabajo de los historiadores, incluidos los de la lengua).

En la mesa «redonda». (Sí, el chiste es malo, pero había que hacerlo.)

En esa misma mesa redonda se subrayó la importancia de hacer llegar nuestras investigaciones al público no especializado, lo que me animó a escribir esta crónica, ya que en esta edición nos está faltando (mucho) la divulgadora por excelencia de la historia de la lengua del español: Lola Pons. Si os ha entrado el gusanillo, aquí os dejo su maravilloso blog.

Quedan dos días de congreso, que ya les contaré. Ahora me voy a disfrutar un poco de Lima. (Por cierto, he tomado muy pocas fotos de las charlas, pero estoy mendigando a otros asistentes e intentaré poner alguna más poco a poco.)