Rosalía y Alfonso X el Sabio

El tema de hoy nace viejo, pues tiene que ver con una polémica de hace meses, que en tiempo de internet equivale a varias eras geológicas. Pero he estado muy liada, qué se le va a hacer. La polémica en cuestión ya la conocerán ustedes sobradamente: a Rosalía la han criticado feroz y abundantemente por cometer «apropiación  cultural». Se quejan de que, siendo paya y barcelonesa, Rosalía hace flamenco y además lo hace con acento andaluz. Lógicamente, el aspecto que me interesa, siendo este un blog de lingüística, es el del acento. Por si no saben de lo que hablo, aquí la tienen:

Para resumir la polémica, valga esta cita del artículo de Mohorte en Magnet que les enlazo arriba:

«Rosalía es barcelonesa. No ha nacido o vivido en Andalucía y tampoco emplea las particularidades fonéticas del andaluz en su día a día, como se puede apreciar en las entrevistas. Es un disfraz artístico.»

Es decir, a los críticos les parece mal que Rosalía utilice un dialecto distinto al que usa cuando habla cuando canta. La pregunta es: ¿solo Rosalía hace esto? No hace falta pensar mucho para darse cuenta de que la respuesta es evidentemente negativa. Muchos géneros musicales no solo tienen características rítmicas y melódicas propias, sino que también están asociados a una lengua o variante lingüística concreta. Por ejemplo, aunque hay óperas en muchísimos idiomas, no se puede negar que la lengua por excelencia de la ópera es el italiano. Lo mismo pasa con el pop o con el rock: se pueden hacer en cualquier idioma, pero el protípico es el inglés y es frecuentísimo que bandas de habla no inglesa compongan en estos géneros en inglés. De hecho, a juzgar por las observaciones del sociolingüista Peter Trudgill, es concretamente el inglés americano el que domina estos géneros y no es infrecuente que los artistas británicos «recuperen» sus erres finales cuando cantan, para adaptarse a esta variedad. Es decir, estos artistas se ponen «un disfraz artístico» cuando cantan, igual que Rosalía.

Pero no hay por qué salir de nuestros éxitos patrios para encontrar ejemplos. Casos especialmente interesantes son los de los artistas que han modificando ese «disfraz artístico», como Enrique Iglesias. Los que tengan cierta edad, como servidora, recordarán que sus inicios en el pop fueron una experiencia religiosa en la que el cantante madrileño usaba la misma variedad lingüística que emplea cuando da entrevistas y, suponemos, habla normalmente. A medida que ha ido introduciéndose —y triunfando— en el reguetón ha ido modificando su acento para acercarse a una variedad más caribeña (propia de dicho género) lo que es especialmente perceptible en sus eses finales:

Algo parecido ocurrió con Alejandro Sanz, que ha ido haciendo su acento más andaluz a lo largo de los años: en Corazón partío el único rasgo andaluz que encontramos es esa -d- que desaparece en partido, mientras que ahora hasta sesea (su corazón partío tenía una interdental clarísima). El caso de Alejandro es distinto del de Enrique porque sus padres son andaluces y él también emplea —al menos a veces— esta variedad cuando habla: es probable que creciera siendo bidialectal, aunque este es un misterio sobre el que se devanan los sesos miles de personas desde hace años en el grupo de Facebook «¿POR QUÉ ALEJANDRO SANZ HABLA CON ACENTO ANDALUZ SI ES DE MORATALAZ?«.

Otro caso: el cantante Huecco, que hace música con evidente inspiración flamenca, es madrileño y extremeño: el acento andaluz que gasta cuando canta tiene poco que ver con la variedad mucho más norteña que emplea cuando habla o la que utilizaba en su banda de rap-metal Sugarless. Con estos ejemplos podría pensarse que esto de emplear un dialecto que no es el propio en composiciones musicales es algo moderno, pero la verdad es que es una cosa antiquísima. Es posible que se acuerden de dos de los géneros líricos medievales (pensados para ser cantados): la poesía trovadoresca y las cantigas. Mientras que las primeras se componían casi exclusivamente en provenzal, las segundas solían estar en gallego-portugués. Y quizá también se acuerden de Alfonso X el Sabio, rey de Castilla y de León, además del toledano que puso la primera piedra de la estandarización del castellano. A pesar de este currículum, Alfonso X compuso personalmente numerosas cantigas, todas ellas en gallego-portugués, que no era su variedad (pero tampoco un idioma distinto, sino otra variedad del romance: todavía no podemos hablar de distintas lenguas, pues no está claro que esa fuera la concepción de la época): igualito que Rosalía, vamos.

Como ven, utilizar un dialecto que no es el propio para adaptarse a las convenciones de un género musical ni es raro ni es nuevo: al contrario, es una práctica frecuente y muy antigua. Lo que sí parece menos frecuente es acusar a los artistas que lo hacen de apropiación cultural, como puede verse en los resultados de búsquedas en Google: no solo la de Rosalía es la que devuelve más resultados, es que los resultados de los otros artistas son de hecho resultados sobre Rosalía (las pruebas abajo). No sé, si una fuera desconfiada podría llegar a pensar que lo que molesta a los críticos (y críticas, por cierto) no es la apropiación cultural, sino la mera existencia de mujeres jóvenes y con talento. Pero ni que fuera esa otra práctica frecuente y con siglos de antigüedad, no seamos desconfiados.

Captura de pantalla 2019-07-27 a las 18.44.11 Captura de pantalla 2019-07-27 a las 18.43.21 Captura de pantalla 2019-07-27 a las 18.43.05 Captura de pantalla 2019-07-27 a las 18.43.52

Lingüística y metodología: hago vídeos de Youtube

Aunque este es un tema que no se corresponde exactamente con la temática general del blog, pero como sé que me leen algunos filólogos y lingüistas, creo que es una buena idea publicitarlo por aquí también. Desde hace unos meses he empezado un canal de Youtube con vídeos sobre metodología lingüística en español. Puesto que es una cuestión que sigue estando poco representada en los currículums y en el que, por lo tanto, somos todos medio autodidactas —con el esfuerzo y problemas que eso conlleva—, me ha parecido una buena idea compartir lo que he ido aprendiendo yo poco a poco y en un soporte duradero.

En el canal trataré temas como la creación de bases de datos, principios metodológicos, el uso de distintos programas (Excel, R, QGIS, etc.), algunas bases del análisis estadístico, etc. El canal está dirigido a “todos los públicos”: tanto estudiantes como profesores que hagan lingüística empírica.

Espero que os resulte interesante: os dejo aquí el enlace al canal y, ya sabéis, si os gusta… ¡denle a like y suscríbanse! (Ok, no soy muy experta en esto de hacer vídeos, creo que pronto os daréis cuenta…)

Divulgando en BCNspiracy

El 27 de octubre del año pasado tuve la suerte de estar en Barcelona participando en BCNspiracy, un evento de divulgación científica organizado por un grupo maravilloso de personas que intentan consiguen acercar la ciencia a todos los públicos con un formato de lo más entretenido. Fue una experiencia que me encantó, porque aprendí muchísimo, porque lo pasé muy bien y porque me encantó que quisieran hablar y escuchar de lingüística en un programa fascinante lleno de biología, química, geometría. Hoy, por ser el Día internacional de la lengua materna, el equipode BCNspiracy ha subido el vídeo de mi charla a Youtube.

Hablo de la lengua como objeto de estudio científico, de pronombres reflexivos, de la Faraona, de español y catalán… ¡No sé qué se puede pedir! Aquí os la dejo:

Semidioses

Normalmente, los profesores de universidad creemos que tenemos el trabajo más bonito del mundo: nos pagan por hablar sobre, dar clase de y pensar en lo que nos apasiona. Eso no nos hace ciegos a muchos de los males que aquejan a las universidades (en distinta medida en distintos países): que si salarios bajos, que si nepotismo y endogamia, que si las evaluaciones priman la cantidad sobre la calidad, que si —gravísimo— las enfermedades mentales entre doctorandos y postdocs son extremadamente comunes…

Cada persona que trabaja en la universidad tendrá su plan imaginario con el que solucionar todos estos problemas, supongo. Normalmente pasa por cambiar las normas que regulan las universidades. Y es indudable que muchas de estas deben cambiar, en España incluso muchísimas. Pero cada vez escucho con más frecuencia ciertas cosas que me hacen pensar que parte del daño nos lo hacemos nosotros mismos. Algunas ideas tremendamente extendidas en el mundo académico no solo me parecen equivocadas, sino que creo que son las culpables de que en el mundo académico luchemos contra nuestros propios derechos. Ok, me habéis pillado: no voy a hablar de lingüística. Pero, para disimular, empiezo con un ejemplo de un lingüista.

El día antes de Nochebuena, Daniel Everett, lingüista conocido por defender que la lengua está profundamente influida por la cultura y por ser uno de los principales antagonistas de Chomsky, tuiteaba esto como respuesta a Lynne Murphy (también lingüista), que explicaba que la mayoría del tiempo de investigación se hace en horas extra no pagadas, porque el trabajo docente y administrativo de los profesores universitarios no para de aumentar en muchos países:

 Captura de pantalla 2018-12-27 a las 0.28.33Tuit original y conversación aquí.

Traduzco: «Nunca pienso en [ello como] horas extra. Cuando hacíamos encuestas en [la Universidad de] Pitt[sburgh] sobre cuántas horas trabajaba el profesorado, nos salían 65-100 horas semanales. Pero para mí eso es que me paguen por pasármelo bien. Como decía Bob Dixon: “Trabajo 12 horas al día, 7 días a la semana. Espero que hagas lo mismo”».

Este razonamiento es muy frecuente entre científicos y profesores universitarios: puesto que investigar es apasionante —de eso no hay duda— y somos afortunados de poder hacerlo como parte de nuestro trabajo —cierto—, no importa que también lo tengamos que hacer en nuestro tiempo libre. ¡No importa que ese tiempo no nos lo paguen, es divertido! Pero aquí hay un salto argumental que yo no veo. It doesn’t follow, D. Everett. Que nos guste nuestro trabajo no significa que queramos dedicar nuestro tiempo libre a eso y, mucho menos, que tengamos que hacerlo. Como todo los trabajadores, tenemos derecho tener tiempo libre. Es más, sin ponernos sindicalistas y pasando al mismo plano de lo personal: tenemos derecho a que nos gusten otras cosas. ¿Que a ti solo te gusta investigar tu tema, no tienes familia ni amigos ni hobbies y quieres pasarte el día metido en la universidad? Pues está fenomenal, pero lo de “Espero que hagas lo mismo” es pasarse. Si os fijáis bien, como argumento es fantástico: haces que aquel que no quiere pasar su tiempo libre trabajando gratis se sienta mal porque a) ¿qué pasa, no te gusta lo suficiente tu trabajo?, b) pero si es lo más bonito del mundo, ¡investigar!, a ver si va a ser que no te merecerías estar en la universidad, c) me parece que eres un poco ingrato que no ves lo afortunado que eres. Y de esta manera tan sencilla nos convencemos a nosotros mismos de que trabajar gratis para cumplir objetivos imposibles es lo normal, o lógico y de que, encima, ¡tenemos suerte por poder hacerlo!

Hace un mes acudí en una mesa redonda en el Ateneo Popular Español de Zúrich organizado por la Asociación de Científicos Españoles en Suiza, en la que se anunciaba que se iban a debatir temas científicos de actualidad. Lo que se discutió en realidad fueron temas sobre la infraestructura de la ciencia de actualidad permanente y allí se repitieron otras dos de esas ideas que están por todos lados en nuestro mundillo y que, en mi opinión, lo único que nos hacen es daño.

La primera tiene que ver con la situación de los postdocs. El objetivo de la mesa redonda era comparar la situación española con la suiza, aunque lo cierto es que la situación de los postdocs es precaria en todos sitios. Para los que no sepan lo que es un postdoc: es un investigador ya doctor que todavía no tiene un puesto fijo en una universidad y normalmente tiene un contrato temporal en un proyecto (propio o ajeno). En este mundo en el que hay muchos más doctores que puestos fijos en las universidades, el postdoc está en la peor situación: muy poca estabilidad laboral y vital (normalmente cada pocos años tiene que cambiar de universidad y con ello de ciudad y/o país), sin ser ya tan joven como un doctorando y con —matemáticamente— pocas esperanzas de conseguir un puesto fijo. Una maravilla, vamos. Ante la posibilidad de crear un mayor número de plazas fijas para postdocs que no necesariamente supusieran una cátedra o un puesto de investigador principal, uno de los ponentes de la mesa redonda, de cuyo nombre no quiero (en el sentido cervantino) acordarme, consideraba que esta solución era impensable: en un gallinero no puede haber dos gallos (esto es literal) y, por lo tanto, en un laboratorio/equipo no puede haber más de un investigador estable.

La comparación con los gallos es muy ilustrativa (además de bastante masculina, pero bueno) de cómo algunos profesores universitarios o investigadores se ven a sí mismos: como seres humanos dotados de una inteligencia superior a lo normal, pequeños semidioses con grandes ideas que van a cambiar el mundo y que, obviamente, merecen su propio equipo investigador compuesto por subordinados, ¡no por iguales! ¿Y cómo se le va a ocurrir a alguien no aspirar a eso? Eso implicaría, supongo, que tu trabajo no te gusta lo suficente, que no tienes la ambición necesaria y, claro, que no te mereces estar en el maravilloso mundo que es la ciencia, en el que solo se admite la excelencia, que justamente, la encarna… el que defiende esas ideas, claro. Otro win-win argumentativo.

La última idea de la que quería hablar es otra que se mencionó: “¡Es necesario prohibir que una universidad contrate jamás a doctores de la propia universidad!”. Esta idea es un must entre los investigadores emigrados. Tiene, como casi todo, un vertiente razonable —más moderada— y una vertiente ideológica y pasional. La vertiente razonable, que es la que todos nos atrevemos a decir, es que es un método de evitar la endogamia y, por tanto, de fomentar la excelencia. De lo contrario es demasiado fácil que las plazas universitarias acaben ocupadas por candidatos de la casa que no son necesariamente los mejores, pero sí los mejor conectados o los que estaban en el momento justo en el lugar adecuado. La vertiente pasional tiene que ver con una noción de justicia: “Yo me fui a otras universidades y allí mejoré muchísimo mis capacidades, aprendí un montón, conocí otros mundos y por eso soy mejor que todos los contratados en mi alma máter, que solamente tuvieron la suerte de estar allí, esperando y haciendo la pelota”. Otra vez, esto es falaz. Si bien está claro que trabajar en distintos sitios abre nuestras perspectivas y nos mejora como investigadores y como docentes, eso no significa, desde luego, que todos los emigrados sean necesariamente mejores que todos los que no se fueron ni mucho menos significa que sea necesario vivir un viacrucis interminable para seguir en la universidad. Lo que sí significa es que es importante favorecer las estancias interuniversitarias entre los miembros contratados. De hecho, es lógico que uno tenga conexiones científicas con su universidad de origen, ya que allí surgieron seguramente sus líneas de investigación, y por eso también es lógico que sea un buen (no necesariamente el mejor) candidato para dicha universidad. Pero, ¡ay!, cuánta abnegación y cuánto sacrificio supone renunciar volver a la universidad de uno, a casa. Estar dispuesto a ello es simplemente otra de esas pruebas de que nuestro amor por la ciencia es verdadero y que demuestra que nos merecemos seguir en este mundo académico.

No me malinterpretéis. Me encanta mi trabajo. Adoro investigar (y dar clase). Me considero tremendamente afortunada por poder hacerlo como profesión. Pero no me da la gana de apoyar un sistema basado en presionar al investigador a renunciar a todo para poder serlo. Y, desde luego, no creo que sea un deber hacerlo para servir a ese bien superior que es la ciencia, para la que solo unos pocos han sido elegidos. Si de verdad creemos en la ciencia como bien superior, necesitamos más puestos de trabajo (y mejor pagados en general), para que todos podamos tener y aprovechar tanto nuestras horas de trabajo como nuestras horas de descanso. Y para no dejar caer a todos esos postdocs que no encuentran un trabajo fijo, no porque no fueran lo suficientemente buenos, sino porque no hay suficientes plazas. Los semidioses también tienen que tener derechos laborales, sobre todo, sobre todo, porque no existen lo semidioses. Se me bajen de la parra, por favor. Y si van a replicarme, que ya lo he oído antes, que digo estas cosas por ser de Humanidades: pues no lo creo. Pero a lo mejor nos tenemos que humanizar todos un poquito…

El español y sus cosas II: si digo «no» es «no».

Pues tras una pausa dedicada enteramente a la Historia de la Lengua Española, como puede comprobarse en las tres entradas anteriores, volvemos con la segunda entrega de la serie “El español y sus cosas”, esta vez dedicada a la negación:

Como puede verse, lo que nos sorprende de la doble negación es su “falta de lógica”, lógica que se asimila a un principio matemático que todos conocemos: si multiplicamos un número negativo por otro negativo obtenemos un resultado positivo. Es decir, si negamos algo ya negativo, lo convertimos en positivo. Lo que pasa es que la lengua ni es matemática ni es lógica, como demuestra el hecho de que las dos frases siguientes tienen el mismo significado:

Nadie vino.

No vino nadie.

Y encima no podemos decir (o la mayoría de los hispanohablantes no puede decir, porque hay variedades, como la andina o la paraguaya que sí lo permiten):

*Nadie no vino.

¿Pero qué invento es esto? Pues este invento se llama… concordancia. Igual que en español un sustantivo femenino necesita que su artículo sea femenino (la doctora, y no *el doctora), las palabras negativas del español, como nada, nadie, nunca, tampoco, necesitan concordar con un verbo negado. Eso explica la construcción No vino nadie, en la que nadie le exige al verbo la negación (es decir, *Vino nadie es una frase que se queda coja).

Ok, pero ¿qué pasa con Nadie vino? ¿Ahí no hay concordancia o qué? ¿Por qué no hace falta el no? Pues parece que porque, cuando la palabra negativa (nada, nadie, nunca, tampoco…) se sitúa delante del verbo, la negación que contiene ya es capaz de afectar al verbo. La concordancia negativa, entonces, no es del mismo tipo que la de género, porque depende de la posición de la palabra que induce la concordancia (aunque esto ocurre también en otros fenómenos de concordancia, pero no vamos a meternos en más líos).

Las lenguas del mundo muestran distintos comportamientos en este aspecto. Por ejemplo, el rumano presenta la concordancia negativa en todos los casos, independientemente de dónde se sitúe la palabra negativa:

Nu vine nimeni ‘No viene nadie’

Nimeni nu vine ‘Nadie no viene’

El inglés estándar tiene dos series de palabras: la de no one, nobody, never, que aparecen delante del verbo y no necesitan que aparezca la negación verbal, y la de anyone, anybody, ever, que aparecen detrás del verbo y necesitan que el verbo esté negado:

Nobody came ‘Nadie vino’

He didn’t see anybody ‘Él no vio a nadie’

Muchos dialectos del inglés, sin embargo, permiten el uso de las palabras de la primera serie en contextos de la segunda serie (He didn’t see nobody o, ¡todos juntos!, ain’t no mountain high enough!). Este uso, que aparece en muchos dialectos y es sistemático en African American Vernacular English, el dialecto de la mayoría de afroeamericanos de clase media y trabajadora, está muy desprestigiado. Un ejemplo precioso de ese desprestigio es el del siguiente vídeo de Orange is the new black, en el que Taystee intenta corregirlo para dar una buena impresión (¡spoiler alert —sexta temporada—!):

(Y, aunque sé que me estoy yendo del tema, si os interesa, John Rickford ha estudiado cómo los prejuicios sobre el AAVE puede tener efectos negativos sobre sus hablantes cuando estos comparecen en un tribunal: más aquí.)

En estos mapas del WALS podéis ver la distribución de algunas lenguas con doble negación obligatoria:

Obligatory double negation

Doble negación obligatoria. Fuente: WALS. (Los símbolos se refieren a las distintas formas en que se produce esa doble negación.)

y opcional:

Optional double negation

Doble negación opcional. Fuente: WALS. (Los símbolos se refieren a las distintas formas en que se produce esa doble negación.)

Pero en realidad la situación del español no acaba aquí y es todavía más complicada: si nos fijamos en lo que respondía @eduivan206 en Twitter, lo que ocurre con las palabras de la serie de algún y la de la serie de ningún es bastante más chungo. Mientras que ningún es un término negativo en todos los casos:

Ninguna persona vino,

No vino ninguna persona,

No vino persona ninguna,

el significado de algún depende de su posición en la oración:

Alguna persona vino = es un término positivo, que indica que vino alguien;

??No vino alguna persona = esta estructura no funciona;

No vino persona alguna = es un término negativo, que indica que no vino nadie.

¿A qué juegas, algún? Esta doble serie recuerda un poco al caso del inglés estándar, aunque no es ni mucho menos idéntico, ya que anybody no puede tener valor positivo: el inglés para eso tiene otra serie más, la de somebody. Estamos, claramente, ante un caso en el que el español se pone un poco estupendo.

Pero las cosas de la negación no se agotan en la doble negación. A @DuraLexSedLexDE le sorprendía, con cierta razón, la combinación de afirmación y negación en una frase como Eso sí que no. Vamos a ver, acabamos de decir que si combinamos dos negaciones eso es concordancia, OK, todo bien. ¿Pero esto entonces qué es?

Pues esto ya sí que tiene que ver con qué hacer para afirmar o negar una negación. Si ustedes saben algo de francés o alemán, seguramente habrán aprendido que estas lenguas tiene una palabra para decir (oui, ja), una palabra para decir no (non, nein)… y una palabra para responder afirmativamente a una pregunta negativa (si, doch).

via GIPHY

Cuando hacemos una pregunta no negativa, todo es muy sencillo:

¿Ha venido Carlota? / Est-ce que Carlota est venue? / Ist Carlota gekommen?

Si Carlota no ha venido: —No. / Non. / Nein. = La negación se refiere al verbo venir

Si Carlota sí ha venido: —Sí. / Oui. / Ja. = La afirmación se refiere al verbo venir

Pero si preguntamos ya negando, la cosa se complica, porque podemos negar o afirmar el verbo o negar o afirmar la pregunta entera, que contiene una negación:

¿No ha venido Carlota todavía?

1) —No. (Entendemos que no ha venido, la negación se refiere solo al verbo venir.)

2) —Sí. (No estamos muy seguros de qué ha pasado ni de a qué se refiere .)

Otras opciones:

3) —No, sí ha venido.

4) —No, no ha venido.

5) —Sí, sí ha venido.

6) —Sí, justo, todavía no ha venido. (A mí esta me suena un poco forzada, pero creo que es posible).

Lo que hacen el si del francés y el doch del alemán es eliminar la cara de desconcierto del interlocutor después de la respuesta 2), porque estas respuestas dejan claro que se refieren solo al verbo y no a la pregunta entera:

Est-ce que Carlota n’est pas venue? / Ist Carlota nicht gekommen?

Si. / Doch = Carlota ha venido, nadie pone cara de desconcierto.

Bueno, esta digresión venía fundamentalmente porque me gustan mucho el si del francés y el doch del alemán y también un poco para explicar que tenemos la posibilidad de afirmar o negar no solo un verbo, sino también un verbo con su negación. Así, en una oración como Eso sí que no lo que hacemos es reafirmar una negación (es decir, negamos muy en serio), mientras que en Eso sí que sí, reafirmamos una afirmación.

Pero hay otra cosa que hace especial a esta construcción: que el adverbio en español no solo puede afectar a un verbo (Eso sí lo sabía), sino también a una oración subordinada sustantiva (Sí que sabía eso o Sí que no sabía eso). Es decir, puede aparecer antes de que. Cuando reducimos nuestra oración subordinada a su polaridad negativa o positiva nos quedamos con Eso sí que sí o Eso sí que no. ¡Tachán! La palabra no no tiene esta propiedad y por eso no podemos decir Eso no que sí o Eso no que no.

Y ahora que ya sabemos aproximadamente todo lo que hay que saber sobre la negación en español podemos explicar la otra maravilla que intriga a bastantes: la famosa “triple negación” que sirve para afirmar, el auténtico, el único, el inigualable ¡No ni na!:

Analicémoslo en contexto:

Como podemos ver, el primer no lo que hace es negar la negación previa de sin filtros. Como queremos algo más, tenemos que usar la conjunción copulativa negativa, porque ya estábamos negando: el ni es un caso de concordancia negativa. A continuación añadimos lo que queríamos coordinar, que también va en negativo para concordar con la negación inicial: nuestro na. Y luego le damos un significado afirmativo al conjunto, haciendo uso de una cosa que nos da la vida: el sarcasmo.

¡Anda que no es bonita la negación ni na!

¿Cómo sería mi corpus ideal?

Esta entrada es un poco distinta de lo que suelo escribir, ya que normalmente intento (con mayor o menor éxito) escribir para un público no especializado en lingüística. Hoy, sin embargo, escribo algo que seguramente sea de poca utilidad a aquellos que no son lingüistas y no trabajan con corpus (aunque espero que sí sea del gusto de aquellos que sí), así que me disculpo de antemano. Por si su curiosidad es más fuerte que mi advertencia y van a leerme igual, les explico primero qué es un corpus lingüístico: se trata de un conjunto de textos recopilados con el objetivo de hacer investigaciones lingüísticas. Pueden ser textos literarios, textos jurídicos, transcripciones de entrevistas; pueden ser textos de distintos periodos o de una franja temporal limitada, etc. Los corpus actuales suelen estar disponibles online y constar de una herramienta de búsqueda (con distintos grados de sofisticación).

En la mesa redonda del último día del CIHLE, Virginia Bertolotti le preguntó a Andreas Dufter cuál sería su corpus ideal para estudiar el latinismo sintáctico. Inspirada por esa pregunta, me he puesto a soñar en mi corpus ideal (para estudiar cualquier cosa). La lista que sigue contiene sobre todo una serie de deseos de carácter práctico (y no metodológico, aspecto en que creo que la lingüística hispánica tiene una situación envidiable respecto de muchas otras lenguas, con menos corpus y de peor calidad filológica). Ya, sin más preámbulos, mi carta a los Reyes Magos de Corpusiente (me disculpen el chiste, tenía que).

 1. Lematización para guardarse las espaldas

Personalmente, desconfío bastante de la lematización (asignación a cada palabra de su correspondiente forma de diccionario, para poder recuperar, por ejemplo, las formas señora, señores y señoras si busco el lema señor) y el etiquetado (asignación a cada palabra de sus rasgos gramaticales, para poder buscar todos los verbos, o todos los sustantivos masculinos plurales, etc.) automáticos. Es cierto que la mayoría de softwares tienen un nivel de acierto bastante elevado, pero siempre he creído que los casos más difíciles de etiquetar automáticamente seguramente lo serán por ser los más interesantes y me parece absurdo arriesgarnos a perdérnoslos por confiar en un programa que se equivoca unas dos o tres veces por cada cien palabras.

Por eso preferiría una lematización y un etiquetado “de seguridad”, que en vez de escoger una etiqueta para las formas ambiguas (¿es cosa una forma verbal —El que mejor lo cosa, gana— o un sustantivo —Te voy a decir una cosa—?) les asignara las dos. Por supuesto, esto aumentará el caso de falsos positivos (encontrar muchos cosa verbales cuando me interesa el sustantivo), pero estos me parecen preferibles a los falsos negativos (perderme muchos cosa sustantivos que la máquina ha considerado verbales).

CORPES_COSA El CORPES se hace un lío cuando le pedimos que nos devuelva los casos de cosa verbal

2. Contexto suficiente de los resultados

Que los ejemplos tengan un contexto suficiente para que podamos descifrar bien el significado de las formas que nos interesan es absolutamente esencial (se lo dice una que dedica mucho tiempo a leer ejemplos con una de las formas más ambiguas de nuestra lengua: el famoso se). Pero muchos corpus son algo tacaños con el contexto que ofrecen. Es habitual que uno pueda acceder a más contexto pinchando en el ejemplo (así lo hacen los corpus de las Academias, véase el CORPES arriba), pero esa es una opción muy incómoda si hemos descargado los resultados para trabajar con ellos en algún tipo de hoja de cálculo (que es, desde luego, la forma óptima de trabajar, voy a ello en el siguiente punto). Una opción sería permitir que el usuario elija cuánto contexto previo y posterior quiere (medido en caracteres, palabras, oraciones, párrafos…), pero también sirve lo que hace el COSER, por ejemplo, que da siempre un contexto muy abundante (creo que con las dos intervenciones anteriores y las dos posteriores). Respecto al contexto vale la misma regla de oro que para todo lo demás: mejor que sobre que que falte.

 COSER_contexto

El COSER no se corta con el contexto

 3. Exportación de resultados

Este aspecto tan fundamental es, me parece, uno de los que está más descuidado en nuestros corpus. Poder exportar los datos rápidamente y de golpe a una hoja de cálculo (idealmente con una codificación estándar, que para algo se ha inventado el UTF-8).

Quizá la cosa más irritante del CDH sea que no hay un botón de exportar los resultados, a pesar de que el CORPES sí tiene uno. Seriously, RAE, de qué vas. Y si bien es cierto que el CORPES tiene una herramienta de exportación, ¿por qué no permite exportar todos los resultados a la vez? ¿Por qué solo de página en página? Las páginas pueden tener un máximo de 60 resultados, por lo que una búsqueda modesta, con 1000 resultados, requiere por lo menos 17 archivos, lo cual es, simple y llanamente, un disparate. ¿Y por qué en .txt? No pueden abrirse directamente en una hoja de cálculo, sino que hay que copiarlos y pegarlos.

Aunque al escribir esto descubro que el CORPES ha mejorado su herramienta de exportación, porque, aunque en .txt, al menos ahora hay un formato que los ofrece tabulados. Esto es absolutamente fundamental, que los datos estén tabulados. Por favor. Es lo único útil, todo lo demás necesita mucho formateado previo a poder trabajar con ellos (i.e., ¡para tabularlos!). El CODEA cumple (¿¿cumplía??, ahora solo puedo copiar y pegar los resultados) bastante bien con este requisito, salvo por un pequeño detalle que puede convertirse en una pesadilla si se hace una búsqueda lematizada amplia: la exportación se realiza con archivos distintos para cada forma encontrada. Es decir, si buscamos la forma pod* debemos descargarnos manualmente 113 archivos, ¡pinchando individualmente en cada uno de ellos! Siendo lo más probable que luego vayamos a querer juntarlos (algo que puede hacerse fácilmente con un programa como R, sí, pero esta no es todavía la herramienta que más usa la mayoría de filólogos hispánicos): ¿por qué no podemos descargarlos todos de una vez?

CODEA_formas

El CODEA ofrece un acceso diferenciado por forma a los datos

La realidad es que para poder ponernos a trabajar con los datos de la mayoría de nuestros corpus tenemos que dedicarle muchísimo tiempo a la preparación previa de los datos, cuando ofrecer el acceso a todos ellos de forma conjunta (y tabulada, ta-bu-la-da) debería ser algo extremadamente sencillo, pues se trata solo de cambiar el formato de la información que ya se da (y la presentación online suele ser tabulada). Por poner un ejemplo del absurdo, yo tengo un documento con las instrucciones que debo seguir para formatear los resultados del COSER a partir del código fuente de la página de resultados (que lleva mucho tiempo de cortar, pegar y remplazar en Word y Excel); un script para poder unir todos los archivos que devuelve CODEA (que lleva mucho tiempo de pinchar en archivos para descargarlos); otro script para descargar automáticamente el código fuente de los resultados de los corpus de la Academia que incluye tener que pasar las páginas de su web de forma automática (y que me llevó muchísimo tiempo escribir)… Es un dislate, con todo el pesar de mi corazón lo digo.

 4. Ta-bu-la-ción y metadatos

Como no sé si he dejado suficientemente claro lo fundamental que me parece la tabulación de los datos, le voy a dedicar un apartado entero.

Hago antes un pequeño excurso, pues me pregunto si la renuencia a ofrecer los datos tabulados se debe a que existe mucho escepticismo frente a Excel (o cualesquiera de sus miles de equivalentes, muchos gratuitos: holi, Open Office) en nuestro campo. No sé si es por desconocimiento o por tradición, pero el estilo de trabajo casi pidaliano, con fichas a mano o en un Word, contando ejemplos de cabeza no ha desaparecido… Si este es vuestro caso y me permitís datos un consejo, por favor, id corriendo a abrir Excel. Sé que la primera vez que uno lo abre, se asusta. Y que da mucha pereza aprender a usar un programa nuevo. Que la curva de aprendizaje no es un mito, sino una frustración constante. Pero si le dedicáis un ratito, de verdad, solo un ratito, os vais a ahorrar millones de ratitos futuros. Con corpus que exporten los datos adecuadamente y un manejo normalito de Excel todos doblaríamos el número de artículos por año. O, mejor todavía, disfrutaríamos del doble de vacaciones. Trabajaríamos menos en finde. Se me hace la boca agua.

¿Por qué importa Excel? Porque una vez que tenemos los ejemplos metidos en una hoja de cálculo (debidamente tabulados, ahora voy a ello), Excel los puede contar de forma automática. Se pueden clasificar los ejemplos para diversos parámetros de una sola vez, sin tener que volver una y otra vez a Word o la corpus online. Se puede añadir un nuevo parámetro cómodamente (sin tener que volver a realizar la búsqueda). ¡Hay hasta filtros que permiten seleccionar ejemplos de un determinado tipo y contarlos automáticamente! Excel es calidad de vida, palabrita.

¿Y cómo debe ser la tabulación? Característica primera y fundamental: cada ejemplo debe ir en una fila distinta de nuestra hoja de cálculo. Aquí es problemático el formato actual del COSER, por ejemplo, precisamente porque da mucho contexto: si hay varios ejemplos de la búsqueda realizada que están muy cerca los señala dentro del mismo resultado. Esto complica luego el trasvase de los datos a un formato con el que trabajar, porque a) nos interesan los ejemplos individuales y b) a veces se repiten los resultados. Un ejemplo = una fila es la primera regla del club de los datos ordenados.

Segunda característica, también fundamental: el resultado directo de la búsqueda debe estar resaltado de alguna manera. Esto facilita su localización, especialmente si el contexto ofrecido es abundante, como debería, y hace que podamos trabajar más rápidamente. En el CIHLE se oyó alguna queja sobre que ya no leemos textos enteros, sino solo ejemplos sueltos, que cada vez hacemos menos trabajo propiamente filológico… En mi opinión, es fundamental combinar las dos tareas para trabajar de forma eficiente a la vez que rigurosa. Es decir, si me interesa codificar el género de los posesivos que siguen a detrás, no necesito leerme todo el ejemplo. Voy a leer muchos, de hecho, porque nuestros ojos no son capaces de aislar solo dos palabras y se van detrás de las demás, pero no lo necesito. Si me interesa saber la referencia de ese posesivo, en cambio, sí necesito leer los ejemplos y además necesitaré bastante contexto. Por eso necesitamos las dos cosas: contexto abundante y búsquedas resaltadas. Personalmente, me gusta mucho la manera en que se resalta la búsqueda en la red de corpus CHARTA, donde se da en una columna aparte, con el contexto previo en la columna de la izquierda y el posterior, en la derecha. Este formato es muy interesante porque, además de que los resaltados tipográficos corren el riesgo de perderse, permite organizar los ejemplos (usando el maravilloso botón de Excel para ordenar datos) a partir de los resultados, lo cual es muy útil para etiquetar rápidamente (usando la herramienta de rellenado automático de Excel, por ejemplo, o un sencillo cortaipega) categorías léxicas o morfológicas, como el género, el tiempo verbal, etc. Calidad de vida.

Tercera característica, absolutamente fundamental: metadatos. Todos los que podamos. Muchos corpus “racanean” también con esto, de manera que también haya que pinchar en los resultados para saber el año, el autor o el tipo de texto (los nuevos corpus de la Academia han empeorado en esto frente al CREA y al CORDE, por no meterme en los corpus de español en red como el Corpus del Español: Web/Dialects o el EsTenTen, que han sacrificado el catalogar mínimamente los textos por ofrecer grandes cantidades de datos). Tener que pinchar en los ejemplos nos quita años de vida otra vez. Nuestra herramienta de exportación debe dar todos los metadatos que tengamos (año, fecha, autor, código de documento en el corpus, localización —pueblo, provincia, país—, tipo de de texto…), cada uno en una columna distinta de la tabla. Y siempre mejor atomizar la información (si tenemos la información del pueblo, no darla como “Pueblo, Provincia” en una sola columna llamada “Ubicación”, por ejemplo, sino en dos columnas, una para pueblo y otra para provincia). También aquí, siempre, mejor que sobre que que falte.

Por último, numerar los resultados con un identificador único también es una buena práctica, aunque esto sí lo puede hacer de forma muy sencilla en Excel cada investigador. Lo dejamos como bonus 🙂

 5. Acceso a los textos originales

Siempre que se pueda, me parece óptimo contar con acceso a una imagen del texto original o a la grabación para el caso de corpus orales, como hacen los corpus de la red CHARTA, Biblia medieval, CORDIAM, COSER, PRESEEA… Esto sí es algo muy frecuente en nuestros corpus y tiene que ver con el rigor que caracteriza a la escuela filológica española, así que solo puedo decir ¡viva!

Es más, muchos de estos corpus permiten la descarga de los textos completos, lo cual es fantástico. Ya que me pongo a pedir: aquí lo ideal sería darlos en formato txt (como Biblia medieval o Post Scriptum) y con una tablita de metadatos (¡por favor!), porque nos permite trabajar los textos desde programas externos con la flexibilidad que queramos dentro de nuestras posibilidades informáticas.

 6. Descripción del corpus

Esto parece obvio, pero, por algún motivo que se me escapa, hay unos cuantos corpus que no explican cómo se han recopilado, cómo se han seleccionado los textos que se ofrecen o cómo se han transcrito. Me parece simplemente inaceptable. Sin nada más que añadir.

 7. Un regalito para los directores del corpus

Acabo con una idea que, sobre todo, podría ayudar a los creadores de los corpus con solo un poquito de esfuerzo por parte de los usuarios (que mucho tenemos que agradecer a los primeros, por cierto). La idea tiene que ver con el primer punto, respecto de la lematización y el etiquetado automáticos y se trataría de un pequeño botón que permitiera marcar aquellos ejemplos que no corresponden a la búsqueda realizada y que guardara esa información para que los directores de los corpus pudieran revisarlo. Esto ayudaría a detectar y solucionar errores de forma eficiente y colaborativa. El COSER tiene una herramienta más o menos similar, que te permite descartar los resultados que no te interesen: en este caso se trataría de marcar aquellos que no se corresponden con la búsqueda realizada por un error de la lematización o del etiquetado. Los responsables de los corpus luego pueden revisarlo (o no, si deciden confiar ciegamente en sus usuarios) y así el corpus mejora poco a poco. Y lo mismo podría decirse de errores de transcripción o lectura: creo que no estaría de más que los usuarios pudieran ayudar a los creadores de corpus proponiendo mejoras o cambios de las transcripciones cuando crean que son necesarios.

Concluyo: no puedo agradecer suficientemente a todos aquellos que compilan corpus su labor. Mi vida y la de otros lingüistas es increíblemente más sencilla gracias a ellos y tienen toda mi admiración, porque sé lo exigente y agotador que es. Espero que esta carta de deseos les sirvan, si consideran que pueden ser útiles.  Creo que la mayoría no son difíciles de implementar y no dan mucho más trabajo, pues solo requieren ofrecer de forma más eficiente información que ya está disponible (y organizada) de alguna manera. Quizá pido muchas cosas, pero soñar es gratis y eso es a lo que nos invitaba Virginia con su pregunta. Y, vosotros, ¿qué le pediríais a vuestro corpus ideal? ¿Qué os parecen mis ideas? 🙂

 ** Disclaimer **: Excel no me ha pagado un duro por escribir esta entrada. Que ya se podrían estirar en Microsoft, pero nada.

 

(Mi segundo) Congreso Internacional de Historia de la Lengua Española (y II)

El CIHLE no dura solo dos días, sino cinco (aunque el miércoles fue un día de menos trabajo y dedicado a una excursión a las ruinas de Pachacamac), así que aquí llega la crónica del jueves y el viernes.

La primera comunicación que visité el jueves las impartía Hugo Roberto Wingeyer, sobre la permeabilidad de rasgos lingüísticos típicos del contacto con el guaraní en la escritura de alumnos paraguayos y del nordeste argentino. Algunos ejemplos de estos rasgos: la doble negación (nunca no hay) o faltas de concordancia (nuestras lenguas fue modificada).

A continuación fui a ver a Cecilia Quepons, que habló sobre la extensión semántica del famoso pinche(s) mexicano, que ha adquirido usos aparentemente adverbiales muy semejantes a los que ha adquirido puto en español (ya pinches entiendo, su página está muy pinche pobre, quiero pinche dormir), algo que nos ha interesado a Ana Estrada y a mí. Es fascinante ver cómo palabras distintas siguen evoluciones tan semejantes a ambos lados del charco.

Volví a cambiarme de sala para ir a ver a Ioanna Sitaridou, que trató un tema muy candente en los estudios de la gramática histórica del español: ¿era el español antiguo una lengua V2? Y ustedes dirán: “¿qué es una lengua V2?”. Pues una lengua que necesita que el verbo esté en segunda posición, como el alemán moderno. El verbo debe aparecer siempre (en las oraciones principales declarativas) en la segunda posición gramatical, así que ‘Juan está ahí’ se puede decir Juan ist dort (literalmente Juan está ahí)o Dort ist Juan (lit. Ahí está Juan), pero no *Ist dort Juan (lit. Está ahí Juan), un orden que sí es posible en español. Y ahora ustedes se estarán preguntando: «¿Y cómo puede haber debate sobre esto? ¡O era V2 o no lo era!». Pues no es tan fácil, porque las lenguas V2 (alemán incluido) tienen excepciones y resulta difícil saber si las excepciones del español antiguo son semejantes a las del alemán moderno, ya que no tenemos acceso a la intuición de sus hablantes. Eso sí, Ioanna sostiene que el español, de V2, nada.

La última charla antes del café fue la de Carlos Sánchez Lancis (con Cristina Buenafuentes de la Mata, que no ha podido venir), que habló de la gramaticalización de camino de como locución prepositiva: es decir, el sustantivo camino, que tiene un significado concreto muy claro, ha adquirido un significado equivalente a una preposición de dirección (Con lo deliciosa que es la comida peruana, voy camino de volver a España en forma de globo aerostático). Uno de los resultados de la investigación: mientras que en España preferimos juntar la preposición de con camino, en América lo hacen mayoritariamente con a.

Después de la pausa de café fui a ver a Javier Herrero Ruiz de Loizaga, que trató de la evolución de nada más y no más con el significado de ‘solo’, que es una forma que a todos nos suena (acertadamente) americana. Pero históricamente no más se documenta antes (¿Por eso no más?, replicaba don Quijote) y nada más se impuso en España en el siglo XIX, mientras que en América ha ido avanzando más lentamente.

Luego le tocó el turno a Pedro Álvarez de Miranda, que explicó el origen y el uso histórico de la frase la impresión del grifo, que Quevedo usa en cuatro ocasiones para referirse a mujeres viejas de nariz puntiaguda (Quevedo gonna quevedear). Como ya había dicho Luisa López Grigera (porque Pedro quiso muy honradamente aclarar de quién era el mérito del descubrimiento), el origen de esta expresión está en el sello de la casa editorial de Sébastian Gryphe, que usaba sellos como estos en honor a su apellido:

IMG_20180809_113452

Pedro Álvarez de Miranda y el grifo

Después llegó la plenaria, a cargo de Rodolfo Cerrón Palomino, que disertó sobre el efecto de la forma del aprendizaje del español de los hablantes andinos de los siglos XVI y XVII sobre su variedad de español. Así, mientras que los quechuohablantes que aprendían el español en situación de inmersión (por ser mestizos, por ejemplo) o en contextos formales (como en los colegios de curacas) no presentaban los trastocamientos vocálicos típicos del español andino (vevienda por vivienda, por ejemplo), sí que lo hacían aquellos que aprendían el español de una forma más informal, a través del trato diario con los españoles. Las faltas de concordancia, sin embargo, parecen permear la escritura de todos estos hablantes, aunque en menor grado en los primeros.

Tras reponer fuerzas era la hora de la mesa redonda, sobre «Contacto y cambio semántico en la historia del español». Rocío Caravedo habló de la necesidad de incluir la perspectiva de la cognición y percepción de los hablantes en el estudio de su habla, con el ejemplo de los hijos de inmigrantes andinos en Lima, que, a pesar de ser monolingües en español siguen mostrando rasgos típicos del español andino, como es la concordancia variable de los pronombres le, la y lo. Wiltrud Mihatsch propuso una sugerente hipótesis del origen los marcadores tipo y onda (¿quedamos tipo 7?, con usos muy similares a en plan, por cierto) que combina el contacto lingüístico con el cambio pragmático: la contracultura de los años 60 y 70 introdujo una mayor importancia de los recursos atenuativos y el hecho de que marcadores de este tipo se encuentren también en otras lenguas, como el italiano, el portugués, el alemán.., etc., podría indicar que el origen esté en el famoso like del inglés. Cerró la mesa Azucena Palacios, hablando de fenómenos de contacto en Ecuador y en Paraguay. Azucena subrayó la importancia de estudiar el sistema propio de estas variedades de contacto, en vez de observarlos como meras rarezas caóticas causadas por otra lengua. Así, en español de Paraguay, ponerle un pasador a la niña por la cabeza no es una interferencia sin más, sino que es lo único que tiene sentido, porque ponérselo en la cabeza implicaría meterlo dentro (algo seguramente indeseado, al menos para niña).

IMG_20180809_153345

Quiero ver más sesiones plenarias llenas de mujeres, gracias.

El viernes había un programa menos apretado, aunque no por ello menos interesante. Empecé el día con la charla de Paul O’Neill, que argumentó en contra de la noción de morfema y sostuvo que los hablantes no manejamos un conjunto de sufijos y raíces y las reglas para combinarlos, sino que memorizamos palabras enteras que están conectadas entre sí y formamos patrones de flexión. Apoyó esta argumentación con una serie de ejemplos de regularizaciones morfológicas dentro de los paradigmas verbales en la historia del español que sería un poco complicado reproducir aquí, pero os dejo con una frase literal de Paul con la que estoy muy de acuerdo: “La lengua is a mess, es un lío, pero a los hablantes no les importa”.

IMG_20180810_091901

Paul disfrutando con patrones morfológicos

La siguiente sesión fui a ver a Larissa Binder, Johannes Kabatek, Philipp Obrist y Albert Wall (mis compis en Zúrich) que presentaron unas visualizaciones muy interesantes de la aparición a lo largo de la historia de la a que aparece en frases como El profesor remplaza al libro (que no significa lo mismo que El profesor remplaza el libro). Quedó muy claro que el uso de gráficos dinámicos (generados con el programa que inventó Hans Rosling en esta famosa charla), que representan la dimensión temporal por medio del movimiento de los símbolos, puede ayudar a entender mejor un fenómeno tan complejo como este, que necesita combinar muchos factores en su estudio. Por supuesto, insistieron también en adoptar una perspectiva crítica ante los nuevos métodos, que por muy llamativos que sean no son la panacea y no “muestran la evolución de la lengua”, sino que, como siempre, son conjuntos de datos estáticos procedentes de textos determinados y que, simplemente, se mueven. Esta sesión coincidía (ya es mala suerte) con la de Santiago U. Sánchez Jiménez, que habló sobre los usos, fijación y diacronía de la construcción en plan, que también me interesaba muchísimo. Ilustro aquí gráficamente (no dinámicamente) las sesiones paralelas:

IMG_20180810_093305 IMG-20180811-WA0007

Zuriqueses a la izquierda y Santi a la derecha (esta foto cortesía de Santiago del Rey)

Santiago del Rey presentó un estudio interesantísimo sobre la oralidad elaborada, es decir, la variedad lingüística empleada típicamente en registros cultos orientados a la oralidad (definición libre del término de servidora), como los textos dialógicos o teatrales. Estudiando el uso de las estrategias coloquiales empleadas en traducciones en español de diálogos latinos obtiene un hallazgo genial: existen elementos coloquiales del latín que se incorporan al español. Normalmente pensamos en los calcos del latín como elementos propios de los registros más formales, pero esto no tiene por qué ser así: el latín, como lengua de contacto, pudo influir también al español coloquial (como hace ahora el inglés, que se nos cuela tanto en las conferencias más científicas como en las charlas más informales).

Después del café, Johannes Kabatek presentaba su nuevo libro Lingüística coseriana, lingüística histórica tradiciones discursivas, editado por mis queridos Cristina Bleorțu y David Gerards. El libro recopila varios de los artículos de Johannes sobre estos temas, algunos de los cuales están ahora disponibles en español por primera vez. Uno de los que más me gustan a mí es el de “Lingüística empática” (y me atrevería decir que a Johannes también le gusta bastante por cómo le brillan los ojillos cuando le piden que hable de él…). Como dijo él mismo, “la lingüística necesita tiempo y nuestros doctorandos necesitan tiempo”. True dat.

IMG_20180810_110556

La sala estaba hasta los topes

La última mesa redonda llevaba por título “Fuentes y métodos para el estudio de la variación sintáctica”. Virginia Bertolotti hizo un repaso a cómo ha evolucionado la lingüística “con datos documentados” (frente a la lingüística “con datos creados”) en las últimas décadas, explicando muy claramente que cada vez le pedimos más a los datos porque cada vez la disciplina exige más. E hizo notar algo sobre la necesidad de etiquetar los corpus con información sintáctica (exigencia de muchos lingüistas, sobre todo de aquellos que no recopilan corpus) con lo que estoy muy de acuerdo: ella no cree que debamos etiquetarlos sintácticamente porque “si ya supiéramos cómo era la sintaxis histórica del español no estaríamos creando el corpus”. Y es totalmente cierto: un etiquetado sintáctico automático seguramente se perdería todo lo interesante y un etiquetado manual… es justo lo que dice Viginia, un estudio exhaustivo de la gramática representada en el corpus. Andreas Dufter utilizó el ejemplo del hipérbaton (una ruptura de la cadena sintáctica, como en cuántos pisan faunos la montaña de Góngora, que significa ‘cuántos faunos pisan la montaña’, pero con cuántos y faunos separados, a pesar de que forman una unidad sintáctica) en la historia del español para responder a la pregunta de si los textos fuertemente latinizantes son legítimos para estudiar la sintaxis histórica del español. Es una pregunta apasionante, que se relaciona con esa idea laboviana de buscar la lengua vernácula, entendida como la lengua verdadera, pura y sin interferencias del estándar o de otras variedades de los hablantes. ¿Pero existe tal cosa? Y si existe, ¿es eso lo (único) que nos debe interesar? Creo que no somos pocos los que miramos la idea de la lengua vernácula con algo de escepticismo (por no decir prevención). Javier Elvira puso el foco de atención en aquellos cambios lingüísticos en los que una variante nueva no desplaza a una anterior y que, por diversos motivos, no forma una curva en S en su evolución. Un ejemplo bonito es el caso de alguien, que no hizo desaparecer a alguno, con el que competía, sino que encontró un hueco funcional distinto: ahora contamos con dos formas de significado similar pero de distribución sintáctica distinta (por ejemplo, decimos algún otro, pero no podemos decir ni alguien otro ni otro alguien, posibilidad que sí existía en español antiguo).

IMG_20180810_123725

Venga, me vale con ver más mujeres en las sesiones plenarias

La última charla del congreso fue la plenaria de Daniel Jacob titulada “Cuantitativo o cualitativo: los límites y las oportunidades del corpus histórico”. Jacob listó y comentó una nutrida serie de nociones que afectan a la aparente dicotomía entre lo cuantitativo y lo cualitativo. Como no tendría sentido repasarlas todas, me quedo con una advertencia importante que siempre debe tenerse en cuenta, referida al efecto garbage in, garbage out, acuñado por primera vez por William D. Mellin: si tus datos son problemáticos, por muchos que sean estos y muy sofisticados que sean los métodos estadísticos que emplees, tus resultados serán igual de problemáticos.

IMG_20180810_171448

La sesión de clausura que acababa (clausuraba, jijiji) el congreso

Bueno, el congreso acabó en realidad con la cenaza que nos metimos entre pecho y espalda la noche del viernes, ya todos relajados después de haber dado nuestras respectivas charlas, contentos de poder empezar a asimilar toda la información recibida con algo de pisco sour, digo, ceviche. Solo queda dar las gracias a los organizadores, que nos han tratado de miedo. The end.

(Mi segundo) Congreso Internacional de Historia de la Lengua Española (I)

Desde el lunes se celebra el Congreso Internacional de Historia de la Lengua Española en Lima, un congreso trienal que es, sin duda, el evento más importante para los historiadores del español. Es la segunda vez que voy: la primera fue hace seis años en Cádiz (lo conté aquí).

Por ser un congreso tan grande y con bastantes sesiones pararlelas, no se puede ir a todas las charlas y uno se pierde muchas cosas a las que le hubiera gustado ir, pero voy a contaros mi itinerario de los dos primeros días.

La primera charla a la que fui el lunes fue «El problema del americanismo morfosintáctico desde el punto de vista histórico», en la que Juan Sánchez Méndez discutió sobre el hecho de que los rasgos morfosintácticos propiamente americanos suelen ser pocos, ya que lo más común es que el español de América y el de España difieran más bien en una cuestión de grado y no de presencia/ausencia de un fenómeno. Subrayó la necesidad de centrarse en la historia externa para proponer una periodización de la evolución del español de América, en la que el distingue cuatro etapas: los orígenes (siglo XV), con muchas variantes en convivencia; la época virreinal (siglos XVI a XVIII), más conservadora; la época ilustrada (siglo XVIII), donde hay una «revolución sintáctica», y la época contemporánea (desde el XIX), cuando se conforma el policentrismo del español.

A continuación Andrés Enrique-Arias mostró cómo la comparación de textos paralelos (distintas traducciones de un mismo original), en este caso las biblias medievales (aquí el corpus que él dirige, consúltenlo que es una maravilla), puede utilizarse para investigar la variación estilística a lo largo de la historia. La Biblia es especialmente útil para esto, porque sus distintos libros corresponden también a distintos géneros discursivos y porque contamos con muchas traducciones: es la solución perfecta a la «paradoja de Enrique»: un corpus lingüístico debe ser heterogéneo (para ser representativo) y homogéneo (para ser comparable). Con estos datos Andrés demostró que el uso del artículo más posesivo (la mi casa) fue quedándose como un uso muy marcado estilísticamente, con evocaciones literarias.

Antes del café, José María Enguita nos habló de la conservación en aragonés medieval de dos variantes del adverbio de lugar y (del latín IBI) e yde (de IBIDEM). Este es el mismo adverbio de lugar y del francés e hi del catalán, así como esa terminación tan rara que conserva el castellano en la forma hay.

Ya habiendo repuesto fuerzas, Anna María Escobar hizo un análisis de documentos coloniales de quejas escritos en los Andes, mostrando que, si bien en estos no llegan a traslucir los rasgos típicos del español andino producidos por  contacto con las lenguas indígenas, sí puede observarse que los escritos por indígenas muestran distintas organizaciones discursivas que los escritos por notarios españoles.

A continuación tuvo lugar la primera sesión plenaria, una mesa redonda con el título «Sevilla frente a Madrid»: el título de un artículo clásico de Menéndez Pidal en el que proponía que las diferencias dialectales dentro del español americano podían explicarse por una mayor influencia de la flota de ultramar (con rasgos lingüísticos andaluces) en las zonas marítimas, frente a una mayor influencia de las hablas de la Corte madrileña en las capitales virreinales. Rafael Cano, Eugenio Bustos y Carlos Garatea hicieron un repaso al estado de la cuestión sobre la formación del español en América, así como de los problemas y desafíos que presenta explicar esta cuestión.

Mesa redonda

La mesa «Sevilla frente a Madrid». Foto de Elisa Borsari, gracias a Pedro Mármol

Después de comer volví a ver a Andrés Enrique-Arias, que venía con un programa muy completo. Esta vez hablaba de otro de sus proyectos, sobre el contacto entre español y catalán en Mallorca, haciendo hincapié en el cuidado que debemos tener al atribuir un fenómeno al contacto lingüístico y la necesidad de adoptar una perspectiva histórica. Valga un ejemplo de los que puso: en español de Mallorca es corriente escuchar cosas como pidió cuál era el camino, en el que el verbo pedir se usa con el significado de ‘preguntar’. Sabiendo que en catalán demanar tiene ambos significados (‘pedir’ y ‘preguntar’), es fácil pensar que este uso del español de Mallorca se debe a la influencia del catalán. Sin embargo, la realidad es que el español pedir tenia esa misma posibilidad y la perdió en otras variedades: en Mallorca el catalán como mucho ayudó a conservar un uso antiguo del español:

Captura de pantalla 2018-08-08 a las 18.24.51

Pedir en el Diccionario de Autoridades

Le siguió María Teresa Echenique Elizondo, que dio un repaso de la presencia vasca en el continente americano e hizo una comparación de las influencias del quechua y el vasco sobre el español, como en los casos de objetos nulos (¿Compraste el periódico? Sí compré) que pueden encontrarse en ambas variedades.

Coronó el primer día la plenaria de John Lipski, sobre el español de las múltiples comunidades afrohispanoamericanas, ofreciendo una reconstrucción de su historia. No hay comunidad afrohispanoamericana que se le escape, os lo aseguro. Lipski nos visitó hace unos años en Zúrich y lo conté aquí, muy recomendable.

Inauguración

Carlos Garatea, el rector de la PUCP y Rolf Eberenz inaugurando el congreso. Foto de Elisa Borsari, gracias a Pedro Mármol

Como doce horas de historia de la lengua española son pocas, el martes volvimos a empezar tempranito, empezando con una sesión sobre perífrasis verbales en la que yo misma participaba. Empezó Dorien Nieuwenhuijsen con la historia de la gramaticalización de andar + gerundio: gramaticalización porque andar pierde su significado de ‘caminar’ para adquirir un valor gramatical, referido a acciones frecuentativas y en curso: ando pensando en comprarme un coche puede significar ‘camino mientras pienso en comprarme un coche’ o, más habitualmente, ‘últimamente pienso en comprarme un coche’.

Patricia Fernández analizó el distinto grado de gramaticalización de todas las perífrasis encontradas en El libro de la vida de Santa Teresa de Jesús, mostrando la enorme dificultad que tiene a veces decidir si algo ya es una perífrasis o todavía no con un trabajo de lo más exhaustivo.

Acabamos la sesión Olivier Iglesias y la menda (qué antigualla de expresión, ¿no?) hablando sobre la posición de los distintos pronombres y, particularmente, el pronombre se en las perífrasis a lo largo de la historia: podemos decir tanto María se puede venir como María puede venirse y también Se puede comer marisco en este restaurante o Puede comerse marisco en este restaurante, moviendo el pronombre a nuestra conveniencia. Lo que observamos en nuestros datos es que la posición del se antes del verbo se ve favorecida si este se es pasivo o impersonal (como en el ejemplo del marisco) y en textos más próximos a la oralidad, como cartas privadas.

IMG-20180807-WA0000

Aquí, conferenciando. (Foto de Johannes Kabatek)

Ya liberada y tras una pausa fui a ver a Rosa Espinosa Elorza, que revisó un tema clásico de la fonología histórica: la vocalización de la /-l/ a final de sílaba, que dio dos resultados distintos, a veces una /u/ (salto > sauto > soto, piénsese en el souto del gallego) y a veces una /i/ (multo > muito > mucho, piénsese en el moito del gallego). Pero esa evolución a /i/ de la /l/ es poco frecuente y resulta sorprendente, por eso Espinosa Elorza se pregunta si no habría un paso intermedio en el que la /l/ se asimilaba a la consonante posterior (es decir, multo > mutto > muito > mucho). Muy sugerente, como siempre.

Concepción Company hizo un estudio de los sandhis externos (la «fusión» de dos sonidos contiguos pertenecientes a palabras distintas: me + encanta > mencanta) en un corpus de textos americanos, observando que tienen una tendencia muy fuerte a ocurrir únicamente con «palabras gramaticales» (artículos, preposiciones, pronombres…), por lo que esta propiedad podría considerarse evidencia de que la categoría de palabra gramatical sí tiene sentido en la teoría lingüística.

Micaela Carrera de la red presentó el corpus de cartas de semiletrados en la Gran Colombia en el siglo XIX que está compilando y transcribiendo y dio algunos ejemplos interesantísimos de la lengua que documentan, incluyendo algunos casos del fascinante ser focalizador (estoy es llorando ‘lo que estoy es llorando’).

La brillantísima plenaria de Silvia Iglesias fue una introducción a la pragmática histórica a partir del ejemplo de cómo se formulaban las peticiones durante los Siglos de Oro. Por mucho que nos pueda sorprender, la forma habitual de pedir algo entonces era usando el imperativo (cierra la puerta), con una compleja interacción con el uso de los tratamientos verbales para los distintos grados de cortesía, mientras que la forma habitual de hacerlo ahora, a partir de preguntas indirectas (¿podrías cerrar la puerta, por favor?) no se empleaba en absoluto (¡y de hecho la forma por favor aparece en el  siglo XIX!).

Rita Eloranta y Anton Granvik discutieron las características lingüísticas de los documentos andinos que muestran las transcripciones de los inventarios que los indígenas recogían en los quipus: un sistema de numeración y contabilidad inca que se reflejaba a partir de nudos. Hay cosas interesantísimas en el mundo.

IMG_20180808_102544

Un quipu del museo de Pachacamac. Habrá mil fotos mejores en la red, pero no tendrán la sombra de servidora tomando la foto reflejada en el cristal.

Acabamos el día con una mesa redonda titulada «América en la historiografía lingüística del español», a cargo de Pedro Álvarez de Miranda (con un fantástico repaso a la historia de los diccionarios y vocabularios que recogieron léxico americano a lo largo de la historia), Luis Fernando Lara (con unas observaciones muy interesantes acerca de la necesidad de prestar atencion a los distintos pueblos que conforman y conformaron las Américas para comprender la historia del español) y Jens Lüdtke (que reflexionó sobre las cuestiones ideológicas que interfieren a menudo el trabajo de los historiadores, incluidos los de la lengua).

IMG_20180807_180435

En la mesa «redonda». (Sí, el chiste es malo, pero había que hacerlo.)

En esa misma mesa redonda se subrayó la importancia de hacer llegar nuestras investigaciones al público no especializado, lo que me animó a escribir esta crónica, ya que en esta edición nos está faltando (mucho) la divulgadora por excelencia de la historia de la lengua del español: Lola Pons. Si os ha entrado el gusanillo, aquí os dejo su maravilloso blog.

Quedan dos días de congreso, que ya les contaré. Ahora me voy a disfrutar un poco de Lima. (Por cierto, he tomado muy pocas fotos de las charlas, pero estoy mendigando a otros asistentes e intentaré poner alguna más poco a poco.)

El español y sus cosas I: los sonidos

Hace unas semanas pregunté en Twitter por las cosas más especiales de la lengua española. Lo hice buscando inspiración para el trabajo, pero la abrumadora acogida del tuit me ha servido también de inspiración para retomar un poco el blog: gracias a todos los que contestasteis, pues me estáis haciendo pensar y aprender mucho. Así que con esta entrada inauguro una serie sobre las características que hacen (o no) especial al español y empezamos con… *redoble de tambor* ¡los sonidos!

El tuit original. Hay que especificar las cosas, que luego…

Uno de los rasgos más mencionados en las respuestas fue el hecho de que el español “solo” tiene cinco vocales:

El motivo de la sorpresa es evidente: casi todas las lenguas de nuestro alrededor tienen más vocales: seis el árabe; siete el gallego, el italiano y el catalán (pero ocho en algunas variedades), alrededor de doce el inglés, unas trece el alemán, entre catorce y diecieseis el portugués, unas quince el francés… Salvo el euskera, que tiene las mismas cinco que el español, parece que todos nuestros vecinos nos ganan y la mayoría, lo hacen por goleada. Eso explica, entre otras cosas, lo mucho que nos cuesta pronunciar y distinguir correctamente esas lenguas, claro está…

Pero, ¿cómo de especial es tener solo cinco vocales? Pues, si tomamos una muestra algo más amplia que nuestros vecinos… muy poco. Aproximadamente la mitad de las lenguas del mundo tienen entre cinco o seis vocales, es decir, como el español, el euskera y el árabe. En la muestra de 564 lenguas del WALS (World Atlas of Language Structures), 287 (un 50,1 %) se comportan así, es decir, tienen un sistema vocálico “mediano”. El 16,5 % (93 lenguas) tiene uno pequeño (entre dos y cuatro vocales) y el 32,6 % (184), uno grande (entre siete y catorce). En el siguiente mapa podéis ver la distribución de esas lenguas:

Sistemas vocálicos en el mundo

Sistemas vocálicos en el mundo (fuente: WALS)

Se oye a veces la idea de que cinco vocales es la cantidad perfecta de vocales. Esta idea es, hablando en plata, una soberana tontería, por la simple razón de que la “cantidad perfecta de vocales” es una soberana tontería de concepto. Gregorio Salvador, un académico de ideología lingüística profundamente rancia, sostuvo que “buena parte del éxito del castellano hay que atribuírselo a sus cinco vocales netamente diferenciadas, el sistema vocálico más perfecto de los posibles, sin vocales mixtas ni intermedias, sin sensibles diferencias en su intensidad” (Fuente). Incluso si no negáramos la mayor, un sistema con 3 vocales, la /a/, la /i/ y la /u/ sería todavía más perfecto, pues no estaría aquejado de las terribles vocales intermedias /e/ y /o/. Pero aunque la idea es una tontería, no le faltan adeptos y se la he oído a un embajador en un acto conmemorativo por el cuarto centenario del Quijote. Admito haberme puesto un poco bizca.

La expansión del castellano (que supongo que es a lo que se refiere Salvador cuando dice “éxito”) se debe meramente a avatares históricos y el número de vocales poco ha tenido que ver, como muestra el “éxito” del inglés (con muchas más vocales) o el hecho de que la mayoría de las lenguas del mundo tengan un número de vocales parecido al español: ¿qué ventaja supondría entonces adoptar el castellano?

Por último, no debemos olvidar que el español no es igual en todos sitios y que, en Andalucía Oriental la aspiración de la /s/ está generando un sistema con diez vocales, al incorporar la distinción entre vocales abiertas y cerradas, que permitiría diferenciar, por ejemplo, algunos plurales:

En este vídeo ponen algunos ejemplos: (disclaimer: no suscribo todo lo que se dice en el vídeo sobre otras cosas).

Cambiemos un poco de tema, porque hay varias consonantes que nos resultan también sorprendentes. Uno de ellos es la vibrante múltiple: la doble erre /r/.  

¿Y cómo de raro es este sonido en los sistemas fonológicos del mundo? Pues tampoco tanto: un 38 % (815/2155) lo contienen, según la base de datos PHOIBLE, que recoge 2155 sistemas fonológicos de 1672 lenguas. En este mapa se recogen las lenguas que lo contienen:

Captura de pantalla 2018-07-22 a las 21.49.27

La vibrante múltiple en las lenguas del mundo (fuente: PHOIBLE) (En estos mapas los símbolos representan familias lingüísticas)

¿Por qué nos parece tan raro entonces? Pues seguramente por dos motivos: 1) muchas lenguas de nuestro entorno no lo tienen (de hecho, muchas lenguas europeas lo remplazaron o están remplazando por la “erre francesa” /ʁ/) y en español se escribe con un dígrafo (dos letras), lo que siempre da un toque de exotismo. Pero de grafías ya hablaremos otro día.

Sospecho que los motivos por los que la nasal palatal (la eñe /ɲ/) nos parece exótica también tienen que ver con la grafía, ya que este sonido sí lo tienen muchas lenguas de nuestro entorno. Lo que ocurre es que lo escriben distinto: <nh> el portugués, <ny> el catalán, <gn> el francés…

Y, de hecho, es un sonido muy común en las lenguas del mundo: aparece en un 49 % (1064/2155) de los sistemas fonológicos recogidos en la base de datos PHOIBLE:

Captura de pantalla 2018-07-22 a las 21.50.10

La nasal palatal en las lenguas del mundo (fuente PHOIBLE)

Otro dígrafo que nos sorprende es la lateral palatal: la elle /ʎ/.

Esta vez nuestra sorpresa está muy fundada, pues este sonido solo aparece en el 5 % (99/2155) de los sistemas contenidos en PHOIBLE:

Captura de pantalla 2018-07-22 a las 21.53.00

La lateral palatal en las lenguas del mundo (fuente PHOIBLE)

Pero parece que uno de los motivos por los que somos conscientes de la rareza de este sonido es, precisamente, que en muchas regiones se está perdiendo a favor de la aproximante palatal /j/ que solemos representar con la <y> (ye o y griega, ya tú sabeh). Este es un sonido mucho más común y aparece en el 88 % (1901/2155) de los sistemas fonológicos recogidos en PHOIBLE. Pero ¡tranquilidad!: existen todavía países y zonas, especialmente bilingües (Paraguay, Bolivia, Cataluña), en las que nuestra /ʎ/ se mantiene sin problemas.

Captura de pantalla 2018-07-22 a las 21.53.22

La aproximante palatal en las lenguas del mundo (fuente PHOIBLE)

Lo mismo le ocurre a otro de los fonemas más raros que tenemos, aunque nadie lo mencionara en sus respuestas: la fricativa interdental (que representamos con la zeta o la ce): /θ/. Solo aparece en un 4 % (87/2155) de los sistemas recogidos en PHOIBLE y solo se mantiene en una pequeña zona del territorio hispanohablante: en España (aunque no en algunas variedades meridionales), pero con plena vitalidad.

Captura de pantalla 2018-07-22 a las 23.34.14

La fricativa interdental en las lenguas del mundo (fuente PHOIBLE)

Me parece apasionante intentar comprender nuestras percepciones sobre la lengua. Lo que nos parece raro muchas veces no lo es y los motivos por lo que algunas características nos parecen más sorprendentes son muy interesantes: por un lado, nuestra exposición a la diversidad lingüística es muy limitada (y no puede ser de otra manera: hay alrededor de 7000 lenguas en el mundo y, para más inri, las lenguas europeas son bastante uniformes en muchos aspectos, lo que nos hace subestimar las posibilidades de variación). Por otro lado, la enorme importancia que le damos a la escritura parece tener una importancia fundamental: si la grafía nos parece peculiar, enseguida lo trasladamos a aquello que representa.

Me voy ande haiga falta pa yo encuestar: Canarias 2018

Las crónicas de las campañas COSER en las que tengo la suerte de participar ya son un clásico de este blog y la campaña Canarias 2018 no iba a ser una excepción. El día 2 de marzo, un grupo grandito de dialectólogos, compuesto por alumnos, doctorandos y profesoras de las universidades de Gante, Lausana y la Autónoma de Madrid y comandados por Miriam Bouzouita, Mónica Castillo Lluch e Inés Fernández Ordóñez los plantemos en Fuerteventura, listos para entrevistar a gente rural y de edán avanzada. Al día siguiente peguemos a encuestar, grabadora, cámara y bloc de notas en mano y, dispués de que los cochitos nuestros cubrieran todos los pueblos de la isla en un día y medio, tomemos el ferry pa dir a Lanzarote y entrevistar la isla toda. Durante cuatro días, los siete u ocho coches imos ahí bajo y allí riba, entrevistando aquín y allín, aprendiendo que en las islas basta un camello para arar lo que en la península necesita lo menos dos machos; que es el estómago del baifo lo que sirve para cuajar ese delicioso queso majorero; que a la mar uno se día a pulpiar; que habían personas que tenían un don y podían curar de madre con sus manos, es más: entoavía las hay y las puede una entrevistar… Como ven, cosas bastantes. Lo más que me interesó fue la estrategia para cultivar las viñas en Lanzarote, sembrándolas en su terreno arcilloso y cubriéndolas luego con su picón volcánico, que ayuda a conservar la humedad y evitar que la evaporación cause que se pierda l’agua, un bien precioso.

Veces encuentras al informante más rápido, veces tardas mas, pero los canarios siempre suelen de estar encantados de atenderte. Además, en las islas hay calor, algo que hemos echado últimamente de menos por Europa central, y no te dan sino comida deliciosa. Yo nunca hubiera tomado tanto mojo (ni hablado tanto del gofio). Asina da gusto.

IMG-20180305-WA0010

Miren pa’l afoto de grupo.

En conclusión, lo hamos pasao bienísimo. Hay quien crea que para ser feliz no hace falta más nada y yo… creo que volvamos.