afterBeatles: Detección del idioma

martes, 13 de abril de 2010

Detección del idioma

Es probable que alguno de los improbables lectores de esta columna utilice algún programa informático para escribir sus textos. El Microsoft Word es el más frecuente, y quizá alguna vez el lector mezcle un párrafo en español con otro en un idioma diferente, como por ejemplo este párrafo que aun no ha terminado y las siguientes líneas, que pertenecen a una canción de Bob Dylan:

“How does it feel

To be without a home

Like a complete unknown

Like a rolling stone?”

El procesador de textos detecta de manera automática el idioma de cada párrafo, de manera que adivina que hay un trozo en castellano y otro trozo en inglés, y a cada uno le aplica, para resaltar los posibles errores ortográficos, el diccionario que corresponda.

Si uno mismo tuviera que averiguar los diferentes idiomas de un texto escrito en varios lenguajes, lo más probable es que echara mano de diversos diccionarios y fuese buscando por ellos palabras de cada párrafo. Los siguientes párrafos dicen en diversos idiomas lo siguiente: «Bienvenida. Deseo dar la bienvenida a los miembros de una delegación de…»:

Velkomstord Mine damer og herrer, det er mig en stor glæde at kunne byde velkommen til en ...

Liebe Kolleginnen und Kollegen! Im Namen unseres Hauses begrüße ich eine Delegation des...

Mina damer och herrar! Än en gång sammanträder vårt parlament för ...

En lugar de hacerlo como lo haría un humano, los ordenadores (o, más bien, los ingenieros informáticos que los programan) utilizan lo que se llaman “bigramas”, “trigramas” y, en general, “n-gramas”. Un bigrama es una secuencia de dos letras; un trigrama, de 3; un “n-grama”, una secuencia de “n” letras.

Para detectar el idioma, los programas informáticos toman el texto cuyo idioma desean reconocer y contabilizan las apariciones de bigramas y trigramas. Cada lengua dispone de su propio conjunto de bi y trigramas más frecuentes, de manera que con esta información es normalmente suficiente para detectar el idioma en que el texto está escrito. En castellano, los bigramas y trigramas más habituales son: en, es, el, de, la, al, os, ar, re, er, nt, on, ad, ue, ra, ci, as, te, se, co; ent, que, del, ela, ion, dad, cio, con, est, ade, ali, ida, nci, eal, ode, aci, ci, ese, ien.

En primer párrafo de este artículo, “en” aparece 7 veces; “es”, 9; “el”, 3 veces. En cuanto a trigramas, “ent” y “que” aparecen 3 veces.

Además de para esto, bigramas y trigramas se utilizan en sistemas de codificación y de criptografía asignando, por ejemplo, números o letras a cada trigrama. Un libro breve y muy ameno sobre esto se titula “Introducción a la criptografía: historia y actualidad”, de Ortega, López y García del Castillo, profesores de la Universidad de Castilla-La Mancha.