Índice de temas
IA en español
Gran parte de la capacidad de lo que hoy conocemos como inteligencia artificial se basa en los denominados grandes modelos de lenguaje, o LLM por sus siglas en inglés (Large Language Models). Entre sus muchas virtudes, estos modelos disponen de una característica que ha contribuido enormemente a su proliferación, y es el hecho de que pueden ser entrenados con textos de todo tipo, sin que estos hayan debido ser etiquetados previamente por un equipo de expertos. En términos más técnicos, siguen un modelo de aprendizaje no supervisado. Esto contrasta con los modelos anteriores, basados en aprendizaje supervisado, que requerían de un costoso trabajo previo para añadir metainformación a los textos de entrenamiento del modelo. Esta necesidad imponía un importante límite a la hora de entrenar modelos, puesto que antes de ello era preciso afrontar la tarea de etiquetarlos.

Huelga decir que un modelo de lenguaje dominará aquellas expresiones a las que haya sido expuesto con más frecuencia, y no será capaz de utilizar aquellas que no ha leído tan frecuentemente
LUIS DE LA FUENTE VALENTÍN, UNIR
Entrenando el modelo
Así, pudiendo ser entrenados con cualquier texto, es conceptualmente sencillo entrenar un modelo en cualquier idioma. Tan solo es necesario disponer de tiempo y capacidad de computación necesaria, pero el entrenamiento de un modelo en inglés no difiere, técnicamente hablando, del entrenamiento de un modelo en cualquier otro idioma.
Ocurre, no obstante, que la mayor parte de los textos utilizados para el entrenamiento de los LLM multilingües está escrita en idioma inglés. Esto se debe a varios motivos, pero principalmente al hecho de que las principales empresas que crean y ofertan estos modelos son empresas norteamericanas. Podríamos pensar que los modelos multilingües guardan un equilibrio entre idiomas, pero lo cierto es que el grueso de los conjuntos de entrenamiento sigue estando en idioma inglés. Podríamos explicarlo, a riesgo de ser técnicamente imprecisos, diciendo que los modelos LLM adquieren el conocimiento en inglés, y se exponen a otros idiomas lo justo y necesario como para ser capaces de traducir los textos a todos los idiomas. Otra forma de decir lo mismo sería decir que los modelos nos escuchan en castellano para luego traducir el mensaje a idioma inglés, trabajar la respuesta, y finalmente devolverla a nuestro idioma en un paso final de traducción.
Huelga decir que un modelo de lenguaje dominará aquellas expresiones a las que haya sido expuesto con más frecuencia, y no será capaz de utilizar aquellas que no ha leído tan frecuentemente. La implicación directa es que, en el contexto actual de modelos basados en inglés, hay multitud de expresiones no inglesas que no serán parte nativa del modelo. Hay multitud de textos en español que recogen expresiones habituales propias de nuestra cultura que en los modelos actuales no forman parte del modelo fundacional. En otras palabras, que no estarán en su catálogo de vocabulario habitual, perdiendo importantes matices en su capacidad expresiva.
Hacia un lenguaje derivado del inglés
No olvidemos que los textos generados por la inteligencia artificial son, nos guste o no, un material de lectura cada vez más habitual. Si estamos de acuerdo, y creo que lo estamos, en afirmar que nuestras lecturas influyen en nuestra forma de expresarnos, entonces también estaremos de acuerdo en afirmar que, cada vez más, los textos generados por la inteligencia artificial influyen en la forma en la que nos expresamos. El corolario es tan directo como devastador para nuestra realidad cultural: nuestro uso del lenguaje va camino de perder todos sus matices en favor de un uso del lenguaje derivado de una traducción forzada del idioma inglés.
Además de todo lo anterior, debemos tener en cuenta que nuestro idioma tiene aproximadamente casi 600 millones de hablantes, y tan solo 48 de ellos están en España. El idioma español atiende a realidades culturales muy diversas y por ello tiene multitud de variantes, una por cada lugar en el que se habla. Si bien es cierto que los modelos de lenguaje son capaces de reconocer generalidades de las variantes principales, los modelos LLM multilingües no han sido expuestos a los matices específicos de cada una de estas variantes.
Pérdida cultural y de vocabulario propio
Por una parte, está la pérdida cultural previamente mencionada, pero no es el único perjuicio que introducen los modelos de IA: existen ámbitos del conocimiento en los que los matices del lenguaje suponen diferencias fundamentales, que pueden llegar a ser críticas. Algunos ejemplos concretos pueden ser la aplicación en justicia, donde la interpretación específica de un término según la realidad cultural puede cambiar el sino de una resolución judicial; o en salud, donde las expresiones utilizadas por los pacientes para describir sus síntomas pueden variar en gran medida dependiendo del contexto cultural.
Por todo lo anterior, es deseable disponer de modelos de lenguaje que hayan sido entrenados con textos en español, en todas las variantes del idioma. Un modelo entrenado con estos textos tendrá un mejor rendimiento para su utilización en el propio idioma, pero además atenderá con mayor precisión a tareas específicas que requieren el conocimiento de una realidad cultural, y además contribuirán al legado que cada generación deja de nuestro propio lenguaje.
No hay que olvidar, además, el punto de vista estratégico. Actualmente, los modelos dominantes en el mercado están creados por empresas estadounidenses como OpenAI, Meta o Google. Si bien estos modelos están disponibles para su uso en español, su uso genera una excesiva dependencia con terceros en tecnología estratégica para los modelos de negocio. Esto supone un alto coste económico para las empresas y, más importante, en ocasiones una cesión de datos propios. La posibilidad de utilizar un sistema de IA que no dependa de terceros países supone un paso adelante en la autosuficiencia tecnológica.
Por mencionar alguna contrapartida, cabe mencionar que la mayor parte de la literatura científica se escribe en inglés. Así, un modelo que no tenga acceso a dicho idioma no tendrá acceso a gran cantidad de conocimiento de gran relevancia, o bien se perderán matices relevantes. Aun con estos límites, un modelo que no dependa de agentes extranjeros supone una gran ventaja para el uso de sistemas de IA en nuestro idioma, en nuestro contexto cultural









