IA y lenguas indigenas: Salvacion tecnologica o nuevo colonialismo digital?

En 2023, Meta lanzo MMS (Massively Multilingual Speech), un modelo de inteligencia artificial capaz de reconocer y sintetizar voz en mas de 1,100 lenguas, incluyendo varias lenguas indigenas de Mexico. El anuncio fue celebrado como un avance historico: por primera vez, lenguas que jamas habian tenido una representacion digital significativa podian ser procesadas por una maquina. Pero detras de la celebracion, una pregunta incomoda quedaba sin responder: ¿quien dio permiso para usar esos datos linguisticos? ¿A quien pertenecen los modelos entrenados con ellos? Y, sobre todo, ¿a quien benefician?

La paradoja: la misma tecnologia que puede salvar puede colonizar

La inteligencia artificial tiene un potencial genuinamente transformador para la preservacion linguistica. Puede transcribir horas de audio en minutos. Puede generar materiales didacticos automaticamente. Puede crear diccionarios interactivos, sintetizar voz, traducir textos, y hacer todo esto a un costo marginal cercano a cero una vez que el modelo esta entrenado. Para lenguas con pocos recursos — sin libros de texto, sin profesores, sin materiales estandarizados — la IA puede ser la diferencia entre la vida y la muerte linguistica.

Pero la misma tecnologia, desplegada sin etica, replica los patrones historicos del colonialismo: extraccion de recursos locales para beneficio de actores externos. Los misioneros del siglo XVI extractiveron conocimiento linguistico indigena para crear gramaticas que facilitaran la evangelizacion. Las corporaciones tecnologicas del siglo XXI extractivizan datos linguisticos indigenas para entrenar modelos que mejoran sus productos comerciales. La dinamica es estructuralmente identica.

No es suficiente que la IA "incluya" lenguas indigenas. La pregunta es: ¿quien controla esa inclusion? ¿Quien decide que datos se usan, como se procesan, donde se almacenan y quien se beneficia? Si la respuesta a todas esas preguntas es "una corporacion de Silicon Valley," entonces no estamos ante preservacion. Estamos ante una nueva forma de extractivismo.

Extraccion sin consentimiento: los datos que nadie pidio

La mayoria de los modelos de lenguaje que procesan lenguas indigenas fueron entrenados con datos recopilados sin el consentimiento explicito de las comunidades hablantes. Las fuentes tipicas incluyen:

Traducciones biblicas: Proyectos como el Wycliffe Bible Translators han traducido la Biblia a cientos de lenguas indigenas. Estas traducciones, disponibles en linea, fueron absorbidas masivamente por los scrapers de datos de las grandes tecnologicas.
Archivos academicos: Grabaciones de audio, transcripciones y gramaticas producidas por linguistas durante decadas, a menudo almacenadas en repositorios universitarios con licencias ambiguas.
Wikipedia y Wikimedia: Las versiones en lenguas indigenas de Wikipedia, creadas por voluntarios comunitarios, fueron incorporadas sin restricciones a los datasets de entrenamiento de modelos como GPT y LLaMA.
Datos gubernamentales: Materiales educativos, censos linguisticos y publicaciones del INALI y organismos similares.

Ningun hablante de nahuatl, maya, zapoteco o mixteco firmo un formulario de consentimiento diciendo "autorizo a Meta/Google/OpenAI a usar mi lengua para entrenar un modelo comercial." En la mayoria de los casos, ni siquiera se les informo. Los datos fueron tomados bajo la logica del "dominio publico" o del "uso justo" — conceptos legales occidentales que no contemplan los derechos colectivos de los pueblos indigenas sobre su patrimonio linguistico.

⚠

El caso CMU Wilderness: La Universidad Carnegie Mellon creo un dataset de audio en 700 lenguas extrayendo grabaciones de la Biblia sin contactar a las comunidades hablantes. Este dataset se usa ampliamente para entrenar modelos de reconocimiento de voz, incluido MMS de Meta. Las comunidades no recibieron compensacion, credito ni control sobre los modelos resultantes.

El modelo Te Hiku Media: cuando la comunidad toma el control

En 2018, Te Hiku Media — una organizacion maori de Nueva Zelanda — hizo algo revolucionario: desarrollo su propio modelo de reconocimiento de voz para el te reo maori (la lengua maori), usando datos recopilados con el consentimiento explicito de 300 hablantes nativos, y lo libero bajo una licencia que ellos mismos inventaron: la licencia Kaitiakitanga.

La licencia Kaitiakitanga (del concepto maori de "guardiania") establece que:

Los datos linguisticos pertenecen a la comunidad maori, no a la organizacion que los proceso.
Cualquier uso comercial de los datos o modelos requiere el consentimiento explicito de la comunidad.
Los modelos entrenados con datos maoris no pueden usarse para vigilancia, discriminacion o cualquier proposito que dane a la comunidad.
La comunidad tiene derecho a revocar el acceso a los datos en cualquier momento.

Cuando Papa Reo (el modelo de voz maori) demostro resultados superiores a los de Google y Amazon para el te reo maori, las grandes tecnologicas se acercaron a Te Hiku Media ofreciendo comprar el modelo o los datos. La respuesta fue un "no" rotundo. Keoni Mahelona, CTO de Te Hiku Media, lo explico asi: "Nuestros datos no estan a la venta. Son nuestro taonga (tesoro). La IA debe servir a la comunidad, no a la comunidad servir a la IA."

Meta MMS-TTS: avance tecnico, deficit etico

En mayo de 2023, Meta (la empresa matriz de Facebook) publico MMS: Massively Multilingual Speech. El modelo podia identificar mas de 4,000 lenguas y generar voz sintetica en 1,107 lenguas. Fue, sin duda, un logro tecnico impresionante. Pero al examinar la fuente de datos, surgieron preguntas.

MMS fue entrenado principalmente con grabaciones biblicas del proyecto Faith Comes By Hearing y del ya mencionado CMU Wilderness. Estos datos fueron recopilados originalmente con fines religiosos, no tecnologicos. Los hablantes que grabaron esas lecturas biblicas no consintieron — ni pudieron haber consentido — a que su voz fuera usada para entrenar un modelo de IA de una de las empresas mas grandes del mundo.

Meta libero MMS bajo una licencia de codigo abierto, lo cual es positivo en terminos de accesibilidad. Pero "codigo abierto" no resuelve el problema fundamental: los datos de entrenamiento fueron recopilados sin consentimiento, y los beneficiarios principales del modelo son Meta y la comunidad global de desarrolladores, no las comunidades cuyos datos lo hicieron posible.

La IA de codigo abierto para lenguas indigenas es mejor que la IA cerrada. Pero la verdadera pregunta no es si el modelo es abierto o cerrado. La pregunta es si la comunidad tuvo voz en la decision de crear ese modelo, si controla los datos que lo alimentan, y si se beneficia directamente de los resultados.

El peligro del "museo linguistico digital"

Hay una tentacion comprensible en la comunidad tecnologica: usar la IA para "documentar" lenguas en peligro, crear archivos digitales exhaustivos — diccionarios, gramaticas, corpus de audio — y considerar el trabajo hecho. Este enfoque, aunque bien intencionado, corre el riesgo de crear lo que podriamos llamar un "museo linguistico digital": una coleccion perfectamente preservada de una lengua muerta.

Un museo linguistico es a una lengua viva lo que un jardin botanico es a una selva tropical. Conserva especimenes, los etiqueta, los organiza. Pero no reproduce la vida. No genera nuevas semillas. No evoluciona. No cria nuevos hablantes.

La preservacion real de una lengua no es documentarla. Es crear las condiciones para que se siga hablando. Esto implica:

Programas de educacion bilingue desde la primera infancia
Medios de comunicacion (radio, television, internet) en lenguas indigenas
Reconocimiento legal y practico en la administracion publica
Oportunidades economicas para los hablantes (que hablar la lengua no sea un estigma sino una ventaja)
Tecnologia que permita usar la lengua en el mundo digital (teclados, autocorrectores, asistentes de voz)

La IA puede contribuir a varios de estos objetivos — especialmente al ultimo. Pero solo si esta disenada para servir a las comunidades, no para documentar sus lenguas como piezas de museo.

Soberania de datos indigenas: el principio CARE

En respuesta a los problemas del modelo extractivo, un grupo internacional de investigadores y comunidades indigenas desarrollo los principios CARE para la gobernanza de datos indigenas: Beneficio Colectivo (Collective Benefit), Autoridad de Control (Authority to Control), Responsabilidad (Responsibility) y Etica (Ethics).

Los principios CARE complementan los principios FAIR (Findable, Accessible, Interoperable, Reusable) que rigen los datos cientificos abiertos. Mientras que FAIR se enfoca en hacer los datos mas accesibles, CARE se enfoca en quien tiene poder sobre esos datos. La tension entre "acceso abierto" y "soberania comunitaria" es real, y no tiene una solucion simple. Pero el punto de partida es claro: los datos linguisticos indigenas no son "datos publicos." Son patrimonio colectivo, y las comunidades deben tener la ultima palabra sobre su uso.

Como lo hace TOB Mexico: IA con soberania comunitaria

TOB Mexico fue disenado desde el primer dia con la soberania de datos como principio arquitectonico, no como un agregado posterior. La diferencia no esta en la tecnologia — que usa modelos de IA similares a los de cualquier otro proyecto — sino en quien controla que.

🛡

Principios de TOB Mexico:
1. Las grabaciones pertenecen a la comunidad, no a la plataforma.
2. La comunidad valida cada transcripcion antes de que entre al sistema.
3. Los modelos entrenados con datos comunitarios no se comparten sin autorizacion explicita.
4. La plataforma funciona offline-first: los datos pueden quedarse fisicamente en la comunidad.
5. El codigo es abierto; los datos son soberanos.

Inspirado en el modelo de Te Hiku Media, TOB Mexico adopta el principio de kaitiakitanga: la comunidad es guardiana de sus datos. La plataforma es una herramienta que amplifica la capacidad de la comunidad para preservar su propia lengua. No es un intermediario que extrae datos y los procesa lejos del territorio.

La IA no es inherentemente colonial ni liberadora. Es una herramienta. Y como toda herramienta, su impacto depende de quien la empuna, con que proposito y bajo que reglas. El futuro de las lenguas indigenas en la era de la IA se decidira no en los laboratorios de Silicon Valley, sino en las comunidades que hablan esas lenguas. La tecnologia puede ser una aliada poderosa — pero solo si las comunidades la controlan, no al reves.