Inteligencia artificial al servicio de las comunidades indigenas para documentar, revitalizar y proteger 68 lenguas ancestrales que son patrimonio de la humanidad.
El problema
Cada vez que una lengua muere, desaparece con ella una forma unica de entender el universo. Mexico enfrenta una crisis linguistica sin precedentes: el 23% de sus lenguas estan en peligro muy alto de desaparecer.
* Conteo por variantes linguisticas (364 total). Las 68 lenguas se subdividen en variantes regionales, muchas con menos de 100 hablantes.
Posiblemente extinta
Familia Cochimi-yumana. Baja California. No se han registrado hablantes nativos en las ultimas decadas.
2 hablantes conocidos
Familia Mixe-zoque. Tabasco. Los dos ultimos hablantes viven en Ayapa, municipio de Jalpa de Mendez.
30 hablantes, todos mayores
Familia Oto-mangue. Oaxaca. Santa Maria Ixcatlan. Sin transmision intergeneracional.
36 hablantes
Familia Cochimi-yumana. Baja California. Comunidad de Arroyo de Leon. Esfuerzos de documentacion en curso.
Menos de 100 hablantes
Familia Cochimi-yumana. Baja California y Sonora. Comunidad El Mayor, Mexicali.
Aproximadamente 200 hablantes
Familia Cochimi-yumana. Baja California. Santa Catarina y San Isidoro.
Se estima que existian mas de 500 lenguas en el territorio mexicano al momento del contacto europeo.
Carlos III decreta la imposicion del espanol como unica lengua del imperio, prohibiendo lenguas indigenas en la educacion.
Politicas de castellanizacion masiva post-revolucion. Se castiga a ninos por hablar sus lenguas en la escuela.
Ley General de Derechos Linguisticos reconoce 68 lenguas como nacionales. Se crea el INALI.
364 variantes documentadas. 64 en peligro muy alto. La UNESCO declara 2022-2032 como Decada de las Lenguas Indigenas.
Geografia linguistica
Mexico es uno de los 10 paises con mayor diversidad linguistica del mundo. Explora los estados con mayor concentracion de lenguas indigenas.
Pasa el cursor sobre un estado para ver informacion linguistica
Proyecto piloto
Nahuatl — La lengua clara
Traduce entre espanol, ingles y nahuatl usando diccionario verificado, corpus biblico paralelo e inteligencia artificial.
120+ palabras en nahuatl con traduccion, pronunciacion y categoria gramatical. Las comunidades agregan y validan datos.
Cientos de horas de grabaciones reales de hablantes nativos de Bible.is, GRN, Scripture Earth y CMU Wilderness.
In tlalli ipan titlacah, amo titlacah ipan tlalli. — Vivimos sobre la tierra, no somos duenos de la tierra.
— Proverbio nahuatl
Catalogo completo
Cada lengua representa una cosmovision unica, un sistema de conocimiento ancestral y una identidad cultural irreemplazable.
La tecnologia
No se trata de reemplazar a los hablantes, sino de darles herramientas para que ellos mismos preserven y revitalicen sus lenguas.
Hablantes nativos graban audio en su lengua
Modelos ASR transcriben el audio a texto
Los hablantes corrigen las transcripciones
Cada validacion enriquece el recurso
Los datos mejoran el modelo
Modelos de reconocimiento de voz adaptados a lenguas de bajos recursos. Fine-tuning de Whisper (OpenAI) y MMS (Meta) con datos comunitarios validados.
Traduccion bidireccional lengua indigena a espanol y viceversa. Modelos entrenados con corpus paralelos validados por la comunidad.
Plataforma colaborativa donde la comunidad construye y valida su propio diccionario con audio, definiciones, contexto cultural y variantes dialectales.
Aplicacion movil que funciona sin conexion a internet, disenada para comunidades rurales. Progressive Web App con sincronizacion inteligente.
Inspirado en el trabajo de Te Hiku Media (Nueva Zelanda), que demostro que las comunidades indigenas pueden liderar el desarrollo de tecnologia de IA para sus propias lenguas.
Principio fundamental
Los datos linguisticos son patrimonio cultural de las comunidades. No de Silicon Valley, no de universidades, no de gobiernos. De la comunidad.
Cada comunidad es duena absoluta de sus datos linguisticos. Las grabaciones, transcripciones, diccionarios y modelos entrenados con sus datos les pertenecen. Ninguna entidad externa puede reclamar propiedad sobre conocimiento ancestral digitalizado.
La comunidad decide quien puede acceder a sus datos y bajo que condiciones. Investigadores, desarrolladores y organizaciones deben solicitar permiso y respetar los terminos establecidos por la comunidad.
Los datos no pueden ser utilizados para entrenar modelos comerciales sin consentimiento explicito y compensacion justa. Nos oponemos al extractivismo digital que toma conocimiento indigena para beneficio corporativo.
Inspirados en la licencia Kaitiakitanga de Te Hiku Media: los datos son un taonga (tesoro sagrado) que debe ser protegido por y para la comunidad.
Red de colaboracion
Trabajamos junto a organizaciones que comparten la vision de preservar las lenguas indigenas a traves de tecnologia y participacion comunitaria.
Investigacion linguistica y desarrollo de herramientas para lenguas minoritarias. Creadores de Ethnologue y recursos para documentacion linguistica.
Instituto Nacional de Lenguas Indigenas de Mexico. Catalogo oficial de lenguas, politicas de revitalizacion linguistica y normalizacion.
Instituto de Investigaciones en Matematicas Aplicadas y en Sistemas. Investigacion en procesamiento de lenguaje natural para lenguas indigenas mexicanas.
Iniciativa de Global Voices que apoya activismo digital en lenguas indigenas y minoritarias. Red de activistas linguisticos digitales.
Documentacion de lenguas en peligro mediante tecnologia. Creadores de herramientas de diccionarios parlantes y archivos linguisticos.
Laboratorio de tecnologia linguistica enfocado en traduccion biblica y herramientas para lenguas de bajos recursos digitales.
Grabaciones de audio en mas de 1,700 lenguas. Base de datos de audio que puede complementar el entrenamiento de modelos ASR.
Cooperacion Misionera de Mexico. Alcance comunitario y relaciones con comunidades indigenas en todo el territorio mexicano.
Union Nacional de Traductores Indigenas. Red de traductores nativos que pueden validar y enriquecer los recursos linguisticos generados por IA.
Unete
Cada persona puede contribuir desde su lugar. La preservacion linguistica es un esfuerzo colectivo.
Tu voz es el recurso mas valioso. Graba palabras, frases, historias y canciones en tu lengua. Cada grabacion contribuye a preservar tu idioma para las futuras generaciones.
Contribuir palabras y frasesAporta tu expertise en documentacion linguistica, fonologia, morfologia o sociolinguistica. Ayuda a disenar protocolos de documentacion y a validar la calidad de los recursos generados.
Contribuir expertiseEl proyecto es open source. Necesitamos expertise en NLP, modelos de voz, desarrollo movil offline-first y plataformas comunitarias. Cada contribucion de codigo tiene impacto directo.
Ver repositorioFinancia viajes a comunidades, equipos de grabacion, servidores de IA y el desarrollo de la plataforma. Cada peso invertido se traduce en horas de audio preservado y tecnologia accesible.
Apoyar el proyectoRecursos
Mexico posee mas diversidad linguistica que toda Europa. Pero 26 de sus lenguas estan en peligro critico.
Leer articulo → 2026-03-09Chocolate, tomate, aguacate, chicle. Todas son palabras nahuatl que usas a diario.
Leer articulo → 2026-03-12Las grandes tecnologicas extraen datos indigenas sin consentimiento. La soberania digital es la nueva frontera.
Leer articulo →Contacto
Si eres hablante, linguista, desarrollador, u organizacion interesada en colaborar, escribenos.
david@innovaycree.com
JUCUM Mazatlan, Sinaloa, Mexico