Latam-GPT: La apuesta latinoamericana por una inteligencia artificial con identidad propia

Cómo un modelo de lenguaje de código abierto, desarrollado desde Chile y en colaboración regional, busca corregir sesgos, recuperar voces indígenas y posicionar a América Latina en la agenda global de la IA

Latam-GPT no es solo otro modelo de lenguaje en la larga lista de proyectos de inteligencia artificial que aparecen y desaparecen. Es, en términos prácticos y simbólicos, un intento deliberado de dar voz —y datos— a una región que históricamente ha estado subrepresentada en los conjuntos de entrenamiento dominados por el inglés y por contenidos generados en el Norte Global. Lanzado por el Centro Nacional de Inteligencia Artificial de Chile (CENIA) en colaboración con más de 30 instituciones de ocho países latinoamericanos, este proyecto pretende convertirse en la infraestructura base para aplicaciones centradas en la realidad cultural, lingüística y social de América Latina y el Caribe.

Un problema real: el sesgo lingüístico y cultural en los modelos de lenguaje

La mayoría de los grandes modelos lingüísticos recientes han sido entrenados con gigantescos volúmenes de datos disponibles en internet, la mayoría en inglés y provenientes de contextos culturales específicos (Estados Unidos, Europa, China). Ese entrenamiento masivo ha generado sistemas extraordinariamente potentes, pero con limitaciones claras cuando se les pide interpretar, generar o priorizar contenidos que reflejen realidades latinoamericanas: usos coloquiales del español y el portugués, referencias locales, variantes idiomáticas, topónimos, tradiciones, marcos históricos o sensibilidades políticas propias de cada país.

Las consecuencias de esa brecha van más allá de errores lingüísticos: pueden traducirse en malentendidos en servicios públicos automatizados, respuestas inapropiadas en chatbots de atención, representación errónea de comunidades indígenas o afrodescendientes, y un menor control regional sobre la gobernanza tecnológica. Como advirtió Rodrigo Durán, director ejecutivo de CENIA, "Latam-GPT está entrenado con una proporción de datos latinoamericanos que antes no existía en línea y no fue incluida en modelos existentes" (CENIA, declaración pública, febrero de 2025).

¿Qué es Latam-GPT y cómo se construyó?

Latam-GPT es un modelo de lenguaje de código abierto concebido como infraestructura: un punto de partida sobre el cual organizaciones, desarrolladores y gobiernos de la región puedan construir aplicaciones y soluciones con sensibilidad local. El proyecto arrancó en 2023 y alcanzó un hito público con su presentación en 2025 en la Cumbre de Acción sobre Inteligencia Artificial celebrada en París.

Para su desarrollo fueron necesarios esfuerzos coordinados: asociaciones estratégicas con fuentes privadas de datos, la generación de datos sintéticos para cubrir vacíos de representación, y la recolección de más de ocho terabytes de datos —una cifra equivalente a millones de libros en texto plano—, según explicó Gabriela Arriagada, investigadora de CENIA y responsable del equipo de ética del proyecto.

Varios puntos técnicos y de gobernanza merecen destacarse:

Enfoque en datos regionales: no se trató solo de traducir o ajustar modelos existentes, sino de incorporar contenidos auténticos de medios, archivos culturales, literatura, documentos públicos y fuentes privadas regionales.
Uso de datos sintéticos: para equilibrar la representación en áreas con escasa presencia digital (por ejemplo, dialectos o contenidos culturales locales), se generaron textos sintéticos con criterios éticos y supervisión humana.
Ética y gobernanza: el proyecto incluyó un equipo de ética desde sus inicios, encargado de evaluar riesgos—desde el sesgo hasta el uso indebido—y proponer protocolos para el acceso y la moderación.
Colaboración multinacional: más de 30 instituciones de ocho países ampliaron la base de conocimientos y la legitimidad del proyecto.

Por qué importa que sea de código abierto

El carácter abierto de Latam-GPT es deliberado y estratégico. En un mercado donde la mayoría de las arquitecturas más poderosas son propietarias o altamente controladas por grandes corporaciones, ofrecer un modelo base de código abierto permite:

Auditoría y transparencia: investigadores y reguladores pueden inspeccionar el comportamiento del modelo, identificar sesgos y proponer correcciones.
Adaptación local: universidades, startups y administraciones públicas pueden ajustar el modelo para servicios de salud, educación o atención ciudadana con requisitos y normativas locales.
Soberanía tecnológica: reduce la dependencia de proveedores extranjeros y facilita la creación de un ecosistema regional de talento y productos.

Rodrigo Durán resumió esa visión: "El desarrollo de Latam-GPT demuestra que la región tiene capacidad técnica para construir modelos de IA; si no entendemos cómo se crea esta tecnología, no podremos regularla adecuadamente" (CENIA, declaración pública, febrero de 2025).

Limitaciones y retos: recursos, competencia y sostenibilidad

El optimismo que rodea a Latam-GPT está matizado por realidades pragmáticas. Los recursos para entrenar y desplegar modelos de gran escala son significativos. Latam-GPT comenzó con un presupuesto modesto: alrededor de $550,000 financiados por CENIA y el Banco de Desarrollo de América Latina (CAF), apoyándose inicialmente en la nube de Amazon Web Services. Las versiones futuras planean entrenamientos en supercomputación, como la que se instalará en la Universidad de Tarapacá en el norte de Chile (proyectada para 2026 con una infraestructura valorada en unos $4.5 millones).

Asimismo, la competencia global es intensa. Empresas privadas con acceso a enormes centros de datos dominan la carrera por capacidades cada vez más grandes y potentes. Un informe de la Universidad de Oxford sobre infraestructura de IA y centros de datos muestra que Estados Unidos, China y la Unión Europea concentran más de la mitad de los centros de datos más potentes para IA, mientras que África y América del Sur carecen de hubs comparables (Oxford Internet Institute, 2024). Esa brecha de infraestructura condiciona la velocidad y escala a la que proyectos como Latam-GPT pueden evolucionar.

Finalmente, existe el desafío de la adopción: convencer a gobiernos, empresas y comunidades de invertir en soluciones basadas en Latam-GPT requiere demostrar solidez técnica, beneficios concretos y garantías de seguridad y privacidad.

Impactos potenciales: desde la inclusión lingüística hasta la gobernanza pública

Los posibles beneficios de una infraestructura de IA regional bien diseñada son múltiples y tangibles:

Mejor atención multilingüe: chatbots y asistentes virtuales que entiendan modismos, jergas y variantes dialectales del español y el portugués, mejorando la interacción con servicios públicos y privados.
Recuperación cultural: preservación y promoción de contenidos literarios y orales locales, con modelos capaces de transcribir, resumir y contextualizar saberes tradicionales.
Inclusión de lenguas indígenas: planes para incorporar lenguas originarias en etapas futuras podrían fortalecer la conservación lingüística y el acceso a servicios digitales en comunidades históricamente marginadas.
Política y regulación informada: las autoridades podrán diseñar marcos regulatorios más acordes a la realidad regional si entienden cómo se construyen y operan los modelos.

Como señaló Luis Chiruzzo, profesor de ingeniería de la Universidad de la República en Uruguay, la principal ganancia es la inclusión: "Latam-GPT contiene datos que capturan particularidades de cada país; eso da cierta garantía de que, cuando menos, todos estamos incluidos en el entrenamiento" (declaración pública, febrero de 2025).

Casos de uso posibles y prioridades sectoriales

Si Latam-GPT se consolida como un estándar regional, las aplicaciones pueden ser transformadoras en varios sectores:

Salud pública: sistemas de soporte para diagnóstico preliminar, difusión de campañas de vacunación y atención remota con comprensión cultural del paciente.
Educación: tutores virtuales adaptados a variantes lingüísticas y contextos locales, apoyo en lenguas indígenas y recursos pedagógicos regionales.
Gobierno digital: automatización de trámites con lenguaje natural que entienda regionalismos y referencias legales locales.
Medios y periodismo: herramientas de fact-checking y generación de resúmenes que respeten matices históricos y culturales.
Empresas y PYMES: asistentes en ventas, soporte y creación de contenidos orientados a mercados latinoamericanos.

El verdadero valor estará en cómo se vincule la tecnología con políticas públicas que prioricen la equidad, la privacidad y el acceso. No basta con tener el modelo; hay que garantizar su uso responsable y democrático.

Ética, derechos colectivos y representación

Un punto central en la conversación alrededor de Latam-GPT es la ética. ¿Quién decide qué datos se incluyen? ¿Cómo se protegen derechos de comunidades indígenas cuyos saberes pueden aparecer en los conjuntos de entrenamiento? ¿Qué mecanismos existen para apelar respuestas sesgadas o dañinas?

El equipo de ética liderado por Gabriela Arriagada incorporó criterios de evaluación de riesgo, revisiones humanas y protocolos para el uso de datos privados. Además, la apertura del proyecto facilita auditorías externas. No obstante, la incorporación de lenguas originarias plantea desafíos específicos: muchas de estas comunidades han sufrido históricamente apropiación cultural y extracción de conocimiento sin consentimiento. Cualquier trabajo futuro deberá priorizar el consentimiento informado, medidas de beneficio compartido y reconocimiento de derechos colectivos sobre datos culturales.

Cooperación regional como ventaja estratégica

Uno de los elementos más novedosos del proyecto es la cooperación multinacional. América Latina ha mostrado, en otras áreas tecnológicas y científicas, que los esfuerzos colaborativos pueden compensar limitaciones de recursos. La participación de instituciones de distintos países aporta diversidad de contenidos, legitimidad política y una base de usuarios potencialmente vasta.

Además, la colaboración regional abre la puerta a estrategias de compra pública conjunta, estándares compartidos y programas de capacitación que potencien el capital humano. Si se concreta, la estrategia puede transformar a la región de consumidora pasiva de tecnología a productora y reguladora con voz propia.

La sostenibilidad financiera y tecnológica de la iniciativa

Una pregunta recurrente es cómo sostener financieramente un proyecto de estas características. El financiamiento inicial fue limitado, y la transición a etapas más ambiciosas requiere inversión en infraestructura (centros de datos, supercomputación), talento (investigadores, ingenieros, especialistas en ética) y operación continua (mantenimiento, actualizaciones de datos, moderación).

Existen varios modelos posibles: financiamiento público-privado, suscripciones para servicios avanzados, contratos con gobiernos para soluciones sectoriales o fondos multilaterales que apoyen la soberanía tecnológica. La clave será equilibrar la necesidad de recursos con la obligación de mantener acceso público y equitativo a la herramienta base.

Escenarios a mediano y largo plazo

Podemos imaginar, en un horizonte de tres a cinco años, distintos escenarios:

Escenario optimista: Latam-GPT se consolida como la base de numerosas aplicaciones regionales, se incorporan lenguas indígenas con protocolos de consentimiento, y se establecen mecanismos de gobernanza pública que inspiran marcos regulatorios propios en América Latina.
Escenario intermedio: el proyecto sigue activo y útil pero limita su alcance por restricciones de financiamiento e infraestructura; se mantienen aplicaciones puntuales en ciertos países y sectores privados que compran servicios derivados.
Escenario pesimista: la iniciativa pierde impulso frente a la presión de grandes actores globales, se dificulta la actualización de modelos por falta de recursos y la región vuelve a depender mayoritariamente de soluciones externas con limitadas garantías culturales y regulatorias.

La trayectoria real dependerá de decisiones políticas, alianzas estratégicas y, sobre todo, de la capacidad regional para invertir en talento e infraestructura.

Lecciones para otras regiones y el debate global sobre IA

Latam-GPT ofrece una lección valiosa: la construcción de tecnología crítica no es neutral; incorpora visiones del mundo. Cuando las comunidades participan en la creación de sus propias herramientas, el resultado es más apropiado, legítimo y útil. Para el debate global sobre IA, esto refuerza la idea de que la gobernanza de la inteligencia artificial no puede limitarse a normas importadas, sino que debe dialogar con perspectivas locales.

En palabras de Durán: "El hecho de que América Latina se haya unido para conformar un grupo colaborativo es una señal muy positiva" (CENIA, declaración pública, febrero de 2025). Esa unión colectiva puede convertirse en la diferencia entre ser meros usuarios de tecnología y ser protagonistas de su desarrollo y regulación.

Fuentes citadas:

CENIA — Declaraciones públicas y material de lanzamiento de Latam-GPT (febrero de 2025).
Oxford Internet Institute — Reporte sobre infraestructura de centros de datos e IA (2024). Disponible en: https://www.oii.ox.ac.uk
Banco de Desarrollo de América Latina (CAF) — Informe sobre financiamiento y proyectos tecnológicos regionales (2024).

Latam-GPT representa un primer y valioso intento de articular tecnología y cultura. Su mayor potencial no es competir únicamente en tamaño con las grandes corporaciones: es ofrecer una alternativa con sentido regional, que reconozca la diversidad lingüística y cultural de América Latina y que, si se gestiona con responsabilidad y recursos suficientes, pueda transformar la manera en que la región diseña, regula y utiliza la inteligencia artificial.

Este artículo fue redactado con información de Associated Press