Coordonné par le Centre national d'intelligence artificielle du pays andin (Cenia), une entité privée financée par des fonds publics, le projet réunit des institutions d'au moins 15 pays de la région.
Universités, fondations, bibliothèques, entités gouvernementales et organisations de la société civile d'Uruguay, du Brésil, de Colombie, du Mexique, du Pérou, d'Équateur, d'Argentine et du Chili figurent parmi les partenaires.
"Grâce à Latam-GPT, nous positionnons la région comme un acteur actif et souverain dans l'économie du futur. Nous sommes à la table, pas au menu", a déclaré le président Gabriel Boric lors de la présentation du projet sur la chaîne publique Television Nacional.
Malgré son nom, Latam-GPT n'est pas un agent conversationnel destiné au grand public, mais un modèle linguistique servant de base à des applications régionales, accessible en open source et gratuitement pour les entreprises et institutions publiques.
Latam-GPT vise à briser certains "préjugés" et à éviter une représentation uniforme de l'Amérique latine dans le monde, a expliqué à l'AFP le ministre des Sciences Aldo Valle.
La région "ne peut pas être seulement utilisatrice ou réceptrice passive des systèmes d'intelligence artificielle. Cela pourrait entraîner la perte d'une grande partie de nos traditions", a-t-il ajouté.
Lors d'une requête auprès de ChatGPT demandant de représenter "un Chilien", l'agent a généré l'image d'une personne en tenue traditionnelle autochtone devant la cordillère des Andes, illustrant les stéréotypes que les promoteurs du projet disent vouloir réduire.
Selon eux, ce type de représentation s'explique notamment par une sous-représentation des données latino-américaines dans certains systèmes d'intelligence artificielle.
Le président Boric a ainsi pris l'exemple du siège de Calais, en France, débuté en 1346 pendant la guerre de Cent Ans, pour lequel ChatGPT fournit "des informations très développées". "Mais si l'on demande des informations sur le siège de Chillán, l'une des batailles les plus importantes de la guerre d'indépendance chilienne, il y en a beaucoup moins", a-t-il assuré.
Limites
Si le développement des grands modèles d'IA demeure largement dominé par des acteurs basés aux Etats-Unis, en Chine et en Europe, des initiatives régionales, dont Latam-GPT, mais aussi SEA-LION en Asie du Sud-Est ou UlizaLlama en Afrique, tentent d'adapter ces technologies à des contextes culturels spécifiques.
Entraîné sur plus de huit téraoctets de données, soit un volume équivalent à des millions de livres, Latam-GPT a été développé avec un financement de 550.000 dollars, provenant principalement de la Banque de développement de l'Amérique latine (CAF) et de ressources propres.
Pour certains experts, cet écart de moyens avec les grands projets internationaux constitue une limite majeure.
"Il n'y a aucune possibilité que (Latam-GPT) puisse rivaliser avec les grands modèles d'IA", dit à l'AFP Alejandro Barros, professeur au département d'ingénierie industrielle de l'Université du Chili.
Pour l'universitaire, les grands projets internationaux disposent de "centaines de millions de dollars, voire dans certains cas de milliards de dollars pour l'infrastructure".
Malgré ces limites, les responsables du projet mettent en avant ses applications potentielles. Selon le directeur du Cenia, Alvaro Soto, Latam-GPT pourrait notamment servir de base à des outils adaptés aux secteurs de la santé ou des services publics.
"Argot"
"Les données permettant d'apporter une solution ne se trouvent pas ailleurs dans le monde, elles sont ici", explique-t-il.
L'une des premières entreprises à utiliser Latam-GPT sera la société chilienne Digevo, qui prévoit de développer des robots conversationnels spécialisés dans le service client, notamment pour des compagnies aériennes.
Les entreprises clientes "sont très intéressées à ce que leurs utilisateurs puissent s'exprimer et recevoir des réponses dans leur langue", explique à l'AFP Roberto Musso, directeur de la société. Selon lui, Latam-GPT pourrait mieux reconnaître "l'argot (et) les expressions idiomatiques ...".
Actuellement, les données utilisées pour entraîner le modèle sont principalement en espagnol et en portugais, mais le projet prévoit d'intégrer progressivement des langues autochtones.








