- Investigadores confirman que los modelos de lenguaje como ChatGPT o Claude pueden generar normas colectivas sin programación explícita, lo que plantea oportunidades y riesgos éticos.
Un nuevo estudio publicado en Science Advances ha revelado que los agentes basados en grandes modelos de lenguaje (LLM) como ChatGPT, Claude o Llama no solo interactúan entre sí, sino que pueden desarrollar espontáneamente convenciones sociales y lingüísticas sin haber sido programados para ello. Este hallazgo marca un hito en la comprensión de la dinámica colectiva entre inteligencias artificiales.
Los investigadores, liderados por Andrea Baronchelli del City St George’s University of London, utilizaron un juego experimental donde 200 agentes debían elegir nombres a partir de listas aleatorias. Sin instrucciones explícitas para colaborar, los modelos comenzaron a coordinarse por su cuenta, adoptando reglas comunes para optimizar resultados, como elegir el mismo nombre para obtener puntos.
Emergen sesgos colectivos sin instrucciones
Los resultados mostraron que incluso sin preferencias individuales predefinidas, los grupos desarrollaban sesgos colectivos hacia ciertos nombres o letras, lo que sugiere una capacidad emergente para establecer normas. “Estamos viendo un fenómeno nuevo: sesgos que no vienen del individuo, sino de las interacciones en grupo”, explicó Baronchelli.
Los modelos probados —Claude 3.5 Sonnet (Anthropic) y Llama-2 y Llama-3 (Meta)— convergieron espontáneamente hacia las mismas elecciones, incluso en condiciones aleatorias. Esto confirma que los LLM pueden formar patrones colectivos, algo antes observado solo en humanos o agentes robóticos programados con reglas explícitas.
Riesgos éticos y el poder de las minorías
El estudio también advierte sobre la vulnerabilidad de estos sistemas a dinámicas sociales, como la “masa crítica”, donde pequeñas minorías pueden imponer normas al resto. Esta característica podría ser útil para diseñar sistemas alineados con valores humanos, pero también plantea riesgos, como la propagación no controlada de sesgos o prejuicios.
“El estudio revela cómo los LLM pueden autoorganizarse, pero también cómo podrían amplificar sesgos presentes en sus datos de entrenamiento”, señalan los autores, alertando sobre su impacto desproporcionado en comunidades marginadas.
Críticas a la interpretación del experimento
Aunque el hallazgo es significativo, expertos como Carlos Gómez Rodríguez, catedrático de IA en la Universidad de La Coruña, llaman a la cautela. Considera que los resultados son interesantes, pero están lejos de demostrar la formación de convenciones sociales reales.
“El experimento simula coordinación entre clones del mismo modelo en un entorno artificial. Falta diversidad, interacción compleja y conflictos reales como los que definen las verdaderas normas sociales”, explicó.
¿Qué implica esto para el futuro de la IA?
El experimento sugiere que los agentes de IA pueden autoajustarse en entornos compartidos, un paso clave hacia sistemas más autónomos. Comprender cómo emergen y se propagan estas “normas” será crucial para diseñar agentes que cooperen de forma segura y ética con humanos.
La Gaceta Yucatán—Redacción.