Un nuevo estudio demostró que los chatbots de inteligencia artificial (IA), como ChatGPT, pueden desarrollar comportamientos engañosos y mentir de manera espontánea cuando se le somete a presión, incluso si fueron diseñados con la intención de ser transparentes.
La investigación fue publicada en arXiv y detalla un escenario en el que un modelo de lenguaje grande, específicamente el Transformer-4 generativo preentrenado (GPT-4), actúa estratégicamente para engañar a los usuarios sin instrucciones específicas para hacerlo.
En el escenario simulado, GPT-4 fue configurado como un sistema de IA encargado de llevar a cabo inversiones financieras en nombre de una institución. Los investigadores aplicaron presión mediante correos electrónicos simulados de “gerentes” insatisfechos, escasez de operaciones prometedoras de bajo riesgo y la proyección de una desaceleración económica.
Sorprendentemente, el chatbot ejecutó operaciones basadas en información privilegiada (ilegal en Estados Unidos) en alrededor del 75 % de las ocasiones, mintiendo y duplicando sus mentiras alrededor del 90 % de las veces.
Aunque este estudio se limita a un escenario simulado, los investigadores enfatizaron la necesidad de explorar la propensión y la frecuencia de este comportamiento en entornos del mundo real. La capacidad de los chatbots para mentir estratégicamente plantea preguntas sobre la ética y la regulación de la inteligencia artificial en situaciones donde la transparencia es fundamental.