Un estudio publicado en arXiv por un grupo de científicos de la Universidad de California en San Diego, dio a conocer que el popular chatbot ChatGPT-4 logró engañar a los humanos en más de la mitad de las conversaciones en una prueba de Turing, haciendo que las personas lo confundieran con una persona real.
La prueba de Turing fue propuesta en 1950 por el matemático británico Alan Turing y es un método para evaluar si una máquina puede mostrar un comportamiento inteligente indistinguible del de un ser humano. En su forma original, la prueba involucraba tres terminales separadas, una operada por una computadora y las otras dos por humanos. Uno de los humanos hacía preguntas, y tanto el otro humano como la computadora respondían. Al final, el interrogador debía decidir cuál de los entrevistados era humano y cuál una máquina.
Da miedo: Un grupo de científicos de la Universidad de California en San Diego reportó que el popular chatbot GPT-4 logró ser confundido con un humano en más de la mitad de las conversaciones que sostuvo con personas que participaron en la prueba de Turing. pic.twitter.com/7aWf4SgoZx
— JJJ Suárez (@ElBirreteBlanco) June 26, 2024
Los científicos replicaron esta prueba con 500 participantes, quienes mantuvieron conversaciones con cuatro interlocutores diferentes, entre los que había una persona real y tres sistemas de inteligencia artificial (IA): ELIZA, una herramienta de la década de 1960 con respuestas preestablecidas; y los modelos de lenguaje GPT-3.5 y GPT-4 de ChatGPT. Después de cinco minutos de conversación, los participantes debían identificar si estaban hablando con una persona real o con una IA.
En el caso de GPT-4, aproximadamente 54 % de los participantes creyó erróneamente que estaban interactuando con un humano. GPT-3.5 logró confundir a 50 % de los participantes, mientras que ELIZA fue percibido como humana en solo en 22 % de los casos; sin embargo, el humano fue identificado como tal 67 % de las veces.
Los autores del estudio destacaron que "los resultados proporcionan la primera demostración empírica de que cualquier sistema artificial pasa una prueba de Turing interactiva de dos jugadores" basada en la conversación. Sin embargo, también señalaron que "el razonamiento de los participantes sugiere que los factores estilísticos y socioemocionales" juegan un papel crucial para "aprobar la prueba de Turing", más que las ideas "tradicionales de inteligencia".
Nell Watson, científica del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE), explicó que “los modelos de lenguaje basados en IA son infinitamente flexibles, pues son capaces de sintetizar respuestas a una amplia gama de temas”. Además, pueden describirse “a sí mismos con personalidad y valores impulsados por el carácter”. Finalmente, Watson aseguró que estos modelos representan “un enorme paso adelante respecto a algo programado a mano por un ser humano, no importa cuán inteligente y cuidadoso sea”.