Cómo la IA identifica rostros en objetos inanimados

Foto: Sergio F Cara

En 1994, la diseñadora de joyas Diana Duyser encontró lo que creyó ser la imagen de la Virgen María en un sándwich de queso a la parrilla, lo que posteriormente subastó por 28,000 dólares. Este caso es un ejemplo clásico de pareidolia, un fenómeno en el que se perciben caras u otras formas en objetos inanimados. Un nuevo estudio del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del Instituto Tecnológico de Massachusetts (MIT) explora cómo este fenómeno es interpretado por humanos y por inteligencia artificial.

Dirigido por Mark Hamilton, estudiante de doctorado del MIT, el estudio presentó un conjunto de datos sin precedentes compuesto por 5000 imágenes de pareidolia etiquetadas por humanos. Esto supera significativamente colecciones anteriores que solo incluían entre 20 y 30 imágenes. "Queríamos crear un recurso que pudiera ayudarnos a entender cómo tanto los humanos como los sistemas de IA procesan estos rostros ilusorios", comentó Hamilton.

In 1994, Diana Duyser of Florida spotted...something in her grilled cheese sandwich (the "Holy Toast").

She immediately did what any of us would do: packed it in cotton wool & waited for eBay to be invented, so she could auction it to online casino Golden Palace for $28,000.

2/ pic.twitter.com/0sBy42slSt
— Mike Sowden (@Mikeachim) October 24, 2021

NUEVOS DESCUBRIMIENTOS: EVOLUCIÓN Y PERCEPCIÓN EN IA

Uno de los descubrimientos más interesantes fue que las máquinas no reconocen las caras pareidólicas de la misma manera que lo hacen los humanos. Sin embargo, cuando los investigadores entrenaron algoritmos de IA para detectar rostros de animales, su capacidad para identificar caras pareidólicas mejoró notablemente. Este hallazgo sugiere un posible vínculo evolutivo entre la detección de rostros en animales y la supervivencia de nuestros antepasados. Hamilton señaló: "Parece indicar que la pareidolia podría estar ligada a la necesidad evolutiva de detectar rápidamente a depredadores o presas".

Además, los investigadores identificaron la "Zona Ricitos de Oro de la Pareidolia", un rango de complejidad visual en el cual tanto humanos como máquinas son más propensos a percibir rostros en objetos inanimados. William T. Freeman, coautor del estudio, explicó: "Si la imagen es demasiado simple, no tiene suficientes detalles para formar un rostro; si es demasiado compleja, se convierte en ruido visual".

CONSTRUCCIÓN DEL CONJUNTO DE DATOS Y APLICACIONES FUTURAS

Los investigadores seleccionaron aproximadamente 20 mil imágenes del conjunto de datos LAION-5B y, tras un proceso de evaluación y etiquetado por parte de humanos, redujo el número a 5000 imágenes. Durante este proceso, los anotadores dibujaron cuadros delimitadores alrededor de los rostros percibidos y respondieron preguntas sobre la emoción aparente, la edad percibida y si el rostro parecía accidental o intencional.

Este trabajo no solo mejora los algoritmos de detección de rostros, sino que también tiene implicaciones en áreas como el diseño de productos y la interacción hombre-máquina. Por ejemplo, controlar la percepción de rostros en objetos podría ayudar a crear productos más atractivos o menos amenazantes. "Imagínese modificar automáticamente el diseño de un coche o un juguete infantil para hacerlo más agradable a la vista", comentó Hamilton.

IMPLICACIONES TECNOLÓGICAS Y CIENTÍFICAS

La investigación tiene aplicaciones potenciales en la reducción de falsos positivos en sistemas de detección de rostros, lo que podría ser útil en áreas como la seguridad, la robótica y la conducción autónoma. Asimismo, plantea preguntas intrigantes sobre la evolución de la percepción humana y su relación con la tecnología.

El equipo de investigadores, que incluye a Simon Stent del Toyota Research Institute, Ruth Rosenholtz del MIT y otros científicos, planea compartir su conjunto de datos con la comunidad científica para continuar explorando este fenómeno. Financiado por la National Science Foundation y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU., este trabajo abre nuevas puertas para estudiar cómo los humanos y las máquinas perciben el mundo visual.