Nueva técnica logra que IA generativa olvide contenido protegido de Harry Potter

Foto: Freepik

Mark Russinovich y Ronen Eldan, investigadores de Microsoft, presentaron una técnica pionera que permite la edición selectiva de grandes modelos lingüísticos (LLM) utilizados en chatbots de inteligencia artificial (IA) generativa. Esta innovación posibilita la eliminación selectiva de información relacionada con contenido protegido por derechos de autor presente en los datos de entrenamiento de dichos modelos.

En una demostración práctica, los investigadores lograron que un LLM desarrollado por Meta pudiera "olvidar" selectivamente referencias directas a los libros de Harry Potter de J.K. Rowling, incluyendo personajes y argumentos. Esta técnica, según los investigadores, no compromete la capacidad general de toma de decisiones y análisis del sistema de IA, permitiendo que el LLM desaprenda un subconjunto de datos de entrenamiento sin necesidad de volver a entrenarse desde cero.

La técnica desarrollada por Russinovich y Eldan aborda problemas legales y éticos asociados con los LLM, que se entrenan con conjuntos masivos de datos de Internet que contienen información protegida por derechos de autor, datos privados, contenido sesgado y elementos tóxicos. Estos problemas afectan tanto a los desarrolladores y usuarios como a los autores y editores originales.

Los investigadores evaluaron la técnica en el LLM Llama2-7b de Meta, observando que, a pesar de más de 184,000 horas de procesamiento en el preentrenamiento, lograron eliminar efectivamente la capacidad del modelo para generar o recuperar contenido relacionado con Harry Potter en aproximadamente una hora de ajuste fino. El rendimiento general del modelo apenas se vio afectado.

La técnica consta de tres componentes principales: identificación de tókenes mediante un modelo reforzado, reemplazo de expresiones idiosincrásicas en los datos objetivo con contrapartes genéricas y ajuste fino del modelo con estas etiquetas alternativas. Este proceso permite que el modelo "olvide" el contenido original cada vez que está un contexto relacionado con los datos de destino.

La elección de desaprender referencias a Harry Potter se explica por la relevancia y abundancia de escenas, diálogos y momentos emocionales en la obra de J.K. Rowling, lo que hace que sea un corpus de texto especialmente valioso para el procesamiento del lenguaje natural. Además, la popularidad de Harry Potter entre los investigadores más jóvenes también influyó en esta elección.