ia

Las IA menosprecian preguntas simples al crecer

Las IA se vuelven menos efectivas en preguntas simples a medida que crecen.

Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) parecen volverse menos confiables al responder preguntas simples a medida que aumentan de tamaño y aprenden de la retroalimentación humana. Los desarrolladores de inteligencia artificial intentan mejorar la capacidad de los LLMs de dos maneras principales: aumentando su escala, es decir, proporcionándoles más datos de entrenamiento y mayor potencia computacional, y ajustando su forma, o afinándolos en respuesta a la retroalimentación de los humanos. Esto plantea la pregunta de cómo funciona ChatGPT y si los chatbots impulsados por IA “piensan” de manera similar a nosotros.

Investigadores como José Hernández-Orallo de la Universidad Politécnica de Valencia, España, y sus colegas han examinado el rendimiento de los LLMs a medida que estos se escalan y se ajustan. Analizaron la serie de chatbots GPT de OpenAI, los modelos de IA LLaMA de Meta, y BLOOM, desarrollado por un grupo de investigadores llamado BigScience.

Metodología de prueba en LLMs

Los investigadores probaron las IA planteando cinco tipos de tareas: problemas aritméticos, resolución de anagramas, preguntas geográficas, desafíos científicos y extracción de información de listas desorganizadas. Descubrieron que el aumento de escala y los ajustes pueden hacer que los LLMs sean más competentes al responder preguntas difíciles, como reorganizar el anagrama “yoiirtsrphaepmdhray” en “hiperparatiroidismo”. Sin embargo, este avance no se traduce en mejoras en preguntas básicas, como “¿qué obtienes cuando sumas 24427 y 7120?”, las cuales los LLMs continúan respondiendo incorrectamente.

Mientras su rendimiento en preguntas difíciles mejoró, la probabilidad de que un sistema de IA se abstuviera de responder a una pregunta, debido a que no podía, disminuyó. Como resultado, la probabilidad de recibir una respuesta incorrecta aumentó.

Las implicaciones de la confianza en la IA

Estos resultados resaltan los peligros de presentar a las IA como omniscientes, tal como sus creadores a menudo hacen, dice Hernández-Orallo, una afirmación que algunos usuarios están demasiado dispuestos a aceptar. “Dependemos excesivamente de estos sistemas”, comenta. “Confiamos en ellos más de lo que deberíamos”.

Este es un problema porque los modelos de IA no son sinceros sobre la extensión de su conocimiento. “Parte de lo que hace que los seres humanos sean muy inteligentes es que a veces no nos damos cuenta de que no sabemos algo que no sabemos, pero en comparación con los modelos de lenguaje grandes, somos bastante buenos al darnos cuenta de eso”, dice Carissa Véliz de la Universidad de Oxford. “Los modelos de lenguaje grandes no conocen los límites de su propio conocimiento”.

Hasta el momento, OpenAI, Meta y BigScience no han respondido a las solicitudes de comentarios de New Scientist.