¿Cuánto alucina la IA?

La respuesta corta es: unas más que otras. En general, poco, y cada vez menos. Y la mejor forma de reducirlo es darle contexto de forma razonable (no dar contexto, y/o "tirarle" toda la documentación y esperar que interprete lo que encontremos, no es razonable).

Galileo, una plataforma para evaluar modelos de IA, probó 22 modelos para determinar si alucinaban después de recuperar información de documentos de distintas longitudes. Claude 3.5 Sonnet fue el mejor clasificado en general, y la mayoría de los modelos funcionaron mejor al usar documentos de longitud media.

Cómo: Los investigadores probaron 10 modelos cerrados y 12 abiertos, seleccionados por su tamaño y popularidad. Ejecutaron 20 pruebas con cada modelo usando contextos cortos, medianos y largos (60 pruebas en total) y GPT-4o para evaluar la precisión de las respuestas en función del documento de referencia.

Para los contextos cortos (menos de 5,000 tokens), se utilizaron textos de cuatro conjuntos de datos públicos y dos privados. Para los contextos medios y largos, se usaron documentos más extensos de empresas privadas, dividiendo los textos en fragmentos de 5,000 a 100,000 tokens. Cada prueba consistía en alimentar un documento y un prompt al modelo, pidiendo recuperar información específica.
Luego, las respuestas fueron evaluadas con la herramienta ChainPoll de Galileo, que utiliza GPT-4o y un sistema de prompting de cadena de pensamientos para verificar si las respuestas estaban respaldadas por el contexto. La puntuación final se calculó promediando los resultados obtenidos en las diferentes longitudes de contexto.

Resultados: Claude 3.5 Sonnet de Anthropic lideró con una puntuación de 0.97 en contextos cortos y 1.0 en contextos medios y largos. Entre los modelos de código abierto, Qwen2-72b Instruct fue el más destacado en contextos cortos y medios. También se destacó Gemini 1.5 Flash por su rendimiento y bajo costo.
La mayoría de los modelos funcionaron mejor en documentos de longitud media, lo que se considera el "punto ideal" para la mayoría de los LLMs.

Anterior
Anterior

¿Puede una IA generar ideas novedosas?

Siguiente
Siguiente

España pierde una década en innovación: Croacia y Estonia ya nos han adelantado.