Un investigador independiente acaba de publicar una herramienta que expone uno de los patrones peor documentados de la industria de la inteligencia artificial: los modelos de lenguaje grandes se degradan después de su lanzamiento. Arena AI Model ELO History, publicado por Erwin Mayer en su sitio personal, traza la evolución diaria del rating ELO de cada modelo flagship en LM Arena desde 2023 hasta hoy.
La premisa es simple: cuando Anthropic, OpenAI, Google o xAI lanzan un modelo, los benchmarks iniciales suelen ser impresionantes. Lo que esta visualización revela es que esos mismos modelos, semanas o meses después, suelen perder puntos en evaluaciones ciegas hechas por humanos reales. El gráfico no opina; solo muestra los datos.
TL;DR
Erwin Mayer publicó Arena AI Model ELO History, un dashboard que grafica el rating ELO diario de cada laboratorio en LM Arena desde 2023.- Los datos se actualizan automáticamente desde el dataset oficial del LM Arena Leaderboard en Hu
Discussion
Your thoughts matter!
Your input is valuable—be the first to share it!