Meta manipula benchmark de IA con modelo más conversador

Meta hizo trampa en una prueba de inteligencia artificial, y eso es graciosísimo. Según Kylie Robison de The Verge, las sospechas comenzaron a surgir después de que Meta lanzó dos nuevos modelos de IA basados en su modelo de lenguaje grande Llama 4 durante el fin de semana. Los nuevos modelos son Scout, un modelo más pequeño pensado para consultas rápidas, y Maverick, que supuestamente es un rival súper eficiente de modelos más conocidos como el GPT-4o de OpenAI (el presagio de nuestro apocalipsis estilo Miyazaki).

En la publicación donde los anunció, Meta hizo lo que todas las empresas de IA hacen ahora con un lanzamiento importante: soltó un montón de datos técnicos para presumir que su IA era más inteligente y eficiente que los modelos de empresas más asociadas con la IA, como Google, OpenAI y Anthropic. Estos anuncios siempre están llenos de datos y pruebas técnicas que son útiles para investigadores y fanáticos de la IA, pero no tanto para el resto de nosotros. El anuncio de Meta no fue la excepción.

Pero muchos expertos en IA notaron de inmediato un resultado sospechoso que Meta destacó en su publicación. Maverick obtuvo un puntaje ELO de 1417 en LMArena. LMArena es una herramienta colaborativa de código abierto donde los usuarios pueden votar por la mejor respuesta. Un puntaje más alto es mejor, y los 1417 de Maverick lo pusieron en el segundo lugar del ranking de LMArena, justo arriba del GPT-4o y apenas debajo de Gemini 2.5 Pro. Todo el ecosistema de IA se sorprendió con los resultados.

Entonces empezaron a investigar y rápidamente notaron que, en letras chiquitas, Meta había admitido que la versión de Maverick que arrasó en LMArena era un poco diferente a la que los usuarios pueden probar. La compañía había programado este modelo para ser más hablador de lo normal. Básicamente, lo hizo para encantar a la prueba y sacar mejor puntaje.

Parece que a LMArena no le gustó ese truco. “La interpretación de Meta de nuestras reglas no coincide con lo que esperamos de los proveedores de modelos”, dijeron en un comunicado en X. “Meta debió aclarar que ‘Llama-4-Maverick-03-26-Experimental’ era un modelo personalizado para optimizar preferencias humanas. Por eso, actualizaremos nuestras políticas para asegurar evaluaciones justas y evitar confusiones en el futuro”.

Me encanta el optimismo de LMArena, porque manipular pruebas parece ser un rito de paso en la tecnología, y sospecho que esto seguirá pasando. Llevo más de una década cubriendo tecnología, alguna vez dirigí uno de los laboratorios de pruebas más grandes de la industria, y he visto a muchas marcas de teléfonos y laptops usar todo tipo de trucos para inflar sus puntajes. Jugaban con el brillo de la pantalla para mejorar la duración de la batería o enviaban versiones sin bloatware a los reseñadores para obtener mejores resultados.

Ahora los modelos de IA también se ponen más habladores para subir sus puntajes. Y sospecho que esto no será la última vez porque, en este momento, las empresas están desesperadas por diferenciar sus modelos de lenguaje grande. Si todos pueden ayudarte a escribir un ensayo mediocre cinco minutos antes de clase, necesitarán otra razón para destacar. “Mi modelo usa menos energía y es un 2.46% más rápido” puede no sonar tan impresionante, pero importa. Sigue siendo un 2.46% más rápido que los demás.

A medida que estas IAs maduren y se conviertan en productos para consumidores, veremos más alardes sobre pruebas. Ojalá también veamos otros cambios: las interfaces mejorarán, cosas raras como la sección “Explora GPT” en la app de ChatGPT se volverán más comunes. Estas empresas tendrán que demostrar por qué sus modelos son los mejores, y las pruebas por sí solas no lo lograrán. No cuando un bot hablador puede engañar al sistema tan fácilmente.

Vía | Meta manipula benchmark de IA con modelo más conversador – Tecnología con Juancho

Meta manipula benchmark de IA con modelo más conversador

Por Juan Padra

iOS 19: Diseño inspirado en visionOS y nuevos iconos redondeados

Android: Google parchea 62 vulnerabilidades, incluyendo 2 zero-day críticas

Amazon se une a la puja por TikTok antes del plazo límite

Deja una respuesta Cancelar la respuesta

No te pierdas esto

OpenAI demanda a Elon Musk por campaña de difamación

ChatGPT ahora recuerda todo: cómo desactivar su memoria

SEC analiza regulación flexible para criptoactivos y valores tokenizados

iOS 19: Diseño inspirado en visionOS y nuevos iconos redondeados

Meta manipula benchmark de IA con modelo más conversador

Por Juan Padra

Entrada relacionada

iOS 19: Diseño inspirado en visionOS y nuevos iconos redondeados

Android: Google parchea 62 vulnerabilidades, incluyendo 2 zero-day críticas

Amazon se une a la puja por TikTok antes del plazo límite

Deja una respuesta Cancelar la respuesta

No te pierdas esto

OpenAI demanda a Elon Musk por campaña de difamación

ChatGPT ahora recuerda todo: cómo desactivar su memoria

SEC analiza regulación flexible para criptoactivos y valores tokenizados

iOS 19: Diseño inspirado en visionOS y nuevos iconos redondeados