Reflection 70B: El nuevo líder de la IA de código abierto

Hay un nuevo rey en la ciudad: Matt Shumer, cofundador y CEO de la startup de escritura con IA HyperWrite, presentó hoy Reflection 70B, un nuevo modelo de lenguaje grande (LLM) basado en Llama 3.1-70B Instruct de Meta, de código abierto. Este modelo utiliza una nueva técnica de autocorrección de errores y presume de un rendimiento superior en pruebas de referencia de terceros.

Como Shumer anunció en la red social X, Reflection-70B parece ser ahora “el modelo de IA de código abierto más avanzado del mundo”.

I'm excited to announce Reflection 70B, the world’s top open-source model.

Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.

405B coming next week – we expect it to be the best model in the world.

Built w/ @GlaiveAI.

Read on ⬇️: pic.twitter.com/kZPW1plJuo
— Matt Shumer (@mattshumer_) September 5, 2024

Publicó el siguiente gráfico mostrando su rendimiento en las pruebas aquí:

Reflection 70B ha sido rigurosamente probado en varios puntos de referencia, incluyendo MMLU y HumanEval, utilizando el Decontaminador de LLM de LMSys para asegurar que los resultados estén libres de contaminación. Estas pruebas muestran que Reflection supera consistentemente a los modelos de la serie Llama de Meta y compite directamente con los mejores modelos comerciales.

Puedes probarlo tú mismo aquí, en una demo en un sitio web, pero como Shumer señaló en X, el anuncio del nuevo rey de los modelos de IA de código abierto ha saturado el sitio de demostración con tráfico, y su equipo está luchando por encontrar suficientes GPU (unidades de procesamiento gráfico, los valiosos chips de Nvidia y otros utilizados para entrenar y ejecutar la mayoría de los modelos de IA generativa) para satisfacer la demanda.

Lo que distingue a Reflection 70B

Shumer enfatizó que Reflection 70B no solo compite con los modelos de primer nivel, sino que también aporta capacidades únicas, específicamente la identificación y corrección de errores.

Como Shumer le dijo a VentureBeat por DM: “He estado pensando en esta idea durante meses. Los LLMs alucinan, pero no pueden corregirse. ¿Qué pasaría si enseñaras a un LLM a reconocer y corregir sus propios errores?”

De ahí el nombre, “Reflection” — un modelo que puede reflexionar sobre el texto que genera y evaluar su precisión antes de entregarlo al usuario.

La ventaja del modelo radica en una técnica llamada ajuste de reflexión, que le permite detectar errores en su propio razonamiento y corregirlos antes de finalizar una respuesta.

Reflection 70B holds its own against even the top closed-source models (Claude 3.5 Sonnet, GPT-4o).

It’s the top LLM in (at least) MMLU, MATH, IFEval, GSM8K.

Beats GPT-4o on every benchmark tested.

It clobbers Llama 3.1 405B. It’s not even close. pic.twitter.com/win7cHUOob
— Matt Shumer (@mattshumer_) September 5, 2024

Reflection 70B introduce varios tokens especiales nuevos para el razonamiento y la corrección de errores, lo que facilita la interacción del usuario con el modelo de manera más estructurada. Durante la inferencia, el modelo genera su razonamiento dentro de etiquetas especiales, lo que permite correcciones en tiempo real si detecta un error.

El sitio de demostración incluye sugerencias de preguntas para el usuario, como pedirle a Reflection 70B cuántas veces aparece la letra “r” en la palabra “Strawberry” y cuál número es mayor, 9.11 o 9.9, dos problemas simples que muchos modelos de IA —incluidos algunos líderes propietarios— no logran resolver de manera consistente. Nuestras pruebas fueron lentas, pero Reflection 70B finalmente proporcionó la respuesta correcta después de más de 60 segundos.

Esto hace que el modelo sea particularmente útil para tareas que requieren alta precisión, ya que separa el razonamiento en pasos distintos para mejorar la exactitud. El modelo está disponible para descarga a través del repositorio de código de IA Hugging Face, y el acceso a la API estará disponible más tarde hoy a través del proveedor de servicios de GPU Hyperbolic Labs.

Un modelo aún más potente y grande en camino

El lanzamiento de Reflection 70B es solo el comienzo de la serie Reflection. Shumer ha anunciado que la próxima semana estará disponible un modelo aún más grande, Reflection 405B.

También le dijo a VentureBeat que HyperWrite está trabajando en la integración del modelo Reflection 70B en su principal producto de asistente de escritura con IA.

“Estamos explorando varias formas de integrar el modelo en HyperWrite; compartiré más sobre esto pronto”, prometió.

Se espera que Reflection 405B supere incluso a los principales modelos de código cerrado del mercado hoy en día. Shumer también dijo que HyperWrite publicará un informe detallando el proceso de entrenamiento y los puntos de referencia, proporcionando información sobre las innovaciones que impulsan los modelos Reflection.

El modelo subyacente de Reflection 70B está basado en Llama 3.1 70B Instruct de Meta y utiliza el formato de chat estándar de Llama, asegurando compatibilidad con las herramientas y flujos de trabajo existentes.

Shumer reconoce a Glaive por permitir un entrenamiento rápido de modelos de IA

Un contribuyente clave al éxito de Reflection 70B es el conjunto de datos sintéticos generado por Glaive, una startup especializada en la creación de conjuntos de datos específicos para casos de uso.

La plataforma de Glaive permite el entrenamiento rápido de modelos de lenguaje pequeños y altamente enfocados, ayudando a democratizar el acceso a herramientas de IA. Fundada por el ingeniero holandés Sahil Chaudhary, Glaive se centra en resolver uno de los mayores obstáculos en el desarrollo de IA: la disponibilidad de datos de alta calidad y específicos para tareas.

I want to be very clear — @GlaiveAI is the reason this worked so well.

The control they give you to generate synthetic data is insane.

I will be using them for nearly every model I build moving forward, and you should too. https://t.co/I789UIa5Yg
— Matt Shumer (@mattshumer_) September 5, 2024

El enfoque de Glaive es crear conjuntos de datos sintéticos adaptados a necesidades específicas, permitiendo a las empresas afinar modelos rápidamente y a bajo costo. La compañía ya ha demostrado éxito con modelos más pequeños, como un modelo de 3 mil millones de parámetros que superó a muchas alternativas de código abierto más grandes en tareas como HumanEval. Spark Capital lideró una ronda semilla de $3.5 millones para Glaive hace más de un año, apoyando la visión de Sahil de crear un ecosistema de IA comoditizado donde los modelos especializados puedan ser entrenados fácilmente para cualquier tarea.

Al aprovechar la tecnología de Glaive, el equipo de Reflection pudo generar rápidamente datos sintéticos de alta calidad para entrenar Reflection 70B. Shumer le atribuye a Sahil y a la plataforma de Glaive el haber acelerado el proceso de desarrollo, con datos generados en horas en lugar de semanas.

En total, el proceso de entrenamiento tomó tres semanas, según Shumer en un mensaje directo a VentureBeat. “Entrenamos cinco iteraciones del modelo en tres semanas”, escribió. “El conjunto de datos es completamente personalizado, construido utilizando los sistemas de generación de datos sintéticos de Glaive”.

HyperWrite es una rara startup de IA en Long Island

A primera vista, parece que Reflection 70B surgió de la nada. Pero Shumer ha estado en el juego de la IA durante años.

Fundó su empresa, inicialmente llamada Otherside AI, en 2020 junto a Jason Kuperberg. Inicialmente estaba basada en Melville, Nueva York, un poblado a una hora en coche al este de la ciudad de Nueva York en Long Island.

Ganó tracción alrededor de su producto insignia, HyperWrite, que comenzó como una extensión de Chrome para que los consumidores redactaran correos electrónicos y respuestas basadas en puntos clave, pero ha evolucionado para manejar tareas como la redacción de ensayos, la creación de resúmenes de texto e incluso la organización de correos electrónicos. HyperWrite contaba con dos millones de usuarios en noviembre de 2023 y le valió a los cofundadores un lugar en la lista anual “30 Under 30” de Forbes, lo que finalmente llevó a Shumer y Kuperberg y a su creciente equipo a cambiar el nombre de la empresa.

La última ronda de HyperWrite, revelada en marzo de 2023, vio una inyección de $2.8 millones de inversores, incluidos Madrona Venture Group. Con este financiamiento, HyperWrite ha introducido nuevas funciones impulsadas por IA, como convertir los navegadores web en mayordomos virtuales que pueden manejar tareas que van desde reservar vuelos hasta encontrar candidatos laborales en LinkedIn.

Shumer señala que la precisión y la seguridad siguen siendo las principales prioridades para HyperWrite, especialmente a medida que exploran tareas de automatización más complejas. La plataforma aún está refinando su herramienta de asistente personal al monitorear y realizar mejoras basadas en los comentarios de los usuarios. Este enfoque cauteloso, similar al razonamiento estructurado y la reflexión integrados en Reflection 70B, muestra el compromiso de Shumer con la precisión y la responsabilidad en el desarrollo de IA.

¿Qué sigue para HyperWrite y la familia de modelos de IA Reflection?

Mirando hacia el futuro, Shumer tiene planes aún más grandes para la serie Reflection. Con el lanzamiento de Reflection 405B en puerta, cree que superará el rendimiento incluso de los LLM propietarios o de código cerrado como GPT-4o de OpenAI, actualmente el líder mundial, por un margen significativo.

Eso es malas noticias no solo para OpenAI —que, según se informa, busca recaudar una nueva ronda significativa de inversión privada de empresas como Nvidia y Apple— sino también para otros proveedores de modelos de código cerrado como Anthropic e incluso Microsoft.

Parece que, una vez más, en el rápido mundo de la IA generativa, el equilibrio de poder ha cambiado.

Por ahora, el lanzamiento de Reflection 70B marca un hito importante para la IA de código abierto, dando a desarrolladores e investigadores acceso a una herramienta poderosa que rivaliza con las capacidades de los modelos propietarios. A medida que la IA continúa evolucionando, el enfoque único de Reflection en el razonamiento y la corrección de errores puede establecer un nuevo estándar para lo que los modelos de código abierto pueden lograr.

Vía | Reflection 70B: El nuevo líder de la IA de código abierto – Tecnología con Juancho (tecnologiaconjuancho.com)

Reflection 70B: El nuevo líder de la IA de código abierto

Lo que distingue a Reflection 70B

Un modelo aún más potente y grande en camino

Shumer reconoce a Glaive por permitir un entrenamiento rápido de modelos de IA

HyperWrite es una rara startup de IA en Long Island

¿Qué sigue para HyperWrite y la familia de modelos de IA Reflection?

Por Juan Padra

Google lanza Gemini 2.5 Pro: 1M de tokens y récord en IA

3 claves del impacto de DeepSeek en las acciones de EE.UU. y la caída de Nvidia

5 ventajas de la nueva generación de imágenes de ChatGPT con GPT-4o

Deja una respuesta Cancelar la respuesta

No te pierdas esto

Amazon se une a la puja por TikTok antes del plazo límite

GPT-4o vs DALL-E: ¿Cuál genera mejores imágenes con IA?

Cómo desactivar las actualizaciones automáticas en iOS 18.4 y macOS 15.4

5 razones por las que LibreOffice supera a Microsoft Office en 2025

Reflection 70B: El nuevo líder de la IA de código abierto

Lo que distingue a Reflection 70B

Un modelo aún más potente y grande en camino

Shumer reconoce a Glaive por permitir un entrenamiento rápido de modelos de IA

HyperWrite es una rara startup de IA en Long Island

¿Qué sigue para HyperWrite y la familia de modelos de IA Reflection?

Por Juan Padra

Entrada relacionada

Google lanza Gemini 2.5 Pro: 1M de tokens y récord en IA

3 claves del impacto de DeepSeek en las acciones de EE.UU. y la caída de Nvidia

5 ventajas de la nueva generación de imágenes de ChatGPT con GPT-4o

Deja una respuesta Cancelar la respuesta

No te pierdas esto

Amazon se une a la puja por TikTok antes del plazo límite

GPT-4o vs DALL-E: ¿Cuál genera mejores imágenes con IA?

Cómo desactivar las actualizaciones automáticas en iOS 18.4 y macOS 15.4

5 razones por las que LibreOffice supera a Microsoft Office en 2025