OpenAI se apresuró a defender su posición en el mercado este viernes con el lanzamiento de o3-mini, una respuesta directa al modelo R1 de la startup china DeepSeek, que sacudió a la industria de la inteligencia artificial al igualar el rendimiento de los mejores modelos con una fracción del costo computacional.
“Estamos lanzando OpenAI o3-mini, el modelo más nuevo y rentable de nuestra serie de razonamiento, disponible tanto en ChatGPT como en la API a partir de hoy”, dijo OpenAI en una publicación oficial de su blog. “Presentado en diciembre de 2024, este modelo potente y rápido amplía los límites de lo que los modelos pequeños pueden lograr (…) manteniendo el bajo costo y la latencia reducida de OpenAI o1-mini”.
OpenAI también ofreció por primera vez capacidades de razonamiento de forma gratuita a los usuarios, mientras triplicó el límite diario de mensajes para los clientes de pago, de 50 a 150, para impulsar el uso de la nueva familia de modelos de razonamiento.
A diferencia de GPT-4o y la familia de modelos GPT, la familia “o” de modelos de IA se centra en tareas de razonamiento. Son menos creativos, pero tienen integrado un razonamiento paso a paso que los hace más capaces de resolver problemas complejos, corregir análisis incorrectos y generar código mejor estructurado.
En resumen, OpenAI tiene dos familias principales de modelos de IA: los Transformers Preentrenados Generativos (GPT) y los “Omni” (o).
- GPT es como el artista de la familia: un tipo de cerebro derecho, es bueno para rolear, conversar, escritura creativa, resúmenes, explicaciones, lluvia de ideas, chats, etc.
- O es el nerdo de la familia. No sabe contar historias, pero es genial para programar, resolver ecuaciones matemáticas, analizar problemas complejos, planificar su proceso de razonamiento paso a paso, comparar investigaciones científicas, etc.
El nuevo o3-mini viene en tres versiones: baja, media y alta. Estas subcategorías brindarán a los usuarios respuestas más precisas a cambio de más “inferencia” (lo que resulta más costoso para los desarrolladores, que pagan por token).
OpenAI o3-mini, enfocado en la eficiencia, es inferior a OpenAI o1-mini en conocimiento general y razonamiento multilingüe, pero tiene mejor desempeño en otras tareas como programación o verificación de hechos. Los otros modelos (o3-mini medium y o3-mini high) superan a OpenAI o1-mini en todos los benchmarks.
El avance de DeepSeek, que logró mejores resultados que el modelo insignia de OpenAI utilizando solo una fracción del poder computacional, desencadenó una venta masiva de acciones tecnológicas que eliminó casi $1 billón de los mercados estadounidenses. Solo Nvidia perdió $600 mil millones en valor de mercado, ya que los inversores cuestionaron la demanda futura de sus costosos chips de IA.
La brecha de eficiencia surgió del enfoque innovador de DeepSeek en la arquitectura de modelos. Mientras las empresas estadounidenses se enfocaban en aumentar el poder computacional para el desarrollo de IA, el equipo de DeepSeek encontró formas de optimizar cómo los modelos procesan la información, haciéndolos más eficientes. La presión competitiva se intensificó cuando el gigante tecnológico chino Alibaba lanzó Qwen2.5 Max, un modelo aún más capaz que el que DeepSeek usó como base, abriendo el camino a lo que podría ser una nueva ola de innovación en IA china.
OpenAI o3-mini intenta aumentar esa brecha una vez más. El nuevo modelo funciona un 24% más rápido que su predecesor y supera o iguala a los modelos anteriores en benchmarks clave, mientras cuesta menos operar.
Su precio también es más competitivo. Las tarifas de OpenAI o3-mini—$0.55 por millón de tokens de entrada y $4.40 por millón de tokens de salida—son mucho más altas que las de DeepSeek R1, que cuesta $0.14 y $2.19 por los mismos volúmenes. Sin embargo, reducen la brecha entre OpenAI y DeepSeek y representan un recorte importante en comparación con los precios de OpenAI o1.
Y eso podría ser clave para su éxito. OpenAI o3-mini es de código cerrado, a diferencia de DeepSeek R1, que es gratuito, pero para aquellos dispuestos a pagar por su uso en servidores alojados, el atractivo aumentará según el uso previsto.
OpenAI o3-mini medium obtiene 79.6 en el benchmark AIME de problemas matemáticos. DeepSeek R1 obtiene 79.8, una puntuación que solo es superada por el modelo más potente de la familia, OpenAI o3-mini high, que alcanza 87.3 puntos.
El mismo patrón se observa en otros benchmarks: las marcas GPQA, que miden la competencia en diferentes disciplinas científicas, son 71.5 para DeepSeek R1, 70.6 para o3-mini low y 79.7 para o3-mini high. R1 está en el percentil 96.3 en Codeforces, un benchmark para tareas de programación, mientras que o3-mini low está en el percentil 93 y o3-mini high en el 97.
Así que las diferencias existen, pero en términos de benchmarks, pueden ser insignificantes según el modelo elegido para ejecutar una tarea.
Probando OpenAI o3-mini frente a DeepSeek R1
Probamos el modelo con algunas tareas para ver cómo se desempeñaba frente a DeepSeek R1.
La primera tarea fue un juego de espías para probar su capacidad de razonamiento de múltiples pasos. Elegimos la misma muestra del conjunto de datos BIG-bench en Github que usamos para evaluar DeepSeek R1. (La historia completa está disponible aquí e involucra un viaje escolar a un lugar remoto y nevado, donde estudiantes y profesores enfrentan una serie de desapariciones extrañas; el modelo debe descubrir quién era el acosador).
OpenAI o3-mini no lo hizo bien y llegó a conclusiones incorrectas en la historia. Según la respuesta proporcionada por la prueba, el nombre del acosador es Leo. DeepSeek R1 acertó, mientras que OpenAI o3-mini se equivocó, diciendo que el nombre del acosador era Eric. (Dato curioso: no podemos compartir el enlace a la conversación porque OpenAI la marcó como insegura).
El modelo es bastante bueno en tareas de lenguaje lógico que no involucran matemáticas. Por ejemplo, le pedimos al modelo que escribiera cinco oraciones que terminaran en una palabra específica, y fue capaz de entender la tarea, evaluar los resultados y proporcionar una respuesta final. Pensó en su respuesta durante cuatro segundos, corrigió una respuesta incorrecta y dio una respuesta completamente acertada.
También es muy bueno en matemáticas, demostrando ser capaz de resolver problemas considerados extremadamente difíciles en algunos benchmarks. El mismo problema complejo que le tomó a DeepSeek R1 275 segundos resolver, OpenAI o3-mini lo completó en solo 33 segundos.
Así que un esfuerzo bastante bueno, OpenAI. Ahora te toca a ti, DeepSeek.
Vía | Descubre cómo OpenAI o3-mini compite con DeepSeek R1 en IA – Tecnología con Juancho