Un laboratorio chino de inteligencia artificial ha logrado más que simplemente construir un modelo de IA más económico: ha expuesto la ineficiencia del enfoque de toda la industria.
El avance de DeepSeek demostró cómo un equipo pequeño, en un esfuerzo por ahorrar dinero, pudo replantear la manera en que se construyen los modelos de IA. Mientras gigantes tecnológicos como OpenAI y Anthropic gastan miles de millones de dólares únicamente en poder de cómputo, DeepSeek supuestamente logró resultados similares por poco más de $5 millones.
El modelo de la compañía iguala o supera a GPT-4o (el mejor modelo LLM de OpenAI), OpenAI o1 (su modelo de razonamiento más avanzado) y Claude 3.5 Sonnet de Anthropic en muchas pruebas de referencia, utilizando aproximadamente 2.788 millones de horas de GPU H800 para todo su entrenamiento. Esto representa una fracción mínima del hardware que tradicionalmente se considera necesario.
El modelo es tan bueno y eficiente que rápidamente se posicionó en la cima de las aplicaciones de productividad en iOS, desafiando la hegemonía de OpenAI.
DeepSeek you ask? Their latest, DeepSeek-R1, is matching the big players' LLM performance, think ChatGPT or Gemini, but here's the kicker: they allegedly did it for a fraction of the cost, just $5.5 million, while the likes of OpenAI and Google are spending tens to hundreds of… pic.twitter.com/YLCFZtc7AO
— Wolfe (@everytimeicash) January 27, 2025
La necesidad es la madre de la innovación. El equipo logró este avance utilizando técnicas que los desarrolladores estadounidenses no necesitaban considerar y que aún no dominan. Quizás la más importante fue que, en lugar de usar cálculos de precisión completa, DeepSeek implementó un entrenamiento en 8 bits, reduciendo los requisitos de memoria en un 75 %.
“Descubrieron cómo usar entrenamiento en punto flotante de 8 bits, al menos para algunos cálculos,” dijo Aravind Srinivas, CEO de Perplexity, a CNBC. “Hasta donde sé, creo que el entrenamiento en punto flotante de 8 bits no está tan bien entendido. La mayoría de los entrenamientos en Estados Unidos aún se realizan en FP16”.
El FP8 utiliza la mitad del ancho de banda y almacenamiento de memoria en comparación con el FP16. Para modelos de IA grandes con miles de millones de parámetros, esta reducción es significativa. DeepSeek tuvo que dominar esto debido a su hardware limitado, algo que OpenAI nunca ha enfrentado.
DeepSeek también desarrolló un sistema de “múltiples tokens” que procesa frases completas en lugar de palabras individuales, duplicando la velocidad del sistema y manteniendo un 90 % de precisión.
Otra técnica que emplearon fue la “destilación”, que permite que un modelo pequeño replique las salidas de uno más grande sin entrenarlo en la misma base de datos de conocimiento. Esto les permitió lanzar modelos más pequeños, extremadamente eficientes, precisos y competitivos.
Además, utilizaron una técnica llamada “mezcla de expertos,” que mejoró la eficiencia del modelo. Mientras los modelos tradicionales mantienen todos sus parámetros activos constantemente, el sistema de DeepSeek utiliza 671 mil millones de parámetros totales, pero solo activa 37 mil millones a la vez. Es como tener un equipo grande de especialistas, pero solo convocar a los expertos necesarios para tareas específicas.
“Usamos DeepSeek-R1 como modelo maestro para generar 800,000 muestras de entrenamiento y afinamos varios modelos densos pequeños. Los resultados son prometedores: DeepSeek-R1-Distill-Qwen-1.5B supera a GPT-4o y Claude-3.5-Sonnet en pruebas matemáticas con un 28.9 % en AIME y un 83.9 % en MATH,” escribió DeepSeek en su informe.
Para dar contexto, 1.5 mil millones es tan pequeño en términos de parámetros que no se considera un LLM (modelo de lenguaje grande), sino un SLM (modelo de lenguaje pequeño). Los SLM requieren tan poca computación y memoria que los usuarios pueden ejecutarlos en dispositivos básicos como teléfonos inteligentes.
Clearly you don't understand OpenAI needs billions of dollars of hardware to answer the same question the DeepSeek can answer on your home computer without an internet connection.
— Financelot (@FinanceLancelot) January 26, 2025
It literally costs 97% less per query. pic.twitter.com/EBc0dHjaru
Las implicaciones de costos son sorprendentes. Más allá de una reducción del 95 % en los costos de entrenamiento, la API de DeepSeek cobra solo 10 centavos por millón de tokens, en comparación con los $4.40 de servicios similares. Un desarrollador informó haber procesado 200,000 solicitudes de API por aproximadamente 50 centavos, sin restricciones de uso.
El “efecto DeepSeek” ya es evidente. “Voy a decir lo que nadie quiere admitir: construir modelos de IA es una trampa de dinero,” dijo el inversor Chamath Palihapitiya. A pesar de los golpes recibidos por DeepSeek, el CEO de OpenAI, Sam Altman, redujo rápidamente su enfoque de exprimir dinero a los usuarios, tras las alabanzas en redes sociales sobre personas logrando con DeepSeek lo mismo que OpenAI cobra $200 al mes.
ok we heard y’all.
— Sam Altman (@sama) January 25, 2025
*plus tier will get 100 o3-mini queries per DAY (!)
*we will bring operator to plus tier as soon as we can
*our next agent will launch with availability in the plus tier
enjoy 😊 https://t.co/w8sFsq6mI1
Mientras tanto, la app de DeepSeek lidera las listas de descargas, y tres de los seis repositorios más populares en Github están relacionados con DeepSeek.
La mayoría de las acciones de empresas de IA están cayendo, ya que los inversores cuestionan si el entusiasmo por esta tecnología está en niveles de burbuja. Tanto las acciones de hardware (Nvidia, AMD) como de software de IA (Microsoft, Meta y Google) están sufriendo las consecuencias del cambio de paradigma provocado por el anuncio de DeepSeek y los resultados compartidos por usuarios y desarrolladores.
Incluso los tokens de criptomonedas relacionados con IA se han visto afectados, con una avalancha de imitadores de tokens de DeepSeek intentando estafar a inversores inexpertos.
Más allá del impacto financiero, lo que queda claro es que el avance de DeepSeek sugiere que el desarrollo de IA podría no requerir enormes centros de datos ni hardware especializado. Esto podría alterar fundamentalmente el panorama competitivo, transformando lo que muchos consideraban ventajas permanentes de las grandes tecnológicas en liderazgos temporales.
While Anthropic and OpenAI were busy boasting and trying to hype things up to attract heavy investments, DeepSeek came out of nowhere and completely washed them off.pic.twitter.com/NkNpYYcGUg
— AshutoshShrivastava (@ai_for_success) January 27, 2025
El momento resulta casi irónico. Días antes del anuncio de DeepSeek, el expresidente Trump, Sam Altman de OpenAI y el fundador de Oracle presentaron el Proyecto Stargate, una inversión de $500 mil millones en infraestructura de IA en EE. UU. Mientras tanto, Mark Zuckerberg duplicó el compromiso de Meta de invertir miles de millones en IA, y la inversión de $13 mil millones de Microsoft en OpenAI parece menos una genialidad estratégica y más un caso de FOMO impulsado por un desperdicio de recursos.
“Lo que hicieron para evitar que los alcanzaran no importó,” dijo Srinivas a CNBC. “De todos modos, los alcanzaron.”
Vía | DeepSeek: La IA revolucionaria que reta a los gigantes tecnológicos – Tecnología con Juancho