• 30 enero, 2025

Carlos Garsés

Profesional IT

DeepSeek: La IA revolucionaria que reta a los gigantes tecnológicos

Ene 28, 2025

Un laboratorio chino de inteligencia artificial ha logrado más que simplemente construir un modelo de IA más económico: ha expuesto la ineficiencia del enfoque de toda la industria.

El avance de DeepSeek demostró cómo un equipo pequeño, en un esfuerzo por ahorrar dinero, pudo replantear la manera en que se construyen los modelos de IA. Mientras gigantes tecnológicos como OpenAI y Anthropic gastan miles de millones de dólares únicamente en poder de cómputo, DeepSeek supuestamente logró resultados similares por poco más de $5 millones.

El modelo de la compañía iguala o supera a GPT-4o (el mejor modelo LLM de OpenAI), OpenAI o1 (su modelo de razonamiento más avanzado) y Claude 3.5 Sonnet de Anthropic en muchas pruebas de referencia, utilizando aproximadamente 2.788 millones de horas de GPU H800 para todo su entrenamiento. Esto representa una fracción mínima del hardware que tradicionalmente se considera necesario.

El modelo es tan bueno y eficiente que rápidamente se posicionó en la cima de las aplicaciones de productividad en iOS, desafiando la hegemonía de OpenAI.

La necesidad es la madre de la innovación. El equipo logró este avance utilizando técnicas que los desarrolladores estadounidenses no necesitaban considerar y que aún no dominan. Quizás la más importante fue que, en lugar de usar cálculos de precisión completa, DeepSeek implementó un entrenamiento en 8 bits, reduciendo los requisitos de memoria en un 75 %.

“Descubrieron cómo usar entrenamiento en punto flotante de 8 bits, al menos para algunos cálculos,” dijo Aravind Srinivas, CEO de Perplexity, a CNBC. “Hasta donde sé, creo que el entrenamiento en punto flotante de 8 bits no está tan bien entendido. La mayoría de los entrenamientos en Estados Unidos aún se realizan en FP16”.

El FP8 utiliza la mitad del ancho de banda y almacenamiento de memoria en comparación con el FP16. Para modelos de IA grandes con miles de millones de parámetros, esta reducción es significativa. DeepSeek tuvo que dominar esto debido a su hardware limitado, algo que OpenAI nunca ha enfrentado.

DeepSeek también desarrolló un sistema de “múltiples tokens” que procesa frases completas en lugar de palabras individuales, duplicando la velocidad del sistema y manteniendo un 90 % de precisión.

Otra técnica que emplearon fue la “destilación”, que permite que un modelo pequeño replique las salidas de uno más grande sin entrenarlo en la misma base de datos de conocimiento. Esto les permitió lanzar modelos más pequeños, extremadamente eficientes, precisos y competitivos.

Además, utilizaron una técnica llamada “mezcla de expertos,” que mejoró la eficiencia del modelo. Mientras los modelos tradicionales mantienen todos sus parámetros activos constantemente, el sistema de DeepSeek utiliza 671 mil millones de parámetros totales, pero solo activa 37 mil millones a la vez. Es como tener un equipo grande de especialistas, pero solo convocar a los expertos necesarios para tareas específicas.

“Usamos DeepSeek-R1 como modelo maestro para generar 800,000 muestras de entrenamiento y afinamos varios modelos densos pequeños. Los resultados son prometedores: DeepSeek-R1-Distill-Qwen-1.5B supera a GPT-4o y Claude-3.5-Sonnet en pruebas matemáticas con un 28.9 % en AIME y un 83.9 % en MATH,” escribió DeepSeek en su informe.

Para dar contexto, 1.5 mil millones es tan pequeño en términos de parámetros que no se considera un LLM (modelo de lenguaje grande), sino un SLM (modelo de lenguaje pequeño). Los SLM requieren tan poca computación y memoria que los usuarios pueden ejecutarlos en dispositivos básicos como teléfonos inteligentes.

Las implicaciones de costos son sorprendentes. Más allá de una reducción del 95 % en los costos de entrenamiento, la API de DeepSeek cobra solo 10 centavos por millón de tokens, en comparación con los $4.40 de servicios similares. Un desarrollador informó haber procesado 200,000 solicitudes de API por aproximadamente 50 centavos, sin restricciones de uso.

El “efecto DeepSeek” ya es evidente. “Voy a decir lo que nadie quiere admitir: construir modelos de IA es una trampa de dinero,” dijo el inversor Chamath Palihapitiya. A pesar de los golpes recibidos por DeepSeek, el CEO de OpenAI, Sam Altman, redujo rápidamente su enfoque de exprimir dinero a los usuarios, tras las alabanzas en redes sociales sobre personas logrando con DeepSeek lo mismo que OpenAI cobra $200 al mes.

Mientras tanto, la app de DeepSeek lidera las listas de descargas, y tres de los seis repositorios más populares en Github están relacionados con DeepSeek.

La mayoría de las acciones de empresas de IA están cayendo, ya que los inversores cuestionan si el entusiasmo por esta tecnología está en niveles de burbuja. Tanto las acciones de hardware (Nvidia, AMD) como de software de IA (Microsoft, Meta y Google) están sufriendo las consecuencias del cambio de paradigma provocado por el anuncio de DeepSeek y los resultados compartidos por usuarios y desarrolladores.

Incluso los tokens de criptomonedas relacionados con IA se han visto afectados, con una avalancha de imitadores de tokens de DeepSeek intentando estafar a inversores inexpertos.

Más allá del impacto financiero, lo que queda claro es que el avance de DeepSeek sugiere que el desarrollo de IA podría no requerir enormes centros de datos ni hardware especializado. Esto podría alterar fundamentalmente el panorama competitivo, transformando lo que muchos consideraban ventajas permanentes de las grandes tecnológicas en liderazgos temporales.

El momento resulta casi irónico. Días antes del anuncio de DeepSeek, el expresidente Trump, Sam Altman de OpenAI y el fundador de Oracle presentaron el Proyecto Stargate, una inversión de $500 mil millones en infraestructura de IA en EE. UU. Mientras tanto, Mark Zuckerberg duplicó el compromiso de Meta de invertir miles de millones en IA, y la inversión de $13 mil millones de Microsoft en OpenAI parece menos una genialidad estratégica y más un caso de FOMO impulsado por un desperdicio de recursos.

“Lo que hicieron para evitar que los alcanzaran no importó,” dijo Srinivas a CNBC. “De todos modos, los alcanzaron.”

Vía | DeepSeek: La IA revolucionaria que reta a los gigantes tecnológicos – Tecnología con Juancho

Por Juan Padra

Más de 40 años de experiencia en tecnología. DJ, enseñanza del español y radio en línea. Profesional versátil y apasionado de la música y la tecnología. ¡Bienvenido a mi perfil!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Verificado por MonsterInsights