Un nuevo modelo de inteligencia artificial desarrollado en China, DeepSeek-R1, ha captado la atención de la comunidad científica por su capacidad de razonamiento y su accesibilidad en comparación con alternativas como el modelo o1 de OpenAI. Este avance representa una opción asequible y con mayor apertura para la investigación.
Un salto en el razonamiento automatizado
DeepSeek-R1 se destaca por su habilidad para generar respuestas de manera estructurada, simulando el razonamiento humano paso a paso. Esto lo convierte en una herramienta valiosa para resolver problemas científicos en áreas como la química, las matemáticas y la programación. Las pruebas iniciales, publicadas el 20 de enero, indican que su desempeño es equiparable al del modelo o1 de OpenAI, lanzado en septiembre pasado.
Elvis Saravia, investigador de inteligencia artificial y cofundador de DAIR.AI en el Reino Unido, expresó su sorpresa en la plataforma X: “Esto es salvaje y totalmente inesperado”.
Accesibilidad y modelo de código abierto
DeepSeek, la startup con sede en Hangzhou que desarrolló R1, ha optado por un enfoque de “open-weight”, permitiendo a los investigadores examinar y mejorar el modelo. Aunque no es completamente de código abierto debido a la falta de acceso a los datos de entrenamiento, su licencia MIT facilita su reutilización.
Mario Krenn, director del Laboratorio de Científicos Artificiales del Instituto Max Planck en Alemania, destacó la importancia de esta apertura en contraste con modelos de OpenAI como o1 y o3, los cuales operan como “cajas negras”. Además, DeepSeek ofrece una solución mucho más económica: ejecutar consultas en R1 cuesta aproximadamente una trigésima parte del precio de hacerlo en o1. También se han desarrollado versiones más ligeras del modelo para que investigadores con recursos limitados puedan experimentarlo.
Un ejemplo de esta diferencia de costos lo menciona Krenn: un experimento que con o1 costaba más de 370 dólares, con R1 se redujo a menos de 10 dólares, lo que podría acelerar su adopción en el futuro.
China avanza en la carrera de la IA
El lanzamiento de R1 forma parte de una ola de innovaciones en modelos de lenguaje en China. DeepSeek, originada en un fondo de inversión, sorprendió recientemente al lanzar su chatbot V3, que superó a competidores importantes a pesar de su presupuesto reducido. Según expertos, el entrenamiento del modelo costó cerca de 6 millones de dólares, significativamente menos que los más de 60 millones de dólares invertidos en Llama 3.1 405B de Meta.
El éxito de DeepSeek cobra aún más relevancia considerando las restricciones impuestas por EE.UU. a la exportación de chips avanzados para IA a China. “El hecho de que provenga de China demuestra que la eficiencia en el uso de recursos es más importante que la simple capacidad de cómputo”, afirmó François Chollet, investigador de IA en Seattle.
Alvin Wang Graylin, experto en tecnología de HTC, comentó en X que “la ventaja percibida de EE.UU. se ha reducido significativamente” y sugirió que ambas naciones deberían colaborar en lugar de competir en una “carrera armamentista sin salida”.
Hacia un futuro con modelos de IA más avanzados
Los modelos de lenguaje de gran tamaño (LLM) funcionan analizando miles de millones de textos y dividiéndolos en fragmentos llamados tokens, lo que les permite identificar patrones y predecir palabras en una oración. Sin embargo, todavía enfrentan problemas como la “alucinación”, donde generan información inexacta, y dificultades para razonar de manera efectiva.
DeepSeek-R1 promete mejorar en estos aspectos y su bajo costo, combinado con su estructura abierta, podría marcar un cambio en la forma en que los científicos y desarrolladores trabajan con la inteligencia artificial en el futuro.