Los robots humanoides podrían marcar el próximo gran avance de la humanidad, según Rev Lebaredian, vicepresidente de Omniverso y Tecnología de Simulación en Nvidia. En esta carrera tecnológica, Google ha dado un paso adelante con Gemini Robotics, su modelo de inteligencia artificial (IA) diseñado para robots industriales y humanoides. Este desarrollo ya está siendo probado por compañías líderes como Apptronik, Agile Robots, Agility Robots, Boston Dynamics y Enchanted Tools.
Meet Gemini Robotics: our latest AI models designed for a new generation of helpful robots. 🤖
— Google DeepMind (@GoogleDeepMind) March 12, 2025
Based on Gemini 2.0, they bring capabilities such as better reasoning, interactivity, dexterity and generalization into the physical world. 🧵 https://t.co/EXRJrmxGxl pic.twitter.com/MeEkRLomXm
Hasta ahora, los robots han sido mecanismos limitados a tareas repetitivas, sin capacidad de aprendizaje ni adaptación. Sin embargo, para Dennis Hong, fundador de RoMeLa, el futuro está en robots que puedan ejecutar cualquier acción humana, lo que requiere una IA avanzada basada en modelos de lenguaje (LLM).
Google DeepMind ha trabajado en esta dirección con Gemini Robotics, enfocándose en enseñar a los robots habilidades complejas de manipulación fina, como atarse los zapatos. Carolina Parada, directora de ingeniería en Google DeepMind, explica que el objetivo es lograr robots realmente útiles, capaces de comprender su entorno, interactuar con seguridad y actuar con destreza.
Las pruebas han mostrado avances prometedores: los robots pueden identificar y manipular objetos según su color, aunque estos cambien de ubicación. No obstante, como señala Kanisha Rao, aún tienen dificultades en entornos desconocidos. Para mejorar, la IA debe interpretar el lenguaje natural, analizar el mundo físico con precisión y evaluar las consecuencias de sus acciones, según Vikas Sindhwani, investigador de Google DeepMind.

En cuanto a la seguridad, los investigadores trabajan para que los robots cumplan principios fundamentales, inspirados en las tres leyes de Asimov: no dañar a los humanos, obedecer órdenes sin entrar en conflicto con la seguridad y proteger su propia existencia.
Google ha desarrollado dos modelos clave para la robotización: VLA (visión-lenguaje-acción), basado en Gemini 2.0 con integración de acciones físicas, y ER (embodied reasoning), centrado en el razonamiento aplicado al mundo real. Estos avances buscan trasladar la inteligencia artificial del ámbito digital al físico, con robots que no solo comprendan su entorno, sino que también actúen con autonomía y precisión.
Introducing two new AI models from @GoogleDeepMind, based on Gemini 2.0, that lay the foundation for a new generation of helpful robots: Gemini Robotics, a vision-language-action model adds physical actions as a new modality, and Gemini Robotics-ER, a vision-language model that… https://t.co/i7ubkIR6s1
— Google (@Google) March 12, 2025