Google Gemini es bueno en muchas cosas que suceden dentro de una pantalla, como generar texto e imágenes. Sin embargo, el modelo más reciente, Google Robotics, es un modelo de visión, lenguaje y acción que lleva la inteligencia artificial generativa al mundo físico y podría acelerar significativamente la carrera de la revolución de los robots humanoides.
Gemini Robotics, presentado por DeepMind de Google el miércoles, mejora las habilidades de Gemini en tres áreas clave: destreza, interactividad y generalización. Cada uno de estos aspectos tiene un impacto importante en el éxito de los robots en el trabajo y en entornos desconocidos.

La generalización permite que un robot tome el vasto conocimiento de Gemini sobre el mundo y las cosas, lo aplique a nuevas situaciones y realice tareas para las que no ha sido entrenado. En un video, los investigadores muestran un par de brazos robóticos controlados por Gemini Robotics jugando un partido de baloncesto de mesa y le piden que “haga un mate con la pelota”. Aunque el robot no había visto el juego antes, tomó la pequeña pelota naranja y la metió en la red de plástico.
Gemini Robotics también hace que los robots sean más interactivos y capaces de responder no solo a instrucciones verbales cambiantes, sino también a condiciones impredecibles. En otro video, los investigadores le pidieron al robot que pusiera uvas en un tazón con plátanos, pero luego movieron el tazón mientras el brazo robótico se ajustaba y aún así logró poner las uvas en el tazón.
Google también demostró las habilidades de destreza del robot, que le permiten hacer cosas como jugar tres en raya en un tablero de madera, borrar una pizarra y doblar papel para hacer origami. En lugar de horas de entrenamiento para cada tarea, los robots responden a instrucciones en lenguaje natural casi constantes y realizan las tareas sin guía. Es impresionante de ver.
Claro, agregar inteligencia artificial a la robótica no es algo nuevo. El año pasado, OpenAI se asoció con Figure AI para desarrollar un robot humanoide que pueda realizar tareas basadas en instrucciones verbales. Al igual que con Gemini Robotics, el modelo de lenguaje visual de Figure 01 trabaja con el modelo de voz de OpenAI para mantener conversaciones sobre tareas y prioridades cambiantes.
En la demostración, el robot humanoide está frente a platos y un escurridor. Se le pregunta qué ve, y lo enumera, pero luego el interlocutor cambia la tarea y le pide algo para comer. Sin perder el ritmo, el robot toma una manzana y se la entrega.

Aunque gran parte de lo que Google mostró en los videos eran brazos y manos robóticas realizando una amplia gama de tareas físicas, hay planes más ambiciosos. Google se está asociando con Apptroniks para agregar el nuevo modelo a su robot humanoide Apollo.
Google conectará los puntos con programación adicional, un nuevo modelo avanzado de lenguaje visual llamado Gemini Robotics-ER (razonamiento encarnado). Gemini Robotics-ER mejorará el razonamiento espacial de los robots y debería ayudar a los desarrolladores a conectar los modelos a los controladores existentes.
Esto debería mejorar el razonamiento en tiempo real y permitir que los robots descubran rápidamente cómo agarrar y usar objetos desconocidos. Google llama a Gemini Robotics ER una solución integral y afirma que “puede realizar todos los pasos necesarios para controlar un robot directamente, incluyendo percepción, estimación de estado, comprensión espacial, planificación y generación de código”.
Google está proporcionando el modelo Gemini Robotics-ER a varias empresas y centros de investigación enfocados en robótica, incluyendo Boston Dynamics (creadores de Atlas), Agile Robots y Agility Robots.
En general, es una gran oportunidad para los desarrolladores de robots humanoides. Sin embargo, como la mayoría de estos robots están diseñados para fábricas o aún están en laboratorios, puede que pase un tiempo antes de que tengas un robot mejorado con Gemini en tu hogar.