Google I/O 2024: IA generativa, nuevos productos y actualizaciones

¡Por fin llegó el momento que esperaste todo el año: el día de la keynote de Google I/O! Google inicia su conferencia para desarrolladores cada año con un torrente de anuncios, incluyendo muchos lanzamientos de cosas nuevas en las que ha estado trabajando. Brian ya nos puso en contexto compartiendo lo que esperábamos.

Como quizás no tuviste tiempo de ver la presentación completa de dos horas el martes, nosotros nos encargamos y te entregamos los puntos más importantes del keynote a medida que se anunciaban, todo en una lista fácil de digerir y de revisar rápidamente. ¡Aquí vamos!

Firebase Genkit

Hay una nueva incorporación a la plataforma Firebase, llamada Firebase Genkit, que busca facilitar la creación de aplicaciones con inteligencia artificial para desarrolladores de JavaScript/TypeScript, y próximamente con soporte para Go. Es un framework de código abierto, con licencia Apache 2.0, que permite a los desarrolladores integrar rápidamente la IA en aplicaciones nuevas y existentes.

Algunos de los casos de uso de Genkit que la empresa destacó el martes incluyen muchos de los casos estándar de la IA generativa: generación y resumen de contenido, traducción de textos y generación de imágenes.

IA hasta el hartazgo

La presentación de Google I/O del martes duró 110 minutos, pero Google logró mencionar la IA 121 veces (según su propio conteo). El CEO Sundar Pichai mencionó esta cifra para cerrar la presentación, bromeando que la empresa estaba haciendo el “duro trabajo” de contar por nosotros. Nuevamente, no fue sorpresa, estábamos preparados.

IA generativa para el aprendizaje

También hoy, Google presentó LearnLM, una nueva familia de modelos de IA generativa “afinados” para el aprendizaje. Es una colaboración entre la división de investigación de IA de Google, DeepMind, y Google Research. Los modelos LearnLM están diseñados para tutelar “conversacionalmente” a los estudiantes en una variedad de temas, según Google.

Aunque ya está disponible en varias plataformas de Google, la empresa está llevando a cabo un programa piloto de LearnLM en Google Classroom. También está trabajando con educadores para ver cómo LearnLM podría simplificar y mejorar el proceso de planificación de lecciones. LearnLM podría ayudar a los maestros a descubrir nuevas ideas, contenido y actividades, o encontrar materiales adaptados a las necesidades de grupos específicos de estudiantes, dice Google.

Maestro de cuestionarios

Hablando de educación, lo nuevo en YouTube son los cuestionarios generados por IA. Esta nueva herramienta de IA conversacional permite a los usuarios “levantar la mano” figurativamente mientras ven videos educativos. Los espectadores pueden hacer preguntas aclaratorias, obtener explicaciones útiles o tomar un cuestionario sobre el tema.

Esto será un alivio para quienes tienen que ver videos educativos más largos, como conferencias o seminarios, debido a las capacidades de contexto extendido del modelo Gemini. Estas nuevas funciones se están implementando para algunos usuarios de Android en Estados Unidos.

Actualizaciones de Gemini 2

Una de las principales solicitudes que Google escuchó de los desarrolladores es contar con un modelo Gemini más grande, por lo que Google agregará un nuevo modelo de 27 mil millones de parámetros a Gemini 2. Esta nueva generación de los modelos Gemini de Google se lanzará en junio. Este tamaño está optimizado por Nvidia para ejecutarse en la próxima generación de GPU y puede funcionar eficientemente en un único host TPU y Vertex AI, dijo Google.

Google Play

Google Play está recibiendo atención con una nueva función de descubrimiento para aplicaciones, nuevas formas de adquirir usuarios, actualizaciones a Play Points y otras mejoras a las herramientas para desarrolladores como Google Play SDK Console y Play Integrity API, entre otras cosas.

De particular interés para los desarrolladores es algo llamado Engage SDK, que introducirá una forma para que los creadores de aplicaciones muestren su contenido a los usuarios en una experiencia inmersiva de pantalla completa y personalizada para cada usuario individual. Sin embargo, Google dice que esta no es una superficie que los usuarios puedan ver en este momento.

Detectando estafas durante llamadas

El martes, Google presentó una función que, según cree, alertará a los usuarios sobre posibles estafas durante las llamadas.

La función, que estará integrada en una futura versión de Android, utiliza Gemini Nano, la versión más pequeña de la oferta de IA generativa de Google, que se puede ejecutar completamente en el dispositivo. El sistema escucha efectivamente patrones de conversación comúnmente asociados con estafas en tiempo real.

Google da el ejemplo de alguien que se hace pasar por un “representante bancario”. Tácticas comunes de estafadores como solicitudes de contraseñas y tarjetas de regalo también activarán el sistema. Todos estos son modos bastante conocidos de extraer tu dinero, pero aún hay mucha gente vulnerable a este tipo de estafas. Una vez activado, se mostrará una notificación de que el usuario puede estar cayendo víctima de personas inescrupulosas.

Pregunta a Fotos

Google Fotos recibirá una infusión de IA con el lanzamiento de una función experimental, Pregunta a Fotos, impulsada por el modelo de IA Gemini de Google. La nueva adición, que se lanzará este verano, permitirá a los usuarios buscar en su colección de Google Fotos usando consultas de lenguaje natural que aprovechen la comprensión de la IA sobre el contenido de sus fotos y otros metadatos.

Mientras que antes los usuarios podían buscar personas, lugares o cosas específicas en sus fotos, gracias al procesamiento de lenguaje natural, la actualización de IA hará que encontrar el contenido correcto sea más intuitivo y menos un proceso de búsqueda manual.

Y el ejemplo fue adorable también. ¿A quién no le gusta un dúo de banda de peluche de tigre/Golden Retriever llamado “Golden Stripes”?

Todo sobre Gemini

Gemini en Gmail

Los usuarios de Gmail podrán buscar, resumir y redactar sus correos electrónicos usando la tecnología de IA Gemini. También podrá realizar acciones en los emails para tareas más complejas, como ayudarte a procesar una devolución de comercio electrónico buscando en tu bandeja de entrada, encontrando el recibo y llenando un formulario en línea.

Gemini 1.5 Pro

Otra mejora a la IA generativa es que Gemini ahora puede analizar documentos, códigos, videos y grabaciones de audio más largos que antes.

En una vista previa privada de una nueva versión de Gemini 1.5 Pro, el modelo estrella actual de la compañía, se reveló que puede recibir hasta 2 millones de tokens. Es el doble del máximo anterior. Con ese nivel, la nueva versión de Gemini 1.5 Pro admite la mayor entrada de cualquier modelo disponible comercialmente.

Gemini Live

La empresa presentó una nueva experiencia en Gemini llamada Gemini Live, que permite a los usuarios tener conversaciones “profundas” por voz con Gemini en sus teléfonos inteligentes. Los usuarios pueden interrumpir a Gemini mientras el chatbot está hablando para hacer preguntas aclaratorias, y se adaptará a sus patrones de habla en tiempo real. Y Gemini puede ver y responder al entorno de los usuarios, ya sea mediante fotos o video capturados por las cámaras de sus teléfonos inteligentes.

A primera vista, Live no parece una mejora drástica sobre la tecnología existente. Pero Google afirma que aprovecha técnicas más nuevas del campo de la IA generativa para entregar un análisis de imágenes superior y menos propenso a errores, y combina estas técnicas con un motor de voz mejorado para un diálogo multi-turnos más consistente, expresivo emocionalmente y realista.

Gemini Nano

Ahora un pequeño anuncio. Google también está construyendo Gemini Nano, el modelo de IA más pequeño, directamente en el cliente de escritorio de Chrome, comenzando con Chrome 126. Esto, dice la empresa, permitirá a los desarrolladores usar el modelo en el dispositivo para impulsar sus propias funciones de IA. Google planea usar esta nueva capacidad para alimentar funciones como la herramienta existente “ayúdame a escribir” de Workspace Lab en Gmail, por ejemplo.

Gemini en Android

El Gemini de Google en Android, su reemplazo de IA para el Asistente de Google, pronto aprovechará su capacidad de integrarse profundamente con el sistema operativo móvil de Android y las aplicaciones de Google. Los usuarios podrán arrastrar y soltar imágenes generadas por IA directamente en su Gmail, Google Mensajes y otras aplicaciones. Mientras tanto, los usuarios de YouTube podrán tocar “Preguntarle a este video” para encontrar información específica dentro de ese video de YouTube, dice Google.

Gemini en Google Maps

Las capacidades del modelo Gemini llegarán a la plataforma Google Maps para desarrolladores, comenzando con la API de Places. Los desarrolladores podrán mostrar resúmenes generativos de IA de lugares y áreas en sus propias aplicaciones y sitios web. Los resúmenes se crean en base al análisis de Gemini de las ideas de más de 300 millones de contribuyentes de la comunidad de Google Maps. ¿Qué mejor? Los desarrolladores ya no tendrán que escribir sus propias descripciones personalizadas de lugares.

Aumento de rendimiento para las Unidades de Procesamiento Tensor

Google presentó su próxima generación, la sexta, de sus chips de IA Unidades de Procesamiento Tensorial (TPU). Llamada Trillium, se lanzará a fines de este año. Si recuerdas, anunciar la próxima generación de TPU es una especie de tradición en I/O, incluso cuando los chips solo se lanzan más tarde en el año.

Estas nuevas TPU contarán con un aumento de rendimiento de 4.7 veces en el rendimiento de cómputo por chip en comparación con la quinta generación. Lo que quizás sea aún más importante, es que Trillium presenta la tercera generación de SparseCore, que Google describe como “un acelerador especializado para procesar embeddings ultra grandes comunes en cargas de trabajo avanzadas de ranking y recomendación”.

IA en la búsqueda

Google está agregando más IA a su búsqueda, disipando dudas de que la empresa está perdiendo participación de mercado ante competidores como ChatGPT y Perplexity. Está implementando resúmenes de IA para usuarios en los Estados Unidos. Además, la compañía también está buscando usar Gemini como un agente para cosas como la planificación de viajes.

Google planea usar la IA generativa para organizar toda la página de resultados de búsqueda para algunos resultados. Eso es además de la función existente Vista preliminar de IA, que crea un fragmento corto con información agregada sobre un tema que buscabas. La función Vista preliminar de IA se vuelve generalmente disponible el martes, después de un período en el programa AI Labs de Google.

Actualizaciones de IA generativa

Google anunció Imagen 3, la última entrega de la familia de modelos de IA generativa Imagen de la gigante tecnológica.

Demis Hassabis, CEO de DeepMind, la división de investigación de IA de Google, dijo que Imagen 3 comprende con mayor precisión los mensajes de texto que traduce a imágenes en comparación con su predecesor, Imagen 2, y es más “creativa y detallada” en sus generaciones. Además, el modelo produce menos “artefactos y errores molestos”, agregó.

“Este es [también] nuestro mejor modelo hasta ahora para renderizar texto, lo que ha sido un desafío para los modelos de generación de imágenes”, añadió Hassabis.

Proyecto IDX

El Proyecto IDX, el próximo entorno de desarrollo basado en navegador centrado en IA de la compañía, ahora está en beta abierta. Con esta actualización viene una integración con la Plataforma Google Maps en el IDE, ayudando a agregar funciones de geolocalización a sus aplicaciones, así como integraciones con las Chrome Dev Tools y Lighthouse para ayudar a depurar aplicaciones. Pronto, Google también habilitará el despliegue de aplicaciones en Cloud Run, la plataforma sin servidor de Google Cloud para ejecutar servicios front-end y back-end.

Veo

Google va tras el Sora de OpenAI con Veo, un modelo de IA que puede crear clips de video de 1080p de alrededor de un minuto de duración a partir de un mensaje de texto. Veo puede capturar diferentes estilos visuales y cinematográficos, incluyendo tomas de paisajes y lapsos de tiempo, y hacer ediciones y ajustes a clips de video ya generados.

También se basa en el trabajo comercial preliminar de Google en generación de video, previsualiado en abril, que aprovechó la familia de modelos generadores de imágenes Imagen 2 de la compañía para crear clips de video en bucle.

Círculo para Buscar

La función Círculo para Buscar, impulsada por IA, que permite a los usuarios de Android obtener respuestas instantáneas mediante gestos como dibujar círculos, ahora podrá resolver problemas más complejos en física y problemas matemáticos de palabras. Está diseñada para hacer más natural interactuar con Google Search desde cualquier parte del teléfono realizando alguna acción, como dibujar un círculo, resaltar, garabatear o tocar. Ah, y también es mejor para ayudar a los niños con sus tareas directamente desde teléfonos y tabletas Android compatibles.

Pixel 8a

Google no pudo esperar hasta I/O para mostrar la última incorporación a la línea Pixel y anunció el nuevo Pixel 8a la semana pasada. El teléfono comienza en $499 y se envía el martes. Las actualizaciones, también, son las que hemos llegado a esperar de estos renovaciones. En la parte superior de la lista está la adición del chip Tensor G3.

Pixel Slate

La Tablet Pixel de Google, llamada Slate, ya está disponible. Si recuerdas, Brian revisó la Tablet Pixel aproximadamente en esta época el año pasado, y todo lo que mencionó fue la base. Curiosamente, la tableta está disponible sin ella.

Vía | Google I/O 2024: IA generativa, nuevos productos y actualizaciones – Tecnología con Juancho (tecnologiaconjuancho.com)

Más noticias

Verificado por MonsterInsights