Esta nueva edición de Google I/O vino más que con anuncios: las propuestas presentadas aceleran el cambio de paradigma que transita la industria. El evento que se desarrolla cada año en Mountain View, California, puso a la inteligencia artificial en primera plana: desde la sofisticación de sus herramientas ya conocidas como Gemini, hasta la presentación de nuevas funcionalidades como el reconocimiento de objetos en vivo. ¿De qué se tratan?
Gemini, más potente (y diferente)
La empresa anunció la nueva versión de Gemini 1.5 Pro —disponible para los usuarios de Gemini Advanced— que brinda una mayor utilidad en su ventana de contexto con un millón de tokens. La cantidad de tokens revela la capacidad que tiene el modelo para procesar, por ejemplo, documentos. Cuántos más tokens, más habilidad.
Además, Google anticipó que la versión Pro con dos millones de tokens estará disponible próximamente a finales de este año. Por ahora, estará vigente solo para los desarrolladores de una forma privada para poder obtener la retroalimentación necesaria.
Además, Gemini Pro trae sofisticaciones en sus capacidades de razonamiento multimodal, ya que los usuarios, por ejemplo, podrán obtener recetas a partir de fotografías de platos. “Multimodal significa la capacidad de poder trabajar y responder con diferentes tipos de información tanto texto, audio o video”, explicó Matías Albertotti, Manager de IA del Centro de Servicios Globales, durante la transmisión de los anuncios durante un evento que se desarrolló en la sede argentina de Google y al que RED/ACCIÓN asistió.
Pero, por otro lado, desde Mountain View también introdujeron Gemini 1.5 Flash, disponible a partir del mes que viene en AI Studio y Vertex AI. Este modelo, considerado “más ligero”, ofrece una mayor velocidad y eficiencia en la ejecución de tareas de alto volumen y frecuencia, buscando optimizar los procesos a gran escala y reducir los costos operativos. Se destaca en tareas que requieren la generación de resúmenes, chat, subtitulación o extracción de datos de documentos extensos y tablas.
Proyecto Astra, la joya de DeepMind
Desde Google DeepMind, el centro de investigación tecnológica de la empresa, anunciaron el Proyecto Astra, considerada la verdadera revolución del I/O. En detalle, se trata de un prototipo de asistente de IA universal que pretende ser útil y acompañar en todos los aspectos de la vida cotidiana. Pero no solo con texto. Astra es capaz de comprender el entorno y responder a las preguntas del usuario al respecto.
Además, esta asistente virtual identifica objetos, reconoce líneas de código en un ordenador y explica para qué sirve, responde a instrucciones de audio con creaciones creativas e, incluso, recuerda la posición de los objetos en el espacio. De esta forma, ha evidenciado que es capaz de interpretar, aprender y responder en diversos formatos en tiempo real.
“Estos anuncios son una clara forma de ver cómo la tecnología potencia a la inteligencia humana”, reflexionó Carolina Golia, Principal Digital Architect de Google Cloud Argentina, en la conferencia de la sede nacional. “La inteligencia artificial nos permite ser más productivos y llegar a lugares de forma más rápida y así generar cambios profundos”, profundizó.
Inteligencia artificial en el espacio de trabajo
En las próximas semanas, todas las organizaciones que usan Google Workspace y los usuarios que tienen Google One AI Premium tendrán acceso a la funcionalidad “Ayúdame a escribir” directamente integrada a Gmail y Documentos de Google en español, lo que brindará asistencia a la hora de redactar un nuevo borrador o mejorar uno ya existente.
Además, a partir de ahora, el modelo Gemini 1.5 Pro se incorporará a las distintas herramientas de Workspace a través de un panel lateral en el que las personas podrán realizar preguntas o consultas sobre el contenido o información disponible en ese producto y recibir respuestas, resúmenes, sugerencias y más. “Hay una integración de Gemini a todos los productos de la compañía”, comentó Marisabel Rodríguez, Manager de seguridad del Centro de Servicios Globales de Google, en el evento de Google Argentina.
La educación, también entre las innovaciones
El año pasado en I/O, Google había presentado a NotebookLM, una herramienta de estudio e investigación basada en la información que sus usuarios le cargan tanto documentos como apuntes de clase. Ahora, LM agrega Gemini Pro, que trae consigo la posibilidad de generar un resumen apropiado del tema, preguntas frecuentes e incluso un modelo de examen. Todo escrito.
Ahora bien, como Gemini es multimodal también puede procesar toda esa información escrita de los documentos insertados y generarla en una clase y discusión oral entre dos personas. Lo increíble: podés unirte a esta clase y hacer la pregunta que quieras y los “profesores” te contestarán.
“Genera simplicidad a la hora de comunicarse en la educación”, opinó Albertotti sobre esta nueva función. “Nos permite una enseñanza distinta en donde los estudiantes pueden crear su propio camino”, agregó.
El arte y la creatividad
Google presentó sus modelos de inteligencia artificial generativa dirigidos a la creación de contenidos audiovisuales. Por un lado, se introdujo a Imagen 3, su sistema para crear imágenes que pretende ser lo más fotorrealista posible e incluir los detalles más específicos. Por otro lado, Lyria, una herramienta creada a la par con YouTube y en conjunto con artistas, que genera melodías instrumentales de cero, combina demos y más. Por último, Veo, creadora de videos. Esta es una clara respuesta a Sora, la generadora de videos de OpenAI que llegó a todos los titulares.
La búsqueda con AI Overviews y Ask Photos
Con la llegada de ChatGPT y otras plataformas de inteligencia artificial, el reinado de Google para darle respuestas a todas las preguntas se puso en jaque. En consecuencia, la empresa viene trabajando para que esta tecnología pueda amoldarse a su buscador vigente. Así, en el I/O se anunció “A.I. Overviews”, un proyecto que tiene como objetivo potenciar al buscador vigente con esta tecnología y que desde ayer está vigente en los Estados Unidos.
Así, cuando hagas una pregunta, ya no aparecerán más una serie de links donde tenés que entrar a cada uno de ellos para buscar la información necesaria. En breve, Google promete hacer eso por vos y juntar toda la información y links necesarios en una respuesta detallada y personalizada, que el usuario puede ir modificando para obtener lo que realmente busca. Incluso en aquellas preguntas que necesitan de varios puntos en una respuesta.
La sofisticación de la búsqueda también llega a Google Fotos. Con Ask Photos, se van a poder buscar momentos o datos determinados. Por ejemplo, si necesitas el número de tu pasaporte, y sabés que tenés una foto en la aplicación, solo es cuestión de preguntarle y te lo dará. También, podrás navegar en tus recuerdos de una manera más profunda pidiendo que te muestre, por ejemplo, tu progreso cocinando: la IA te seleccionará todos aquellos momentos en los que cocinaste, denotando el progreso en esta pasión a través de los años.