Google I/O 2023: Haciendo que la IA sea más útil para todos

15/05/202315/05/2023 Alberto Marín Morán Google I/O 2023

A siete años de haber iniciado nuestro viaje como una compañía centrada en la inteligencia artificial, estamos en un punto de inflexión emocionante. Tenemos la oportunidad de hacer que la IA sea aún más útil para las personas, las empresas, las comunidades, para todos.

Hemos estado aplicando la IA para hacer que nuestros productos sean radicalmente más útiles desde hace un tiempo. Con la IA generativa, estamos dando el siguiente paso. Con un enfoque audaz y responsable, estamos reimaginando todos nuestros productos principales, incluida la Búsqueda.

IA en nuestros productos

“Ayúdame a escribir” en Gmail

Hay algunos excelentes ejemplos de cómo la IA generativa está ayudando a que nuestros productos evolucionen, comenzando con Gmail. En 2017, lanzamos la Respuesta Inteligente, respuestas cortas que puedes seleccionar con un solo clic. Luego vino la Redacción Inteligente, que ofrece sugerencias de escritura mientras escribes. La Redacción inteligente derivó en funciones de escritura más avanzadas impulsadas por IA. Se han utilizado en Workspace más de 180 mil millones de veces sólo en el último año. Y ahora, con un modelo generativo mucho más poderoso, estamos dando el siguiente paso en Gmail con “Ayúdame a escribir”.

Digamos que recibiste un correo electrónico acerca de que tu vuelo fue cancelado. La aerolínea ha enviado un cupón, pero lo que realmente quieres es un reembolso total. Podrías responder y usar «Ayúdame a escribir».

Simplemente escribe la indicación de lo que quieres: un correo electrónico que solicite un reembolso completo, presiona crear y aparecerá un borrador completo. Eso convenientemente extrajo los detalles del vuelo del correo electrónico anterior. Y se ve muy cercano a lo que quieres enviar. Tal vez quieras perfeccionarlo aún más. En este caso, un correo electrónico más elaborado podría aumentar las posibilidades de obtener el reembolso. “Ayúdame a escribir” comenzará a estar disponible como parte de nuestras actualizaciones en Workspace. Y al igual que con la Redacción inteligente, verán que mejora con el tiempo.

Nueva vista inmersiva para rutas en Maps

Desde los primeros días de Street View, la IA ha reunido miles de millones de imágenes panorámicas, para que las personas puedan explorar el mundo desde su dispositivo. En el I/O del año pasado presentamos la vista inmersiva, que utiliza IA para crear una representación de alta fidelidad de un lugar, para que puedan experimentarlo antes de visitarlo.

Ahora, estamos expandiendo esa misma tecnología para hacer lo que Maps hace mejor: ayudarles a llegar a donde quieren ir. Google Maps proporciona 20 mil millones de kilómetros de indicaciones, todos los días. Son muchos viajes. Imaginen si pudieran ver todo su viaje con anticipación. Con la vista inmersiva para rutas ahora pueden, ya sea que caminen, vayan en bicicleta o conduzcan.

Digamos que estás en la ciudad de Nueva York y quieres dar un paseo en bicicleta. Maps te da un par de opciones cerca de donde estás. El que está en el paseo costero parece pintoresco, pero primero quieres tener una idea de ello primero, por lo que hace clic en la vista inmersiva para ver las rutas. Es una forma completamente nueva de ver tu viaje. Puedes acercarte para obtener una increíble vista de pájaro del paseo.

También hay más información disponible. Puedes verificar la calidad del aire, el tráfico y el clima, y ver cómo podrían cambiar.

La vista inmersiva para rutas comenzará a estar disponible en los próximos meses y se lanzará en 15 ciudades a finales de año, incluidas Londres, Nueva York, Tokio y San Francisco.

Una nueva experiencia de Magic Editor en Fotos

Otro producto mejorado por la AI es Google Fotos. Lo presentamos en I/O en 2015, y fue uno de nuestros primeros productos nativos de IA. Los avances en el aprendizaje automático hicieron posible buscar en sus fotos cosas como personas, puestas de sol o cascadas.

Por supuesto, queremos que hagan algo más que buscar fotos, también queremos ayudarles a mejorarlas. De hecho, cada mes se editan 1.700 millones de imágenes en Google Fotos. Los avances en IA nos dan formas más poderosas de hacer esto. Por ejemplo, Magic Eraser, lanzado primero en Pixel, utiliza fotografía computacional impulsada por IA para eliminar distracciones no deseadas. Y a finales de este año, utilizando una combinación de comprensión semántica e inteligencia artificial generativa, podrán hacer mucho más con una nueva experiencia llamada Magic Editor.

Aquí hay un ejemplo: esta es una gran foto, pero como padre, probablemente quieras que tu hijo esté en el centro de todo. Y parece que los globos salieron cortados. Así que adelante, puedes reposicionar al cumpleañero. Magic Editor recrea automáticamente partes del banco y globos que no fueron capturados en la toma original. Y como toque final, puedes iluminar el cielo. Esto también cambia la iluminación en el resto de la foto para que la edición se sienta consistente. Es realmente mágico. Estamos impacientes por lanzar Magic Editor en Google Fotos más adelante en el año.

Haciendo que la IA sea más útil para todos

Desde Gmail y Fotos hasta Maps, estos son sólo algunos ejemplos de cómo la IA puede ayudar en los momentos importantes. Y hay mucho más que podemos hacer para ofrecer todo el potencial de la IA a través de los productos que conocen y aman.

Hoy, tenemos 15 productos que sirven a más de 500 millones de personas y empresas. Y seis de esos productos sirven a más de dos mil millones de usuarios cada uno. Esto nos brinda muchas oportunidades para cumplir con nuestra misión: organizar la información del mundo y hacerla universalmente accesible y útil.

Es una misión atemporal que se siente más relevante con cada año que pasa. Y mirando hacia el futuro, hacer que la IA sea útil para todos es la forma más profunda en que avanzaremos en nuestra misión. Estamos haciendo esto de cuatro maneras importantes:

Primero, mejorando su conocimiento y aprendizaje, y profundizando su comprensión del mundo.
En segundo lugar, al impulsar la creatividad y la productividad, para que puedan expresarse y hacer más cosas.
Tercero, al permitir que los desarrolladores y las empresas construyan sus propios productos y servicios transformadores.
Y, por último, mediante la construcción y el despliegue de la IA de manera responsable, para que todos puedan beneficiarse por igual.

PaLM 2 y Gemini

Estamos muy entusiasmados con las oportunidades que tenemos por delante. Nuestra capacidad para hacer que la IA sea útil para todos se basa en el avance continuo de nuestros modelos fundacionales. Así que quiero tomarme un momento para compartir cómo los abordamos.

El año pasado nos escucharon hablar sobre PaLM, que dio lugar a muchas mejoras a lo largo de nuestros productos. Hoy, estamos listos para anunciar nuestro más reciente modelo PaLM en producción: PaLM 2.

PaLM 2 se basa en nuestra investigación fundamental y nuestra infraestructura más reciente. Es altamente capaz en una amplia gama de tareas y fácil de implementar. Hoy anunciamos más de 25 productos y funciones impulsadas por PaLM 2.

Los modelos PaLM 2 ofrecen excelentes capacidades fundamentales en una amplia gama de tamaños. Los hemos llamado cariñosamente Gecko, Otter, Bison y Unicorn. Gecko es tan ligero que puede funcionar en dispositivos móviles: lo suficientemente rápido para aplicaciones interactivas grandiosas en el dispositivo, incluso cuando está fuera de línea. Los modelos PaLM 2 son más fuertes en lógica y razonamiento gracias a un amplio entrenamiento en temas científicos y matemáticos. También está entrenado en texto multilingüe, abarcando más de 100 idiomas, por lo que entiende y genera resultados matizados.

Combinado con potentes capacidades de codificación, PaLM 2 también puede ayudar a los desarrolladores que colaboran alrededor del mundo. Digamos que estás trabajando con un colega en Seúl y estás depurando el código. Puedes pedirle que solucione un bug y ayude a tu compañero de equipo agregando comentarios en coreano al código. Primero reconoce que el código es recursivo, luego sugiere una solución. Explica el razonamiento detrás de la solución, y como pueden ver, agregó comentarios en coreano como se solicitó.

Si bien PaLM 2 es altamente capaz, realmente brilla cuando se afina a los conocimientos específicos del dominio. Recientemente lanzamos Sec-PaLM, afinado para casos de uso de seguridad. Utiliza IA para detectar mejor los scripts maliciosos y puede ayudar a los expertos en seguridad a comprender y resolver las amenazas.

Otro ejemplo es Med-PaLM 2. En este caso, está afinado en el conocimiento médico. Este ajuste fino logró una reducción de 9 veces en el razonamiento inexacto en comparación con el modelo, acercándose al rendimiento de los expertos clínicos que respondieron el mismo conjunto de preguntas. De hecho, Med-PaLM 2 fue el primer modelo de lenguaje que se desempeñó a nivel «experto» en preguntas de estilo de examen de licencia médica, y actualmente es el estado del arte.

También estamos trabajando para agregar capacidades a Med-PaLM 2, para que pueda sintetizar información de imágenes médicas como placas simples y mamografías. Imaginen un colaborador de IA que ayude a los radiólogos a interpretar imágenes y a comunicar los resultados. Estos son algunos ejemplos de los usos de PaLM 2 en dominios especializados. No podemos esperar para verlo ser utilizado en más cosas. Y es por eso que me complace anunciar que PaLM 2 ya está disponible en versión preliminar.

PaLM 2 es el paso más reciente en nuestro viaje de una década para llevar la IA de manera responsable a miles de millones de personas. Se basa en el avance realizado por dos equipos de investigación de clase mundial, el Brain Team y DeepMind.

Pensando en los avances definitorios de la IA en la última década, estos equipos han contribuido a un número significativo de ellos: AlphaGo, Transformers, modelos de secuencia a secuencia, etc. Todo esto ayudó a preparar el escenario para el punto de inflexión en el que nos encontramos hoy.

Recientemente reunimos a estos dos equipos en una sola unidad, Google DeepMind. Utilizando los recursos computacionales de Google, se centran en la construcción de sistemas más capaces, de forma segura y responsable.

Esto incluye nuestro modelo fundacional de próxima generación, Gemini, que todavía está en entrenamiento. Gemini fue creado desde cero para ser multimodal, altamente eficiente en integraciones de herramientas y APIs, y construido para permitir futuras innovaciones, como la memoria y la planificación. Aunque todavía es muy pronto, ya estamos viendo impresionantes capacidades multimodales que no se veían en los modelos anteriores.

Una vez afinado y rigurosamente probado para la seguridad, Gemini estará disponible en varios tamaños y capacidades, al igual que PaLM 2.

Responsabilidad de la AI: Herramientas para identificar el contenido generado

A medida que invertimos en modelos más capaces, también estamos invirtiendo profundamente en la responsabilidad de la IA. Eso incluye tener las herramientas para identificar el contenido generado sintéticamente cada vez que lo encuentren.

Dos enfoques importantes son la marca de agua y los metadatos. La marca de agua inserta información directamente en el contenido de manera que se mantiene incluso a través de una modesta edición de imagen. Hacia el futuro, estamos construyendo nuestros modelos para incluir marcas de agua y otras técnicas desde el principio.

Si miramos esta imagen sintética, es impresionante lo real que se ve, por lo que se pueden imaginar lo importante que esto será en el futuro. Los metadatos permiten a los creadores de contenido asociar contexto adicional con archivos originales, lo que le brinda más información cada vez que se encuentran con una imagen. Nos aseguraremos de que cada una de nuestras imágenes generadas por IA tenga esos metadatos. Lean más sobre nuestro enfoque audaz y responsable.

Actualizaciones a Bard + Workspace

A medida que los modelos se vuelven mejores y más capaces, una de las oportunidades más emocionantes es ponerlos a disposición de las personas para que interactúen directamente.

Esa es la oportunidad que tenemos con Bard, nuestro experimento de IA conversacional. Estamos evolucionando rápidamente a Bard. Ahora es compatible con una amplia gama de capacidades de programación, y se ha vuelto mucho más inteligente ante las indicaciones matemáticas y de razonamiento. Y, a partir de hoy, se está ejecutando completamente en PaLM 2. Lean más sobre las últimas actualizaciones de Bard.

También estamos trayendo nuevas funcionalidades a Workspace. Además de «Ayúdame a escribir» en Documentos y Gmail, Duet AI en Google Workspace proporciona herramientas para generar imágenes a partir de descripciones de texto en Presentaciones y Meet, crear planes personalizados en Hojas de cálculo y más. Obtenga más información sobre las últimas actualizaciones de Workspace.

Presentamos Labs y nuestra nueva Experiencia Generativa de Búsqueda

A medida que la IA continúa mejorando rápidamente, estamos enfocados en brindar funciones útiles a nuestros usuarios. Y a partir de hoy, les ofrecemos una nueva forma de previsualizar algunas de las experiencias en Workspace y otros productos. Se llama Labs. Digo nuevo, pero Google tiene una larga historia de uso de Labs como una forma de permitir el acceso anticipado y obtener comentarios, ya pueden comenzar a registrarse más tarde hoy.

Junto con las funciones de Workspace que acaban de ver, una de las primeras experiencias que podrán probar en Labs involucra a nuestro producto fundacional, la Búsqueda de Google. La razón por la que comenzamos a invertir profundamente en IA hace muchos años es porque vimos la oportunidad de mejorar la Búsqueda. Y con cada avance, la hemos hecho más útil e intuitiva.

Las mejoras en la comprensión del lenguaje nos permiten hacer preguntas de manera más natural y llegar al contenido más relevante en la web. Los avances en la visión por computadora introdujeron nuevas formas de buscar visualmente. Ahora, incluso si no tienen las palabras para describir lo que están buscando, pueden buscar cualquier cosa que vean con Google Lens. De hecho, Lens se utiliza para más de 12 mil millones de búsquedas visuales cada mes, un aumento de 4 veces en sólo dos años. La combinación de Lens con la multimodalidad dio lugar a la multibúsqueda, que les permite buscar utilizando tanto una imagen como un texto.

A medida que miramos hacia el futuro, la comprensión profunda de Google de la información combinada con las capacidades únicas de la IA generativa puede transformar la forma en que funciona la Búsqueda una vez más, desbloqueando preguntas completamente nuevas que la Búsqueda puede responder y creando experiencias cada vez más útiles que los conectan con la riqueza de la web.

Por supuesto, la aplicación de IA generativa a la búsqueda todavía está en sus primeros días. Personas de todo el mundo confían en la Búsqueda en momentos importantes. Así que sabemos lo importante que es hacer esto bien y seguir ganando su confianza. Esa es siempre nuestra estrella del norte.

Por lo tanto, estamos abordando la innovación de manera responsable, luchando por el nivel más alto de calidad de la información como siempre lo hemos hecho desde el principio. Es por eso que estamos trayendo nuestra nueva Experiencia Generativa de Búsqueda para ustedes a través de Labs.

Facilitando la innovación para otros

La IA no sólo es un habilitador poderoso, sino que también es un gran cambio de plataforma. Cada empresa y organización está pensando en cómo impulsar la transformación. Es por eso que estamos enfocados en hacer que sea fácil y escalable para otros innovar con IA.

Eso significa proporcionar la infraestructura computacional más avanzada, incluyendo TPUs y GPUs de última generación, y ampliar el acceso a los últimos modelos fundamentales de Google que se han probado rigurosamente en nuestros propios productos. También estamos trabajando para proporcionar herramientas de clase mundial para que los clientes puedan entrenar, afinar y ejecutar sus propios modelos, con seguridad, protección y privacidad de nivel empresarial. Lean más sobre esto del CEO de Google Cloud, Thomas Kurian.

Impulsando el progreso con Android

Nuestro enfoque audaz y responsable de IA puede desbloquear la creatividad y el potencial de las personas. También queremos asegurarnos de que esta ayuda llegue a tantas personas como sea posible. Lo hacemos a través de nuestras plataformas informáticas como Android, y hoy compartimos cómo los avances en IA pueden hacer que su teléfono sea aún más personal, incluyendo Redacción creativa, Fondos de pantalla cinematográficos y Fondos de pantalla de IA generativa.

Presentamos nuevos dispositivos Pixel para el bolsillo y el hogar

También presentamos los Pixel 7a, Pixel Fold y Pixel Tablet para un ecosistema completo de dispositivos impulsados por IA desarrollados por Google. El Pixel 7a está disponible para su compra a partir de hoy, y los pedidos anticipados están abiertos ahora para Pixel Fold y Pixel Tablet.

Construyendo el futuro juntos

He estado reflexionando sobre los grandes cambios tecnológicos de los que todos hemos sido parte. El cambio generado por la IA es enorme, y es por eso que es tan importante que hagamos que la IA sea útil para todos. La estamos abordando con audacia, con una sensación de emoción. Y lo estamos haciendo de manera responsable de una forma que subraya el profundo compromiso que sentimos de hacerlo bien.

Ninguna empresa puede hacerlo sola. Nuestra comunidad de desarrolladores será clave para desbloquear las enormes oportunidades que tenemos por delante. Esperamos trabajar juntos y construir juntos.

Google I/O 2023: Haciendo que la IA sea más útil para todos

Relacionados

Dejar un comentario