[go: up one dir, main page]

Skip to main content

Una introducción a la aplicación Gemini

Hace tiempo que somos testigos del potencial de la IA para hacer que la información y la informática sean más accesibles y útiles para las personas. Hemos logrado avances pioneros en modelos de lenguaje de gran tamaño (LLMs) y hemos experimentado un gran progreso, tanto en Google como en este campo en términos más generales. Llevamos muchos años aplicando los LLMs en segundo plano con el objetivo de mejorar muchos de nuestros productos, como en el autocompletado de frases en Gmail y en la expansión del Traductor de Google, al igual que para ayudarnos a entender mejor las consultas que se realizan en la Búsqueda de Google. Seguimos utilizando LLMs en muchos de los servicios de Google y también en la aplicación Gemini, que permite a las personas colaborar directamente con la IA generativa. Nuestra intención es que la aplicación Gemini sea el asistente de IA más útil y personal, y que ofrezca a los usuarios acceso directo a los últimos modelos de IA de Google.

A pesar de que nos encontramos en un punto de inflexión y el entusiasmo generalizado en torno a la IA generativa nos resulta muy estimulante, esta tecnología está todavía en una fase de desarrollo muy temprana. En esta introducción a Gemini te detallamos cómo enfocamos nuestro trabajo en la aplicación Gemini, incluidas las experiencias en móvil y en la Web, además de lo que es, cómo funciona y sus actuales capacidades y limitaciones. Nuestro enfoque en el desarrollo de Gemini irá evolucionando a medida que lo haga su tecnología y que nosotros aprendamos de la constante investigación, así como de la experiencia y la opinión de los usuarios.

Qué es Gemini

Gemini es la interfaz de un LLM multimodal (que gestiona texto, audio, imágenes y más). Gemini se basa en la investigación puntera de Google sobre los LLMs, que tuvo su inicio con el artículo sobre Word2Vec, publicado en 2013, donde se planteaban nuevas arquitecturas de modelos que interpretaban palabras como conceptos matemáticos, y que continuó con la introducción de un modelo conversacional neuronal en 2015. Este esbozo demostró cómo los modelos podían predecir la frase siguiente en una conversación basándose en la frase o frases anteriores, de manera que las experiencias de conversación resultaran más naturales. A esto le siguió en 2017 nuestro innovador trabajo en Transformer y, en 2020, en el desarrollo de capacidades de conversación multiturno. En ambos casos, demostramos un progreso aún más notable en el ámbito del lenguaje generativo.

El lanzamiento de Gemini en marzo de 2023 (entonces llamado "Bard") fue un experimento alineado con nuestros principios para la IA. Desde ese momento, los usuarios han recurrido a Gemini para escribir correos interesantes, depurar código complejo, hacer lluvias de ideas, entender conceptos difíciles y mucho más. En la actualidad, Gemini es una herramienta de IA versátil que puede ayudarte de muchas formas. Gemini ya ayuda a las personas a ser más productivas, más creativas y a despertar su curiosidad, y vamos añadiendo regularmente nuevas funcionalidades e innovaciones.

Productividad

Para empezar, Gemini te puede ayudar a ahorrar tiempo. Por ejemplo, supongamos que quieres resumir una investigación extensa: Gemini te permite subir el documento y te proporciona una útil síntesis para ayudarte. Gemini también puede echarte una mano en tareas de programación, lo que se ha convertido rápidamente en una de sus funciones más populares.

Creatividad

Además, Gemini puede ayudarte a dar vida a tus ideas y te permite despertar tu creatividad. Por ejemplo, si estás escribiendo una entrada de blog, Gemini puede crear un esquema y puede generar imágenes para ayudarte a ilustrarla. Próximamente, con los Gems podrás personalizar Gemini con instrucciones específicas y hacer que actúe como un experto en el tema que elijas para que te ayude a conseguir tus metas.

Curiosidad

Gemini puede servirte como punto de partida para desarrollar tus ideas y aprender más sobre temas que te interesan. Por ejemplo, puede explicarte un concepto complejo de forma sencilla o proponerte ideas y reflexiones sobre un tema o una imagen. Y pronto podrá enlazar estas ideas con contenido recomendado de la Web para que puedas aprender más sobre temas específicos.

Las capacidades de Gemini están en rápida expansión. Pronto podrás enfocar la cámara del teléfono a un objeto, como el puente Golden Gate, y pedirle a Gemini información sobre su color (que, por si te lo preguntas, es el "naranja internacional"). También podrás pedirle a Gemini que te ayude a entender el menú de un restaurante escrito en otro idioma y que te recomiende un plato que te podría gustar. Son solo un par de ejemplos de lo que Gemini va a ser capaz de hacer próximamente.

Evidentemente, entrenamos a Gemini y lo supervisamos con sumo rigor para que sus respuestas tengan más probabilidad de ser fiables y se ajusten a tus expectativas. También estamos en contacto con expertos del sector y con educadores, legisladores, líderes empresariales y defensores de los derechos civiles y los derechos humanos, así como con creadores de contenido, para explorar nuevas posibles aplicaciones, riesgos y limitaciones de esta tecnología emergente.

Cómo funciona Gemini

1

Entrenamiento previo

2

Entrenamiento posterior

3

Respuestas a las peticiones de los usuarios

4

Comentarios y evaluaciones de personas

Limitaciones conocidas de interfaces basadas en LLM como Gemini

Gemini es solo una parte de nuestro esfuerzo continuo por desarrollar LLMs de forma responsable. A lo largo de esta tarea, hemos descubierto y tratado diversas limitaciones asociadas con los LLMs. A continuación, nos centramos en seis áreas que seguimos investigando:

  • Precisión: es posible que las respuestas de Gemini no sean precisas, especialmente cuando se le pregunta sobre temas complejos o relativos a hechos.

  • Sesgo: es posible que las respuestas de Gemini reflejen sesgos presentes en sus datos de entrenamiento.

  • Múltiples perspectivas: es posible que las respuestas de Gemini no muestren diversos puntos de vista.

  • Persona: es posible que las respuestas de Gemini sugieran erróneamente que tiene sentimientos u opiniones personales.

  • Falsos positivos o negativos: es posible que Gemini no responda a peticiones válidas y apropiadas, y que ofrezca respuestas inapropiadas a otras.

  • Vulnerabilidad a peticiones maliciosas: es posible que los usuarios encuentren formas de poner a prueba a Gemini con peticiones sin sentido o preguntas muy poco frecuentes en el mundo real.

Seguimos explorando nuevos enfoques para mejorar el funcionamiento en cada una de estas áreas.

Precisión

Gemini se basa en lo que Google entiende como información fiable y se ha entrenado para que genere respuestas relevantes para tu petición y su contexto, y en consonancia con lo que estás buscando. Sin embargo, como todos los LLMs, Gemini a veces puede generar respuestas que destilen seguridad y convicción, pero que contengan información imprecisa o engañosa.

Como los LLMs trabajan prediciendo la siguiente palabra o secuencia de palabras, todavía no son completamente capaces de distinguir entre información precisa o imprecisa por su cuenta. Hemos visto a Gemini presentar respuestas que contienen información imprecisa o incluso inventada (por ejemplo, ofreciendo datos engañosos sobre cómo ha sido entrenado o sugiriendo el nombre de un libro inexistente). Para atender a este problema, hemos creado funciones como la opción de verificar las respuestas, que utiliza la Búsqueda de Google para encontrar contenido que te ayuda a valorar las respuestas de Gemini y te proporciona enlaces a fuentes para permitirte corroborar la información que has obtenido de Gemini.

Sesgo

Los datos de entrenamiento, incluidos los de fuentes disponibles públicamente, reflejan una variedad de perspectivas y opiniones. Seguimos investigando cómo utilizar estos datos de modo que se garantice que la respuesta de un LLM incorpore una amplia gama de puntos de vista, a la vez que se minimizan las generalizaciones imprecisas y los sesgos.

Las carencias, los sesgos y las generalizaciones en los datos de entrenamiento pueden reflejarse en los resultados que ofrece un modelo cuando este intenta predecir las respuestas posibles para una petición. Estas cuestiones se manifiestan de diversas formas (respuestas que solo tienen en cuenta una única cultura o grupo demográfico, referencias a generalizaciones problemáticas, sesgos de género, religión o etnia, o resultados que exponen solo un punto de vista, por ejemplo). Sobre algunos temas concretos hay vacíos de datos (es decir, no existe suficiente información fiable sobre un tema para que el LLM aprenda sobre él y pueda hacer buenas predicciones), lo que puede hacer que se den respuestas imprecisas o de baja calidad. Seguimos trabajando con expertos en diversas áreas y con una variedad de comunidades para adquirir conocimientos externos a Google.

Múltiples perspectivas

En lo tocante a la subjetividad, Gemini se ha diseñado para ofrecer a los usuarios múltiples perspectivas si el usuario no solicita un punto de vista concreto. Por ejemplo, si se le pide información sobre algo que no puede verificarse mediante fuentes primarias o fiables (como una opinión objetiva sobre qué es mejor o peor), Gemini debería responder de forma que refleje una amplia gama de posturas. No obstante, dado que los LLMs como Gemini se entrenan con el contenido que está disponible de forma pública en Internet, pueden reflejar opiniones positivas o negativas sobre políticos, famosos u otras figuras públicas, o incluso aportar un único punto de vista sobre cuestiones políticas o sociales controvertidas o con distintos matices. Las respuestas de Gemini no deben defender un punto de vista en particular cuando se trata de esta clase de temas, y utilizaremos los comentarios y sugerencias sobre las respuestas de este tipo con el objetivo de entrenar a Gemini para que las aborde de una forma más adecuada.

Persona

Es posible que, en ocasiones, Gemini genere respuestas que parecen sugerir que tiene sus propias opiniones o emociones, como el amor o la tristeza. Esto se debe a que se ha entrenado con el lenguaje que las personas utilizan para reflejar la experiencia humana. Hemos desarrollado un conjunto de directrices acerca de cómo Gemini puede representarse a sí mismo (es decir, su persona) y seguimos perfeccionando el modelo para que ofrezca respuestas objetivas.

Falsos positivos o negativos

Hemos implantado una serie de guías sobre políticas para ayudar a entrenar a Gemini y evitar que genere respuestas problemáticas. A veces Gemini puede malinterpretar las directrices de estas políticas y producir falsos positivos o falsos negativos. En un falso positivo, Gemini podría no responder a una petición razonable, dado que la malinterpreta como inapropiada. En un falso negativo, es posible que Gemini genere una respuesta inapropiada pese a las directrices. Cuando se producen estos falsos positivos o falsos negativos, podría dar la impresión de que Gemini está sesgado. Por ejemplo, un falso positivo podría provocar que Gemini no respondiera a una pregunta sobre un aspecto o postura concreta con respecto a un problema, mientras que sí responderá a la misma pregunta si se le plantea desde el punto de vista opuesto. Seguimos ajustando y perfeccionando estos modelos para que puedan comprender y categorizar mejor la entrada y la salida de información a medida que el idioma, los acontecimientos y la sociedad evolucionan rápidamente.

Vulnerabilidad frente a peticiones maliciosas

Sabemos que los usuarios ponen a prueba los límites de lo que Gemini puede hacer e intentan superar sus protecciones. Por ejemplo, intentan que revele sus protocolos de entrenamiento u otra información, o intentan eludir sus mecanismos de seguridad. Nosotros hemos probado, seguimos y seguiremos probando Gemini de forma rigurosa, pero nos consta que los usuarios encontrarán maneras únicas y complejas de ponerlo a prueba. Esta es una parte importante del perfeccionamiento de Gemini y tenemos un gran interés por ver qué nuevas peticiones se les ocurren a los usuarios. De hecho, desde que se lanzó en 2023, hemos sido testigos de cómo los usuarios han puesto a prueba a Gemini con peticiones de todo tipo, desde las relativas a los ámbitos más filosóficos hasta las más absurdas y sin sentido. En algunos casos, Gemini también ha ofrecido respuestas sin ningún sentido o que no están alineadas con nuestro enfoque establecido. Descubrir métodos para ayudar a Gemini a responder a este tipo de peticiones es un reto que continuamos afrontando, y seguimos reforzando nuestras evaluaciones internas y poniéndonos en el lugar de los usuarios maliciosos para seguir mejorando la precisión, la objetividad y los matices.

Cómo seguimos desarrollando Gemini

Aplicación de nuestro enfoque para Gemini

Junto con nuestros principios para la IA, recientemente hemos definido nuestro enfoque respecto a Gemini: Gemini debe seguir tus indicaciones, adaptarse a tus necesidades y proteger tu experiencia. Una parte esencial de nuestro enfoque se centra en la responsabilidad y la seguridad. La guía sobre políticas de Gemini trata de evitar ciertos tipos de resultados problemáticos. Constantemente llevamos a cabo pruebas adversas con los miembros del "equipo rojo" (expertos de producto y científicos sociales que, a propósito, ponen a prueba un modelo con el objetivo de detectar posibles desviaciones de nuestras guías sobre políticas y nuestra visión para Gemini), de modo que podamos aplicar lo que descubren y mejorar Gemini de manera continuada.

La privacidad también es una consideración clave en nuestro desarrollo de Gemini. El Centro de Privacidad de las Aplicaciones de Gemini ofrece más información sobre cómo construimos Gemini con privacidad desde el diseño y te otorgamos a ti el control.

Permitir el control de los usuarios y los editores

Hemos desarrollado una variedad de controles de usuario de Gemini fácilmente accesibles para que puedas revisar, actualizar, gestionar, exportar y borrar tus datos en Gemini. Puedes acceder a tus peticiones, las respuestas de Gemini y tus comentarios para revisarlos gracias al control de la actividad en las aplicaciones de Gemini. También puedes desactivar el ajuste Actividad en las aplicaciones de Gemini si quieres evitar que tus futuras interacciones con Gemini se utilicen para mejorar las tecnologías de aprendizaje automático de Google. Y, al igual que en otros servicios de Google, puedes descargar y exportar tu información a través de la herramienta Google Takeout. También te ofrecemos controles para que puedas gestionar enlaces públicos que hayas creado en tus hilos de Gemini, y ajustes que te permiten activar o desactivar el acceso a extensiones como Workspace, Maps o YouTube. Además, estamos explorando nuevas formas de ofrecerte más control sobre las respuestas de Gemini, incluido el ajuste de filtros para permitir una variedad más amplia de respuestas.

Para los editores, hemos lanzado Google-Extended, una opción que los editores de sitios web pueden utilizar para determinar si sus sitios se prestan a ayudar a mejorar las API generativas de Gemini y Vertex AI. Permitir el acceso de Google-Extended al contenido de sitios web puede ayudar a que los modelos de IA sean más precisos y potentes con el tiempo. Gemini no utilizará el contenido de las URLs que hayan rechazado participar en el entrenamiento del modelo y tampoco usará dicho contenido para su fundamentación. A medida que crecen las aplicaciones de la IA, los editores de sitios web tendrán que afrontar una gestión cada vez más compleja de sus distintos usos a gran escala. Nos comprometemos a colaborar con las comunidades de los entornos Web e IA para explorar nuevos enfoques sobre opciones y control que sean que comprensibles por las máquinas.

Mejoraremos Gemini juntos

Creemos en la iteración rápida y en ofrecer lo mejor de Gemini al mundo. Las opiniones y comentarios de los usuarios han facilitado que nuestros modelos mejoren más rápido. Por ejemplo, utilizamos técnicas punteras de entrenamiento por refuerzo para entrenar a nuestros modelos y que sean más intuitivos e imaginativos, y para que puedan responder con todavía más precisión y calidad. Seguimos dando prioridad a la investigación para continuar explorando las oportunidades y desafíos técnicos, sociales y éticos que presentan los LLMs, y lo hacemos tanto para mejorar el entrenamiento del modelo de Gemini y perfeccionar las técnicas como para compartir nuestros hallazgos con otros investigadores (un ejemplo es esta reciente publicación sobre la ética en los asistentes de IA avanzados). Nos comprometemos a innovar de forma responsable en este campo, colaborando con usuarios, testers de confianza e investigadores para descubrir formas en las que esta tecnología puede beneficiar a todo el ecosistema.

Consideramos que la transparencia es importante, y por eso nos comprometemos a mantener una comunicación abierta sobre el desarrollo de Gemini y sus posibles limitaciones. Gemini no es una caja negra mágica, sino que se encuentra en un proceso constante de desarrollo, y seguiremos compartiendo actualizaciones sobre nuestro progreso. Hemos lanzado una página sobre las actualizaciones de versiones/a> para que puedas consultar las últimas funciones, mejoras y correcciones de errores de Gemini. Asimismo, seguiremos incorporando contenido a esta introducción a Gemini como corresponda. Nuestro propósito es identificar los ámbitos en los que Gemini resulta útil y eficaz, y también aquellos en los que debemos seguir iterando y mejorándolo Añadimos funcionalidades a Gemini de forma activa y, a través de la investigación que no cesa, de las continuas pruebas y de los comentarios de los usuarios, estamos deseando mejorar Gemini contigo.

Cómo funciona Gemini

1 Entrenamiento previo

Gemini está basado en la tecnología de los modelos de IA más potentes de Google, que se han diseñado teniendo en cuenta distintas capacidades y casos prácticos. Como sucede con la mayoría de los LLMs hoy en día, estos modelos pasan por una fase inicial en la que se entrenan con una variedad de datos que se obtienen de fuentes disponibles de forma pública. A todos los conjuntos de datos les aplicamos unos filtros de calidad que utilizan tanto reglas heurísticas como clasificadores basados en modelos. También empleamos filtros de seguridad para eliminar contenido que podría generar respuestas que infrinjan las políticas. Para mantener la integridad de las evaluaciones de los modelos, antes de usar los datos para el entrenamiento buscamos y eliminamos cualquier dato de evaluación que haya podido estar presente en el corpus de entrenamiento. Las mezclas y pesos finales de los datos se determinan mediante ablaciones aplicadas a modelos más pequeños. Escalonamos el entrenamiento para ir modificando la composición de la mezcla a lo largo del proceso, aumentando el peso de los datos relevantes para el dominio hacia el final del entrenamiento. La calidad de los datos puede suponer un factor importante para obtener modelos de alto rendimiento. Por eso, creemos que quedan muchas preguntas interesantes por resolver sobre cómo encontrar la distribución óptima del conjunto de datos para el entrenamiento previo.

Este entrenamiento previo permite al modelo aprender a detectar patrones en el idioma y utilizarlos para predecir la palabra o palabras siguientes más probables en una secuencia. Por ejemplo, a medida que un LLM aprende, puede predecir que es más probable que la palabra que vaya después de "tortilla de patatas sin ___" sea "cebolla" en lugar de "tornillos". Sin embargo, si un LLM recoge solo la opción más probable, esto tendrá como resultado la obtención de respuestas menos creativas. Por lo tanto, los LLMs suelen contar con la flexibilidad necesaria para elegir entre opciones razonables, aunque ligeramente menos probables, como "pimientos", para generar respuestas más interesantes. Vale la pena señalar que, aunque los LLMs pueden rendir bien con peticiones factuales y dar la impresión de que están recuperando información, no son ni bases de datos ni sistemas deterministas de extracción de información. Por eso, aunque puedes esperar una respuesta coherente si planteas una consulta a una base de datos (es decir, una extracción literal de información fija almacenada en la base de datos), la respuesta de un LLM a esa misma petición no será necesariamente la misma todas las veces, y tampoco extraerá literalmente la información con la que fue entrenado. Esta es también una razón importante por la que los LLMs pueden generar respuestas que, pese a sonar plausibles, a veces contienen errores en el contenido; algo que no es ideal cuando la precisión fáctica es importante, aunque puede ser potencialmente útil para generar resultados inesperados o creativos.

2 Entrenamiento posterior

Tras el entrenamiento inicial, los LLMs se someten a pasos posteriores para ajustar y perfeccionar sus respuestas. Uno de estos pasos es el ajuste fino supervisado (SFT), que entrena el modelo con ejemplos de respuestas excelentes que se han seleccionado con meticulosidad. Sería como enseñar a un niño a escribir dándole a leer cuentos y otros contenidos bien escritos.

A continuación viene el aprendizaje por refuerzo con retroalimentación humana (RLHF). En esta fase, el modelo aprende a generar respuestas aún mejores basándose en las puntuaciones o comentarios de un modelo de recompensa especial. Este modelo de recompensa se entrena con datos de preferencias humanas, donde las posibles respuestas se han comparado entre sí y puntuado de forma que el modelo aprenda qué es lo que prefieren las personas. Los datos de preferencias a veces pueden incluir datos ofensivos o incorrectos; los modelos se exponen a estos datos para aprender a reconocerlos y evitarlos. Podríamos considerar los datos de preferencias como la recompensa que se le da a un niño por un trabajo bien hecho: el modelo recibe recompensas por crear respuestas que las personas consideren acertadas.

En todos estos pasos, es importante utilizar datos de entrenamiento de alta calidad. Los ejemplos que se usan para el SFT suelen estar escritos por expertos o revisados por expertos después de que los haya generado un modelo.

A pesar de que estas técnicas son potentes, también tienen limitaciones. Por ejemplo, incluso con la ayuda del modelo de recompensa, una respuesta podría no ser perfecta. Aun así, el LLM está optimizado para producir las respuestas preferidas según los comentarios que recibe, de la misma forma que los estudiantes aprenden de las evaluaciones y correcciones de sus docentes.

3 Respuestas a las peticiones de los usuarios

La generación de respuestas se produce de una forma parecida a la manera en que un humano barajaría diferentes enfoques para responder a una pregunta. Cuando un usuario introduce una petición, Gemini utiliza el LLM que ha recibido el entrenamiento posterior, el contexto de la petición y la interacción con el usuario para elaborar un borrador de diversas versiones de una respuesta. También genera sus respuestas basándose en fuentes externas, como la Búsqueda de Google, alguna de sus numerosas extensiones y archivos subidos recientemente (solo en Gemini Advanced). Este proceso se denomina "mejora por extracción". Cuando recibe una petición, Gemini intenta obtener la información más pertinente de dichas fuentes externas (por ejemplo, la Búsqueda de Google) y representarlas de forma precisa en su respuesta. La mejora de las capacidades de los LLMs con herramientas externas es una área de investigación activa. Es posible que se introduzcan errores de diversas formas: a través de la consulta que utiliza Gemini para invocar esas herramientas externas, mediante la forma en que interpreta los resultados que las herramientas devuelven o en la manera en que se utilizan dichos resultados para generar la respuesta final. Por este motivo, las respuestas que genera Gemini no deben usarse para juzgar el desempeño de las herramientas individuales utilizadas para crear la respuesta.

Por último, antes de que se muestre la respuesta final, cada posible respuesta se somete a una comprobación de seguridad para asegurar que se adhiere a la guía sobre políticas predeterminada. Este proceso proporciona una verificación adicional para dejar fuera la información dañina u ofensiva. Las respuestas restantes se clasifican según su calidad, y la versión o las versiones con mayor puntuación son las que se presentan al usuario.

También aplicamos una marca de agua en los textos y las imágenes que se crean con Gemini. Para ello, usamos SynthID, nuestra herramienta digital líder en el sector para añadir marcas de agua al contenido generado por IA. Por lo que respecta a las imágenes creadas por IA, SynthID añade una marca de agua (no perceptible para el ojo humano) directamente en los píxeles. SynthID es una pieza importante para el desarrollo de herramientas de detección de la IA más fiables que puedan ayudar a las personas a tomar decisiones de forma más consciente sobre cómo desean interactuar con contenido generado por IA.

4 Comentarios y evaluaciones de personas

A pesar de las comprobaciones de seguridad, pueden cometerse errores. Y puede que las respuestas de Gemini no siempre estén a la altura de tus expectativas. Ahí es donde entran en juego las evaluaciones humanas. Los evaluadores valoran la calidad de las respuestas, identifican las áreas en que podrían mejorarse y sugieren soluciones. Estos comentarios y retroalimentación pasan a formar parte del proceso de aprendizaje de Gemini, tal como se ha descrito en el apartado sobre el entrenamiento posterior.