[go: up one dir, main page]

Skip to main content

Un aperçu de l'appli Gemini

Nous voyons depuis longtemps le potentiel de l'IA pour rendre l'information et l'informatique plus accessibles et plus utiles pour les gens. Nous avons réalisé des avancées pionnières dans le domaine des grands modèles de langage (LLM), et avons constaté des progrès considérables au sein de Google et dans ce domaine en général. Depuis plusieurs années, nous appliquons les LLM en arrière-plan pour améliorer plusieurs de nos produits, comme la saisie semi-automatique de phrases dans Gmail et le développement de Google Traduction, et pour nous aider à mieux comprendre les requêtes dans Recherche Google. Nous continuons à utiliser les LLM pour de nombreux services Google, ainsi que pour propulser l'appli Gemini, qui permet aux gens de collaborer directement avec l'IA générative. Nous voulons que l'appli Gemini soit l'assistant IA de Google le plus utile et le plus personnel, en donnant aux utilisateurs un accès direct aux derniers modèles d'IA de Google.

Bien que nous soyons à un point d'inflexion important et que nous soyons encouragés par l'engouement généralisé pour l'IA générative, cette technologie n'en est qu'à ses débuts. Ce document explique comment nous abordons notre travail sur l'appli Gemini (« Gemini »), y compris ses expériences sur appareil mobile et sur le Web : ce qu'elle est, son fonctionnement, et ses capacités et limites actuelles. Notre approche du développement de Gemini évoluera parallèlement à sa technologie sous-jacente et à mesure que nous tirerons des enseignements des recherches en cours, de l'expérience et des commentaires des utilisateurs.

Ce qu'est Gemini

Gemini est une interface pour un LLM multimodal (qui traite du texte, du son, des images, etc.). Gemini s'appuie sur les recherches de pointe de Google en matière de LLM, qui ont débuté avec l'article de Word2Vec en 2013 qui proposait de nouvelles architectures de modèles qui cartographiaient les mots en tant que concepts mathématiques, suivi par l'introduction d'un modèle conversationnel neuronal en 2015. Ce cadre a démontré comment les modèles pouvaient prédire la phrase suivante dans une conversation en se basant sur la ou les phrases précédentes, ce qui a permis de créer des expériences conversationnelles plus naturelles. Ces travaux ont été suivis par notre percée sur Transformer en 2017 et sur les capacités de clavardage multitours en 2020, qui ont démontré des progrès encore plus convaincants dans le domaine du langage génératif.

Nous avons initialement lancé Gemini (alors appelé Bard) à titre expérimental en mars 2023, conformément à nos principes en matière d'IA. Depuis, les utilisateurs se sont tournés vers Gemini pour lui demander de rédiger des courriels convaincants, de déboguer des problèmes de codage délicats, de trouver des idées pour des événements à venir, de les aider à apprendre des concepts difficiles, et bien plus encore. Aujourd'hui, Gemini est un outil d'IA polyvalent qui peut vous aider de bien des manières. Gemini aide déjà les gens à être plus productifs, plus créatifs et plus curieux, et nous ajoutons de nouvelles fonctionnalités et innovations régulièrement.

Productivité

Tout d'abord, Gemini peut vous faire gagner du temps. Par exemple, si vous cherchez à résumer un long document de recherche, Gemini vous permet de le téléverser et vous fournit une synthèse utile. Gemini peut également contribuer aux tâches de codage, et le codage est rapidement devenu l'une de ses applications les plus populaires.

Créativité

Gemini peut également vous aider à donner vie à vos idées et stimuler votre créativité. Par exemple, si vous rédigez un billet de blogue, Gemini peut créer un plan et générer des images permettant d'illustrer votre article. Et bientôt, avec les Gems, vous pourrez personnaliser Gemini en lui donnant des instructions particulières et lui faire jouer le rôle d'expert en la matière pour vous aider à atteindre vos objectifs personnels.

Curiosité

Gemini peut être un point de départ pour explorer vos idées et les choses sur lesquelles vous aimeriez en apprendre davantage. Par exemple, il peut expliquer simplement un concept complexe ou faire ressortir des informations pertinentes sur un sujet ou une image. Bientôt, il associera ces informations à du contenu recommandé sur l'ensemble du Web afin d'en savoir plus sur des sujets donnés.

Les capacités de Gemini s'étendent rapidement : bientôt, vous pourrez pointer l'appareil photo de votre téléphone sur un objet, comme le pont du Golden Gate, et demander à Gemini de vous indiquer la couleur de sa peinture (si vous vous posez la question, il s'agit de la couleur « orange international »). Vous pourrez également demander à Gemini de vous aider à parcourir le menu d'un restaurant dans une autre langue et de vous recommander un plat qui vous plaira probablement. Il ne s'agit là que de deux exemples des nouvelles possibilités qui seront bientôt offertes par Gemini.

Bien entendu, nous entraînons et surveillons rigoureusement Gemini afin que ses réponses soient susceptibles d'être fiables et conformes à vos attentes. Nous nous entretenons également avec des experts du secteur, des éducateurs, des décideurs politiques, des chefs d'entreprise, des responsables des droits civils et humains et des créateurs de contenu afin d'explorer les nouvelles applications, les risques et les limites de cette technologie émergente.

Fonctionnement de Gemini

1

Préentraînement

2

Postentraînement

3

Réponses aux requêtes des utilisateurs

4

Rétroaction et évaluation humaines

Limitations connues des interfaces basées sur un LLM comme Gemini

Gemini n'est qu'une partie de notre effort continu pour développer les LLM de manière responsable. Tout au long de ce travail, nous avons découvert et abordé plusieurs limites associées aux LLM. Nous nous concentrons ici sur six domaines de recherche continue :

  • Exactitude : les réponses de Gemini pourraient être inexactes, surtout lorsqu'on l'interroge sur des sujets complexes ou factuels.

  • Biais : les réponses de Gemini pourraient refléter des biais présents dans ses données d'entraînement.

  • Perspectives multiples : les réponses de Gemini pourraient ne pas montrer un éventail de points de vue.

  • Persona : les réponses de Gemini pourraient suggérer à tort qu'il a des opinions ou des sentiments personnels.

  • Faux positifs et faux négatifs : Gemini pourrait ne pas répondre à certaines requêtes appropriées et fournir des réponses inappropriées à d'autres.

  • Vulnérabilité aux requêtes antagonistes : les utilisateurs trouveront des moyens de mettre Gemini à l'épreuve avec des requêtes absurdes ou des questions rarement posées dans le monde réel.

Nous continuons à explorer de nouvelles approches et de nouveaux domaines d'amélioration des performances dans chacun de ces domaines.

Exactitude

Gemini s'appuie sur la compréhension qu'a Google des informations faisant autorité; il est entraîné pour générer des réponses pertinentes dans le contexte de votre requête et conformes à ce que vous recherchez. Mais, comme tous les LLM, Gemini peut parfois produire avec assurance et conviction des réponses qui contiennent des informations inexactes ou trompeuses.

Étant donné que les LLM fonctionnent en prédisant le mot suivant ou les séquences de mots suivantes, ils ne sont pas encore tout à fait capables de faire la distinction entre des informations exactes et inexactes. Nous avons vu Gemini présenter des réponses qui contiennent des informations inexactes ou même en inventer (p. ex. faire une déclaration trompeuse sur la façon dont il a été entraîné ou suggérer le nom d'un livre qui n'existe pas). En réponse, nous avons créé des fonctionnalités telles que « vérifier », qui utilise Recherche Google pour trouver du contenu qui vous aide à évaluer les réponses de Gemini, et vous donne des liens vers des sources pour vous aider à corroborer les informations que vous obtenez de Gemini.

Biais

Les données d'entraînement, y compris celles provenant de sources publiques, reflètent une diversité de points de vue et d'opinions. Nous continuons à chercher comment utiliser ces données de manière à garantir que la réponse d'un LLM incorpore un large éventail de points de vue, tout en minimisant les généralisations excessives et les biais.

Les lacunes, les biais et les généralisations excessives dans les données d'entraînement peuvent se refléter dans les sorties d'un modèle lorsqu'il tente de prédire les réponses probables à une requête. Nous constatons que ces problèmes se manifestent de plusieurs façons (p. ex. des réponses qui ne reflètent qu'une seule culture ou un seul segment démographique, des généralisations excessives problématiques, des préjugés sexistes, religieux ou ethniques, ou la promotion d'un seul point de vue). Pour certains sujets, il existe des lacunes dans les données; en d'autres termes, il n'y a pas assez d'informations fiables sur un sujet donné pour que le LLM puisse en prendre connaissance et faire de bonnes prédictions, ce qui peut entraîner des réponses de faible qualité ou inexactes. Nous continuons à travailler avec des experts du domaine et diverses communautés pour tirer parti d'une expertise approfondie en dehors de Google.

Perspectives multiples

Pour les sujets subjectifs, Gemini est conçu pour fournir aux utilisateurs des perspectives multiples si l'utilisateur ne demande pas un point de vue en particulier. Par exemple, si on lui demande des informations sur quelque chose qui ne peut pas être vérifié par des faits de source primaire ou des sources faisant autorité, comme une opinion subjective sur le « meilleur » ou le « pire », Gemini doit répondre d'une manière qui reflète un large éventail de points de vue. Mais parce que les LLM comme Gemini sont entraînés avec le contenu disponible publiquement sur Internet, ils peuvent refléter des opinions positives ou négatives sur des politiciens, des célébrités ou d'autres personnalités publiques en particulier, ou même incorporer des opinions sur un seul aspect de questions sociales ou politiques controversées. Gemini ne doit pas répondre d'une manière qui cautionne un point de vue particulier sur ces sujets, et nous utiliserons les commentaires sur ces types de réponses pour entraîner Gemini à mieux y répondre.

Persona

Gemini peut parfois générer des réponses qui semblent suggérer qu'il a des opinions ou des émotions, comme l'amour ou la tristesse, car il a été entraîné au langage que les gens utilisent pour refléter l'expérience humaine. Nous avons élaboré un ensemble de lignes directrices sur la manière dont Gemini pourrait se représenter (c'est-à-dire son persona), et nous continuons à affiner le modèle pour fournir des réponses objectives.

Faux positifs/négatifs

Nous avons mis en place un ensemble de politiques applicables pour aider à entraîner Gemini et éviter de générer des réponses problématiques. Gemini peut parfois mal interpréter ces politiques, produisant de « faux positifs » et de « faux négatifs ». Dans le cas d'un « faux positif », Gemini peut ne pas fournir de réponse à une requête raisonnable, l'interprétant à tort comme inappropriée; dans le cas d'un « faux négatif », Gemini peut générer une réponse inappropriée, malgré les politiques applicables en place. Parfois, l'apparition de faux positifs ou de faux négatifs peut donner l'impression que Gemini est partial. Par exemple, un faux positif peut amener Gemini à ne pas répondre à une question concernant un aspect d'un problème, alors qu'il répondra à la même question concernant l'autre aspect. Nous continuons à affiner ces modèles pour mieux comprendre et catégoriser les entrées et les sorties à mesure que la langue, les événements et la société évoluent rapidement.

Vulnérabilité aux requêtes antagonistes

Nous nous attendons à ce que les utilisateurs testent les limites de ce que Gemini peut faire et tentent de briser ses protections, notamment en essayant de lui faire divulguer ses protocoles d'entraînement ou d'autres informations, ou en essayant de contourner ses mécanismes de sécurité. Nous avons testé et continuons à tester Gemini de manière rigoureuse, mais nous savons que les utilisateurs trouveront des moyens uniques et complexes de le soumettre à d'autres tests de résistance. Il s'agit d'une partie importante de l'amélioration de Gemini, et nous sommes impatients de découvrir les nouvelles requêtes proposées par les utilisateurs. En effet, depuis le lancement de Gemini en 2023, nous avons vu des utilisateurs lui faire des requêtes allant de la philosophie à l'absurde, et dans certains cas, nous avons vu Gemini fournir des réponses tout aussi absurdes ou qui ne correspondent pas à notre approche déclarée. Trouver des méthodes pour aider Gemini à répondre à ce type de requêtes est un défi permanent, et nous avons continué à développer nos évaluations internes et notre équipe rouge pour nous efforcer d'améliorer constamment la précision, l'objectivité et la nuance.

Comment nous continuons à développer Gemini

Application de notre approche Gemini

Parallèlement à nos principes en matière d'IA, nous avons récemment formulé notre approche de notre travail sur Gemini : Gemini devrait suivre vos indications, s'adapter à vos besoins et protéger votre expérience. La responsabilité et la sécurité sont au cœur de notre approche. Les politiques applicables de Gemini cherchent à éviter certains types de sorties problématiques. Nous effectuons des tests de requêtes antagonistes continus avec des membres de « l'équipe rouge » interne, des experts produit et des spécialistes en sciences sociales qui testent intentionnellement un modèle pour vérifier s'il y a des problèmes de conformité avec ces politiques applicables et notre approche phare pour Gemini, afin que nous puissions appliquer ce qu'ils apprennent et améliorer Gemini de manière continue.

La protection de la vie privée est également une considération essentielle dans le cadre du développement de Gemini. Le centre de confidentialité des applis Gemini contient plus d'informations sur la façon dont nous développons Gemini avec la protection de la vie privée dès la conception, et en vous laissant le contrôle.

Activer les commandes utilisateur et éditeur

Nous avons mis en place une variété de commandes utilisateur Gemini facilement accessibles pour vous permettre de consulter, de mettre à jour, de gérer, d'exporter et de supprimer vos données Gemini. Vous pouvez accéder à vos requêtes, vos réponses et vos commentaires Gemini et les passer en revue dans la commande de l'activité dans les applis Gemini. En outre, vous pouvez empêcher que vos futurs clavardages Gemini soient utilisés pour améliorer les technologies d'apprentissage automatique de Google en désactivant votre paramètre Activité dans les applis Gemini. Comme pour les autres services Google, vous pouvez également télécharger et exporter vos informations au moyen de l'outil de Google Takeout. Nous avons également des commandes qui vous permettent de gérer les liens publics que vous avez créés vers vos fils Gemini, et des commandes qui vous permettent d'activer ou de désactiver l'accès aux extensions (p. ex. Workspace, Maps et YouTube). Nous explorons également de nouvelles façons de vous donner plus de contrôle sur les réponses de Gemini, notamment en ajustant les filtres pour permettre un plus large éventail de réponses.

Pour les éditeurs, nous avons lancé Google-Extended, une commande que les éditeurs Web peuvent utiliser pour gérer si leurs sites contribuent à améliorer Gemini et les API génératives Vertex AI. Autoriser l'accès à Google-Extended au contenu des sites peut aider les modèles d'IA à devenir plus précis et plus performants au fil du temps. Non seulement Gemini n'utilisera pas le contenu des URL exclues pour l'entraînement de modèle, mais il n'utilisera pas non plus ce contenu pour l'ancrage. À mesure que les applications de l'IA se développent, les éditeurs Web seront confrontés à la complexité croissante de la gestion des différentes utilisations à grande échelle, et nous nous engageons à collaborer avec les communautés du Web et de l'IA pour explorer davantage d'approches lisibles par les machines en matière de choix et de contrôle.

Améliorer Gemini ensemble

Nous croyons en une itération rapide et en la nécessité de proposer le meilleur de Gemini au monde entier. Les commentaires des utilisateurs ont accéléré l'amélioration de nos modèles. Par exemple, nous utilisons des techniques d'apprentissage par renforcement de pointe pour entraîner nos modèles à être plus intuitifs et imaginatifs, et à répondre avec encore plus de qualité et de précision. Nous continuons à investir dans la recherche pour en savoir plus sur les occasions et défis techniques, sociaux et éthiques des LLM, à la fois pour améliorer les techniques d'entraînement et de réglage du modèle de Gemini et pour partager nos connaissances avec les chercheurs, comme ce récent article sur l'éthique des assistants d'IA avancée. Nous nous engageons à innover dans ce domaine de manière responsable, en collaborant avec les utilisateurs, les testeurs approuvés et les chercheurs pour trouver des moyens de faire bénéficier l'ensemble de l'écosystème de cette nouvelle technologie.

La transparence est importante, et nous nous engageons à être ouverts sur le processus de développement et les limites de Gemini. Gemini n'est pas une boîte noire magique; il est en constante évolution, et nous continuerons à partager des mises à jour sur nos progrès. Nous avons lancé une page de mises à jour des versions Release Updates pour que vous puissiez voir les dernières fonctionnalités, améliorations et corrections de bogues de Gemini, et nous mettrons à jour cet aperçu le cas échéant. Nous identifierons à la fois les domaines dans lesquels Gemini est utile et pertinent, et ceux dans lesquels nous devons continuer à itérer et à l'améliorer. Nous ajoutons activement de nouvelles fonctionnalités et, grâce à la recherche continue, aux tests et aux commentaires des utilisateurs, nous sommes impatients d'améliorer Gemini ensemble.

Attestations

Nous sommes reconnaissants du travail incroyable de nos collègues de l'équipe de l'appli Gemini, de Google DeepMind, de l'équipe chargée de la confiance et de la sécurité et de Google Research.

Rédigé par

James Manyika
Vice-président principal, Recherche, technologie et société

Sissie Hsiao
Vice-présidente et gestionnaire générale, Assistant Google et appli Gemini

Note de la rédaction

Il s'agit d'un document évolutif qui sera mis à jour périodiquement, car nous continuons à améliorer rapidement les capacités de l'appli Gemini et à remédier aux limites inhérentes aux LLM. Cet aperçu a été mis à jour pour la dernière fois le 25 juillet 2024. Pour connaître les dernières mises à jour de l'appli Gemini, consultez le journal Release Updates ou lisez la suite du blogue Google Keyword.

Fonctionnement de Gemini

1 Préentraînement

Gemini est propulsé par les modèles d'IA les plus performants de Google, conçus avec des capacités et des cas d'utilisation variables. Comme la plupart des grands modèles de langage (LLM) aujourd'hui, ces modèles sont préentraînés sur une variété de données provenant de sources publiques. Nous appliquons des filtres de qualité à tous les ensembles de données, en utilisant à la fois des règles heuristiques et des classificateurs basés sur des modèles. Nous procédons également à un filtrage de sécurité afin de retirer le contenu susceptible de produire des sorties qui ne respectent pas les politiques. Afin de préserver l'intégrité des évaluations de modèles, nous recherchons et retirons toutes les données d'évaluation susceptibles de figurer dans notre corpus d'entraînement avant d'utiliser les données pour l'entraînement. Les pondérations et mélanges de données finaux sont déterminés par des ablations sur des modèles plus petits. Nous mettons en scène l'entraînement pour modifier la composition du mélange pendant la formation, en augmentant la pondération des données pertinentes pour le domaine vers la fin de l'entraînement. La qualité des données peut être un facteur important pour obtenir des modèles très performants, et nous pensons que de nombreuses questions intéressantes restent en suspens concernant la façon de trouver la distribution optimale des ensembles de données pour le préentraînement.

Ce préentraînement permet au modèle d'apprendre à reconnaître des schémas linguistiques et de s'en servir pour prédire le ou les mots probables suivants dans une séquence. Par exemple, lorsqu'un LLM apprend, il peut prédire que le mot suivant dans « beurre d'arachide et ___ » est plus susceptible d'être « confiture » que « lacet ». Cependant, si un LLM ne choisit que le mot suivant le plus probable, il donnera des réponses moins créatives. Ainsi, les LLM ont souvent la possibilité de choisir parmi des options raisonnables, bien que légèrement moins probables (comme « banane »), afin de générer des réponses plus intéressantes. Il convient de noter que si les LLM peuvent donner de bons résultats sur des requêtes factuelles et donner l'impression de rechercher des informations, ils ne sont ni des bases de données d'informations ni des systèmes déterministes de recherche d'informations. Ainsi, alors que vous pouvez vous attendre à une réponse cohérente à une requête de base de données (une réponse qui est une récupération littérale des informations fixes stockées dans la base de données), la réponse d'un LLM à la même requête ne sera pas nécessairement la même à chaque fois (et ne récupérera pas littéralement les informations sur lesquelles il a été entraîné). C'est également une raison importante pour laquelle les LLM peuvent générer des réponses plausibles qui peuvent parfois contenir des erreurs factuelles, ce qui n'est pas idéal lorsque la factualité est importante, mais qui peut être utile pour générer des sorties créatives ou inattendues.

2 Postentraînement

Après l'entraînement initial, les LLM passent par des étapes supplémentaires pour affiner leurs réponses. L'une d'entre elles, appelée réglage fin supervisé (SFT), entraîne le modèle sur des exemples soigneusement sélectionnés d'excellentes réponses. C'est comme apprendre à écrire à des enfants en leur montrant des histoires et des essais bien écrits.

Vient ensuite l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Dans ce cas, le modèle apprend à générer des réponses encore meilleures en fonction des notes ou des commentaires d'un modèle de récompense spécial. Ce modèle de récompense est entraîné en fonction de données de préférence humaine, où les réponses ont été évaluées les unes par rapport aux autres, ce qui lui permet d'apprendre ce que les gens préfèrent. Les données de préférence peuvent parfois inclure des données choquantes ou incorrectes et exposer les modèles à de telles données afin qu'ils apprennent à les reconnaître et à les éviter. On peut considérer les données de préférence comme une récompense pour un enfant qui a bien travaillé; le modèle est récompensé pour avoir créé des réponses qui plaisent aux gens.

Tout au long de ces étapes, il est important d'utiliser des données d'entraînement de haute qualité. Les exemples utilisés pour le SFT sont généralement rédigés par des experts ou générés par un modèle et examinés par des experts.

Bien que ces techniques soient puissantes, elles ont des limites. Par exemple, même avec l'aide du modèle de récompense, une réponse donnée n'est pas toujours parfaite. Néanmoins, le LLM est optimisé pour produire les réponses les plus largement préférées en fonction des commentaires qu'il reçoit, de la même manière que les étudiants apprennent des commentaires de leurs professeurs.

3 Réponses aux requêtes des utilisateurs

La génération de réponses est semblable à la manière dont un être humain pourrait faire du remue-méninges au sujet de différentes approches pour répondre à une question. Lorsqu'un utilisateur fournit une requête, Gemini utilise le LLM postentraîné, le contexte de la requête et l'interaction avec l'utilisateur pour rédiger plusieurs versions d'une réponse. Il s'appuie également sur des sources externes telles que Recherche Google, ou l'une de ses nombreuses extensions, et les fichiers récemment téléversés (Gemini Advanced uniquement) pour générer ses réponses. Ce processus est connu sous le nom d'amélioration par récupération. À la suite d'une requête, Gemini s'efforce d'extraire les informations les plus pertinentes de ces sources externes (p. ex. Recherche Google) et de les représenter fidèlement dans sa réponse. L'ajout d'outils externes aux LLM est un domaine de recherche actif. Il y a plusieurs façons d'introduire des erreurs, y compris la requête que Gemini utilise pour invoquer ces outils externes, la façon dont Gemini interprète les résultats renvoyés par les outils et la manière dont ces résultats sont utilisés pour générer la réponse finale. Pour cette raison, les réponses générées par Gemini ne doivent pas refléter les performances des outils individuels utilisés pour créer cette réponse.

Enfin, avant que la réponse finale soit affichée, chaque réponse potentielle fait l'objet d'une vérification de sécurité afin de s'assurer qu'elle respecte les politiques applicables prédéterminées. Ce processus permet de filtrer les informations nuisibles ou choquantes. Les réponses restantes sont ensuite classées en fonction de leur qualité, et la ou les versions les mieux notées sont présentées à l'utilisateur.

Nous apposons également un filigrane sur les images et les textes produits par Gemini en utilisant SynthID, notre boîte à outils numérique de pointe pour l'apposition d'un filigrane sur le contenu généré par IA. Pour les images générées, SynthID ajoute un filigrane numérique (imperceptible à l'œil humain) directement dans les pixels. SynthID est un élément important pour le développement d'outils d'identification de l'IA plus fiables et peut aider les gens à prendre des décisions éclairées sur la manière dont ils interagissent avec le contenu généré par IA.

4 Rétroaction et évaluation humaines

Malgré les vérifications de sécurité, certaines erreurs peuvent se produire. Et les réponses de Gemini peuvent ne pas toujours répondre entièrement à vos attentes. C'est là qu'intervient la rétroaction humaine. Les évaluateurs évaluent la qualité des réponses, déterminent les points à améliorer et proposent des solutions. Cette rétroaction s'inscrit dans le processus d'apprentissage de Gemini, décrit dans la section « Postentraînement » ci-dessus.