[go: up one dir, main page]

Skip to main content

Gemini アプリの概要

Google は以前から、AI には情報やコンピューティングへのアクセスを容易にし、人々の役に立つ可能性があると考えてきました。大規模言語モデル(LLM)に関して先駆的な発展を遂げ、Google 全体で、そして広くこの分野において進化を続けています。Google は数年にわたってバックグラウンドで LLM を適用し、Gmail における文章の予測入力Google 翻訳の拡張、Google 検索におけるクエリの理解の向上など、多くのプロダクトを改善してきました。今後も引き続き、多くの Google サービスに LLM を使用するとともに、Gemini アプリを強化することで、ユーザーに生成 AI を活用した機能を提供していきます。Gemini アプリは、Google の最新 AI モデルを直接体験できる特別なアプリです。皆様にとって最も使いやすく、一人ひとりのニーズに寄り添った AI アシスタントとなるよう、開発を進めています。

生成 AI は世界を変える可能性を秘めた技術として注目を集めていますが、まだ発展の初期段階にあります。この概要では、Google がモバイルおよびウェブで提供する Gemini アプリ(以下「Gemini」といいます)の開発を行ううえでのアプローチ(Gemini とは何か、Gemini の仕組み、現時点での機能と制約など)について説明します。Gemini の基礎技術が発展を遂げるにつれ、また、Google が研究、経験、ユーザー フィードバックからの学びを重ねるにつれ、Gemini の開発に対するアプローチも進化していきます。

Gemini とは何か

Gemini は、テキスト、音声、画像などを処理するマルチモーダル LLM のインターフェースです。Gemini は 2013 年の Word2Vec に関する論文から始まった Google の最先端の LLM 研究に基づいています。この論文では、単語を数学的概念としてマッピングする新しいモデル アーキテクチャが提案されました。その後、2015 年にニューラル会話モデルが導入されました。このフレームワークでは、会話が自然な流れになるように、前の文に基づいて会話の次の文を予測するモデルの仕組みを明確にしました。さらに、2017 年には Transformer、2020 年にはマルチターン チャット機能で画期的な成果を上げ、生成言語モデルの確実な進歩を示しました。

Google は、AI に関する原則に従って、2023 年 3 月に初めて Gemini(当時は Bard)を試験運用版としてリリースしました。それ以来、Gemini はメールの作成、複雑なコーディングの問題のデバッグ、イベントのアイデア出し、難しい概念の理解など、多くのタスクに活用されています。今日 Gemini は、創造力や生産性、好奇心を高める多用途の AI ツールとしてさまざまな方法でユーザーをサポートしていますが、今後も定期的に新しい機能や革新的な技術が追加される予定です。

生産性

Gemini は作業の効率化に役立ちます。たとえば、長い研究資料の概要が知りたい場合、Gemini にアップロードすればわかりやすく要約することができます。また、コーディングのサポートも可能で、コーディングは最もポピュラーな用途の一つとして急速に広まっています。

創造力

Gemini は、ユーザーのアイデアを形にしたり、創造力を高めたりすることもできます。たとえば、ユーザーがブログ投稿を作成しようとする場合、Gemini は大まかな構成を示し、投稿の内容に合った画像を生成することができます。また、近日提供予定の Gem 機能を使用すると、ユーザーは Gemini にカスタム指示を出し、SME(特定の分野の専門家)として個人的な目標の達成をサポートしてもらえるようになります。

好奇心

Gemini は、ユーザーが気になるアイデアやトピックについて調べる過程で、好奇心をさらに深めるきっかけになる可能性があります。たとえば、複雑なトピックを簡単に説明したり、トピックや画像と関連性の高い分析情報を示したりすることができます。また、特定のトピックについてより詳しく知るために、そうした分析情報をウェブからのおすすめのコンテンツと組み合わせて表示する機能も間もなくリリースされる予定です。

Gemini は急速に発展を遂げており、スマートフォンのカメラを何かにかざすだけでその情報を得られる機能も間もなく提供されます。たとえば、街で見かけた植物が気になったら、スマートフォンを向けて Gemini にそれについて尋ねることができます。また、レストランのメニューを別の言語で説明したり、ユーザーの好みに合いそうなメニューをおすすめしたりすることも可能です。これらは、今後 Gemini に搭載される予定の新機能のほんの一部です。

Google は、回答の信頼性を高め、ユーザーの期待に応えられるよう、Gemini のトレーニングとモニタリングを厳格に行っています。また、業界の専門家、教育者、政策立案者、ビジネス リーダー、公民権 / 人権運動の指導者、コンテンツ クリエイターなどとの話し合いを通じて、進化の途中にあるこのテクノロジーの新しい用途、リスク、および制約について検討を進めています。

Gemini の仕組み

1

事前トレーニング

2

事後トレーニング

3

ユーザーのプロンプトへの回答

4

人間によるフィードバックと評価

Gemini のような LLM ベースのインターフェースにおける既知の制約

Gemini は、責任ある LLM 開発に向けた Google の継続的な取り組みの一つにすぎません。Google はその過程で、LLM に関わるいくつかの制約を特定し、議論してきました。以下に、Google が継続的に研究している 6 つの重要分野を紹介します。

  • 正確性: 複雑なトピックや事実に基づくトピックについて質問した場合に、Gemini が不正確な回答を生成する可能性がある。

  • バイアス: トレーニング データにバイアスが内在する場合、それが Gemini の回答に反映されることがある。

  • 複数の視点: Gemini の回答に多様な視点が反映されていない可能性がある。

  • ペルソナ: Gemini の回答が個人的な見解や感情を持つかのような誤った示唆を与える可能性がある。

  • 偽陽性 / 偽陰性: Gemini が適切なプロンプトに回答しない可能性や、不適切な回答を提供する可能性がある。

  • 敵対的なプロンプトに対する脆弱性: ユーザーが無意味なプロンプト、または現実世界ではほぼ尋ねられることのない質問を使用して、Gemini に対して過重な負荷をかける方法を見つける可能性がある。

Google は引き続き、これらの分野でパフォーマンスを改善するための新たなアプローチを探っています。

正確性

Gemini は、Google ならではの「情報を整理する技術」に基づいており、ユーザーのプロンプトのコンテキストとの関連性が高く、ユーザーの意図に沿った回答を生成するようトレーニングされています。しかしあらゆる LLM と同様に、Gemini は不正確な情報や誤解を招くような情報が含まれる回答を、確信と説得力を持って提示することがあります。

LLM は次に続く語句を予測することで機能するため、独力で正確な情報と不正確な情報を区別する能力がまだ完全ではありません。Gemini が不正確な情報を含む回答を生成する事例や、不正確な情報を作り出す事例も確認されています(どのようにトレーニングされたかを偽って説明する、存在しない本の名前を示すなど)。Google がこの問題に対処するために開発した機能の一つが、「ダブルチェック機能」です。ユーザーはこの機能を使うことで、Google 検索で Gemini の回答を評価するのに役立つコンテンツを見つけ、Gemini が出力した情報を裏付けるソースへのリンクを確認できます。

バイアス

公開されているソースからのものを含め、トレーニング データには多様な視点や意見が反映されています。Google はこうしたデータを、不正確な過剰一般化やバイアスを最小限に抑えながら、LLM の回答に幅広い視点を取り込む形で活用する方法の研究を進めています。

トレーニング データにおけるギャップ、バイアス、過剰一般化は、モデルがプロンプトに対するもっともらしい回答を予測しようとする際、出力に反映されることがあります。こうした問題はさまざまな形で現れることがわかっています(回答で、特定の文化やユーザー層しか考慮されていない、問題のある過剰一般化に言及している、ジェンダー、宗教、民族に関するバイアスが含まれている、1 つの視点しか提示されていないなど)。トピックによってはデータが不足している場合があります。つまり、特定のテーマについて LLM が学習し、質の高い予測を行うために必要な、信頼性の高い情報が不十分ということです。これにより、低品質または不正確な回答が生成される可能性があります。Google はそうした分野の専門家や多様なコミュニティと協力して、Google 外部の高度な専門知識を活用しています。

複数の視点

主観的なトピックの場合、ユーザーが特定の視点をリクエストしない限り、Gemini はユーザーに複数の視点を提供するように設計されています。たとえば、一次資料からの事実や信頼性の高い情報源では検証できないこと(「最高」または「最低」を評価する主観的な意見など)に関するプロンプトが入力された場合、Gemini は幅広い視点を反映する回答を提示する必要があります。しかし Gemini のような LLM はインターネット上に公開されているコンテンツでトレーニングされるため、特定の政治家や著名人などの公人に対する肯定的または否定的な見解を反映したり、意見の分かれる社会問題や政治問題について、一方の見解だけを取り入れたりする可能性があります。Gemini は、こうしたトピックについて特定の意見を支持するような回答をするべきではありません。Google はこのような回答に対するフィードバックを使用して、より適切に対応できるように Gemini をトレーニングしていきます。

ペルソナ

Gemini は、人間の経験を反映するよう、人々が普段使う言葉でトレーニングされているため、まるで自身の意見や、愛や悲しみのような感情を持っているかのような回答を生成することがあります。Google は、Gemini が自身を表現する方法(ペルソナ)に関するガイドラインを策定しており、客観的回答を提供するようにモデルを継続的に微調整しています。

偽陽性 / 偽陰性

Google は一連のポリシー ガイドラインを策定し、Gemini のトレーニングに役立てるとともに、Gemini が問題のある回答を生成しないようにしています。Gemini がこれらのガイドラインを誤解して「偽陽性」や「偽陰性」が生じることもあります。「偽陽性」の場合、Gemini はプロンプトが不適切であると誤解し、妥当なプロンプトに対して回答を行いません。「偽陰性」の場合、Gemini はガイドラインが存在するにもかかわらず不適切な回答を生成します。偽陽性や偽陰性の発生は、Gemini がバイアスを持っているという印象をユーザーに与えることがあります。たとえば、偽陽性により、Gemini が問題の一方の側面についての質問には回答しないのに、もう一方の側面についての同じ質問には回答する場合があります。Google はモデルを微調整しながら入力 / 出力について理解を深め、分類するという作業を、言語、事象、社会が急速に変化する中で継続していきます。

敵対的なプロンプトに対する脆弱性

トレーニング プロトコルやその他の情報を開示させようとしたり、安全メカニズムを回避しようとしたりするなど、Gemini にできることの限界を試したり、Gemini の防御の壁を破ろうとするユーザーも出てくるでしょう。Google は Gemini に対して厳格なテストを実施しており、これからもテストを続けますが、ユーザーが Gemini に対して過重な負荷をかける独特かつ複雑な方法を見つける可能性があることを認識しています。このことは、Gemini を改善するうえで重要な意味を持ちます。Google は、ユーザーが思いつく新しいプロンプトを学習することに尽力してまいります。実際、2023 年に Gemini がリリースされて以降、ユーザーは哲学的なものから無意味なものまで、さまざまなプロンプトで Gemini に挑戦しています。それに対して、Gemini は同じように無意味な回答や、前述のアプローチに沿わない回答をする場合があります。そうしたプロンプトに Gemini が回答できるようにする方法を見つけることは継続的な課題となっており、Google は内部評価とレッドチーム テストを拡大しながら、正確性、客観性、ニュアンスを向上させています。

Gemini の開発に対する継続的な取り組み

Gemini に対するアプローチを明確にする

AI に関する原則に加えて、Google は最近、Gemini に取り組む際のアプローチを明文化しました。具体的には、「ユーザーの指示に従う、ユーザーのニーズに合わせる、安全に利用してもらう」というものです。このアプローチの根底にあるのは、責任と安全への注力です。Gemini のポリシー ガイドラインは、特定の問題のある出力を回避することを掲げています。Google は社内の「レッドチーム」のメンバー(ポリシー ガイドラインと Gemini に関する Google の指針に適合しているかどうかをチェックするために、モデルに対し意図的にストレステストを行うプロダクト エキスパートと社会科学者)とともに敵対的テストを重ねていくことで、学習した内容を Gemini に反映し、改善を続けます。

プライバシーも、Gemini を開発するうえで重要な考慮事項です。プライバシー バイ デザインとユーザー自身による管理を考慮した Gemini の開発について詳しくは、Gemini アプリのプライバシー ハブをご覧ください。

ユーザーとパブリッシャーがデータを管理できるようにする

Google は、ユーザーが簡単に Gemini のデータの確認、更新、管理、エクスポート、削除を行えるよう、さまざまな管理手段を用意しています。ユーザーは Gemini アプリ アクティビティの管理画面で Gemini のプロンプトや回答にアクセスして確認し、フィードバックを提供できます。また、Gemini アプリ アクティビティの設定をオフにすることで、今後 Gemini とのチャットを Google の機械学習テクノロジーの向上に使用されないようにすることもできます。他の Google サービスと同様に、Google のデータ エクスポート ツールを使って自分の情報をダウンロードおよびエクスポートすることも可能です。それ以外にも、Gemini のスレッドに対して作成した公開リンクを管理するための設定や、拡張機能(Google Workspace、Google マップ、YouTube など)へのアクセスを有効または無効にできる設定も用意しています。Google は引き続き、より幅広い回答の出力を可能にするフィルタの調整機能を含め、ユーザーが Gemini の回答を細かく管理するための新しい方法を模索しています。

Google はパブリッシャー向けに、Google-Extended をリリースしました。ウェブ パブリッシャーはこの機能を使うことで、自社サイトを Gemini と Vertex AI 生成 API の改善に活用することを許可するかどうかを管理できます。Google-Extended がサイトのコンテンツにアクセスするのを許可することで、AI モデルが時間の経過とともに正確性と機能性を向上させるのを支援できます。Gemini はオプトアウトされている URL のコンテンツを使用することも、そうしたコンテンツをグラウンディングに使用することもありません。AI の用途が拡大するにつれて、ウェブ パブリッシャーが多種多様な用途を管理する作業は、さらに複雑化していくと考えられます。Google はウェブや AI のコミュニティと協力して、より機械可読性の高い形で選択肢や制御機能を提供できる手法を模索しています。

Gemini のフィードバックにご協力ください

Google は、Gemini の迅速なイテレーションと、優れた機能を世界中に届けることを重視しています。Google はこれまでいただいたユーザー フィードバックに基づき、モデルの改善を加速してきました。たとえば、最先端の強化学習手法を使用して、直感的でイマジネーションに富んだ、より質の高い正確な回答を提供できるようにモデルをトレーニングしています。Google は、LLM がもたらす技術的、社会的、倫理的な課題と機会を探る研究に対して、継続的に投資しています。その目的は、Gemini のモデルのトレーニング方法やチューニング方法を改善しながら、得られた知見を研究者と共有することです。その一例として、高度な AI アシスタントの倫理に関する最近の論文が挙げられます。Google は、ユーザー、Trusted Tester、研究者と協力しながら、責任を持ってこの分野でのイノベーションに取り組み、新しいテクノロジーの恩恵をエコシステム全体にもたらす方法を模索しています。

透明性は重要であり、Google は Gemini の開発プロセスや制約に関する情報を積極的に公開しています。Gemini は謎めいた「魔法のブラックボックス」ではありません。日々進化を続けており、Google は今後も最新の情報をお伝えしていきます。その一環として、リリース最新情報ページで Gemini の最新の機能、改善内容、バグ修正についてお知らせしています。また、この概要も必要に応じて更新していく予定です。その過程で、Gemini の便利な用途だけでなく、継続的なイテレーションと改善が必要な分野についても明らかにしていきます。Google は精力的に新機能を導入するとともに、継続的な研究、テスト、ユーザー フィードバックを通じて、皆さまとともに Gemini をより良いものにしていきたいと考えています。

謝辞

Gemini アプリチーム、Google DeepMind チーム、Trust & Safety チーム、Google Research チームの同僚の素晴らしい仕事に感謝の意を表します。

著者

James Manyika
シニア バイス プレジデント(Research, Technology and Society)

Sissie Hsiao
バイス プレジデント兼ゼネラル マネージャー(Google アシスタント / Gemini アプリ)

編集者注

Gemini アプリの機能は常に向上しており、大規模言語モデル(LLM)に内在する制約への対応も進んでいるため、このドキュメントは定期的に更新されます。この概要の最終更新日は 2024 年 7 月 25 日です。Gemini アプリに関する最新情報については、リリースの最新情報または Google Keyword ブログをご覧ください。

Gemini の仕組み

1 事前トレーニング

Gemini には、多様な機能やユースケースに基づいて設計された、Google の最も高性能な AI モデルが使用されています。これらのモデルは、現在のほとんどの LLM と同様に、公開されているソースからのデータで事前トレーニングされています。Google は、ヒューリスティック ルールとモデルベースの分類器の両方を使用して、すべてのデータセットに品質フィルタを適用しています。また、ポリシー違反の出力を生成しそうなコンテンツを削除し、安全性のフィルタリングも行っています。Google は、モデル評価の一貫性を維持するため、データをトレーニングに使用する前に Google のトレーニング コーパスに存在していた可能性のある評価データを検索して削除します。最終データの構成と重み付けは、小規模モデルにおけるアブレーションによって決まります。Google は、トレーニングに段階を設け、トレーニング中に構成を変更しながら、トレーニング終盤に向けてドメインに関連するデータの重み付けを高くしています。データ品質は高性能モデルの重要な要素になり得るものですが、事前トレーニングの最適なデータセットの分布に関しては、まだ多くの興味深い問題が残されていると Google は考えています。

LLM は、この事前トレーニングを通じて言語のパターンを学習し、それに基づいて次に続く可能性が高い単語を予測します。LLM が学習するにつれ、たとえば、「ラーメンと」に続く単語は「靴紐」より「餃子」の方が可能性が高いと予測できるようになります。しかしながら、次の単語として最も可能性が高い単語ばかりを選択していると回答の創造性が低下します。そこで LLM では、次に続く可能性は多少低くても、合理的な選択肢の中からあり得る単語(海苔など)を柔軟に選択できるようにすることで、より興味深い回答が生成されるようにしています。LLM を実際に利用してみると、事実に関する質問に適切に回答して情報を提供してくれる印象を受けますが、LLM は情報データベースでも、確実な情報検索システムでもない点には注意が必要です。データベース質問(データベースに保存されている情報をそのまま取得する処理の場合)では、ユーザーは一貫性ある回答が返されることを期待できます。一方、LLM は同じプロンプトに対して毎回同じ回答を返すとは限りません(トレーニングで学習した情報をそのまま取得しない場合もあります)。この点は、LLM が事実誤認を含むもっともらしい回答を生成する場合がある重要な理由でもあります。事実が重視される場面では最良とはいえませんが、創造性や予期せぬ結果が求められる場面では有用となる可能性があるのです。

2 事後トレーニング

最初のトレーニング完了後、LLM は追加のステップを経て回答を改善していきます。このステップのひとつは教師ありファイン チューニング(SFT: Supervised Fine-Tuning)と呼ばれ、慎重に選択された優良回答の例でモデルをトレーニングします。これは、子どもに優れた物語や文章を示して、作文を教えるのに似ています。

次に、人間のフィードバックによる強化学習(RLHF: Reinforcement Learning from Human Feedback)により、モデルは特別な報酬モデルからのスコアやフィードバックに基づいて、さらに優れた回答を生成するよう学習します。この報酬モデルは人間の選好データでトレーニングされています。回答は相対的に評価され、人間が好ましいと思うものがトレーニングに使用されます。選好データはモデルに対して不適切または不正確な情報を提供してしまうことがあるため、そうした情報を識別し、回避するよう学習します。これは、子どもが勉強やお手伝いをがんばったときにごほうびを与えるのに似ています。モデルは、人間が好ましいと思う回答を生成したときに報酬を得られるという仕組みです。

これらの段階においては、高品質のデータを使用することが重要です。SFT に使用される例は基本的に専門家によって作成されているか、モデルが生成したものを専門家がレビューしています。

こうした手法は効果的ですが、制約もあります。たとえば、報酬モデルのサポートを利用しても、回答が常に完璧であるとは限りません。しかしながら、生徒が教師の言葉から学びを得るように、LLM はフィードバックに基づいてより多くの人に好ましいと思われる回答を生成するよう最適化されています。

3 ユーザーのプロンプトへの回答

回答の生成は、人間がある質問に答えるためにさまざまな方法を考えるというプロセスに似ています。ユーザーがプロンプトを入力すると、Gemini は事後トレーニングを経た LLM、プロンプトのコンテキスト、ユーザーとのやり取りを使用して、回答案をいくつか作成します。また、Google 検索や複数の拡張機能のいずれか、最近アップロードされたファイル(Gemini Advanced のみ)などの外部ソースも使用して、回答を生成します。このプロセスは検索拡張と呼ばれます。プロンプトが入力されると、Gemini はこれらの外部ソース(Google 検索など)から最も適切な情報を取得して、回答に正確に反映するよう試みます。外部ツールによる LLM の拡張は研究の盛んな分野ですが、さまざまな要因によりエラーが発生する可能性があります。たとえば、Gemini がこれらの外部ツールを起動するために使用するクエリ、ツールが返した結果を Gemini が解釈する方法、返された結果が最終回答の生成に使用される方法などがその要因として挙げられます。そのため、Gemini が生成した回答は、その回答の作成に使用された個々のツールの性能を反映しているとみなされるべきではありません。

最終的な回答が表示される前に、それぞれの回答に対して安全性のチェックが行われ、あらかじめ定められているポリシー ガイドラインに準拠していることが確認されます。このプロセスは、有害または不快な情報を除外するためのダブルチェックの機能を果たします。除外されずに残った回答は、その後品質に基づいてランク付けされ、最もスコアの高いバージョンがユーザーに表示されます。

Google は、AI 生成コンテンツに透かしを入れる業界トップのデジタル ツールキット SynthID を使用して、Gemini が出力したテキストと画像に透かしを入れる取り組みも行っています。SynthID は、生成された画像のピクセル内に、人間の目には見えないデジタル透かしを直接追加します。SynthID はより信頼性の高い AI 識別ツールを開発するための重要な構成要素であり、ユーザーが AI 生成コンテンツの利用方法について情報に基づいた意思決定を行うのに役立ちます。

4 人間によるフィードバックと評価

安全性のチェックを行っても、エラーが発生することがあります。また、Gemini が必ずユーザーの期待に沿った回答をするとも限りません。そこで重要になるのが人間のフィードバックです。評価担当者は回答の品質を評価し、改善点を特定して、解決策を提案します。こうしたフィードバックは、上記の「事後トレーニング」のセクションで説明されているように、Gemini の学習プロセスに組み込まれています。