[go: up one dir, main page]

Skip to main content

Gemini 應用程式簡介

Google 很早之前就發現 AI 的潛力,相信這項技術能讓使用者更容易取得有用資訊,以及執行各種運算作業。我們在大型語言模型 (LLM) 取得多項重大突破,並見證 Google 及整個 AI 領域往前跨出了一大步。多年來,我們在背景採用 LLM 來改良許多產品,像是在 Gmail 自動完成句子增加 Google 翻譯支援的語言,以及進一步瞭解 Google 搜尋的查詢內容。我們持續將 LLM 導入許多 Google 服務,包括 Gemini 應用程式,讓使用者能直接與生成式 AI 協作。我們希望 Gemini 應用程式成為最實用、最貼近個人需求的 AI 助理,使用者可直接運用 Google 最新的 AI 模型。

雖然我們正處於重要轉折點,因為生成式 AI 的熱潮而備受鼓舞,但這項技術仍在早期開發階段。這篇文章概述我們如何打造 Gemini 應用程式 (下稱「Gemini」),包括行動版與網頁版,說明這項服務、運作方式,以及目前的功能與限制。基礎技術不斷發展,加上我們不斷從研究、經驗和使用者意見回饋中學習,建構 Gemini 的做法也將與時俱進。

Gemini 是什麼?

Gemini 是多模態 LLM 的介面,可處理文字、音訊和圖像等內容。Gemini 奠基於 Google 最先進的 LLM 研究成果,包括 2013 年 Word2Vec 論文提出的創新模型架構 (以數學概念對應文字),以及 2015 年發表的 類神經對話式模型。這個框架展示了模型如何根據先前語句,預測對話中的後續語句,提供更自然流暢的對話式體驗。我們隨後在 2017 年發布開創先河的 Transformer 模型,在 2020 年推出多輪對話功能,展現生成式語言令人驚豔的突破。

2023 年 3 月,我們依據 AI 開發原則,以實驗形式推出 Gemini (當時稱為 Bard)。之後,使用者開始運用 Gemini 撰寫吸引人的電子郵件、解決棘手的程式碼問題、構思近期活動、學習複雜的概念等。如今,Gemini 是多功能的 AI 工具,在許多方面提供輔助。我們看到 Gemini 協助使用者提升工作效率、揮灑創意,更激發他們探索新事物的好奇心。與此同時,我們也持續推出新的功能

效率提升

首先,Gemini 可節省時間。如果想將長篇的研究文件濃縮成摘要,只要上傳檔案,Gemini 就能整理出內容要點。此外,Gemini 也能協助程式設計工作,寫程式也因此成為 Gemini 的熱門用途。

創意

Gemini 還能激發你的創意,實現你的構想。舉例來說,如果要寫一篇網誌文章,Gemini 可以幫你建立大綱並生成圖像,增添文章風采。我們不久後將推出 Gem,使用者可下達特定指令,讓 Gemini 化身為某個領域的專家,幫助你達成個人目標。

激發好奇心

Gemini 可以做為探索想法和學習知識的起點,以簡單的方式解釋複雜概念,或針對某個主題/圖像顯示相關見解等。不久後,Gemini 還能將這些見解與網路的推薦內容相結合,協助你進一步瞭解特定主題。

Gemini 功能正迅速增加,不久後,將手機相機對準一個物體,就能要求 Gemini 提供相關資訊,像是將鏡頭朝向金門大橋,請 Gemini 告訴你油漆顏色 (答案是「國際橘」)。此外,Gemini 未來也能協助你看懂其他語言的餐廳菜單,並推薦你可能會喜歡的餐點。這裡只是舉兩個例子,Gemini 還會有更多功能,敬請期待!

對於 Gemini,我們當然是嚴密訓練及監控,讓回覆內容盡可能可靠,符合使用者的期待。為了探索這項新興科技的全新應用方式、風險和限制,我們也與各方人士深入交流,包括各界專家、教育工作者、政策制定者、企業領袖、人權領袖和內容創作者。

Gemini 的運作方式

1

訓練前的準備

2

訓練後的處理作業

3

依據使用者提示詞生成回覆

4

使用者回饋與評估機制

Gemini 等大型語言模型介面的已知限制

我們一向秉持負責任的態度開發 LLM,而 Gemini 只是其中一部分。在這段過程中,我們發現並探討了數個 LLM 相關限制,以下將重點說明我們持續研究的六大領域:

  • 正確性:Gemini 回覆可能不正確,尤其在回答複雜或涉及事實的問題時,容易出現這種狀況。

  • 偏誤:Gemini 回覆可能反映訓練資料中的偏誤。

  • 多元觀點:Gemini 回覆可能無法呈現各種看法。

  • 人物性格:使用者可能會誤以為 Gemini 回覆摻雜個人意見或觀感。

  • 誤判真假:即使給予適當的提示詞,Gemini 可能也無法回答,或提供不恰當的回覆。

  • 對抗性提示詞造成的安全漏洞:使用者可能會找到方法,用無意義的提示詞或現實世界鮮少提出的問題,對 Gemini 進行壓力測試。

我們會不斷探索新的做法和領域,改進 Gemini 在上述各方面的表現。

正確性

Gemini 的基準建立在 Google 掌握的可靠資訊,且經特別訓練,會生成與提示脈絡情境相關的回覆,滿足使用者的需求。不過如同所有 LLM,Gemini 有時會充滿自信地頭頭是道,生成的回覆卻含有錯誤或誤導性資訊。

LLM 的運作方式是預測下一個字或一組詞,目前還無法徹底區分正確和不正確的資訊。我們曾看過 Gemini 呈現含有錯誤或捏造資訊的回覆,例如:不實描述 Gemini 的訓練方式,或推薦不存在的書。我們打造了幾項功能來解決這項問題,例如:點選「查證」按鈕,即可透過 Google 搜尋找出有助評估 Gemini 回覆的內容,並取得來源連結,進一步驗證 Gemini 的資訊。

偏誤

訓練資料包含來自公開來源的資料,反映了不同觀點和見解。我們會持續研究如何使用這類資料,確保 LLM 的回覆能納入多元觀點,同時盡可能減少不正確、以偏概全的內容和偏誤。

當模型試圖依據提示詞預測可能的回覆時,訓練資料中的缺漏、偏誤和過度概化情形會反映在輸出內容。我們看到這些問題以多種方式浮現,例如:回覆只反映單一的文化或群體特徵、引用有問題且以偏概全的內容、呈現性別/宗教/種族的偏見,或只傳遞一種觀點。部分主題可能有資料空隙,也就是特定主題沒有足夠的可靠資訊,可供 LLM 學習並做出優質預測,使得回覆品質低落或不正確。我們會持續與各領域專家和多元社群合作,向外界請益,汲取專業知識。

多元觀點

對於主觀性的主題,如果使用者沒有指定立場,Gemini 就會提供多元觀點。舉例來說,如果提示詞要求的資訊無法透過主要來源或可靠來源的事實驗證 (例如涉及「最佳」和「最差」的主觀意見),Gemini 的回覆應呈現多方觀點。不過,由於 Gemini 這類 LLM 是用網路公開內容進行訓練,可能會反映特定政治人物、名人等公眾人物的正負面看法,對於備受爭議的社會或政治議題,甚至只提供片面見解。Gemini 在回覆這些主題時不應支持特定觀點。為有效解決此問題,我們會運用這類回覆的意見回饋來訓練 Gemini。

人物性格

Gemini 生成的回覆偶爾可能會暗示有個人想法或情緒 (像是愛和悲傷),這是因為 Gemini 是以反映人類經驗的語言訓練而成。針對 Gemini 如何呈現自身形象 (即人物性格),我們訂定了一套規範,並持續微調模型,確保回覆保持客觀。

誤判真假

我們制定一系列政策規範來訓練 Gemini,避免生成有問題的回覆。Gemini 有時可能會誤解這些規範,造成真假摻雜、是非不分的情況。如果以「偽陽性」的概念來類比,Gemini 可能會誤將合理提示詞歸類為不合理,而拒絕回覆;如為「偽陰性」,儘管 Gemini 會參照規範,仍可能生成不適當的回覆。這些情況可能會讓使用者認為 Gemini 有偏見。例如,如果是「偽陽性」的情況,會導致 Gemini 不回覆某問題的某個層面,但會回答相同問題的另一層面。隨著語言、事件和社會快速發展,我們不斷調整,讓這些模型更有效理解輸入/輸出內容,並加以分類。

對抗性提示詞造成的安全漏洞

我們考量到使用者可能會測試 Gemini 的效能極限,試圖突破保護措施,包括想讓 Gemini 洩漏訓練協定或其他資訊,或打算繞過安全機制。Gemini 持續接受嚴格測試,但我們知道使用者會找到特殊或更複雜的方式對 Gemini 進行壓力測試。這是改良 Gemini 的重要一環,而我們也希望瞭解使用者想出的新提示詞。事實上,自 2023 年 Gemini 推出以來,使用者便利用各種提示詞 (從哲學問題到無意義的問題) 挑戰 Gemini。Gemini 有時也會回覆無意義或有違既定做法的內容。我們會持續找出方法來協助 Gemini 回覆這類提示詞,也會擴大內部評估和紅隊演練規模,持續提升正確性、客觀性及細膩度。

Google 如何持續開發 Gemini

我們對 Gemini 採取的做法

除了 AI 開發原則,我們最近也闡明 Google 對 Gemini 採取的做法:Gemini 應遵從使用者指令、滿足需求並提供安全體驗,將責任和安全放在首位。Gemini 的政策規範旨在避免有問題的輸出內容類型。我們與內部「紅隊」成員 (產品專家和社會科學家) 合作,不斷進行對抗性測試。他們會刻意對模型進行壓力測試,找出它在哪些地方偏離了政策規範和 Gemini 原則,我們就能運用這些發現,持續改良 Gemini。

隱私權也是我們開發 Gemini 的重要考量。Gemini 系列應用程式隱私權專區詳盡說明 Gemini 如何導入隱私保護設計,並賦予使用者控制權。

推出使用者和發布商控制選項

我們提供各種好用的 Gemini 使用者控制選項,讓你可以查看、更新、管理、匯出及刪除 Gemini 資料。前往 Gemini 系列應用程式活動記錄,就能存取及查看過去的 Gemini 提示詞、回覆和意見回饋。如果不希望你和 Gemini 的對話用於改良 Google 機器學習技術,可以關閉 Gemini 系列應用程式活動記錄設定。和其他 Google 服務一樣,你也能使用 Google 匯出工具,下載及匯出 Gemini 資訊。我們也提供控制選項,讓你可以管理在 Gemini 對話串建立的公開連結,以及開啟/關閉擴充功能的存取權 (如 Workspace、Google 地圖、YouTube)。同時,我們也在探索新的方法,讓你能進一步管控 Gemini 的回覆,包括調整篩選器,得到更全面的回答。

我們推出 Google-Extended,讓發布商能夠選擇是否要讓自家網站協助改良 Gemini 和 Vertex AI 生成式 API。允許 Google-Extended 存取網站內容,有助 AI 模型不斷提升正確性及效能。Gemini 不會將已選擇退出的網址內容用於模型訓練,也不會用來建立基準。隨著 AI 用途增加,網站發布商現在需要管理各種應用方式,變得十分複雜;因此,我們攜手網路和 AI 社群,對於發布商的選擇和控管設定,找到更多能讓機器讀懂的方法。

ㄧ起提升 Gemini 的品質

Google 秉持快速更新原則,致力將最出色的 Gemini 服務帶給全世界。使用者的意見回饋有助我們加速改良模型。舉例來說,我們使用最先進的增強學習技術來訓練模型,提高模型的易用性、創意、速度、品質和正確性。我們會持續深入研究 LLM 在技術、社會與道德方面帶來的挑戰與機會,據此改良 Gemini 的模型訓練和調整技術,並分享研究成果,例如最近發表的這篇論文:先進 AI 助理的道德。我們會秉持負責任的態度,在這塊領域推動創新,並攜手使用者、信任的測試人員和研究人員,尋找讓這項新技術造福整個生態系統的方法。

資訊公開是至關重要的環節,因此我們也投注心力,公開 Gemini 的開發流程和限制。Gemini 並非神奇技術,會不斷演變,我們也會繼續分享最新進展。你可以透過「版本更新」頁面,掌握 Gemini 的最新功能、改良內容和錯誤修正資訊,我們也會視情況更新這篇總覽文章。我們會持續找出 Gemini 的實用優點,以及需要不斷更新與提高品質的地方。我們也會不斷推出新的功能,並藉助研究、測試和使用者意見回饋,集結各方力量提升 Gemini 的品質。

致謝

誠摯感謝 Gemini 應用程式團隊、Google DeepMind 團隊、Trust & Safety 團隊和 Google 研究團隊的傑出貢獻。

作者

James Manyika
Research, Technology and Society 部門資深副總裁

Sissie Hsiao
Google Assistant and Gemini App 部門副總裁和總經理

編註

我們會持續快速改良 Gemini 應用程式的功能、努力解決 LLM 的固有限制,並經常更新這篇文章。上次更新日期:2024 年 7 月 25 日。如需瞭解 Gemini 應用程式的最新動態,請造訪「版本更新」記錄頁面,或參閱 Google Keyword 網誌

Gemini 的運作方式

1 預先訓練

Gemini 採用 Google 最強大的 AI 模型,具備多種功能和用途。這些模型如同當今大多數的 LLM,是以公開可用來源的各種資料預先訓練建構而成。我們利用經驗法則和模型式分類器,對所有資料集套用品質篩選器,並執行安全性篩選作業,移除可能違反政策的輸出內容。為了保持模型評估的完整性,我們會先搜尋訓練語料庫,移除任何評估資料,才會使用資料開始訓練。最終資料組合與權重取決於小型模型的消融結果。我們分階實施訓練作業,在過程中調整組合內容,逐步提高領域相關資料的權重,直到完成訓練。資料品質是讓模型達到高效能的重要因素,我們相信要找出預先訓練作業最適合的資料集分配方式,必須先解決許多關鍵問題。

模型可透過預先訓練來學習各種語言模式,並使用這些模式,預測序列中之後可能出現一或多個字詞。舉例來說,LLM 可經由學習,預測出「花生醬和 ___」這個詞組中較有可能填入「果醬」,而非「鞋帶」。然而,如果 LLM 只會挑選最有可能填入的字詞,回覆就會落於死板,因此 LLM 通常內建靈活回覆機制,能挑選合理但可能性稍低的字詞 (如「香蕉」),生成更有趣的回覆。請注意,雖然 LLM 在提供事實資訊方面表現良好,看似可有效擷取資訊,但 LLM 並非資訊資料庫,也不是確定性資訊的檢索系統。在資料庫執行查詢時,可預期取得一致的回覆,也就是儲存在資料庫的擷取資訊常值。相較之下,詢問 LLM 時,同一個提示不見得每次都會得到相同回覆,也不一定是訓練資料中的擷取資訊常值。這也是為何 LLM 回覆內容可能看似合理,偶爾卻有錯誤資訊。對呈現事實來說,LLM 的表現可能較不理想,但可能提供有創意或非預期的輸出內容。

2 訓練後的處理作業

LLM 經初步訓練後,我們會採取其他修正回覆內容的做法,包括監督式微調 (SFT),以精選的優質答案範例做為模型訓練資料。這就像是運用出色的故事和文章來指導孩子的寫作技巧。

接著是人類回饋增強學習 (RLHF) 技術。模型會按照特殊獎勵模型的評分或意見回饋,學習如何生成更好的回覆。獎勵模型是根據真人偏好的資料訓練而成,會比較回覆內容並加上評分,進一步瞭解使用者的喜好。偏好資料有時會包含並呈現令人反感或錯誤的資料,協助模型瞭解如何識別及避免不當或有錯的內容。偏好資料的用法就如獎勵表現好的孩子:模型會因生成使用者喜歡的答案而獲得獎勵。

在這些階段中,優質的訓練資料必不可少。監督式微調使用的範例通常由專家編寫,或是專家審查過的生成結果。

雖然這些技術非常強大,但也不是面面俱到。舉例來說,即使採用獎勵模型,也沒辦法每次都生成完美回覆。不過,LLM 仍會依據收到的意見回饋調整,生成最多人偏好的回覆,就像學生從老師的評語中學習並進步。

3 依據使用者提示生成回覆

回覆生成的過程,類似集思廣益回答問題。使用者發出提示後,Gemini 就會使用訓練後的 LLM、提示的脈絡情境和使用者互動資訊,擬定不同版本的回覆草稿。此外,LLM 也會仰賴外部資料來源來生成回覆,例如:Google 搜尋和/或擴充功能,以及最近上傳的檔案 (僅限 Gemini Advanced)。這個流程稱為「檢索增強」。Gemini 收到提示後,會盡可能從這些外部資料來源 (如 Google 搜尋) 擷取最相關的資訊,然後在回覆中如實呈現。以外部工具加強 LLM 是目前熱門的研究領域。不過,很多問題會造成錯誤,例如,Gemini 用於叫用外部工具的查詢、Gemini 對工具傳回結果的解讀方式,以及使用這些傳回結果生成最終回覆的方法。正因如此,從 Gemini 生成的回覆,可能無法看出各種建立回覆的工具有什麼成效。

最後,Gemini 顯示最終回覆前,會對每個潛在回覆執行安全檢查,確認內容符合既定政策規範,再次確認當中不含有害或令人反感的資訊。模型會依據品質將剩餘回覆排名,並向使用者提供評分最高的版本。

我們也使用 SynthID,為 Gemini 輸出的文字和圖像加入浮水印。這是 Google 領先業界的數位工具包,可在 AI 生成內容放上浮水印。SynthID 會在圖像生成時,直接將數位浮水印 (人眼無法察覺) 加到像素中。SynthID 是開發高可靠性 AI 識別工具的重要基石,可協助使用者明智地判斷如何與 AI 生成內容互動。

4 使用者意見回饋與評估機制

即使經過安全檢查,有時錯誤仍會發生,且 Gemini 的回覆不一定符合預期。這時候,意見回饋就派上用場了。評估人員會衡量回覆品質、找出可改進的地方,並提出建議做法。如上面「訓練後的處理作業」一節所述,這類回饋是 Gemini 學習過程的一項要素。