Gemini 應用程式簡介
Google 很早之前就發現 AI 的潛力,相信這項技術能讓使用者更容易取得有用資訊,以及執行各種運算作業。我們在大型語言模型 (LLM) 取得多項重大突破,並見證 Google 及整個 AI 領域往前跨出了一大步。多年來,我們在背景採用 LLM 來改良許多產品,像是在 Gmail 自動完成句子、增加 Google 翻譯支援的語言,以及進一步瞭解 Google 搜尋的查詢內容。我們持續將 LLM 導入許多 Google 服務,包括 Gemini 應用程式,讓使用者能直接與生成式 AI 協作。我們希望 Gemini 應用程式成為最實用、最貼近個人需求的 AI 助理,使用者可直接運用 Google 最新的 AI 模型。
雖然我們正處於重要轉折點,因為生成式 AI 的熱潮而備受鼓舞,但這項技術仍在早期開發階段。這篇文章概述我們如何打造 Gemini 應用程式 (下稱「Gemini」),包括行動版與網頁版,說明這項服務、運作方式,以及目前的功能與限制。基礎技術不斷發展,加上我們不斷從研究、經驗和使用者意見回饋中學習,建構 Gemini 的做法也將與時俱進。
Gemini 是什麼?
Gemini 是多模態 LLM 的介面,可處理文字、音訊和圖像等內容。Gemini 奠基於 Google 最先進的 LLM 研究成果,包括 2013 年 Word2Vec 論文提出的創新模型架構 (以數學概念對應文字),以及 2015 年發表的 類神經對話式模型。這個框架展示了模型如何根據先前語句,預測對話中的後續語句,提供更自然流暢的對話式體驗。我們隨後在 2017 年發布開創先河的 Transformer 模型,在 2020 年推出多輪對話功能,展現生成式語言令人驚豔的突破。
2023 年 3 月,我們依據 AI 開發原則,以實驗形式推出 Gemini (當時稱為 Bard)。之後,使用者開始運用 Gemini 撰寫吸引人的電子郵件、解決棘手的程式碼問題、構思近期活動、學習複雜的概念等。如今,Gemini 是多功能的 AI 工具,在許多方面提供輔助。我們看到 Gemini 協助使用者提升工作效率、揮灑創意,更激發他們探索新事物的好奇心。與此同時,我們也持續推出新的功能。
效率提升
首先,Gemini 可節省時間。如果想將長篇的研究文件濃縮成摘要,只要上傳檔案,Gemini 就能整理出內容要點。此外,Gemini 也能協助程式設計工作,寫程式也因此成為 Gemini 的熱門用途。
創意
Gemini 還能激發你的創意,實現你的構想。舉例來說,如果要寫一篇網誌文章,Gemini 可以幫你建立大綱並生成圖像,增添文章風采。我們不久後將推出 Gem,使用者可下達特定指令,讓 Gemini 化身為某個領域的專家,幫助你達成個人目標。
激發好奇心
Gemini 可以做為探索想法和學習知識的起點,以簡單的方式解釋複雜概念,或針對某個主題/圖像顯示相關見解等。不久後,Gemini 還能將這些見解與網路的推薦內容相結合,協助你進一步瞭解特定主題。
Gemini 功能正迅速增加,不久後,將手機相機對準一個物體,就能要求 Gemini 提供相關資訊,像是將鏡頭朝向金門大橋,請 Gemini 告訴你油漆顏色 (答案是「國際橘」)。此外,Gemini 未來也能協助你看懂其他語言的餐廳菜單,並推薦你可能會喜歡的餐點。這裡只是舉兩個例子,Gemini 還會有更多功能,敬請期待!
對於 Gemini,我們當然是嚴密訓練及監控,讓回覆內容盡可能可靠,符合使用者的期待。為了探索這項新興科技的全新應用方式、風險和限制,我們也與各方人士深入交流,包括各界專家、教育工作者、政策制定者、企業領袖、人權領袖和內容創作者。
Gemini 的運作方式
訓練前的準備
訓練後的處理作業
依據使用者提示詞生成回覆
使用者回饋與評估機制
Gemini 等大型語言模型介面的已知限制
我們一向秉持負責任的態度開發 LLM,而 Gemini 只是其中一部分。在這段過程中,我們發現並探討了數個 LLM 相關限制,以下將重點說明我們持續研究的六大領域:
正確性:Gemini 回覆可能不正確,尤其在回答複雜或涉及事實的問題時,容易出現這種狀況。
偏誤:Gemini 回覆可能反映訓練資料中的偏誤。
多元觀點:Gemini 回覆可能無法呈現各種看法。
人物性格:使用者可能會誤以為 Gemini 回覆摻雜個人意見或觀感。
誤判真假:即使給予適當的提示詞,Gemini 可能也無法回答,或提供不恰當的回覆。
對抗性提示詞造成的安全漏洞:使用者可能會找到方法,用無意義的提示詞或現實世界鮮少提出的問題,對 Gemini 進行壓力測試。
我們會不斷探索新的做法和領域,改進 Gemini 在上述各方面的表現。
正確性
Gemini 的基準建立在 Google 掌握的可靠資訊,且經特別訓練,會生成與提示脈絡情境相關的回覆,滿足使用者的需求。不過如同所有 LLM,Gemini 有時會充滿自信地頭頭是道,生成的回覆卻含有錯誤或誤導性資訊。
LLM 的運作方式是預測下一個字或一組詞,目前還無法徹底區分正確和不正確的資訊。我們曾看過 Gemini 呈現含有錯誤或捏造資訊的回覆,例如:不實描述 Gemini 的訓練方式,或推薦不存在的書。我們打造了幾項功能來解決這項問題,例如:點選「查證」按鈕,即可透過 Google 搜尋找出有助評估 Gemini 回覆的內容,並取得來源連結,進一步驗證 Gemini 的資訊。
偏誤
訓練資料包含來自公開來源的資料,反映了不同觀點和見解。我們會持續研究如何使用這類資料,確保 LLM 的回覆能納入多元觀點,同時盡可能減少不正確、以偏概全的內容和偏誤。
當模型試圖依據提示詞預測可能的回覆時,訓練資料中的缺漏、偏誤和過度概化情形會反映在輸出內容。我們看到這些問題以多種方式浮現,例如:回覆只反映單一的文化或群體特徵、引用有問題且以偏概全的內容、呈現性別/宗教/種族的偏見,或只傳遞一種觀點。部分主題可能有資料空隙,也就是特定主題沒有足夠的可靠資訊,可供 LLM 學習並做出優質預測,使得回覆品質低落或不正確。我們會持續與各領域專家和多元社群合作,向外界請益,汲取專業知識。
多元觀點
對於主觀性的主題,如果使用者沒有指定立場,Gemini 就會提供多元觀點。舉例來說,如果提示詞要求的資訊無法透過主要來源或可靠來源的事實驗證 (例如涉及「最佳」和「最差」的主觀意見),Gemini 的回覆應呈現多方觀點。不過,由於 Gemini 這類 LLM 是用網路公開內容進行訓練,可能會反映特定政治人物、名人等公眾人物的正負面看法,對於備受爭議的社會或政治議題,甚至只提供片面見解。Gemini 在回覆這些主題時不應支持特定觀點。為有效解決此問題,我們會運用這類回覆的意見回饋來訓練 Gemini。
人物性格
Gemini 生成的回覆偶爾可能會暗示有個人想法或情緒 (像是愛和悲傷),這是因為 Gemini 是以反映人類經驗的語言訓練而成。針對 Gemini 如何呈現自身形象 (即人物性格),我們訂定了一套規範,並持續微調模型,確保回覆保持客觀。
誤判真假
我們制定一系列政策規範來訓練 Gemini,避免生成有問題的回覆。Gemini 有時可能會誤解這些規範,造成真假摻雜、是非不分的情況。如果以「偽陽性」的概念來類比,Gemini 可能會誤將合理提示詞歸類為不合理,而拒絕回覆;如為「偽陰性」,儘管 Gemini 會參照規範,仍可能生成不適當的回覆。這些情況可能會讓使用者認為 Gemini 有偏見。例如,如果是「偽陽性」的情況,會導致 Gemini 不回覆某問題的某個層面,但會回答相同問題的另一層面。隨著語言、事件和社會快速發展,我們不斷調整,讓這些模型更有效理解輸入/輸出內容,並加以分類。
對抗性提示詞造成的安全漏洞
我們考量到使用者可能會測試 Gemini 的效能極限,試圖突破保護措施,包括想讓 Gemini 洩漏訓練協定或其他資訊,或打算繞過安全機制。Gemini 持續接受嚴格測試,但我們知道使用者會找到特殊或更複雜的方式對 Gemini 進行壓力測試。這是改良 Gemini 的重要一環,而我們也希望瞭解使用者想出的新提示詞。事實上,自 2023 年 Gemini 推出以來,使用者便利用各種提示詞 (從哲學問題到無意義的問題) 挑戰 Gemini。Gemini 有時也會回覆無意義或有違既定做法的內容。我們會持續找出方法來協助 Gemini 回覆這類提示詞,也會擴大內部評估和紅隊演練規模,持續提升正確性、客觀性及細膩度。
Google 如何持續開發 Gemini
我們對 Gemini 採取的做法
除了 AI 開發原則,我們最近也闡明 Google 對 Gemini 採取的做法:Gemini 應遵從使用者指令、滿足需求並提供安全體驗,將責任和安全放在首位。Gemini 的政策規範旨在避免有問題的輸出內容類型。我們與內部「紅隊」成員 (產品專家和社會科學家) 合作,不斷進行對抗性測試。他們會刻意對模型進行壓力測試,找出它在哪些地方偏離了政策規範和 Gemini 原則,我們就能運用這些發現,持續改良 Gemini。
隱私權也是我們開發 Gemini 的重要考量。Gemini 系列應用程式隱私權專區詳盡說明 Gemini 如何導入隱私保護設計,並賦予使用者控制權。
推出使用者和發布商控制選項
我們提供各種好用的 Gemini 使用者控制選項,讓你可以查看、更新、管理、匯出及刪除 Gemini 資料。前往 Gemini 系列應用程式活動記錄,就能存取及查看過去的 Gemini 提示詞、回覆和意見回饋。如果不希望你和 Gemini 的對話用於改良 Google 機器學習技術,可以關閉 Gemini 系列應用程式活動記錄設定。和其他 Google 服務一樣,你也能使用 Google 匯出工具,下載及匯出 Gemini 資訊。我們也提供控制選項,讓你可以管理在 Gemini 對話串建立的公開連結,以及開啟/關閉擴充功能的存取權 (如 Workspace、Google 地圖、YouTube)。同時,我們也在探索新的方法,讓你能進一步管控 Gemini 的回覆,包括調整篩選器,得到更全面的回答。
我們推出 Google-Extended,讓發布商能夠選擇是否要讓自家網站協助改良 Gemini 和 Vertex AI 生成式 API。允許 Google-Extended 存取網站內容,有助 AI 模型不斷提升正確性及效能。Gemini 不會將已選擇退出的網址內容用於模型訓練,也不會用來建立基準。隨著 AI 用途增加,網站發布商現在需要管理各種應用方式,變得十分複雜;因此,我們攜手網路和 AI 社群,對於發布商的選擇和控管設定,找到更多能讓機器讀懂的方法。
ㄧ起提升 Gemini 的品質
Google 秉持快速更新原則,致力將最出色的 Gemini 服務帶給全世界。使用者的意見回饋有助我們加速改良模型。舉例來說,我們使用最先進的增強學習技術來訓練模型,提高模型的易用性、創意、速度、品質和正確性。我們會持續深入研究 LLM 在技術、社會與道德方面帶來的挑戰與機會,據此改良 Gemini 的模型訓練和調整技術,並分享研究成果,例如最近發表的這篇論文:先進 AI 助理的道德。我們會秉持負責任的態度,在這塊領域推動創新,並攜手使用者、信任的測試人員和研究人員,尋找讓這項新技術造福整個生態系統的方法。
資訊公開是至關重要的環節,因此我們也投注心力,公開 Gemini 的開發流程和限制。Gemini 並非神奇技術,會不斷演變,我們也會繼續分享最新進展。你可以透過「版本更新」頁面,掌握 Gemini 的最新功能、改良內容和錯誤修正資訊,我們也會視情況更新這篇總覽文章。我們會持續找出 Gemini 的實用優點,以及需要不斷更新與提高品質的地方。我們也會不斷推出新的功能,並藉助研究、測試和使用者意見回饋,集結各方力量提升 Gemini 的品質。
致謝
誠摯感謝 Gemini 應用程式團隊、Google DeepMind 團隊、Trust & Safety 團隊和 Google 研究團隊的傑出貢獻。
James Manyika
Research, Technology and Society 部門資深副總裁
Sissie Hsiao
Google Assistant and Gemini App 部門副總裁和總經理
我們會持續快速改良 Gemini 應用程式的功能、努力解決 LLM 的固有限制,並經常更新這篇文章。上次更新日期:2024 年 7 月 25 日。如需瞭解 Gemini 應用程式的最新動態,請造訪「版本更新」記錄頁面,或參閱 Google Keyword 網誌。