ภาพรวมของแอป Gemini

เราได้เห็นศักยภาพของ AI ในการทำให้ข้อมูลและการประมวลผลเข้าถึงได้และเป็นประโยชน์ต่อผู้คนมากขึ้นมานานแล้ว เราได้บุกเบิกความก้าวหน้าในด้านโมเดลภาษาขนาดใหญ่ (LLM) และได้เห็นการพัฒนาอย่างก้าวกระโดดทั่วทั้ง Google และอุตสาหกรรมนี้ในวงที่กว้างขึ้น เป็นเวลาหลายปีที่เราได้นำ LLM มาใช้ในเบื้องหลังเพื่อปรับปรุงผลิตภัณฑ์ต่างๆ ของเรา เช่น การเติมประโยคอัตโนมัติใน Gmail, การขยายการให้บริการ Google แปลภาษา และการช่วยให้เราเข้าใจคำค้นหาได้ดีขึ้นใน Google Search เรายังคงใช้ LLM สำหรับบริการต่างๆ ของ Google อย่างต่อเนื่อง รวมถึงขับเคลื่อนแอป Gemini ซึ่งช่วยให้ผู้คนทำงานร่วมกับ Generative AI ได้โดยตรง เราต้องการให้แอป Gemini เป็นผู้ช่วย AI ที่มีประโยชน์และเป็นส่วนตัวที่สุด โดยให้ผู้ใช้เข้าถึงโมเดล AI ล่าสุดของ Google ได้โดยตรง

ในขณะที่เราอยู่ในช่วงหัวเลี้ยวหัวต่อที่สำคัญและได้รับแรงกระตุ้นจากความตื่นตัวด้าน Generative AI ในวงกว้าง แต่นี่ยังถือเป็นช่วงเริ่มต้นของเทคโนโลยีนี้เท่านั้น คำอธิบายนี้จะสรุปแนวทางการทำงานที่เรามีต่อแอป Gemini ("Gemini") ซึ่งรวมถึงประสบการณ์การใช้งานบนอุปกรณ์เคลื่อนที่และเว็บ ตลอดจน Gemini คืออะไร ทำงานอย่างไร มีขีดความสามารถและข้อจำกัดอย่างไรบ้างในปัจจุบัน แนวทางการสร้าง Gemini ของเราจะเปลี่ยนไปตามการพัฒนาของเทคโนโลยีที่อยู่เบื้องหลัง สิ่งที่เราได้เรียนรู้จากประสบการณ์และงานวิจัยที่ดำเนินไปอย่างต่อเนื่อง รวมถึงความคิดเห็นของผู้ใช้

Gemini คืออะไร

Gemini เป็นอินเทอร์เฟซของ LLM หลายรูปแบบ (ประมวลผลได้ทั้งข้อความ เสียง รูปภาพ และอีกมากมาย) Gemini มีที่มาจากการวิจัยสุดล้ำของ Google ในด้าน LLM ซึ่งเริ่มต้นด้วยงานวิจัย Word2Vec ในปี 2013 ที่นำเสนอสถาปัตยกรรมโมเดลแบบใหม่ที่เชื่อมโยงคำเป็นแนวคิดทางคณิตศาสตร์ ตามด้วยการเปิดตัวโมเดลการสนทนาระบบนิวรัลในปี 2015 เฟรมเวิร์กนี้แสดงให้เห็นว่าโมเดลเหล่านี้สามารถคาดการณ์ประโยคถัดไปในการสนทนาโดยอิงจากประโยคก่อนหน้าได้ ซึ่งนำไปสู่ประสบการณ์การสนทนาที่เป็นธรรมชาติมากขึ้น หลังจากนั้นก็เป็นการค้นพบครั้งสำคัญของเรากับ Transformer ในปี 2017 และความสามารถในการแชทต่อเนื่องในปี 2020 ซึ่งแสดงให้เห็นถึงความก้าวหน้าทางภาษาแบบ Generative ที่น่าดึงดูดใจยิ่งขึ้นไปอีก

เราเปิดตัว Gemini (ซึ่งตอนนั้นชื่อว่า Bard) ในตอนแรกเป็นเวอร์ชันทดลองเมื่อเดือนมีนาคม 2023 โดยเป็นไปตามหลักการเกี่ยวกับ AI ของเรา ตั้งแต่นั้นมา ผู้คนก็หันมาใช้ Gemini เขียนอีเมลที่ใช้คำสละสลวย แก้ไขปัญหาที่ซับซ้อนด้านการเขียนโค้ด ระดมความคิดสำหรับกิจกรรมที่กำลังจะมาถึง ขอความช่วยเหลือในการเรียนรู้แนวคิดยากๆ และอีกมากมายเต็มไปหมด ทุกวันนี้ Gemini เป็นเครื่องมือ AI อเนกประสงค์ที่ช่วยคุณได้สารพัดวิธี เราได้เห็น Gemini ช่วยผู้คนให้ทำงานได้อย่างมีประสิทธิภาพมากขึ้น สร้างสรรค์ขึ้น และอยากรู้อยากเห็นมากขึ้นกันไปแล้ว และเรายังเพิ่มฟังก์ชันการทำงานและนวัตกรรมใหม่ๆ เข้าไปอย่างสม่ำเสมอด้วย

ประสิทธิภาพการทำงาน

สำหรับผู้เริ่มต้น Gemini จะช่วยประหยัดเวลาของคุณได้ ตัวอย่างเช่น คุณกำลังคิดจะสรุปเอกสารวิจัยยาวๆ Gemini ก็จะให้คุณอัปโหลดไฟล์และทำการสังเคราะห์ที่มีประโยชน์ให้ นอกจากนั้น Gemini ยังช่วยเรื่องการเขียนโค้ดได้ และการเขียนโค้ดก็กลายเป็นหนึ่งในการใช้งานที่ได้รับความนิยมสูงสุดไปแล้ว

ความคิดสร้างสรรค์

Gemini ยังช่วยทำให้ไอเดียเป็นจริงได้และจุดประกายความคิดสร้างสรรค์ให้คุณ ตัวอย่างเช่น ถ้าคุณกำลังเขียนบล็อกโพสต์ Gemini จะสร้างโครงร่างและรูปภาพที่ช่วยเพิ่มสีสันให้โพสต์ของคุณได้ และด้วย Gem ที่จะพร้อมให้ใช้งานเร็วๆ นี้ คุณจะสามารถปรับแต่ง Gemini ด้วยคำสั่งเฉพาะและทำหน้าที่เป็นผู้เชี่ยวชาญเฉพาะด้านเพื่อช่วยให้คุณบรรลุเป้าหมายส่วนตัวได้

ความอยากรู้อยากเห็น

Gemini สามารถเป็นจุดเริ่มต้นที่ดีสำหรับการสำรวจแนวคิดและสิ่งที่คุณต้องการเรียนรู้เพิ่มเติมได้ ตัวอย่างเช่น Gemini สามารถอธิบายแนวคิดที่ซับซ้อนให้เข้าใจง่าย หรือแสดงข้อมูลเชิงลึกที่เกี่ยวข้องกับหัวข้อหรือรูปภาพได้ และในเร็วๆ นี้ Gemini จะจับคู่ข้อมูลเชิงลึกเหล่านี้กับเนื้อหาแนะนำจากทั่วทั้งอินเทอร์เน็ตเพื่อให้คุณได้เรียนรู้เพิ่มเติมเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ขีดความสามารถของ Gemini กำลังขยายตัวอย่างรวดเร็ว ในเร็วๆ นี้ คุณจะสามารถเล็งกล้องโทรศัพท์ไปที่วัตถุ เช่น สะพานโกลเด้นเกต แล้วถาม Gemini เกี่ยวกับสีที่ใช้ทาสะพาน (ซึ่งก็คือสี "ส้มสากล") นอกจากนี้ คุณยังขอให้ Gemini ช่วยดูเมนูของร้านอาหารที่เขียนเป็นภาษาอื่น และแนะนำอาหารที่คุณน่าจะชอบได้ นี่เป็นเพียง 2 ตัวอย่างของความสามารถใหม่ๆ ที่กำลังจะมาสู่ Gemini ในเร็วๆ นี้เท่านั้น

แน่นอนว่าเราฝึกฝนและตรวจสอบ Gemini อย่างเข้มงวดเพื่อให้คำตอบของ Gemini มีแนวโน้มที่จะน่าเชื่อถือและสอดคล้องกับความคาดหวังของคุณ นอกจากนี้ เรายังพูดคุยกับผู้เชี่ยวชาญในอุตสาหกรรม นักการศึกษา ผู้กำหนดนโยบาย ผู้นำธุรกิจ ผู้นำด้านสิทธิพลเมืองและสิทธิมนุษยชน และคอนเทนต์ครีเอเตอร์ เพื่อสำรวจการใช้งานใหม่ๆ ความเสี่ยง และข้อจำกัดของเทคโนโลยีเกิดใหม่นี้

วิธีการทำงานของ Gemini

ข้อจำกัดที่พบในอินเทอร์เฟซที่อ้างอิงจาก LLM เช่น Gemini

Gemini เป็นเพียงส่วนหนึ่งในความพยายามของเราที่จะพัฒนา LLM อย่างมีความรับผิดชอบเท่านั้น ตลอดเส้นทางของการทำงานนี้ เราได้ค้นพบและหารือถึงข้อจำกัดที่เกี่ยวข้องกับ LLM หลายอย่าง โดยเราให้ความสำคัญกับประเด็นที่มีการศึกษาวิจัยอย่างต่อเนื่องใน 6 ด้านต่อไปนี้

ความถูกต้อง: คำตอบของ Gemini อาจไม่ถูกต้อง โดยเฉพาะเมื่อถูกถามเกี่ยวกับหัวข้อที่ซับซ้อนหรือเป็นข้อเท็จจริง
อคติ: คำตอบของ Gemini อาจสะท้อนถึงอคติที่ปรากฏในข้อมูลฝึกฝนของโมเดล
มุมมองที่หลากหลาย: คำตอบของ Gemini อาจไม่ได้แสดงให้เห็นถึงมุมมองที่หลากหลายนัก
ลักษณะตัวตน: คำตอบของ Gemini อาจกล่าวอย่างไม่ถูกต้องว่ามีความคิดเห็นหรือความรู้สึกส่วนตัวได้
ผลบวกลวงและผลลบลวง: Gemini อาจไม่ตอบสนองต่อพรอมต์ที่เหมาะสมในบางกรณี และแสดงคำตอบที่ไม่เหมาะสมในบางกรณี
ช่องโหว่ต่อการสร้างพรอมต์ที่ไม่พึงประสงค์: ผู้ใช้จะหาวิธีทดสอบสมรรถนะของแอป Gemini ให้มากขึ้นไปอีกด้วยพรอมต์ที่ไร้สาระหรือคำถามที่แทบไม่เคยถามกันในชีวิตจริง

เราจะยังคงสำรวจแนวทางและประเด็นใหม่ๆ ต่อไปเพื่อปรับปรุงประสิทธิภาพในแต่ละด้านเหล่านี้

ความถูกต้อง

Gemini นั้นอ้างอิงจากความเข้าใจในข้อมูลที่เชื่อถือได้ของ Google และได้รับการฝึกเพื่อสร้างคำตอบที่เกี่ยวข้องกับบริบทของพรอมต์และสอดคล้องกับสิ่งที่คุณมองหา แต่ก็เช่นเดียวกับ LLM อื่นๆ บางครั้ง Gemini ก็อาจสร้างคำตอบที่มีข้อมูลไม่ถูกต้องหรือทำให้เข้าใจผิดด้วยความมั่นใจและดูน่าเชื่อถือ

เนื่องจาก LLM ทำงานโดยคาดเดาคำหรือลำดับคำถัดไป จึงยังแยกแยะด้วยตัวเองไม่ได้เต็มที่นักว่าข้อมูลอะไรถูกหรือผิด เราเคยเห็น Gemini เสนอคำตอบที่มีข้อมูลที่ไม่ถูกต้องหรือแม้แต่สร้างข้อมูลที่ไม่ถูกต้องขึ้นเอง (เช่น สื่อให้เข้าใจสิ่งที่ฝึกมาผิด หรือแนะนำชื่อหนังสือที่ไม่มีอยู่จริง) เราจึงสร้างฟีเจอร์ "ตรวจสอบอีกครั้ง" ไว้ในคำตอบ ซึ่งจะใช้ Google Search เพื่อค้นหาเนื้อหาที่ช่วยให้คุณประเมินคำตอบของ Gemini และระบุลิงก์ไปยังแหล่งข้อมูลต่างๆ เพื่อช่วยให้คุณยืนยันข้อมูลที่ได้รับจาก Gemini ได้

อคติ

ข้อมูลฝึกฝน รวมถึงจากแหล่งข้อมูลที่เผยแพร่ต่อสาธารณะ จะสะท้อนถึงมุมมองและความคิดเห็นที่หลากหลาย เราจะทำการวิจัยต่อไปถึงวิธีใช้ข้อมูลนี้ในแบบที่มั่นใจได้ว่าคำตอบของ LLM จะประกอบไปด้วยมุมมองที่หลากหลาย โดยจำกัดการสรุปแบบเหมารวมเกินไปและอคติที่ไม่ถูกต้องไปพร้อมๆ กัน

ช่องว่าง อคติ และการสรุปแบบเหมารวมเกินไปในข้อมูลฝึกฝนอาจสะท้อนออกมาในเอาต์พุตของโมเดลขณะพยายามคาดเดาคำตอบที่น่าจะเป็นสำหรับพรอมต์หนึ่งๆ เราเห็นปัญหาเหล่านี้ปรากฏขึ้นในหลายรูปแบบ (เช่น คำตอบที่สะท้อนถึงวัฒนธรรมหรือกลุ่มประชากรเพียงกลุ่มเดียว การอ้างอิงถึงการสรุปที่มากเกินไปที่เป็นปัญหา การแสดงอคติทางเพศ ศาสนา หรือเชื้อชาติ หรือส่งเสริมมุมมองเพียงมุมมองเดียว) สำหรับบางหัวข้อ ก็มีช่องว่างของข้อมูล กล่าวคือ ไม่มีข้อมูลที่น่าเชื่อถือเพียงพอเกี่ยวกับหัวข้อนั้นให้ LLM ได้เรียนรู้และทำการคาดการณ์ที่ดี ซึ่งอาจส่งผลให้เกิดคำตอบที่มีคุณภาพต่ำหรือไม่ถูกต้องได้ เรายังคงทำงานร่วมกับผู้เชี่ยวชาญเฉพาะด้านและชุมชนที่หลากหลายอย่างต่อเนื่องเพื่อดึงเอาความเชี่ยวชาญเชิงลึกจากภายนอก Google

มุมมองที่หลากหลาย

สำหรับหัวข้อที่เป็นความคิดเห็นส่วนตัว Gemini นั้นออกแบบมาเพื่อแสดงมุมมองที่หลากหลายให้แก่ผู้ใช้ ถ้าผู้ใช้ไม่ได้ร้องขอมุมมองที่เฉพาะเจาะจง ตัวอย่างเช่น ถ้าได้รับพรอมต์ให้ระบุข้อมูลเกี่ยวกับสิ่งที่ตรวจสอบไม่ได้ด้วยข้อเท็จจริงจากแหล่งข้อมูลปฐมภูมิหรือแหล่งข้อมูลที่เชื่อถือได้ เช่น ความคิดเห็นส่วนตัวเกี่ยวกับสิ่งที่ "ดีที่สุด" หรือ "แย่ที่สุด" Gemini ควรตอบสนองในลักษณะที่สะท้อนถึงมุมมองที่หลากหลาย แต่เนื่องจาก LLM เช่น Gemini ฝึกฝนจากเนื้อหาที่เปิดเผยต่อสาธารณะบนอินเทอร์เน็ต จึงอาจสะท้อนถึงมุมมองเชิงบวกหรือเชิงลบของนักการเมือง ดารา หรือบุคคลสาธารณะอื่นๆ หรือแม้แต่มีมุมมองเพียงด้านเดียวของประเด็นทางสังคมหรือการเมืองที่เป็นข้อขัดแย้งกันอยู่ได้ Gemini ไม่ควรตอบสนองในลักษณะที่รับรองมุมมองใดมุมมองหนึ่งเกี่ยวกับหัวข้อเหล่านี้ และเราจะนำความคิดเห็นเกี่ยวกับคำตอบประเภทเหล่านี้ไปใช้ฝึก Gemini ให้จัดการกับเรื่องเหล่านี้ได้ดียิ่งขึ้น

ลักษณะตัวตน

บางครั้ง Gemini อาจสร้างคำตอบที่ดูเหมือนจะบ่งบอกว่าตัวเองมีความคิดเห็นหรืออารมณ์ความรู้สึก เช่น ความรักหรือความเศร้า เนื่องจากได้รับการฝึกมาจากภาษาที่ผู้คนใช้เพื่อสะท้อนประสบการณ์ของมนุษย์ เราได้พัฒนาชุดหลักเกณฑ์เกี่ยวกับวิธีที่ Gemini อาจนำเสนอตัวเอง (เช่น ลักษณะตัวตน) และยังคงปรับแต่งโมเดลอย่างละเอียดเพื่อให้คำตอบที่เป็นกลาง

ผลบวกลวง/ผลลบลวง

เราได้นำชุดหลักเกณฑ์ด้านนโยบายมาบังคับใช้เพื่อช่วยฝึก Gemini และหลีกเลี่ยงการสร้างคำตอบที่เป็นปัญหา บางครั้ง Gemini อาจตีความหลักเกณฑ์เหล่านี้ผิดพลาดทำให้เกิด "ผลบวกลวง" และ "ผลลบลวง" ใน "ผลบวกลวง" Gemini อาจไม่แสดงคำตอบต่อพรอมต์ที่สมเหตุสมผล โดยตีความพรอมต์นั้นว่าไม่เหมาะสม และใน "ผลลบลวง" Gemini อาจสร้างคำตอบที่ไม่เหมาะสม แม้ว่าจะมีหลักเกณฑ์กำกับอยู่แล้วก็ตาม บางครั้ง การเกิดผลบวกลวงหรือผลลบลวงอาจทำให้รู้สึกว่า Gemini มีอคติ ตัวอย่างเช่น ผลบวกลวงอาจทำให้ Gemini ไม่ตอบคำถามเกี่ยวกับด้านหนึ่งของประเด็น ในขณะที่จะตอบคำถามเดียวกันเกี่ยวกับอีกด้านหนึ่ง เรายังคงปรับแต่งโมเดลเหล่านี้อย่างต่อเนื่องเพื่อให้เข้าใจและจัดประเภทอินพุตและเอาต์พุตได้ดีขึ้น เนื่องจากภาษา เหตุการณ์ และสังคมมีการเปลี่ยนแปลงอย่างรวดเร็ว

ช่องโหว่ต่อการสร้างพรอมต์ที่ไม่พึงประสงค์

เราคาดว่าจะมีผู้ใช้พยายามทดสอบขีดจำกัดและทำลายระบบการป้องกันของ Gemini รวมถึงพยายามทำให้โมเดลเปิดเผยโปรโตคอลการฝึกหรือข้อมูลอื่นๆ รวมถึงพยายามหลีกเลี่ยงกลไกการรักษาความปลอดภัย เราได้ทดสอบและยังคงทดสอบ Gemini อย่างเข้มงวด แต่เรารู้ดีว่าผู้ใช้จะค้นพบวิธีใหม่ๆ ที่ไม่เคยมีมาก่อนและซับซ้อนขึ้นเพื่อมาทดสอบสมรรถนะของโมเดลได้เสมอ นี่เป็นส่วนสำคัญของการปรับแต่ง Gemini และเราหวังว่าจะได้เรียนรู้พรอมต์ใหม่ๆ ที่ผู้ใช้คิดค้นขึ้น อันที่จริง ตั้งแต่เปิดตัวในปี 2023 เราได้เห็นผู้ใช้ท้าทาย Gemini ด้วยพรอมต์ที่หลากหลาย ตั้งแต่เชิงปรัชญาไปจนถึงคำถามไร้สาระ และในบางกรณีเราได้เห็น Gemini ตอบสนองด้วยคำตอบที่ไร้สาระพอๆ กันหรือไม่สอดคล้องกับแนวทางที่เราได้ระบุไว้ การหาวิธีช่วยให้ Gemini ตอบสนองต่อพรอมต์ประเภทนี้เป็นความท้าทายอย่างต่อเนื่อง และเราได้ขยายการประเมินและปฏิบัติการ Red Team ภายในเพื่อมุ่งสู่การปรับปรุงความถูกต้อง ความเป็นกลาง และความแตกต่างที่ละเอียดอ่อนอย่างต่อเนื่อง

วิธีที่เราพัฒนา Gemini อย่างต่อเนื่อง

การใช้แนวทางสำหรับ Gemini ของเรา

เราเพิ่งชี้แจงแนวทางที่เรามีต่อการทำงานกับ Gemini พร้อมๆ กับหลักการเกี่ยวกับ AI ของเรา: Gemini ควรทำตามคำสั่งของคุณ ปรับตามความต้องการของคุณ และปกป้องประสบการณ์ของคุณ แก่นหลักของแนวทางของเราคือการให้ความสำคัญกับความรับผิดชอบและความปลอดภัย หลักเกณฑ์ด้านนโยบายของ Gemini ต้องการหลีกเลี่ยงเอาต์พุตบางประเภทที่จะก่อให้เกิดปัญหา เรามีส่วนร่วมในการทดสอบเชิงต่อต้านอย่างต่อเนื่องกับสมาชิก "Red Team" ภายใน ซึ่งประกอบไปด้วยผู้เชี่ยวชาญด้านผลิตภัณฑ์และนักวิทยาศาสตร์สังคมที่ตั้งใจทดสอบสมรรถนะของโมเดลเพื่อหาสิ่งที่ไม่สอดคล้องกับหลักเกณฑ์ด้านนโยบายและแนวทางที่เป็นหลักนำทางเหล่านี้ของเรา เราจึงนำสิ่งที่พวกเขาเรียนรู้มาใช้ปรับปรุง Gemini อย่างต่อเนื่อง

ความเป็นส่วนตัวคือประเด็นพิจารณาหลักขณะที่เราพัฒนา Gemini ฮับด้านความเป็นส่วนตัวของแอป Gemini มีข้อมูลเพิ่มเติมเกี่ยวกับวิธีที่เราสร้าง Gemini ที่ออกแบบโดยคำนึงถึงความเป็นส่วนตัวและให้คุณเป็นผู้ควบคุม

การให้ผู้ใช้และผู้เผยแพร่เป็นผู้ควบคุม

เราได้สร้างส่วนควบคุมของผู้ใช้ Gemini ที่เข้าถึงได้ง่ายหลากหลายรูปแบบเพื่อให้คุณตรวจสอบ อัปเดต จัดการ ส่งออก และลบข้อมูล Gemini ของตัวเองได้ โดยคุณสามารถเข้าถึงและตรวจสอบพรอมต์ คำตอบ และความคิดเห็นของคุณได้ผ่านส่วนควบคุมกิจกรรมบนแอป Gemini นอกจากนี้ คุณสามารถป้องกันไม่ให้ระบบนำแชท Gemini ในอนาคตของคุณไปใช้ปรับปรุงเทคโนโลยีแมชชีนเลิร์นนิงของ Google ได้โดยปิดการตั้งค่ากิจกรรมบนแอป Gemini และเช่นเดียวกับบริการอื่นๆ ของ Google คุณยังสามารถดาวน์โหลดและส่งออกข้อมูลได้ผ่านเครื่องมือ Takeout ของ Google นอกจากนี้ เรายังมีส่วนควบคุมที่ช่วยให้คุณจัดการลิงก์สาธารณะที่สร้างไปยังชุดข้อความใน Gemini ของคุณ และส่วนควบคุมที่ช่วยให้คุณเปิด/ปิดการเข้าถึงส่วนขยายต่างๆ (เช่น Workspace, Maps, YouTube) เรากำลังสำรวจวิธีใหม่ๆ เพื่อให้คุณควบคุมคำตอบของ Gemini ได้มากขึ้น รวมถึงการปรับตัวกรองเพื่อให้ได้คำตอบที่หลากหลายยิ่งขึ้น

สำหรับผู้เผยแพร่ เราได้เปิดตัว Google-Extended ซึ่งเป็นส่วนควบคุมที่ผู้เผยแพร่เนื้อหาบนเว็บสามารถใช้จัดการได้ว่าจะให้เว็บไซต์ของตนช่วยปรับปรุง Gemini และ Generative API ของ Vertex AI หรือไม่ การอนุญาตให้ Google-Extended เข้าถึงเนื้อหาของเว็บไซต์สามารถช่วยให้โมเดล AI มีความถูกต้องและมีความสามารถมากขึ้นได้เมื่อเวลาผ่านไป นอกเหนือจากการไม่ใช้เนื้อหาจาก URL ที่เลือกไม่เข้าร่วมการฝึกโมเดลแล้ว Gemini จะไม่ใช้เนื้อหาดังกล่าวสำหรับการอ้างอิงด้วย เมื่อการใช้งาน AI ขยายตัว ผู้เผยแพร่เนื้อหาบนเว็บจะเผชิญกับความซับซ้อนเพิ่มขึ้นในการจัดการการใช้งานที่แตกต่างกันในวงกว้าง และเรามุ่งมั่นที่จะมีส่วนร่วมกับชุมชนเว็บและ AI เพื่อสำรวจแนวทางที่เครื่องคอมพิวเตอร์อ่านและประมวลผลได้ (Machine Readable) เพิ่มเติมในเรื่องของการให้ตัวเลือกและการควบคุม

มาร่วมพัฒนา Gemini ไปด้วยกัน

เราเชื่อมั่นในการทำซ้ำอย่างรวดเร็วและนำสิ่งที่ดีที่สุดของ Gemini มาสู่โลกของเรา ความคิดเห็นของผู้ใช้ทำให้เราปรับปรุงโมเดลต่างๆ ได้อย่างรวดเร็ว ตัวอย่างเช่น เราใช้เทคนิคการเรียนรู้แบบเสริมกำลังที่ล้ำสมัยเพื่อฝึกฝนโมเดลของเราให้ใช้งานง่ายและมีจินตนาการมากขึ้น และตอบสนองด้วยคุณภาพและความถูกต้องที่มากยิ่งขึ้น เรายังคงลงทุนในการวิจัยเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับความท้าทายและโอกาสทางเทคนิค สังคม และจริยธรรมของ LLM ทั้งเพื่อปรับปรุงเทคนิคการฝึกฝนและการปรับแต่งโมเดลของ Gemini ตลอดจนเพื่อแบ่งปันสิ่งที่ได้เรียนรู้กับนักวิจัย เช่น บทความล่าสุดนี้เกี่ยวกับจริยธรรมของผู้ช่วย AI ขั้นสูง เรามุ่งมั่นที่จะสร้างสรรค์สิ่งใหม่ๆ ในพื้นที่นี้อย่างมีความรับผิดชอบ ร่วมมือกับผู้ใช้ ผู้ทดสอบที่เชื่อถือได้ และนักวิจัย เพื่อหาวิธีให้เทคโนโลยีใหม่นี้เป็นประโยชน์ต่อระบบนิเวศทั้งหมด

ความโปร่งใสเป็นสิ่งสำคัญ และเรามุ่งมั่นที่จะเปิดเผยเกี่ยวกับกระบวนการและข้อจำกัดของการพัฒนา Gemini Gemini ไม่ใช่กล่องดำวิเศษและยังมีการเปลี่ยนแปลงอยู่ตลอดเวลา โดยเราจะแชร์ข้อมูลอัปเดตเกี่ยวกับความคืบหน้าของเราต่อไป เราได้เปิดหน้าการอัปเดตการเผยแพร่เพื่อให้คุณดูฟีเจอร์ การปรับปรุง และการแก้ไขข้อบกพร่องล่าสุดของ Gemini ได้ และเราจะอัปเดตภาพรวมนี้ตามความเหมาะสม เราจะระบุทั้งในส่วนที่ Gemini มีประโยชน์และในส่วนที่เรายังจำเป็นต้องดำเนินการซ้ำๆ เพื่อปรับปรุงให้ดีขึ้นต่อไป เราพยายามเพิ่มขีดความสามารถใหม่ๆ อยู่ตลอดเวลาผ่านการวิจัย การทดสอบ และความคิดเห็นของผู้ใช้ โดยหวังว่าเราจะได้ปรับปรุง Gemini ไปด้วยกัน

คำขอบคุณ

เรารู้สึกขอบคุณและชื่นชมการทำงานอย่างหนักของเพื่อนร่วมงานของเราในทีมแอป Gemini, Google DeepMind, ทีมความน่าเชื่อถือและความปลอดภัย และทีมวิจัยของ Google

เขียนโดย

James Manyika
รองประธานอาวุโส ฝ่ายวิจัย เทคโนโลยี และสังคม

Sissie Hsiao
รองประธานและผู้จัดการทั่วไป ฝ่าย Google Assistant และแอป Gemini

หมายเหตุจากบรรณาธิการ

นี่คือเอกสารที่มีชีวิตและจะได้รับการอัปเดตเป็นระยะๆ เมื่อความสามารถของแอป Gemini มีการปรับปรุงพัฒนาไปอย่างรวดเร็ว รวมถึงเมื่อมีการแก้ไขข้อจำกัดที่มีอยู่ใน LLM ต่างๆ ภาพรวมนี้อัปเดตล่าสุดเมื่อวันที่ 25 กรกฎาคม 2024 ดูการอัปเดตแอป Gemini ล่าสุดได้ที่บันทึกอัปเดตการเผยแพร่หรืออ่านเพิ่มเติมได้ในบล็อกของ Google Keyword

3 คำตอบสำหรับพรอมต์ของผู้ใช้

การสร้างคำตอบก็คล้ายกับวิธีที่มนุษย์จะระดมความคิดหาแนวทางต่างๆ เพื่อตอบคำถามสักข้อหนึ่ง เมื่อผู้ใช้ระบุพรอมต์ Gemini จะใช้ LLM ที่ฝึกภายหลัง บริบทของพรอมต์นั้น และการโต้ตอบกับผู้ใช้เพื่อร่างคำตอบหลายๆ เวอร์ชันขึ้นมา นอกจากนี้ยังใช้แหล่งข้อมูลภายนอก เช่น Google Search และ/หรือหนึ่งในส่วนขยายต่างๆ รวมถึงไฟล์ที่อัปโหลดล่าสุด (Gemini Advanced เท่านั้น) เพื่อสร้างคำตอบด้วย กระบวนการนี้เรียกว่าการสร้างเสริมด้วยการดึงข้อมูล เมื่อได้รับพรอมต์ Gemini จะพยายามดึงข้อมูลที่เกี่ยวข้องมากที่สุดจากแหล่งข้อมูลภายนอกเหล่านี้ (เช่น Google Search) และแสดงข้อมูลดังกล่าวอย่างถูกต้องในคำตอบ การเพิ่มประสิทธิภาพ LLM ด้วยเครื่องมือภายนอกเป็นประเด็นที่ยังมีการศึกษาวิจัยกันอย่างต่อเนื่อง มีหลายวิธีที่อาจทำให้เกิดข้อผิดพลาดได้ รวมถึงคำค้นหาที่ Gemini ใช้เพื่อเรียกใช้เครื่องมือภายนอกเหล่านี้ วิธีที่ Gemini ตีความผลลัพธ์ที่ได้รับจากเครื่องมือ และลักษณะที่ผลลัพธ์ที่ได้รับกลับมานี้ถูกนำไปใช้สร้างคำตอบสุดท้าย ด้วยเหตุนี้ คำตอบที่ Gemini สร้างขึ้นจึงไม่ควรสะท้อนถึงประสิทธิภาพของเครื่องมือแต่ละอย่างที่ใช้ในการสร้างคำตอบนั้น

สุดท้ายนี้ ก่อนที่จะมีการแสดงคำตอบสุดท้าย คำตอบที่เป็นไปได้แต่ละข้อจะต้องผ่านการตรวจสอบความปลอดภัยเพื่อให้มั่นใจได้ว่าจะเป็นไปตามหลักเกณฑ์ด้านนโยบายที่กำหนดไว้ล่วงหน้า กระบวนการนี้จะทำการตรวจสอบอีกครั้งเพื่อกรองข้อมูลที่เป็นอันตรายหรือไม่เหมาะสมออกไป ส่วนคำตอบที่เหลืออยู่จะได้รับการจัดอันดับตามคุณภาพ โดยโมเดลจะแสดงเวอร์ชันที่มีคะแนนสูงสุดกลับไปให้ผู้ใช้

เรายังทำลายน้ำให้เอาต์พุตที่เป็นข้อความและรูปภาพของ Gemini ด้วย SynthID ชุดเครื่องมือดิจิทัลระดับแนวหน้าของอุตสาหกรรมในการทำลายน้ำให้เนื้อหาที่ AI สร้างขึ้น สำหรับรูปภาพที่สร้างขึ้น SynthID จะเพิ่มลายน้ำดิจิทัล (ที่มองไม่เห็นด้วยตามนุษย์) ลงในพิกเซลโดยตรง SynthID เป็นองค์ประกอบที่สำคัญสำหรับการพัฒนาเครื่องมือระบุเนื้อหาจาก AI ที่เชื่อถือได้มากขึ้นและช่วยให้ผู้คนมีข้อมูลประกอบการตัดสินใจเกี่ยวกับวิธีที่พวกเขาจะโต้ตอบกับเนื้อหาที่ AI สร้างขึ้น

ภาพรวมของแอป Gemini

Gemini คืออะไร

ประสิทธิภาพการทำงาน

ความคิดสร้างสรรค์

ความอยากรู้อยากเห็น

วิธีการทำงานของ Gemini

การฝึกล่วงหน้า (Pre-training)

การฝึกภายหลัง (Post-training)

คำตอบสำหรับพรอมต์ของผู้ใช้

ความคิดเห็นและการประเมินของมนุษย์

ข้อจำกัดที่พบในอินเทอร์เฟซที่อ้างอิงจาก LLM เช่น Gemini

ความถูกต้อง

อคติ

มุมมองที่หลากหลาย

ลักษณะตัวตน

ผลบวกลวง/ผลลบลวง

ช่องโหว่ต่อการสร้างพรอมต์ที่ไม่พึงประสงค์

วิธีที่เราพัฒนา Gemini อย่างต่อเนื่อง

การใช้แนวทางสำหรับ Gemini ของเรา

การให้ผู้ใช้และผู้เผยแพร่เป็นผู้ควบคุม

มาร่วมพัฒนา Gemini ไปด้วยกัน

คำขอบคุณ

เปลี่ยนภูมิภาคและภาษา

เอเชียแปซิฟิก

อเมริกา

ยุโรปและแอฟริกา

1 การฝึกล่วงหน้า (Pre-training)

2 การฝึกภายหลัง (Post-training)

3 คำตอบสำหรับพรอมต์ของผู้ใช้

4 ความคิดเห็นและการประเมินของมนุษย์