Ringkasan aplikasi Gemini

Kami sudah lama melihat potensi AI untuk memudahkan akses ke informasi dan komputasi serta menjadikannya lebih bermanfaat bagi pengguna. Kami telah memelopori berbagai pengembangan model bahasa besar (LLM) dan melihat perkembangan yang baik di Google dan bidang ini pada umumnya. Selama beberapa tahun, kami telah menerapkan LLM di belakang layar untuk meningkatkan kualitas berbagai produk kami, seperti melengkapi kalimat secara otomatis di Gmail, mengembangkan Google Terjemahan, dan membantu kami memahami kueri dengan lebih baik di Google Penelusuran. Kami terus menggunakan LLM untuk banyak layanan Google serta untuk mendukung aplikasi Gemini, yang memungkinkan pengguna berkolaborasi langsung dengan AI generatif. Kami ingin menjadikan aplikasi Gemini sebagai asisten AI pribadi yang paling bermanfaat bagi pengguna dan memberi mereka akses langsung ke model AI terbaru Google.

Saat ini kami mencapai titik balik penting dalam perjalanan pengembangan AI dan antusiasme terhadap AI generatif semakin meluas. Namun, teknologi ini masih berada di tahap awal. Panduan ini menjelaskan pendekatan kami dalam membangun aplikasi Gemini (“Gemini”), baik versi seluler maupun web, yang mencakup deskripsi Gemini, cara kerjanya, serta kemampuan dan batasannya saat ini. Pendekatan kami dalam membangun Gemini akan terus berkembang sejalan dengan perkembangan teknologi yang mendasarinya, serta hal yang kami pelajari dari riset berkelanjutan, pengalaman, dan masukan pengguna.

Apa itu Gemini?

Gemini adalah antarmuka untuk LLM multimodal (menangani teks, audio, gambar, dan jenis input lainnya). Gemini dibuat berdasarkan riset mutakhir Google terkait LLM, yang dimulai sejak publikasi makalah Word2Vec pada tahun 2013 yang memperkenalkan arsitektur model baru yang memetakan kata-kata sebagai konsep matematika. Terobosan ini kemudian dilanjutkan dengan pengembangan model percakapan berbasis nerural pada tahun 2015. Framework ini mendemonstrasikan bagaimana model dapat memprediksi kalimat berikutnya dalam percakapan berdasarkan kalimat atau beberapa kalimat sebelumnya, sehingga memberikan pengalaman percakapan yang lebih alami. Kemudian, riset tersebut diikuti oleh terobosan kami terkait Transformer pada tahun 2017 dan kemampuan multi-turn chat pada tahun 2020, yang semakin mendemonstrasikan kemajuan bahasa generatif yang mengagumkan.

Kami pertama kali meluncurkan Gemini (saat itu masih bernama Bard) sebagai eksperimen pada Maret 2023 dan dirancang sesuai dengan Prinsip AI kami. Sejak saat itu, banyak pengguna telah memanfaatkan Gemini untuk membantu menulis email yang menarik, men-debug masalah coding yang kompleks, mencari ide untuk acara, memahami konsep sulit, dan banyak lagi. Kini, Gemini telah menjadi alat AI serbaguna yang dapat membantu Anda melakukan banyak hal. Kami telah melihat bagaimana Gemini membantu banyak orang meningkatkan produktivitas, kreativitas, dan rasa ingin tahu mereka. Kami juga terus menambahkan fungsionalitas dan inovasi baru secara berkala.

Produktivitas

Sebagai permulaan, Gemini dapat membantu Anda menghemat waktu. Misalnya, jika Anda ingin meringkas sebuah dokumen riset yang panjang, cukup upload dokumennya dan Gemini akan memberikan sintesis yang bermanfaat. Gemini juga dapat membantu menyelesaikan tugas coding, yang telah menjadi salah satu penggunaan Gemini paling populer.

Kreativitas

Gemini juga dapat membantu mewujudkan ide-ide Anda dan memicu kreativitas. Misalnya, saat Anda menulis postingan blog, Gemini dapat membantu membuat kerangka tulisan dan menghasilkan gambar untuk mendukung visualisasi konten Anda. Dalam waktu dekat, Gem juga akan hadir, yang memungkinkan Anda menyesuaikan Gemini dengan petunjuk khusus dan menjadikannya sebagai asisten dengan spesialisasi topik tertentu untuk membantu Anda mencapai berbagai tujuan.

Rasa ingin tahu

Gemini dapat menjadi titik awal untuk mengeksplorasi ide dan hal yang ingin Anda pelajari lebih lanjut. Misalnya, Gemini dapat menjelaskan konsep yang rumit secara sederhana atau memberikan informasi yang relevan tentang suatu topik atau gambar. Dalam waktu dekat, Gemini juga akan dapat melengkapi informasi ini dengan rekomendasi konten dari berbagai sumber di web untuk membantu Anda mendalami topik tersebut.

Kemampuan Gemini terus berkembang dengan pesat. Dalam waktu dekat, Anda akan bisa mengarahkan kamera ponsel ke sebuah objek, misalnya, Jembatan Golden Gate, dan meminta Gemini memberi tahu Anda tentang warna catnya (sebagai informasi, warnanya adalah “Oranye Internasional”). Anda juga akan bisa meminta Gemini membantu memahami menu restoran dalam bahasa asing dan merekomendasikan hidangan yang sesuai dengan selera Anda. Ini hanyalah dua contoh dari berbagai kemampuan baru yang akan segera hadir di Gemini.

Tentu saja, kami terus melatih dan memantau Gemini secara ketat agar responsnya tetap andal dan sesuai harapan Anda. Kami juga berdialog dengan pakar industri, pendidik, pembuat kebijakan, pemimpin bisnis, aktivis hak sipil dan hak asasi manusia, serta kreator konten untuk mengkaji potensi penggunaan, risiko, dan batasan teknologi yang terus berkembang ini.

Cara kerja Gemini

Batasan yang diketahui pada antarmuka berbasis LLM seperti Gemini

Gemini hanyalah salah satu bagian dari upaya berkelanjutan kami untuk mengembangkan LLM secara bertanggung jawab. Selama prosesnya, kami telah menemukan dan membahas sejumlah batasan terkait LLM. Dalam hal ini, riset berkelanjutan kami berfokus pada enam area utama berikut:

Akurasi: respons Gemini belum tentu akurat, terutama ketika ditanya terkait topik yang kompleks dan faktual.
Bias: respons Gemini bisa saja mencerminkan bias yang ada pada data pelatihannya.
Keberagaman Perspektif: respons Gemini mungkin tidak selalu mencerminkan berbagai sudut pandang.
Persona: respons Gemini mungkin bisa membuatnya terlihat seakan-akan memiliki pendapat atau perasaan pribadi.
Positif palsu dan negatif palsu: Gemini bisa saja tidak merespon perintah tertentu yang sebenarnya pantas dan malah memberikan respons yang tidak pantas terhadap perintah lain.
Kerentanan terhadap perintah berniat jahat: pengguna akan mencari cara untuk menguji batas kemampuan Gemini dengan perintah yang tidak masuk akal atau pertanyaan yang jarang muncul di dunia nyata.

Kami terus mengeksplorasi pendekatan dan bidang baru untuk meningkatkan performa di masing-masing area ini.

Akurasi

Gemini dirancang berdasarkan pemahaman Google terhadap informasi yang kredibel, dan dilatih untuk menghasilkan respons yang relevan dengan konteks perintah Anda dan sesuai dengan hal yang Anda cari. Namun, seperti semua LLM, Gemini terkadang bisa menghasilkan respons yang mengandung informasi yang tidak akurat atau menyesatkan dan tetap menyajikannya dengan terlihat percaya diri dan meyakinkan.

Karena LLM berfungsi dengan memprediksi kata atau rangkaian kata berikutnya, LLM belum bisa sepenuhnya memilah informasi mana yang akurat dan tidak akurat dengan sendirinya. Kami masih melihat Gemini menyajikan respons yang mengandung, atau bahkan menciptakan, informasi yang tidak akurat (mis. memberikan pernyataan tidak benar terkait bagaimana LLM itu dilatih atau menyarankan judul buku yang tidak ada). Untuk merespons hal ini, kami telah membuat fitur seperti “periksa kembali”, yang menggunakan Google Penelusuran untuk mencari konten yang dapat membantu Anda menilai respons Gemini, dan memberikan link ke sumber yang dapat membantu Anda mengonfirmasi informasi yang diperoleh dari Gemini.

Bias

Data pelatihan, termasuk dari sumber yang tersedia untuk umum, menunjukkan keragaman perspektif dan pendapat. Kami terus melakukan riset terkait cara menggunakan data ini secara optimal sehingga LLM dapat memberikan respons yang mencerminkan beragam sudut pandang, tanpa bias atau generalisasi yang berlebihan.

Kekurangan, bias, dan generalisasi berlebihan di data pelatihan dapat tercerminkan dalam output-nya saat model berusaha memprediksi kemungkinan respons untuk suatu perintah. Kami melihat masalah ini muncul dalam berbagai cara (mis. respons yang hanya mencerminkan satu budaya atau demografi, merujuk pada generalisasi berlebihan yang bermasalah, atau menunjukkan bias berbasis gender, agama, atau etnis, atau hanya mengutamakan satu sudut pandang). Topik tertentu mungkin memiliki kekosongan data. Dengan kata lain, tidak ada cukup informasi kredibel mengenai subjek tersebut yang dapat dipelajari oleh LLM untuk menghasilkan prediksi yang optimal sehingga berpotensi menghasilkan respons yang tidak akurat atau berkualitas rendah. Kami terus bekerja sama dengan pakar di bidangnya dan beragam komunitas untuk memanfaatkan keahlian yang lebih mendalam dari luar Google.

Perspektif yang Beragam

Untuk topik subjektif, Gemini dirancang untuk memberikan berbagai perspektif kepada pengguna jika pengguna tidak meminta sudut pandang tertentu. Misalnya, jika diperintahkan untuk memberikan informasi tentang topik yang tidak bisa diverifikasi oleh fakta sumber utama atau sumber yang kredibel, seperti pendapat subjektif terkait pilihan “mana yang lebih baik” atau “mana yang lebih buruk”, Gemini perlu merespons dengan suatu cara yang mencerminkan keragaman sudut pandang. Namun, karena LLM seperti Gemini dilatih dengan konten yang tersedia secara publik di internet, LLM tersebut bisa mencerminkan pandangan positif atau negatif dari politikus, selebritas, atau figur publik tertentu lainnya. Bahkan LLM bisa memasukkan pandangan yang hanya memihak pada satu sisi masalah sosial atau politik yang kontroversial. Gemini tidak boleh memberikan respons yang mendukung sudut pandang tertentu terkait topik tersebut, dan kami akan menggunakan masukan pada respons seperti ini untuk melatih Gemini agar dapat menanganinya dengan lebih baik.

Persona

Gemini terkadang bisa menghasilkan respons yang membuatnya seakan-akan memiliki pendapat atau perasaan, seperti rasa sayang atau kesedihan, karena telah dilatih dengan bahasa yang digunakan pengguna untuk mencerminkan pengalaman manusia. Kami telah mengembangkan serangkaian panduan terkait bagaimana Gemini mungkin akan merepresentasikan dirinya (yaitu, persona) dan terus menyempurnakan model tersebut untuk memberikan respons yang objektif.

Positif/negatif palsu

Kami telah menetapkan serangkaian panduan kebijakan untuk membantu melatih Gemini dan menghindari respons bermasalah. Gemini terkadang bisa salah mengartikan panduan ini, sehingga menghasilkan “positif palsu” dan “negatif palsu”. Dalam “positif palsu”, Gemini bisa saja tidak memberikan respons untuk perintah yang masuk akal karena salah mengartikannya sebagai perintah yang tidak pantas. Sementara dengan “negatif palsu”, Gemini bisa saja menghasilkan respons yang tidak pantas, meskipun panduan kebijakan telah diterapkan. Terkadang, kemunculan positif palsu atau negatif palsu bisa menimbulkan kesan bahwa Gemini bersikap bias. Misalnya, positif palsu dapat menyebabkan Gemini tidak merespons pertanyaan tentang satu sudut pandang, sementara justru memberikan respons untuk pertanyaan serupa dari sudut pandang lain. Kami akan terus memperbaiki model ini agar lebih mampu dalam memahami dan mengklasifikasikan input dan output seiring pesatnya perkembangan bahasa, peristiwa, dan masyarakat.

Kerentanan terhadap perintah berniat jahat

Kami sudah memperkirakan bahwa pengguna akan menguji batas kemampuan Gemini dan mencoba untuk merusak perlindungannya, termasuk berusaha membuatnya membocorkan protokol pelatihan atau informasi lainnya, atau berusaha melewati sistem keamanannya. Kami telah melakukan pengujian dan terus menguji Gemini dengan ketat. Namun, kami yakin bahwa pengguna akan mencari cara unik yang rumit untuk menguji batas kemampuannya lebih jauh lagi. Hal ini adalah bagian penting dari peningkatan kualitas Gemini dan kami tidak sabar untuk mempelajari perintah baru yang dapat dibuat pengguna. Sejak Gemini diluncurkan pada tahun 2023, kami telah melihat pengguna mengujinya dengan perintah yang bervariasi, mulai dari yang filosofis hingga yang tidak masuk akal. Dalam beberapa kasus, kami melihat Gemini merespons dengan jawaban yang sama tidak masuk akalnya atau tidak sesuai dengan pendekatan yang telah kami tetapkan. Menemukan metode untuk membantu Gemini merespons perintah seperti ini merupakan tantangan berkelanjutan. Untuk itu, kami terus mengembangkan evaluasi internal serta melakukan pengujian red team untuk meningkatkan akurasi, objektivitas, dan ketelitian respons.

Cara kami terus mengembangkan Gemini

Penerapan pendekatan Gemini kami

Selain menetapkan Prinsip AI kami, baru-baru ini kami telah menyusun pendekatan kami dalam pengembangan Gemini: Gemini harus mengikuti arahan Anda, beradaptasi dengan kebutuhan Anda, dan memberi Anda pengalaman yang aman. Pendekatan kami berfokus pada tanggung jawab dan keamanan. Tujuan panduan kebijakan Gemini adalah untuk menghindari jenis output yang bermasalah. Kami melakukan pengujian kerentanan berkelanjutan dengan anggota “red team” internal yang terdiri dari para pakar produk dan ilmuwan sosial yang dengan sengaja menguji model untuk menggali masalah keselarasan dengan pedoman kebijakan ini dan pendekatan utama kami untuk Gemini. Selanjutnya, kami dapat menerapkan hasil temuan mereka dan terus meningkatkan kualitas Gemini.

Privasi juga menjadi pertimbangan utama dalam pengembangan Gemini. Hub Privasi Aplikasi Gemini menyediakan informasi selengkapnya tentang cara kami membangun Gemini dengan pendekatan privasi dari desain, dan memberi Anda kontrol penuh.

Memberikan kontrol kepada pengguna dan penayang

Kami telah membuat berbagai kontrol pengguna Gemini yang mudah diakses untuk membantu Anda meninjau, memperbarui, mengelola, mengekspor, dan menghapus data Gemini Anda. Anda dapat mengakses dan meninjau perintah, respons, serta masukan Anda di Gemini melalui kontrol Aktivitas Aplikasi Gemini. Selain itu, jika tidak ingin percakapan Gemini Anda pada masa mendatang digunakan untuk meningkatkan teknologi machine-learning Google, Anda dapat menonaktifkan setelan Aktivitas Aplikasi Gemini. Seperti dengan layanan Google lainnya, Anda juga dapat mendownload dan mengekspor informasi Anda melalui alat Takeout Google. Kami juga memberi Anda kontrol untuk mengelola link publik yang telah Anda buat di rangkaian percakapan Gemini, serta kontrol untuk mengaktifkan atau menonaktifkan akses ke ekstensi (mis. Workspace, Maps, YouTube). Kami juga mengeksplorasi cara baru untuk memberi Anda kontrol yang lebih besar atas respons Gemini, termasuk dengan menyesuaikan filter untuk memungkinkan output yang lebih beragam.

Untuk penayang web, kami telah meluncurkan Google-Extended, yaitu kontrol yang dapat mereka gunakan untuk mengelola apakah situs mereka dapat digunakan untuk meningkatkan kualitas Gemini dan API generatif Vertex AI. Memberikan akses ke konten situs melalui Google-Extended dapat membantu meningkatkan akurasi dan kemampuan model AI dari waktu ke waktu. Selain tidak menggunakan konten dari URL yang memilih untuk tidak disertakan dalam pelatihan model, Gemini juga tidak akan menggunakan konten tersebut sebagai grounding dalam memberikan respons. Seiring berkembangnya penggunaan AI, para penayang web akan menghadapi tantangan yang semakin kompleks dalam mengelola berbagai penggunaan secara luas. Kami berkomitmen untuk bekerja sama dengan komunitas web dan AI guna mengeksplorasi pendekatan yang lebih mudah dibaca mesin untuk memberikan pilihan dan kendali.

Bersama-sama meningkatkan kualitas Gemini

Kami berkomitmen mendorong proses iterasi yang cepat dan menghadirkan versi terbaik Gemini ke seluruh dunia. Masukan dari pengguna telah mempercepat peningkatan kualitas model kami. Sebagai contoh, kami menggunakan teknik reinforcement learning tercanggih untuk melatih model kami agar lebih intuitif dan imajinatif, serta mampu memberikan respons dengan kualitas dan akurasi yang lebih tinggi. Kami terus berinvestasi dalam riset untuk mendalami berbagai tantangan dan peluang LLM, baik dari sisi teknis, sosial, maupun etika, guna meningkatkan kualitas teknik pelatihan dan penyesuaian model Gemini. Riset juga penting untuk membagikan temuan kami kepada peneliti, seperti makalah terbaru kami mengenai Ethics of Advanced AI Assistants (Etika Asisten AI Tingkat Lanjut) ini. Kami berkomitmen untuk berinovasi di bidang ini secara bertanggung jawab serta berkolaborasi dengan pengguna, penguji tepercaya, dan peneliti untuk menemukan cara agar teknologi baru ini bermanfaat bagi seluruh ekosistem.

Transparansi sangatlah penting dan kami berkomitmen untuk bersikap terbuka mengenai proses pengembangan Gemini serta batasannya. Gemini bukanlah alat yang bekerja secara misterius. Model ini terus berkembang dan kami akan terus membagikan informasi terbaru terkait kemajuannya. Kami telah meluncurkan halaman Info Rilis agar Anda dapat melihat fitur, peningkatan, perbaikan bug terbaru Gemini. Halaman ini akan kami perbarui sesuai kebutuhan. Kami akan terus mengidentifikasi potensi manfaat Gemini, serta area yang masih perlu ditingkatkan secara berkelanjutan. Kami secara aktif menambahkan kemampuan baru, dan berupaya meningkatkan kualitas Gemini secara kolektif melalui riset, uji coba, dan masukan pengguna yang berkelanjutan.

Ucapan terima kasih

Kami mengapresiasi dan mengakui upaya luar biasa dari semua rekan kerja kami di tim aplikasi Gemini, Google DeepMind, Kepercayaan & Keamanan, serta Google Riset.

Ditulis oleh

James Manyika
SVP, Research, Technology dan Society

Sissie Hsiao
Vice President dan General Manager, Google Assistant dan Gemini App

Catatan editor

Dokumen ini akan terus diperbarui dari waktu ke waktu, seiring dengan peningkatan kemampuan aplikasi Gemini serta upaya kami dalam mengatasi batasan yang melekat pada LLM. Ringkasan ini terakhir diperbarui pada 25 Juli 2024. Untuk mengetahui informasi terbaru mengenai aplikasi Gemini, buka log Info Rilis atau baca selengkapnya di Blog Google Keyword.

3 Respons terhadap perintah pengguna

Pembuatan respons mirip dengan cara manusia memikirkan berbagai pendekatan untuk menjawab suatu pertanyaan. Setelah pengguna memberikan perintah, Gemini memanfaatkan LLM yang dilatih ulang, konteks dari perintah, dan interaksi dengan pengguna untuk menyusun beberapa versi respons. Gemini juga mengandalkan sumber eksternal seperti Google Penelusuran, dan/atau salah satu dari beberapa ekstensinya, serta file yang baru diupload (khusus Gemini Advanced) untuk menghasilkan responsnya. Proses ini dikenal sebagai augmentasi pengambilan informasi. Dengan perintah yang diberikan, Gemini berupaya mengambil informasi yang paling relevan dari sumber eksternal ini (mis. Google Penelusuran) dan menampilkannya secara akurat dalam responsnya. Augmentasi LLM dengan alat eksternal merupakan bidang riset yang terus berkembang. Ada banyak faktor yang bisa memunculkan error, termasuk kueri yang digunakan Gemini untuk memanggil alat eksternal ini, cara Gemini menginterpretasikan hasil yang diberikan alat tersebut, serta cara hasil tersebut digunakan untuk membuat respons akhir. Karena itu, kualitas respons Gemini tidak selalu mencerminkan performa dari alat eksternal yang digunakannya untuk membuat respons tersebut.

Terakhir, sebelum respons akhir ditampilkan, setiap respons potensial akan melalui pemeriksaan keamanan untuk memastikan kepatuhannya terhadap panduan kebijakan yang telah ditetapkan. Proses ini berfungsi sebagai pemeriksaan ulang untuk memfilter informasi yang berpotensi berbahaya atau menyinggung. Respons yang lolos pemeriksaan kemudian diberi peringkat berdasarkan kualitasnya dan respons dengan skor tertinggi akan ditampilkan kepada pengguna.

Kami juga menambahkan watermark ke output teks dan gambar dari Gemini menggunakan SynthID, yaitu alat digital terdepan kami untuk memberi watermark pada konten buatan AI. Untuk gambar generatif, SynthID menambahkan watermark digital (yang tidak terlihat oleh mata manusia) langsung ke dalam piksel. SynthID merupakan elemen penting dalam pengembangan alat identifikasi AI yang lebih andal dan dapat membantu orang membuat keputusan yang lebih tepat saat berinteraksi dengan konten buatan AI.

Ringkasan aplikasi Gemini

Apa itu Gemini?

Produktivitas

Kreativitas

Rasa ingin tahu

Cara kerja Gemini

Pelatihan awal

Pascapelatihan

Respons terhadap perintah pengguna

Masukan dan evaluasi manusia

Batasan yang diketahui pada antarmuka berbasis LLM seperti Gemini

Akurasi

Bias

Perspektif yang Beragam

Persona

Positif/negatif palsu

Kerentanan terhadap perintah berniat jahat

Cara kami terus mengembangkan Gemini

Penerapan pendekatan Gemini kami

Memberikan kontrol kepada pengguna dan penayang

Bersama-sama meningkatkan kualitas Gemini

Ucapan terima kasih

Ubah wilayah dan bahasa Anda

Asia Pasifik

Amerika

Eropa & Afrika

1 Pelatihan awal

2 Pascapelatihan

3 Respons terhadap perintah pengguna

4 Masukan dan evaluasi manusia