סקירה כללית של אפליקציית Gemini
כבר מזמן הבנו איזה פוטנציאל עצום יש ל-AI בהנגשה של מידע ויכולות מחשוב, ועד כמה הוא יכול להועיל לאנשים. פיתחנו חידושים פורצי דרך במודלים גדולים של שפה (LLM) והבאנו לקפיצת מדרגה בשירותי Google ובתעשייה בכלל. בשנים האחרונות שילבנו ברקע מודלים מסוג LLM כדי לשפר הרבה מהמוצרים שלנו. הם עוזרים, למשל, להשלים אוטומטית משפטים ב-Gmail, להרחיב את היכולות של Google Translate וגם להבין טוב יותר שאילתות בחיפוש Google. אנחנו ממשיכים להשתמש במודלים מסוג LLM בהרבה שירותים של Google, וגם אפליקציית Gemini מבוססת עליהם. דרך האפליקציה הזו אנשים יכולים לעבוד עם AI גנרטיבי באופן ישיר. אנחנו רוצים שאפליקציית Gemini תהיה העוזר האישי הכי מועיל שמבוסס על AI, שבנוסף גם תאפשר למשתמשים לגשת למודלים המתקדמים ביותר של AI מבית Google.
היום אנחנו בנקודת מפנה חשובה בתחום, וההתרגשות הכללית סביב AI גנרטיבי מעודדת אותנו להמשיך, אבל חשוב לזכור שהטכנולוגיה הזו עדיין בתחילת הדרך. בהמשך נסביר את הגישה שמנחה אותנו בפיתוח אפליקציית Gemini ("Gemini"), גם בממשק בנייד וגם באתר — מה היא האפליקציה, איך היא פועלת ומה היכולות והמגבלות שלה נכון לעכשיו. הגישה שלנו תמשיך להתפתח בהתאם לשינויים הטכנולוגיים, וככל שנלמד מהמחקר המתמשך בתחום, מחוויות המשתמשים ומהמשוב שלהם.
מה זה Gemini
Gemini הוא ממשק של LLM מולטי-מודאלי (שמעבד טקסט, אודיו, תמונות ועוד). הוא מבוסס על המחקר החדשני של Google בתחום ה-LLM, שהתחיל במאמר שפורסם ב-Word2Vec בשנת 2013. המאמר הדגים ארכיטקטורות חדשניות של מודלים שמיפו מילים כמושגים מתמטיים. לאחר מכן, בשנת 2015, הוצג לראשונה מודל עצבי בממשק שיחה. במסגרת הזו הודגם איך מודלים יכולים לחזות את המשפט הבא בשיחה על סמך המשפט או המשפטים הקודמים, כך שממשקי הצ'אט עם AI נעשים טבעיים יותר. אחר כך, בשנת 2017, הייתה לנו פריצת דרך עם Transformer ובשנת 2020 פיתחנו יכולות שיחה עם זיכרון – צעד נוסף וחשוב בהתקדמות של מודל שפה גנרטיבי.
במרץ 2023 השקנו את Gemini (שנקרא אז Bard) כניסוי, בהתאם לעקרונות ה-AI שלנו. מאז, משתמשים נעזרים ב-Gemini כדי לכתוב אימיילים רהוטים, לנפות באגים ולפתור בעיות מאתגרות בתכנות, להעלות רעיונות בתכנון אירועים, ללמוד מושגים מורכבים ועוד. כיום Gemini הוא כלי מבוסס-AI עם מגוון יכולות שיכול לעזור למשתמשים בכל מיני דרכים. Gemini כבר עזר להרבה אנשים להיות פרודוקטיביים ויצירתיים יותר ולפתח סקרנות, ואנחנו מוסיפים עוד פונקציות וחידושים כל הזמן.
פרודוקטיביות
קודם כול, Gemini עוזר לחסוך זמן. לדוגמה, נניח שאתם רוצים לסכם מסמך מחקרי ארוך. אתם יכולים להעלות את המסמך אל Gemini והוא ייצור בשבילכם סינתזה שימושית. אפשר גם להיעזר ב-Gemini עם משימות תכנות. למעשה, זה אחד מהתחומים הכי פופולריים בקרב המשתמשים.
יצירתיות
יש אנשים שמשתמשים ב-Gemini כדי למצוא השראה או להפוך דמיון למציאות. לדוגמה, אם אתם רוצים לכתוב פוסט בבלוג, Gemini יכול לנסח לכם ראשי פרקים וליצור תמונות להמחשה. בקרוב, עם Gems, תוכלו לתת ל-Gemini הוראות להתאמה אישית כדי שיפעל כמו מומחה לנושא מסוים, ולהיעזר בו להשגת היעדים האישיים שלכם.
סקרנות
אם אתם רוצים להבין רעיונות חדשים או להתעמק בנושאים מעניינים, Gemini הוא מקום טוב להתחיל בו. לדוגמה, הוא יכול להסביר מושגים מורכבים בצורה פשוטה או להציג תובנות רלוונטיות לגבי נושא או תמונה. בקרוב הוא יוכל לשלב את התובנות האלה עם המלצות לתוכן מרחבי האינטרנט, שיכול להרחיב את הידע שלכם בנושאים מסוימים.
היכולות של Gemini מתרחבות עוד ועוד כל הזמן. בקרוב תוכלו לכוון את מצלמת הטלפון שלכם לאובייקט, למשל לגשר שער הזהב, ולשאול את Gemini איך קוראים לצבע שלו ("כתום בין-לאומי", לידע כללי). בנוסף, תוכלו לבקש מ-Gemini לעזור לכם לקרוא תפריט של מסעדה בשפה שאתם לא מבינים, או להמליץ על מנה שתאהבו. אלה רק שתי דוגמאות ליכולות שיתווספו בקרוב ל-Gemini.
אנחנו מאמנים את Gemini כל הזמן ועוקבים אחרי התוצאות, כדי שהתשובות שלו יהיו אמינות יותר ויענו על ציפיות המשתמשים. אנחנו גם מתייעצים עם מומחים, מורים, קובעי מדיניות, מנהלי עסקים, פעילים בנושא זכויות אדם וזכויות אזרחיות ויוצרי תוכן, במטרה לפתח יישומים חדשים ולבחון את המגבלות והסיכונים הפוטנציאליים של הטכנולוגיה המתפתחת הזו.
איך Gemini פועל
אימון מראש
אחרי האימון
תשובות להנחיות ממשתמשים
משוב אנושי ובדיקות אנושיות
המגבלות הידועות של ממשקים מבוססי-LLM כמו Gemini
Gemini הוא רק היבט אחד במאמצים המתמשכים שלנו לפתח מודלים מסוג LLM בצורה אחראית. במהלך הפיתוח גילינו לא מעט מגבלות שקשורות ל-LLM וניהלנו דיונים בנושא. כאן נתמקד ב-6 תחומים של מחקר מתמשך:
דיוק: התשובות של Gemini לא תמיד מדויקות, במיוחד כששואלים אותו על נושאים מורכבים או עובדתיים.
הטיה: התשובות של Gemini עשויות לשקף הטיות שקיימות בנתוני האימון.
מספר נקודות מבט: התשובות של Gemini לא תמיד מבטאות השקפות שונות.
פרסונה: התשובות של Gemini עלולות ליצור רושם מוטעה שיש לו דעות או רגשות משלו.
תוצאות חיוביות מוטעות או תוצאות שליליות מוטעות: יכול להיות ש-Gemini לא יענה להנחיות הולמות מסוימות, וייתן תשובות לא הולמות להנחיות אחרות.
רגישות להנחיות זדוניות: משתמשים עלולים למצוא דרכים להעמיד את Gemini במבחנים זדוניים. כלומר, להזין הנחיות חסרות משמעות או שאלות שכמעט לא שואלים בעולם האמיתי.
אנחנו ממשיכים לבחון גישות ודרכים חדשות לשיפור הביצועים בתחומים האלה.
דיוק
המודלים של Gemini מתבססים על מידע מהימן ממקורות מוסמכים, כפי שהוא מוגדר ב-Google. אנחנו מאמנים אותו לייצר תשובות רלוונטיות לפי ההקשר של ההנחיה שהמשתמשים נותנים לו ובהתאם למה שהם מחפשים. עם זאת, כמו כל המודלים מסוג LLM, גם Gemini עלול לייצר תשובות משכנעות שמנוסחות בביטחון, אבל מכילות מידע מטעה או לא מדויק.
מודלים מסוג LLM חוזים את המילה הבאה ברצף של מילים, ולכן הם עוד לא תמיד מסוגלים להבדיל בעצמם בין מידע מדויק למידע לא מדויק. נתקלנו בתשובות מ-Gemini שהכילו מידע לא מדויק או אפילו המצאות גמורות (לדוגמה, מצג שווא של תהליך האימון של המודל עצמו או הצעה לשם של ספר שלא קיים). לכן יצרנו פיצ'רים כמו "בדיקת מקורות" – תכונה שמריצה חיפוש ב-Google ומוצאת תוכן וקישורים למקורות שעוזרים למשתמשים להעריך את התשובות של Gemini ולאמת את המידע שהוא נותן.
הטיה
נתוני האימון, כולל נתונים ממקורות שזמינים לכולם, משקפים מגוון דעות ונקודות מבט. אנחנו ממשיכים לחפש דרכים להשתמש בנתונים האלה כך שהתשובה של ה-LLM תשלב כמה נקודות מבט מגוונות ותכיל כמה שפחות הטיות והכללות יתר לא מדויקות.
כאשר המודל מנסה לחזות את התשובות הסבירות ביותר להנחיה מסוימת, הוא עשוי לשקף את הפערים, ההטיות והכללות היתר שקיימים בנתוני האימון שלו. בעיות כאלה באות לידי ביטוי בדרכים שונות. לדוגמה, תשובות שמשקפות רק תרבות או קבוצה דמוגרפית אחת, חוזרות על הכללת יתר לא מקובלת, מציגות הטיות מגדריות, דתיות או אתניות, או מקדמות נקודת מבט יחידה. בנושאים מסוימים יש מחסור בנתונים. כלומר, אין מספיק מידע מהימן שה-LLM יכול ללמוד ממנו כדי ליצור תחזיות טובות. כתוצאה מכך, הוא עלול לתת תשובות לא מדויקות או באיכות נמוכה. אנחנו ב-Google ממשיכים לעבוד עם מומחים בתחומים שונים ועם מגוון קהילות כדי להעמיק ולהעשיר את הידע שלנו.
מספר נקודות מבט
כשמדובר בנושאים סובייקטיביים, Gemini מאומן לתת למשתמשים תשובות ממספר נקודות מבט, אלא אם הם מבקשים נקודת מבט ספציפית. לדוגמה, אם מבקשים ממנו מידע על נושא שאי אפשר לאמת על סמך עובדות ממקור מידע ראשוני או ממקורות מוסמכים — כמו דעה סובייקטיבית על מה "הכי טוב" או "הכי גרוע" — Gemini אמור לענות בדרך שמשקפת מגוון רחב של נקודות מבט. עם זאת, מודלים מסוג LLM כמו Gemini מאומנים באמצעות תוכן שזמין לכולם באינטרנט. לכן, הם עלולים לשקף נקודות מבט חיוביות או שליליות של פוליטיקאים או סלבריטאים ספציפיים, או דמויות ציבוריות אחרות, ואפילו לשלב בתשובה השקפה פוליטית או חברתית חד צדדית שנויה במחלוקת. Gemini לא אמור לתת תשובות שמקדמות נקודת מבט ספציפית בנושאים כאלה. לכן אנחנו ניעזר במשוב שנקבל על תשובות כאלה כדי לאמן את Gemini לגשת לנושאים האלה בצורה טובה יותר.
פרסונה
Gemini מאומן באמצעות השפה שאנשים מביעים בה את החוויה האנושית. לכן הוא יכול לפעמים לתת תשובות שיוצרות את הרושם שיש לו דעות או רגשות משלו, כמו אהבה או עצבות. פיתחנו קווים מנחים שלפיהם Gemini אמור לייצג את עצמו (כלומר, הפרסונה שלו) ואנחנו ממשיכים לשנות את המודל כדי שייתן תשובות אובייקטיביות.
תוצאות חיוביות מטעות או תוצאות שליליות מטעות
הגדרנו הנחיות מדיניות שלפיהן מאמנים את Gemini ומונעים יצירת תשובות בעייתיות. לפעמים Gemini לא פועל בהתאם לקווים המנחים האלה כך שנוצרות תוצאות חיוביות מטעות או תוצאות שליליות מטעות. בתוצאה חיובית מטעה, Gemini לא נותן תשובה להנחיה הגיונית כי הוא מסווג אותה בטעות כבלתי הולמת. בתוצאה שלילית מטעה, הוא יוצר תשובה בלתי הולמת בניגוד לקווים המנחים שניתנו לו. לפעמים, כשמתקבלות תוצאות מטעות — חיוביות או שליליות — נדמה של-Gemini יש הטיה. למשל, אם הוא לא משיב לשאלה מסוימת כשהיא מציגה צד אחד של הבעיה (כי הוא חושב בטעות שההנחיה בלתי הולמת), אבל כן משיב לאותה השאלה כשהיא מציגה צד אחר של הבעיה. לשפה האנושית, לאירועים ולמגמות חברתיות יש קצב התפתחות מהיר, ואנחנו מתאימים את המודלים שלנו כל הזמן כדי שיבינו ויסווגו טוב יותר את הקלט והפלט בעולם שמשתנה בלי הפסקה.
רגישות להנחיות זדוניות
אנחנו מצפים שמשתמשים יבחנו את הגבולות של מה ש-Gemini יכול לעשות וינסו לעקוף את אמצעי ההגנה שלו. בין היתר, משתמשים צפויים לנסות להוציא ממנו מידע על הפרוטוקולים לאימון שלו או פרטים אחרים, או לנסות לעקוף מנגנוני אבטחה. בדקנו את Gemini המון ואנחנו ממשיכים לעשות זאת, אבל ברור לנו שמשתמשים ימצאו דרכים ייחודיות ומורכבות להעמיד אותו במבחנים זדוניים. ההתמודדות עם המצב הזה היא חלק חשוב בליטוש של Gemini, ואנחנו לומדים מכל הנחיה חדשה שמשתמשים ממציאים. מאז ההשקה של Gemini בשנת 2023 נתקלנו באתגרים רבים בהנחיות של משתמשים, החל מתהיות פילוסופיות ועד שימוש בנונסנס. במקרים מסוימים Gemini נתן תשובות חסרות משמעות או כאלה שלא תואמות את הגישה המוצהרת שלנו. אנחנו כל הזמן מחפשים דרכים לעזור ל-Gemini לענות להנחיות כאלה, מרחיבים עוד ועוד את הבדיקות הפנימיות ומשתמשים בצוות האדום שלנו כדי לשפר את הדיוק, האובייקטיביות והניואנסים.
המשך הפיתוח של Gemini
איך אנחנו מיישמים את הגישה שמנחה את Gemini
בנוסף לעקרונות ה-AI, ניסחנו לאחרונה את הגישה שמנחה אותנו בפיתוח של Gemini: Gemini צריך למלא את ההוראות שנותנים לו, להתאים את עצמו לצרכים של המשתמשים ולהגן על חוויית השימוש שלהם. הגישה שלנו מתמקדת באחריות ובבטיחות. הנחיות המדיניות של Gemini מיועדות למנוע יצירה של תשובות בעייתיות. אנחנו מחפשים נקודות תורפה כל הזמן בעזרת חברי "הצוות האדום" הפנימי שלנו. מדובר במומחי מוצרים וחוקרים מתחום מדעי החברה שמעמידים את המודל במבחנים זדוניים בכוונה, כדי לחפש בעיות בעמידה בדרישות המדיניות והגישה הכוללת שלנו לפיתוח של Gemini. אחר כך אנחנו מיישמים את הלקחים מהבדיקות האלה כדי להמשיך לשפר את Gemini.
שיקול מרכזי נוסף בפיתוח של Gemini הוא שמירה על הפרטיות. במרכז המידע על פרטיות בממשקי Gemini מוסבר בפירוט איך אנחנו מפתחים את Gemini עם הפרטיות במרכז, ונותנים למשתמשים שליטה.
השליטה בידי המשתמשים ובעלי התוכן הדיגיטלי
בממשקי Gemini יש מגוון של אמצעי בקרה מובנים ופשוטים לשימוש, שבעזרתם אתם יכולים לבדוק, לעדכן, לערוך, לייצא ולמחוק את הנתונים שלכם. דרך בקרת הפעילות בממשקי Gemini ניתן לראות ולבדוק את ההנחיות שנותנים ל-Gemini, התשובות שלו והמשוב. בנוסף, אפשר לקבוע שאינטראקציות עם Gemini לא ישמשו לשיפור של טכנולוגיות למידת המכונה של Google – פשוט משביתים את ההגדרה "הפעילות בממשקי Gemini". בדומה לשירותים אחרים של Google, אפשר גם להוריד ולייצא את הנתונים האישיים באמצעות הכליTakeout של Google. יש גם אמצעי בקרה לשינוי ההגדרות של הקישורים שגלויים לכולם שנוצרו לשיחות עם Gemini, וכאלה שמאפשרים לתת או לחסום את הגישה לתוספים (לדוגמה, Workspace, מפות Google, YouTube). לבסוף, אנחנו מחפשים דרכים חדשות להגביר עוד יותר את השליטה בתשובות של Gemini, כולל מסננים שניתן לשנות כדי להרחיב את מגוון התשובות שמתקבלות.
השקנו את Google-Extended לבעלי תוכן דיגיטלי. בעלי אתרים יכולים להשתמש באמצעי הבקרה הזה כדי לקבוע אם האתרים שלהם ישמשו לשיפור של Gemini. בנוסף, השקנו את ממשקי ה-API הגנרטיביים של Vertex AI. אם נותנים ל-Google-Extended גישה לתוכן של אתרים, עוזרים בשיפור הדיוק והיכולות במודלים של AI לאורך זמן. אם בעלים של כתובת URL מסרבים לתת גישה אליה, התוכן שבה לא משמש לאימון מודלים ו-Gemini לא נעזר בתוכן הזה לעיגון. ככל שנוספות אפליקציות של AI, בעלי אתרים נדרשים לנהל את יותר ויותר שימושים שונים שנעשים בתוכן שלהם. במציאות המשתנה הזאת, אנחנו מקפידים לתקשר עם קהילות באינטרנט ובתחום ה-AI כדי לבחון יחד פתרונות בפורמט קריא למכונה שמעניקים לבעלי תוכן דיגיטלי שליטה ואפשרויות בחירה.
Improving Gemini together
אנחנו מאמינים בעדכונים תכופים ורוצים ש-Gemini תמיד יהיה הכי טוב שהוא יכול להיות. משוב ממשתמשים האיץ את השיפורים במודלים שלנו. לדוגמה, באמצעות שיטות חדשניות לחיזוק הלמידה, אנחנו מאמנים את המודלים שלנו לעבוד בצורה אינטואיטיבית ויצירתית יותר, ולתת תשובות עוד יותר מדויקות ואיכותיות. אנחנו משקיעים במחקרים שמנסים להבין טוב יותר את ההזדמנויות והאתגרים האתיים, החברתיים והטכניים שטמונים במודלים מסוג LLM — גם כדי לשפר את השיטות לאימון ולכוונון המודלים של Gemini, וגם כדי לשתף את המסקנות עם חוקרים. דוגמה לשיתוף פעולה כזה הוא מאמר שפורסם לאחרונה בנושא כללי האתיקה לעוזרים אישיים מתקדמים מבוססי-AI. חשוב לנו לפתח את התחום בצורה אחראית, ולכן אנחנו עובדים עם משתמשים, חוקרים ובודקים נאמנים כדי לוודא שהטכנולוגיה החדשה הזו מועילה לכולם.
חשוב לנו לשמור על שקיפות, לכן אנחנו מחויבים לשתף בפתיחות את המגבלות ותהליך הפיתוח של Gemini. Gemini הוא לא קופסה שחורה קסומה. הוא מתפתח כל הזמן ונמשיך לעדכן אתכם בהתקדמות שלנו. השקנו את הדף עדכוני גרסה שבו אפשר לראות את הפיצ'רים, השיפורים ותיקוני הבאגים העדכניים ב-Gemini, ונמשיך לעדכן את הסקירה הכללית הזו לפי הצורך. נקפיד לזהות את המקרים שבהם Gemini שימושי ומועיל, ואת המקרים שבהם צריך לחזור על תהליך האימון והבדיקה כדי לשפר אותו. אנחנו תמיד מוסיפים יכולות חדשות, ומחויבים להמשיך לשפר את Gemini באמצעות מחקר מתמשך, בדיקות ומשוב ממשתמשים.
תודות
אנחנו מעריכים מאוד את העבודה המדהימה של הקולגות שלנו בצוות אפליקציית Gemini, בצוות Google DeepMind, בצוות לנושאי מהימנות ובטיחות ובצוות המחקר של Google.
ג'יימס מניקה (James Manyika)
סמנכ"ל בכיר ב-Google לטכנולוגיה וחברה
סיסי שיאו (Sissie Hsiao)
סמנכ"לית ומנהלת כללית של Google Assistant ואפליקציית Gemini
המסמך הזה יתעדכן מדי פעם כי אנחנו משפרים את היכולות של אפליקציית Gemini כל הזמן, וגם מתמודדים עם המגבלות שיש בכל המודלים מסוג LLM. תאריך העדכון האחרון של הסקירה הכללית הזו הוא 25 ביולי 2024. העדכונים האחרונים באפליקציית Gemini מפורטים ביומן עדכוני הגרסה ומידע נוסף מפורט בבלוג Keyword של Google.