เรียกใช้การสร้างและการอนุมานเนื้อหาของ Gemma

เมื่อต้องการเรียกใช้โมเดล Gemma คุณต้องตัดสินใจ 2 เรื่องหลักๆ ดังนี้ 1) คุณต้องการเรียกใช้ Gemma เวอร์ชันใด และ 2) คุณจะใช้เฟรมเวิร์กการดำเนินการ AI ใดเพื่อเรียกใช้ ประเด็นสำคัญในการตัดสินใจทั้ง 2 อย่างนี้เกี่ยวข้องกับฮาร์ดแวร์ที่คุณและผู้ใช้มีพร้อมใช้งานเพื่อเรียกใช้โมเดล

ภาพรวมนี้จะช่วยให้คุณตัดสินใจและเริ่มทำงานกับโมเดล Gemma ได้ ขั้นตอนทั่วไปในการเรียกใช้โมเดล Gemma มีดังนี้

เลือกเฟรมเวิร์ก

โมเดล Gemma ใช้ได้กับเฟรมเวิร์กการดำเนินการ Generative AI ที่หลากหลาย ปัจจัยสำคัญอย่างหนึ่งในการตัดสินใจเมื่อเรียกใช้โมเดล Gemma คือ ทรัพยากรการประมวลผลที่คุณมี (หรือจะมี) พร้อมใช้งานเพื่อเรียกใช้ โมเดล เฟรมเวิร์ก AI ที่เข้ากันได้ส่วนใหญ่ต้องใช้ฮาร์ดแวร์เฉพาะ เช่น GPU หรือ TPU เพื่อเรียกใช้โมเดล Gemma อย่างมีประสิทธิภาพ เครื่องมืออย่างเช่น Google Colab สามารถจัดหาทรัพยากรการประมวลผลเฉพาะทางเหล่านี้ได้ในจำนวนจำกัด เฟรมเวิร์กการเรียกใช้ AI บางรายการ เช่น Ollama และ Gemma.cpp ช่วยให้คุณเรียกใช้ Gemma ใน CPU ที่ใช้กันทั่วไปได้ โดยใช้สถาปัตยกรรมที่เข้ากันได้กับ x86 หรือ ARM

ต่อไปนี้คือคำแนะนำในการเรียกใช้โมเดล Gemma ด้วยเฟรมเวิร์กเวลาเรียกใช้ AI ต่างๆ

ตรวจสอบว่าเฟรมเวิร์กที่คุณเลือกนั้นรองรับรูปแบบโมเดล Gemma ที่คุณต้องการใช้งาน เช่น รูปแบบ Keras Native, Safetensors หรือ GGUF

เลือกโมเดล Gemma

โมเดล Gemma มีให้ใช้งานในหลายเวอร์ชันและหลายขนาด ซึ่งรวมถึงโมเดล Gemma หลักหรือโมเดลพื้นฐาน และโมเดลเวอร์ชันที่มีความเชี่ยวชาญมากขึ้น เช่น PaliGemma และ DataGemma รวมถึงโมเดลอีกมากมายที่ชุมชนนักพัฒนา AI สร้างขึ้นบนเว็บไซต์ต่างๆ เช่น Kaggle และ Hugging Face หากไม่แน่ใจว่าควรเริ่มต้นด้วยโมเดลใด ให้เลือกโมเดล Gemma Core ล่าสุดที่ได้รับการปรับแต่งตามคำสั่ง (IT) ซึ่งมีจำนวนพารามิเตอร์น้อยที่สุด โมเดล Gemma ประเภทนี้มีข้อกำหนดด้านการประมวลผลต่ำและสามารถตอบกลับพรอมต์ได้หลากหลายโดยไม่ต้องมีการพัฒนาเพิ่มเติม

โปรดพิจารณาปัจจัยต่อไปนี้เมื่อเลือกรุ่น Gemma

  • Gemma หลัก และตระกูลโมเดลอื่นๆ เช่น PaliGemma, CodeGemma แนะนำ Gemma (หลัก) โมเดล Gemma นอกเหนือจากเวอร์ชันหลักมี สถาปัตยกรรมเดียวกับโมเดลหลัก และได้รับการฝึกให้ทำงานได้ดีขึ้นใน งานที่เฉพาะเจาะจง หากแอปพลิเคชันหรือเป้าหมายของคุณไม่สอดคล้องกับ ความเชี่ยวชาญของ Gemma เวอร์ชันใดเวอร์ชันหนึ่งโดยเฉพาะ คุณควรเริ่มต้นด้วยโมเดลหลักหรือโมเดลพื้นฐานของ Gemma
  • ปรับแต่งตามคำสั่ง (IT), ฝึกไว้ล่วงหน้า (PT), ปรับแต่ง (FT), แบบผสม (mix): แนะนํา IT
    • Gemma ที่ได้รับการปรับแต่งตามคำสั่ง (IT) คือโมเดลที่ได้รับการฝึกให้ตอบสนองต่อคำสั่งหรือคำขอที่หลากหลายในภาษาของมนุษย์ โมเดลเวอร์ชันเหล่านี้เป็นจุดเริ่มต้นที่ดีที่สุด เนื่องจากสามารถตอบกลับพรอมต์ได้โดยไม่ต้องฝึกโมเดลเพิ่มเติม
    • Gemma ที่ฝึกล่วงหน้า (PT) คือโมเดลที่ได้รับการฝึกให้ทำการอนุมานเกี่ยวกับภาษาหรือข้อมูลอื่นๆ แต่ยังไม่ได้รับการฝึกให้ทำตามคำสั่งของมนุษย์ โมเดลเหล่านี้ต้องมีการฝึกหรือปรับแต่งเพิ่มเติมเพื่อให้ทำงานได้อย่างมีประสิทธิภาพ และมีไว้สำหรับนักวิจัยหรือนักพัฒนาซอฟต์แวร์ที่ต้องการศึกษาหรือ พัฒนาความสามารถของโมเดลและสถาปัตยกรรมของโมเดล
    • Gemma ที่ได้รับการปรับแต่ง (FT) อาจถือเป็นรุ่นไอที แต่โดยทั่วไปจะได้รับการฝึกให้ทำงานเฉพาะเจาะจง หรือทำงานได้ดี ในการทดสอบประสิทธิภาพ Generative AI ที่เฉพาะเจาะจง ตระกูลโมเดล PaliGemma มีโมเดล FT หลายรายการ
    • แบบผสม (mix) ของ Gemma คือโมเดล PaliGemma เวอร์ชันต่างๆ ที่ได้รับการปรับแต่งตามคำสั่งด้วยคำสั่งที่หลากหลายและ เหมาะสำหรับการใช้งานทั่วไป
  • พารามิเตอร์: แนะนำให้ใช้หมายเลขที่เล็กที่สุดที่ใช้ได้ โดยทั่วไปแล้ว ยิ่งโมเดลมีพารามิเตอร์มากเท่าใด ก็ยิ่งมีความสามารถมากขึ้นเท่านั้น อย่างไรก็ตาม การเรียกใช้โมเดลขนาดใหญ่ขึ้นต้องใช้ทรัพยากรการประมวลผลที่ใหญ่ขึ้นและซับซ้อนมากขึ้น และโดยทั่วไปจะทำให้การพัฒนาแอปพลิเคชัน AI ช้าลง หากยังไม่ได้พิจารณาว่าโมเดล Gemma ขนาดเล็กไม่ตอบโจทย์ความต้องการของคุณ ให้เลือกโมเดลที่มีพารามิเตอร์จำนวนน้อย
  • ระดับการหาปริมาณ: แนะนำให้ใช้ความแม่นยำครึ่งหนึ่ง (16 บิต) ยกเว้น การปรับแต่ง การควอนไทซ์เป็นหัวข้อที่ซับซ้อนซึ่งสรุปได้ว่าขนาดและความแม่นยำของข้อมูล และส่งผลให้โมเดล Generative AI ใช้หน่วยความจำเท่าใดในการคำนวณและสร้างคำตอบ หลังจากฝึกโมเดล ด้วยข้อมูลที่มีความแม่นยำสูง ซึ่งโดยทั่วไปคือข้อมูลทศนิยมแบบ 32 บิต แล้ว คุณจะแก้ไขโมเดลอย่าง Gemma ให้ใช้ข้อมูลที่มีความแม่นยำต่ำกว่า เช่น ขนาด 16, 8 หรือ 4 บิต ได้ โมเดล Gemma ที่มีการควอนไทซ์เหล่านี้ยังคงทำงานได้ดี ขึ้นอยู่กับความซับซ้อนของงาน ขณะที่ใช้ทรัพยากรการคำนวณและหน่วยความจำน้อยลงอย่างมาก อย่างไรก็ตาม เครื่องมือสำหรับการปรับแต่งโมเดลที่ผ่านการควอนไทซ์มี ข้อจำกัดและอาจไม่พร้อมใช้งานภายในเฟรมเวิร์กการพัฒนา AI ที่คุณเลือก โดยปกติแล้ว คุณต้องปรับแต่งโมเดลอย่าง Gemma ที่ความแม่นยำเต็มรูปแบบ แล้วจึงจะทําการหาปริมาณโมเดลที่ได้

ดูรายการโมเดล Gemma ที่สำคัญซึ่ง Google เผยแพร่ได้ที่หัวข้อ เริ่มต้นใช้งานโมเดล Gemma รายการโมเดล Gemma

เรียกใช้คำขอการสร้างและการอนุมาน

หลังจากเลือกเฟรมเวิร์กการดำเนินการ AI และตัวแปร Gemma แล้ว คุณจะ เริ่มเรียกใช้โมเดลและแจ้งให้โมเดลสร้างเนื้อหาหรือทำงานให้เสร็จได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีเรียกใช้ Gemma ด้วยเฟรมเวิร์กที่เฉพาะเจาะจงได้ในคำแนะนำที่ลิงก์ไว้ในส่วนเลือกเฟรมเวิร์ก

การจัดรูปแบบพรอมต์

Gemma ทุกรูปแบบที่ได้รับการปรับแต่งตามคำสั่งมีข้อกำหนดการจัดรูปแบบพรอมต์ที่เฉพาะเจาะจง เฟรมเวิร์กที่คุณใช้เรียกใช้โมเดล Gemma จะจัดการข้อกำหนดการจัดรูปแบบบางอย่างเหล่านี้โดยอัตโนมัติ แต่เมื่อส่งข้อมูลพรอมต์ไปยังโทเค็นไนเซอร์โดยตรง คุณต้องเพิ่มแท็กที่เฉพาะเจาะจง และข้อกำหนดการติดแท็กอาจเปลี่ยนแปลงได้ขึ้นอยู่กับโมเดล Gemma ที่คุณใช้ ดูข้อมูลเกี่ยวกับการจัดรูปแบบพรอมต์ของโมเดล Gemma และคำสั่งของระบบได้ในคำแนะนำต่อไปนี้