Chạy tính năng tạo và suy luận nội dung Gemma

Bạn cần đưa ra 2 quyết định quan trọng khi muốn chạy mô hình Gemma: 1) bạn muốn chạy biến thể Gemma nào và 2) bạn sẽ sử dụng khung thực thi AI nào để kích hoạt mô hình đó? Một vấn đề quan trọng trong việc đưa ra cả 2 quyết định này là phần cứng mà bạn và người dùng có để chạy mô hình.

Thông tin tổng quan này giúp bạn đưa ra các quyết định này và bắt đầu làm việc với các mô hình Gemma. Sau đây là các bước chung để chạy mô hình Gemma:

Chọn một khung

Các mô hình Gemma tương thích với nhiều công cụ trong hệ sinh thái. Việc chọn công cụ phù hợp phụ thuộc vào phần cứng mà bạn có (GPU trên đám mây so với máy tính xách tay cục bộ) và lựa chọn ưu tiên về giao diện (mã Python so với ứng dụng dành cho máy tính).

Hãy sử dụng bảng sau để nhanh chóng xác định công cụ phù hợp nhất với nhu cầu của bạn:

Nếu bạn muốn... Khung được đề xuất Tốt nhất cho
Chạy cục bộ bằng giao diện người dùng Chat - LM Studio
- Ollama
Người mới bắt đầu hoặc người dùng muốn có trải nghiệm "giống như Gemini" trên máy tính xách tay.
Chạy hiệu quả trên Edge - LiteRT-LM
- llama.cpp
- MediaPipe LLM Inference API
- MLX
Suy luận cục bộ hiệu suất cao với tài nguyên tối thiểu.
Tạo/Huấn luyện bằng Python - Thư viện Gemma cho JAX
- Hugging Face Transformers
- Keras
- PyTorch
- Unsloth
Nhà nghiên cứu và nhà phát triển xây dựng các ứng dụng tuỳ chỉnh hoặc tinh chỉnh mô hình.
Triển khai vào môi trường sản xuất / doanh nghiệp - Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
- Vertex AI
- vLLM
Triển khai đám mây có thể mở rộng và được quản lý với tính năng bảo mật cấp doanh nghiệp và hỗ trợ MLOps.

Thông tin chi tiết về khung

Sau đây là hướng dẫn chạy các mô hình Gemma được phân loại theo môi trường triển khai.

1. Suy luận cục bộ và trên máy tính (Hiệu quả cao)

Các công cụ này cho phép bạn chạy Gemma trên phần cứng tiêu dùng (máy tính xách tay, máy tính để bàn) bằng cách sử dụng các định dạng được tối ưu hoá (như GGUF) hoặc các bộ tăng tốc phần cứng cụ thể.

2. Phát triển Python (Nghiên cứu và tinh chỉnh)

Các khung tiêu chuẩn dành cho nhà phát triển AI xây dựng ứng dụng, quy trình hoặc mô hình huấn luyện.

3. Triển khai trên thiết bị di động và Edge (Trên thiết bị)

Các khung được thiết kế để chạy các mô hình ngôn ngữ lớn trực tiếp trên thiết bị của người dùng (Android, iOS, Web) mà không cần kết nối Internet, thường sử dụng NPU (Bộ xử lý thần kinh).

4. Triển khai trên đám mây và môi trường sản xuất

Các dịch vụ được quản lý để mở rộng ứng dụng của bạn cho hàng nghìn người dùng hoặc truy cập vào sức mạnh tính toán lớn.

  • Vertex AI: Nền tảng AI được quản lý hoàn toàn của Google Cloud. Phù hợp nhất cho các ứng dụng doanh nghiệp yêu cầu SLA và khả năng mở rộng.
  • Google Cloud Kubernetes Engine (GKE): Để điều phối các cụm phân phát của riêng bạn.
  • vLLM

Đảm bảo rằng định dạng mô hình Gemma dự định triển khai, chẳng hạn như định dạng tích hợp sẵn của Keras, Safetensors hoặc GGUF, được khung bạn chọn hỗ trợ.

Chọn một biến thể Gemma

Các mô hình Gemma có nhiều biến thể và kích thước, bao gồm cả các mô hình Gemma nền tảng hoặc cốt lõi, cũng như các biến thể mô hình chuyên biệt hơn như PaliGemmaDataGemma, cùng nhiều biến thể do cộng đồng nhà phát triển AI tạo trên các trang web như KaggleHugging Face. Nếu bạn không chắc chắn nên bắt đầu với biến thể nào, hãy chọn mô hình Gemma cốt lõi được điều chỉnh theo hướng dẫn (IT) mới nhất có số lượng tham số thấp nhất. Loại mô hình Gemma này có yêu cầu tính toán thấp và có thể phản hồi nhiều loại câu lệnh mà không cần phát triển thêm.

Hãy cân nhắc các yếu tố sau khi chọn một biến thể Gemma:

  • Gemma cốt lõi và các họ biến thể khác như PaliGemma, CodeGemma: Đề xuất Gemma (cốt lõi). Các biến thể Gemma ngoài phiên bản cốt lõi có cùng cấu trúc với mô hình cốt lõi và được huấn luyện để hoạt động hiệu quả hơn ở các tác vụ cụ thể. Trừ phi ứng dụng hoặc mục tiêu của bạn phù hợp với chuyên môn của một biến thể Gemma cụ thể, tốt nhất là bạn nên bắt đầu với mô hình Gemma cốt lõi hoặc mô hình cơ sở.
  • Được điều chỉnh theo hướng dẫn (IT), được huấn luyện trước (PT), được tinh chỉnh (FT), hỗn hợp (mix): Đề xuất IT.
    • Các biến thể Gemma được điều chỉnh theo hướng dẫn (IT) là các mô hình đã được huấn luyện để phản hồi nhiều hướng dẫn hoặc yêu cầu bằng ngôn ngữ của con người. Đây là những biến thể mô hình tốt nhất để bắt đầu vì chúng có thể phản hồi câu lệnh mà không cần huấn luyện thêm mô hình.
    • Các biến thể Gemma được huấn luyện trước (PT) là các mô hình đã được huấn luyện để đưa ra suy luận về ngôn ngữ hoặc dữ liệu khác, nhưng chưa được huấn luyện để tuân theo hướng dẫn của con người. Các mô hình này yêu cầu huấn luyện hoặc tinh chỉnh thêm để có thể thực hiện các tác vụ một cách hiệu quả và dành cho các nhà nghiên cứu hoặc nhà phát triển muốn nghiên cứu hoặc phát triển các khả năng của mô hình và cấu trúc của mô hình.
    • Các biến thể Gemma được tinh chỉnh (FT) có thể được coi là các biến thể IT, nhưng thường được huấn luyện để thực hiện một tác vụ cụ thể hoặc hoạt động hiệu quả trên một điểm chuẩn AI tạo sinh cụ thể. Họ biến thể PaliGemma bao gồm một số biến thể FT.
    • Các biến thể Gemma hỗn hợp (mix) là các phiên bản của mô hình PaliGemma đã được điều chỉnh theo hướng dẫn bằng nhiều hướng dẫn và phù hợp để sử dụng chung.
  • Tham số: Đề xuất số lượng nhỏ nhất có sẵn. Nhìn chung, mô hình càng có nhiều tham số thì càng có khả năng hơn. Tuy nhiên, việc chạy các mô hình lớn hơn đòi hỏi các tài nguyên tính toán lớn hơn và phức tạp hơn, đồng thời thường làm chậm quá trình phát triển ứng dụng AI. Trừ phi bạn đã xác định rằng một mô hình Gemma nhỏ hơn không thể đáp ứng nhu cầu của mình, hãy chọn một mô hình có số lượng tham số nhỏ.
  • Mức lượng tử hoá: Đề xuất độ chính xác một nửa (16 bit), ngoại trừ việc tinh chỉnh. Lượng tử hoá là một chủ đề phức tạp, tóm lại là kích thước và độ chính xác của dữ liệu, và do đó, mô hình AI tạo sinh sử dụng bao nhiêu bộ nhớ để tính toán và tạo phản hồi. Sau khi được huấn luyện bằng dữ liệu có độ chính xác cao (thường là dữ liệu dấu phẩy động 32 bit), các mô hình như Gemma có thể được sửa đổi để sử dụng dữ liệu có độ chính xác thấp hơn, chẳng hạn như kích thước 16, 8 hoặc 4 bit. Các mô hình Gemma được lượng tử hoá này vẫn có thể hoạt động hiệu quả, tuỳ thuộc vào độ phức tạp của các tác vụ, đồng thời sử dụng ít tài nguyên tính toán và bộ nhớ hơn đáng kể. Tuy nhiên, các công cụ để tinh chỉnh mô hình được lượng tử hoá bị hạn chế và có thể không có trong khung phát triển AI mà bạn chọn. Thông thường, bạn phải tinh chỉnh một mô hình như Gemma ở độ chính xác đầy đủ, sau đó lượng tử hoá mô hình kết quả.

Để xem danh sách các mô hình Gemma chính do Google xuất bản, hãy xem bài viết Bắt đầu sử dụng các mô hình Gemma, Danh sách mô hình Gemma.

Chạy yêu cầu tạo và suy luận

Sau khi chọn một khung thực thi AI và một biến thể Gemma, bạn có thể bắt đầu chạy mô hình và nhắc mô hình đó tạo nội dung hoặc hoàn thành tác vụ. Để biết thêm thông tin về cách chạy Gemma bằng một khung cụ thể, hãy xem các hướng dẫn được liên kết trong phần Chọn một khung.

Định dạng câu lệnh

Tất cả các biến thể Gemma được điều chỉnh theo hướng dẫn đều có các yêu cầu cụ thể về định dạng câu lệnh. Một số yêu cầu về định dạng này được khung mà bạn sử dụng để chạy các mô hình Gemma xử lý tự động, nhưng khi gửi dữ liệu câu lệnh trực tiếp đến một trình mã hoá, bạn phải thêm các thẻ cụ thể và các yêu cầu gắn thẻ có thể thay đổi tuỳ thuộc vào biến thể Gemma mà bạn đang sử dụng. Hãy xem các hướng dẫn sau để biết thông tin về định dạng câu lệnh và hướng dẫn hệ thống của biến thể Gemma: