Gemma 4 ra mắt với đầu vào văn bản, âm thanh và hình ảnh, đồng thời có cửa sổ ngữ cảnh dài lên đến 256 nghìn token! Tìm hiểu thêm

Chạy tính năng tạo và suy luận nội dung Gemma

Bạn cần đưa ra 2 quyết định quan trọng khi muốn chạy mô hình Gemma: 1) bạn muốn chạy biến thể Gemma nào và 2) bạn sẽ sử dụng khung thực thi AI nào để kích hoạt mô hình đó? Một vấn đề quan trọng trong việc đưa ra cả 2 quyết định này là phần cứng mà bạn và người dùng có để chạy mô hình.

Thông tin tổng quan này giúp bạn đưa ra các quyết định này và bắt đầu làm việc với các mô hình Gemma. Sau đây là các bước chung để chạy mô hình Gemma:

Chọn một khung để chạy
Chọn một biến thể Gemma
Chạy yêu cầu tạo và suy luận

Chọn một khung

Các mô hình Gemma tương thích với nhiều công cụ trong hệ sinh thái. Việc chọn công cụ phù hợp phụ thuộc vào phần cứng mà bạn có (GPU trên đám mây so với máy tính xách tay cục bộ) và lựa chọn ưu tiên về giao diện (mã Python so với ứng dụng dành cho máy tính).

Hãy sử dụng bảng sau để nhanh chóng xác định công cụ phù hợp nhất với nhu cầu của bạn:

Nếu bạn muốn...	Khung được đề xuất	Tốt nhất cho
Chạy cục bộ bằng giao diện người dùng Chat	- LM Studio - Ollama	Người mới bắt đầu hoặc người dùng muốn có trải nghiệm "giống như Gemini" trên máy tính xách tay.
Chạy hiệu quả trên Edge	- LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX	Suy luận cục bộ hiệu suất cao với tài nguyên tối thiểu.
Tạo/Huấn luyện bằng Python	- Thư viện Gemma cho JAX - Hugging Face Transformers - Keras - PyTorch - Unsloth	Nhà nghiên cứu và nhà phát triển xây dựng các ứng dụng tuỳ chỉnh hoặc tinh chỉnh mô hình.
Triển khai vào môi trường sản xuất / doanh nghiệp	- Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM	Triển khai đám mây có thể mở rộng và được quản lý với tính năng bảo mật cấp doanh nghiệp và hỗ trợ MLOps.

Thông tin chi tiết về khung

Sau đây là hướng dẫn chạy các mô hình Gemma được phân loại theo môi trường triển khai.

1. Suy luận cục bộ và trên máy tính (Hiệu quả cao)

Các công cụ này cho phép bạn chạy Gemma trên phần cứng tiêu dùng (máy tính xách tay, máy tính để bàn) bằng cách sử dụng các định dạng được tối ưu hoá (như GGUF) hoặc các bộ tăng tốc phần cứng cụ thể.

LM Studio: Một ứng dụng dành cho máy tính cho phép bạn tải xuống và trò chuyện với các mô hình Gemma trong một giao diện thân thiện với người dùng. Bạn không cần phải lập trình.
llama.cpp: Một cổng C++ nguồn mở phổ biến của Llama (và Gemma) chạy cực kỳ nhanh trên CPU và Apple Silicon.
LiteRT-LM: Cung cấp giao diện dòng lệnh (CLI) để chạy các mô hình Gemma được tối ưu hoá .litertlm trên máy tính (Windows, Linux, macOS), được hỗ trợ bởi LiteRT (trước đây là TFLite).
MLX: Một khung được thiết kế riêng cho hoạt động học máy trên Apple Silicon, hoàn hảo cho người dùng Mac muốn có hiệu suất tích hợp.
Ollama: Một công cụ để chạy các mô hình ngôn ngữ lớn (LLM) mở cục bộ, thường được dùng để hỗ trợ các ứng dụng khác.

2. Phát triển Python (Nghiên cứu và tinh chỉnh)

Các khung tiêu chuẩn dành cho nhà phát triển AI xây dựng ứng dụng, quy trình hoặc mô hình huấn luyện.

Hugging Face Transformers: Tiêu chuẩn ngành để truy cập nhanh vào các mô hình và quy trình.
Unsloth: Một thư viện được tối ưu hoá để tinh chỉnh các mô hình ngôn ngữ lớn. Thư viện này cho phép bạn huấn luyện các mô hình Gemma nhanh hơn từ 2 đến 5 lần với bộ nhớ ít hơn đáng kể, giúp bạn có thể tinh chỉnh trên GPU tiêu dùng (ví dụ: các cấp miễn phí của Google Colab).
Keras / JAX / PyTorch: Các thư viện cốt lõi để nghiên cứu học sâu và triển khai kiến trúc tùy chỉnh.

3. Triển khai trên thiết bị di động và Edge (Trên thiết bị)

Các khung được thiết kế để chạy các mô hình ngôn ngữ lớn trực tiếp trên thiết bị của người dùng (Android, iOS, Web) mà không cần kết nối Internet, thường sử dụng NPU (Bộ xử lý thần kinh).

LiteRT-LM: Khung nguồn mở hoàn toàn để phát triển LLM (mô hình ngôn ngữ lớn) trên thiết bị, mang lại hiệu suất tối đa và khả năng kiểm soát chi tiết, với sự hỗ trợ trực tiếp cho khả năng tăng tốc CPU, GPU và NPU trên Android và iOS.
MediaPipe LLM Inference API: Cách dễ nhất để tích hợp Gemma vào các ứng dụng đa nền tảng. API này cung cấp một API cấp cao hoạt động trên Android, iOS và Web.

4. Triển khai trên đám mây và môi trường sản xuất

Các dịch vụ được quản lý để mở rộng ứng dụng của bạn cho hàng nghìn người dùng hoặc truy cập vào sức mạnh tính toán lớn.

Vertex AI: Nền tảng AI được quản lý hoàn toàn của Google Cloud. Phù hợp nhất cho các ứng dụng doanh nghiệp yêu cầu SLA và khả năng mở rộng.
Google Cloud Kubernetes Engine (GKE): Để điều phối các cụm phân phát của riêng bạn.
vLLM

Đảm bảo rằng định dạng mô hình Gemma dự định triển khai, chẳng hạn như định dạng tích hợp sẵn của Keras, Safetensors hoặc GGUF, được khung bạn chọn hỗ trợ.

Chọn một biến thể Gemma

Các mô hình Gemma có nhiều biến thể và kích thước, bao gồm cả các mô hình Gemma nền tảng hoặc cốt lõi, cũng như các biến thể mô hình chuyên biệt hơn như PaliGemma và DataGemma, cùng nhiều biến thể do cộng đồng nhà phát triển AI tạo trên các trang web như Kaggle và Hugging Face. Nếu bạn không chắc chắn nên bắt đầu với biến thể nào, hãy chọn mô hình Gemma cốt lõi được điều chỉnh theo hướng dẫn (IT) mới nhất có số lượng tham số thấp nhất. Loại mô hình Gemma này có yêu cầu tính toán thấp và có thể phản hồi nhiều loại câu lệnh mà không cần phát triển thêm.

Hãy cân nhắc các yếu tố sau khi chọn một biến thể Gemma:

Gemma cốt lõi và các họ biến thể khác như PaliGemma, CodeGemma: Đề xuất Gemma (cốt lõi). Các biến thể Gemma ngoài phiên bản cốt lõi có cùng cấu trúc với mô hình cốt lõi và được huấn luyện để hoạt động hiệu quả hơn ở các tác vụ cụ thể. Trừ phi ứng dụng hoặc mục tiêu của bạn phù hợp với chuyên môn của một biến thể Gemma cụ thể, tốt nhất là bạn nên bắt đầu với mô hình Gemma cốt lõi hoặc mô hình cơ sở.

Được điều chỉnh theo hướng dẫn (IT), được huấn luyện trước (PT), được tinh chỉnh (FT), hỗn hợp (mix): Đề xuất IT.

Các biến thể Gemma được điều chỉnh theo hướng dẫn (IT) là các mô hình đã được huấn luyện để phản hồi nhiều hướng dẫn hoặc yêu cầu bằng ngôn ngữ của con người. Đây là những biến thể mô hình tốt nhất để bắt đầu vì chúng có thể phản hồi câu lệnh mà không cần huấn luyện thêm mô hình.

Các biến thể Gemma được huấn luyện trước (PT) là các mô hình đã được huấn luyện để đưa ra suy luận về ngôn ngữ hoặc dữ liệu khác, nhưng chưa được huấn luyện để tuân theo hướng dẫn của con người. Các mô hình này yêu cầu huấn luyện hoặc tinh chỉnh thêm để có thể thực hiện các tác vụ một cách hiệu quả và dành cho các nhà nghiên cứu hoặc nhà phát triển muốn nghiên cứu hoặc phát triển các khả năng của mô hình và cấu trúc của mô hình.

Các biến thể Gemma được tinh chỉnh (FT) có thể được coi là các biến thể IT, nhưng thường được huấn luyện để thực hiện một tác vụ cụ thể hoặc hoạt động hiệu quả trên một điểm chuẩn AI tạo sinh cụ thể. Họ biến thể PaliGemma bao gồm một số biến thể FT.

Các biến thể Gemma hỗn hợp (mix) là các phiên bản của mô hình PaliGemma đã được điều chỉnh theo hướng dẫn bằng nhiều hướng dẫn và phù hợp để sử dụng chung.

Tham số: Đề xuất số lượng nhỏ nhất có sẵn. Nhìn chung, mô hình càng có nhiều tham số thì càng có khả năng hơn. Tuy nhiên, việc chạy các mô hình lớn hơn đòi hỏi các tài nguyên tính toán lớn hơn và phức tạp hơn, đồng thời thường làm chậm quá trình phát triển ứng dụng AI. Trừ phi bạn đã xác định rằng một mô hình Gemma nhỏ hơn không thể đáp ứng nhu cầu của mình, hãy chọn một mô hình có số lượng tham số nhỏ.

Mức lượng tử hoá: Đề xuất độ chính xác một nửa (16 bit), ngoại trừ việc tinh chỉnh. Lượng tử hoá là một chủ đề phức tạp, tóm lại là kích thước và độ chính xác của dữ liệu, và do đó, mô hình AI tạo sinh sử dụng bao nhiêu bộ nhớ để tính toán và tạo phản hồi. Sau khi được huấn luyện bằng dữ liệu có độ chính xác cao (thường là dữ liệu dấu phẩy động 32 bit), các mô hình như Gemma có thể được sửa đổi để sử dụng dữ liệu có độ chính xác thấp hơn, chẳng hạn như kích thước 16, 8 hoặc 4 bit. Các mô hình Gemma được lượng tử hoá này vẫn có thể hoạt động hiệu quả, tuỳ thuộc vào độ phức tạp của các tác vụ, đồng thời sử dụng ít tài nguyên tính toán và bộ nhớ hơn đáng kể. Tuy nhiên, các công cụ để tinh chỉnh mô hình được lượng tử hoá bị hạn chế và có thể không có trong khung phát triển AI mà bạn chọn. Thông thường, bạn phải tinh chỉnh một mô hình như Gemma ở độ chính xác đầy đủ, sau đó lượng tử hoá mô hình kết quả.

Để xem danh sách các mô hình Gemma chính do Google xuất bản, hãy xem bài viết Bắt đầu sử dụng các mô hình Gemma, Danh sách mô hình Gemma.

Chạy yêu cầu tạo và suy luận

Sau khi chọn một khung thực thi AI và một biến thể Gemma, bạn có thể bắt đầu chạy mô hình và nhắc mô hình đó tạo nội dung hoặc hoàn thành tác vụ. Để biết thêm thông tin về cách chạy Gemma bằng một khung cụ thể, hãy xem các hướng dẫn được liên kết trong phần Chọn một khung.

Định dạng câu lệnh

Tất cả các biến thể Gemma được điều chỉnh theo hướng dẫn đều có các yêu cầu cụ thể về định dạng câu lệnh. Một số yêu cầu về định dạng này được khung mà bạn sử dụng để chạy các mô hình Gemma xử lý tự động, nhưng khi gửi dữ liệu câu lệnh trực tiếp đến một trình mã hoá, bạn phải thêm các thẻ cụ thể và các yêu cầu gắn thẻ có thể thay đổi tuỳ thuộc vào biến thể Gemma mà bạn đang sử dụng. Hãy xem các hướng dẫn sau để biết thông tin về định dạng câu lệnh và hướng dẫn hệ thống của biến thể Gemma:

Câu lệnh và hướng dẫn hệ thống của Gemma

Câu lệnh và hướng dẫn hệ thống của PaliGemma

Câu lệnh và hướng dẫn hệ thống của CodeGemma

Định dạng và các phương pháp hay nhất của FunctionGemma