텍스트, 오디오, 이미지 입력과 최대 256K의 긴 컨텍스트 창을 지원하는 Gemma 4 가 출시되었습니다. 자세히 알아보기

Gemma 콘텐츠 생성 및 추론 실행

Gemma 모델을 실행할 때 내려야 하는 주요 결정은 두 가지입니다. 1) 실행할 Gemma 변형, 2) 실행에 사용할 AI 실행 프레임워크 이러한 두 가지 결정을 내리는 데 있어 중요한 문제는 모델을 실행하는 데 사용할 수 있는 하드웨어입니다.

이 개요는 이러한 결정을 내리고 Gemma 모델 작업을 시작하는 데 도움이 됩니다. Gemma 모델을 실행하는 일반적인 단계는 다음과 같습니다.

실행할 프레임워크 선택
Gemma 변형 선택
생성 및 추론 요청 실행

프레임워크 선택

Gemma 모델은 다양한 생태계 도구와 호환됩니다. 적합한 모델을 선택하는 것은 사용 가능한 하드웨어 (클라우드 GPU 또는 로컬 노트북)와 인터페이스 환경설정 (Python 코드 또는 데스크톱 애플리케이션)에 따라 다릅니다.

다음 표를 사용하여 요구사항에 가장 적합한 도구를 빠르게 식별하세요.

유용한 경우...	권장 프레임워크	권장 용도
채팅 UI로 로컬에서 실행	- LM Studio - Ollama	초보자 또는 노트북에서 'Gemini와 유사한' 환경을 원하는 사용자
Edge에서 효율적으로 실행	- LiteRT-LM - llama.cpp - MediaPipe LLM 추론 API - MLX	최소한의 리소스로 고성능 로컬 추론
Python에서 빌드/학습	- JAX용 Gemma 라이브러리 - Hugging Face Transformers - Keras - PyTorch - Unsloth	커스텀 애플리케이션을 빌드하거나 모델을 파인 튜닝하는 연구원 및 개발자
프로덕션 / 엔터프라이즈에 배포	- Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM	엔터프라이즈 보안 및 MLOps 지원을 통한 확장 가능한 관리형 클라우드 배포

프레임워크 세부정보

다음은 배포 환경별로 분류된 Gemma 모델 실행 가이드입니다.

1. 데스크톱 및 로컬 추론 (고효율)

이러한 도구를 사용하면 최적화된 형식 (예: GGUF) 또는 특정 하드웨어 액셀러레이터를 활용하여 소비자 하드웨어 (노트북, 데스크톱)에서 Gemma를 실행할 수 있습니다.

LM Studio: 사용자 친화적인 인터페이스에서 Gemma 모델을 다운로드하고 채팅할 수 있는 데스크톱 애플리케이션입니다. 코딩이 필요하지 않습니다.
llama.cpp: CPU 및 Apple Silicon에서 매우 빠르게 실행되는 Llama (및 Gemma)의 인기 있는 오픈소스 C++ 포트입니다.
LiteRT-LM: LiteRT(이전의 TFLite)로 구동되는 데스크톱(Windows, Linux, macOS)에서 최적화된 .litertlm Gemma 모델을 실행하는 명령줄 인터페이스 (CLI)를 제공합니다.
MLX

Ollama

2. Python 개발 (연구 및 파인 튜닝)

애플리케이션, 파이프라인 또는 학습 모델을 빌드하는 AI 개발자를 위한 표준 프레임워크입니다.

Hugging Face Transformers: 모델 및 파이프라인에 빠르게 액세스할 수 있는 업계 표준입니다.

Unsloth: LLM 파인 튜닝을 위한 최적화된 라이브러리입니다. 메모리를 훨씬 적게 사용하여 Gemma 모델을 2~5배 더 빠르게 학습시킬 수 있으므로 소비자 GPU (예: 무료 Google Colab 등급)에서 파인 튜닝할 수 있습니다.

Keras / JAX / PyTorch: 딥 러닝 연구 및 커스텀 아키텍처 구현을 위한 핵심 라이브러리입니다.

3. 모바일 및 에지 배포 (온디바이스)

인터넷 연결 없이 사용자 기기 (Android, iOS, 웹)에서 직접 LLM을 실행하도록 설계된 프레임워크로, NPU (신경망 처리 장치)를 활용하는 경우가 많습니다.

LiteRT-LM: Android 및 iOS에서 CPU, GPU, NPU 가속을 직접 지원하여 최대 성능과 세부적인 제어를 제공하는 온디바이스 LLM 개발을 위한 완전한 오픈소스 프레임워크입니다.

MediaPipe LLM 추론 API: Gemma를 교차 플랫폼 앱에 통합하는 가장 쉬운 방법입니다. Android, iOS, 웹에서 작동하는 고급 API를 제공합니다.

4. 클라우드 및 프로덕션 배포

수천 명의 사용자에게 애플리케이션을 확장하거나 대규모 컴퓨팅 성능에 액세스하기 위한 관리형 서비스입니다.

Vertex AI: Google Cloud의 완전 관리형 AI 플랫폼입니다. SLA 및 확장이 필요한 엔터프라이즈 애플리케이션에 가장 적합합니다.

Google Cloud Kubernetes Engine (GKE): 자체 서빙 클러스터를 오케스트레이션합니다.

vLLM: 처리량이 높고 메모리 효율적인 추론 및 서빙 엔진으로, 클라우드 배포에 자주 사용됩니다.

선택한 프레임워크에서 Keras 기본 제공 형식, Safetensors 또는 GGUF와 같은 의도한 배포 Gemma 모델 형식을 지원하는지 확인하세요.

Gemma 변형 선택

Gemma 모델은 기본 또는 핵심 Gemma 모델, PaliGemma 및 DataGemma와 같은 특수 모델 변형, Kaggle 및 Hugging Face와 같은 사이트에서 AI 개발자 커뮤니티가 만든 다양한 변형을 비롯한 여러 변형과 크기로 제공됩니다. 어떤 변형으로 시작해야 할지 잘 모르는 경우 매개변수 수가 가장 적은 최신 Gemma 핵심 명령 조정 (IT) 모델을 선택하세요. 이러한 유형의 Gemma 모델은 컴퓨팅 요구사항이 낮고 추가 개발 없이 다양한 프롬프트에 응답할 수 있습니다.

Gemma 변형을 선택할 때 다음 요소를 고려하세요.

Gemma 핵심 및 PaliGemma, CodeGemma와 같은 기타 변형군: Gemma (핵심)를 권장합니다. 핵심 버전 이외의 Gemma 변형은 핵심 모델과 동일한 아키텍처를 가지며 특정 작업을 더 잘 수행하도록 학습됩니다. 애플리케이션 또는 목표가 특정 Gemma 변형의 전문 분야와 일치하지 않는 경우 Gemma 핵심 또는 기본 모델로 시작하는 것이 가장 좋습니다.

명령 조정 (IT), 사전 학습 (PT), 파인 튜닝 (FT), 혼합 (mix): IT를 권장합니다.

명령 조정 (IT) Gemma 변형은 인간 언어로 된 다양한 명령 또는 요청에 응답하도록 학습된 모델입니다. 이러한 모델 변형은 추가 모델 학습 없이 프롬프트에 응답할 수 있으므로 시작하기에 가장 적합합니다.

사전 학습 (PT) Gemma 변형은 언어 또는 기타 데이터에 대한 추론을 하도록 학습되었지만 인간 명령을 따르도록 학습되지 않은 모델입니다. 이러한 모델은 작업을 효과적으로 수행하기 위해 추가 학습 또는 튜닝이 필요하며 모델 및 아키텍처의 기능을 연구하거나 개발하려는 연구원 또는 개발자를 위한 것입니다.

파인 튜닝 (FT) Gemma 변형은 IT 변형으로 간주할 수 있지만 일반적으로 특정 작업을 수행하거나 특정 생성형 AI 벤치마크에서 우수한 성능을 발휘하도록 학습됩니다. PaliGemma 변형군에는 여러 FT 변형이 포함되어 있습니다.

혼합 (mix) Gemma 변형은 다양한 명령으로 명령 조정된 PaliGemma 모델 버전으로, 일반적인 용도에 적합합니다.

매개변수: 사용 가능한 가장 작은 수를 권장합니다. 일반적으로 모델에 매개변수가 많을수록 성능이 향상됩니다. 그러나 더 큰 모델을 실행하려면 더 크고 복잡한 컴퓨팅 리소스가 필요하며 일반적으로 AI 애플리케이션 개발 속도가 느려집니다. 더 작은 Gemma 모델이 요구사항을 충족할 수 없다고 이미 판단한 경우가 아니라면 매개변수 수가 적은 모델을 선택하세요.

양자화 수준: 튜닝을 제외하고 절반 정밀도 (16비트)를 권장합니다. 양자화는 데이터의 크기와 정밀도, 결과적으로 생성형 AI 모델이 계산 및 응답 생성에 사용하는 메모리 양으로 귀결되는 복잡한 주제입니다. 일반적으로 32비트 부동 소수점 데이터인 고정밀 데이터로 모델을 학습시킨 후 Gemma와 같은 모델을 수정하여 16, 8 또는 4비트 크기와 같은 저정밀도 데이터를 사용할 수 있습니다. 이러한 양자화된 Gemma 모델은 작업의 복잡성에 따라 여전히 우수한 성능을 발휘하면서 컴퓨팅 및 메모리 리소스를 훨씬 적게 사용할 수 있습니다. 그러나 양자화된 모델을 튜닝하는 도구는 제한적이며 선택한 AI 개발 프레임워크 내에서 사용하지 못할 수도 있습니다. 일반적으로 Gemma와 같은 모델을 전체 정밀도로 파인 튜닝한 다음 결과 모델을 양자화해야 합니다.

Google에서 게시한 주요 Gemma 모델 목록은 Gemma 모델 시작하기, Gemma 모델 목록을 참고하세요.

생성 및 추론 요청 실행

AI 실행 프레임워크와 Gemma 변형을 선택한 후 모델 실행을 시작하고 콘텐츠를 생성하거나 작업을 완료하도록 프롬프트를 표시할 수 있습니다. 특정 프레임워크로 Gemma를 실행하는 방법에 관한 자세한 내용은 프레임워크 선택 섹션에 연결된 가이드를 참고하세요.

프롬프트 형식 지정

모든 명령 조정 Gemma 변형에는 특정 프롬프트 형식 지정 요구사항이 있습니다. 이러한 형식 지정 요구사항 중 일부는 Gemma 모델을 실행하는 데 사용하는 프레임워크에서 자동으로 처리되지만 토큰화 도구에 직접 프롬프트 데이터를 전송할 때는 특정 태그를 추가해야 하며 태그 지정 요구사항은 사용하는 Gemma 변형에 따라 달라질 수 있습니다. Gemma 변형 프롬프트 형식 지정 및 시스템 안내에 관한 자세한 내용은 다음 가이드를 참고하세요.

Gemma 프롬프트 및 시스템 안내

PaliGemma 프롬프트 및 시스템 안내

CodeGemma 프롬프트 및 시스템 안내

FunctionGemma 형식 지정 및 권장사항