매개 변수 효율적인 미세 조정(Parameter-efficient Fine-Tuning, PEFT)이란?

URL 복사

대규모 언어 모델(Large Language Model, LLM)을 구동하려면 막대한 컴퓨팅 리소스와 비용이 소요됩니다. PEFT는 리소스를 절약하기 위해 LLM 내에서 일부 매개 변수만 조정하는 일련의 기술입니다. 

PEFT를 사용하면 LLM을 더 간편하게 사용자 정의하는 동시에 기존의 미세 조정된 모델과 유사한 수준의 출력을 생성할 수 있습니다. 

Red Hat AI 살펴보기

미세 조정과 PEFT는 둘 다 LLM에 맞춰 조율하기 위한 기술입니다. 이 두 기술은 LLM에 원하는 정보를 제공하여 모델을 조정함으로써 원하는 출력을 생성하도록 합니다. PEFT는 기존의 미세 조정 기술이 진화된 형태라고 할 수 있습니다.

기존 미세 조정은 전체 모델을 추가로 학습시켜서 LLM을 조정합니다. 여기에는 막대한 컴퓨팅 리소스, 데이터, 그리고 비용이 소요됩니다. 

반면 PEFT는 모델 내의 일부 소수 매개 변수만 수정하므로 많은 리소스가 필요하지 않아 조직에서 일반적으로 더 쉽게 접근할 수 있습니다. 

Red Hat AI

PEFT는 더 작은 하드웨어에서 대형 모델을 더 빠르게 학습시킬 수 있다는 장점이 있습니다. 

PEFT의 구체적인 장점은 다음과 같습니다.

  • 더 빠른 학습 속도: 업데이트하는 매개 변수 수가 적기 때문에 PEFT를 사용하면 더 빠르게 실험하고 반복할 수 있습니다.
  • 리소스 효율적: PEFT는 기존 미세 조정에 비해 훨씬 적은 GPU 메모리를 사용하며 일반 소비자급 하드웨어에서도 실행할 수 있습니다. 즉, 전용 서버가 아니라 노트북에서도 LLM을 학습시킬 수 있습니다.
  • 치명적 망각(Catastrophic Forgetting) 극복 능력: 치명적 망각은 새로운 학습 데이터를 제공하면 모델이 이미 학습한 지식을 잊어버리는 경우에 발생합니다. PEFT는 전체 모델이 아니라 일부 매개 변수만 업데이트하므로 치명적 망각이 발생할 위험을 방지하는 데 도움이 됩니다.
  • 이식성: PEFT를 통해 조정되는 모델은 규모가 더 작고 관리가 용이하며 플랫폼 전반에 쉽게 배포할 수 있습니다. 따라서 운영 환경 내에서 모델을 더 쉽게 업데이트하고 개선할 수 있습니다.
  • 지속 가능성: PEFT는 더 적은 컴퓨팅 리소스를 사용하므로 환경친화적인 운영 목표에 부합합니다.
  • 접근성: 컴퓨팅 리소스가 적은 팀과 조직도 모델을 미세 조정하고 원하는 결과를 얻을 수 있습니다.

엔터프라이즈 AI란? 

LLM은 여러 신경망 레이어로 구성됩니다. 이러한 레이어를 입력 레이어에서 시작하여 출력 레이어로 끝나는 흐름도의 한 유형으로 생각하면 쉽게 이해할 수 있습니다. 이 두 레이어 사이에는 다른 많은 레이어가 있으며, 각 레이어는 신경망을 이동하는 데이터를 처리하는 데 고유한 역할을 합니다.

언어 모델이 정보를 처리하는 방식을 조정하려면 매개 변수를 변경합니다. 

PEFT 기술: GPU로 LLM을 최적화하는 방법

LLM의 매개 변수란?

매개 변수는 가중치라고도 하며, LLM은 이 매개 변수를 통해 언어를 이해합니다. 

매개 변수를 기계 내부의 조정 가능한 기어라고 생각하면 이해하기 쉽습니다. 각 매개 변수는 고유한 숫자 값을 가집니다. 이 값을 변경하면 모델이 언어를 해석하고 생성하는 능력에 영향을 미치게 됩니다. 

LLM의 매개 변수는 수십억에서 많게는 수천억 개에 달할 수 있습니다. 매개 변수가 많은 모델일수록 더욱 복잡한 태스크를 수행할 수 있습니다. 

그러나 모델의 매개 변수가 증가하면 하드웨어 리소스의 필요성도 커집니다. 조직은 이 하드웨어 요구 사항에 맞춰서 투자할 여력이 없을 수 있습니다. 그것이 바로 PEFT와 같은 튜닝 기술이 매우 중요한 이유입니다. 

모델 효율성을 높이려면 불필요한 매개 변수를 없애는 동시에 정확도를 높이는 방법을 알아보세요.

효율적인 매개 변수 미세 조정

PEFT는 전략적으로 소수의 매개 변수만 수정하고 사전 학습된 모델 구조의 대부분을 그대로 유지합니다. 이러한 조정 방법의 몇 가지 예는 다음과 같습니다.

모델 레이어 동결: 추론 중에는 신경망의 모든 레이어에서 계산이 전송됩니다. 이러한 레이어 중 일부를 동결하면 계산을 수행하는 데 필요한 처리 능력을 줄일 수 있습니다. 

어댑터 추가: 어댑터는 보드게임의 확장팩과 같은 역할을 합니다. 어댑터는 사전 학습된 모델 내에서 레이어 위에 추가되며, 도메인 및 애플리케이션별 정보를 학습합니다. 이 시나리오에서는 원래 모델은 변경되지 않으며 새로운 기능이 추가됩니다. 

다음과 같은 다양한 방법으로 PEFT를 수행할 수 있습니다.

  • 낮은 순위 적응(Low-rank Adaptation, LoRA)
  • 양자화된 낮은 순위 적응(Quantized Low-rank Adaptation, QLoRA)
  • 접두사 튜닝
  • 프롬프트 튜닝
  • P-튜닝

LoRA와 QLoRA 비교

이 영역에서 주요 툴은 vLLM입니다. vLLM은 메모리 효율적인 추론 서버 및 엔진으로, 하이브리드 클라우드 환경에서 대규모 언어 모델의 속도와 처리 능력을 개선하기 위해 설계되었습니다. vLLM은 PEFT를 지원하여(특히 여러 LoRA 어댑터를 지원할 목적) 1개의 기본 모델이 GPU 메모리에 로드된 상태를 유지하도록 허용함으로써 효율성을 크게 향상합니다. 

PEFT 서빙을 위해 vLLM을 사용하면 1개의 모델로 여러 미세 조정된 버전을 동시에 서빙할 수 있습니다. 즉, PEFT는 소규모 파일을 생성하고, vLLM은 단일 기반 모델에서 메모리 리소스(예: 키-값(KV) 캐시)를 공유하고 분배하여 그러한 파일의 제공을 최적화합니다. 

vLLM 자세히 알아보기

미세 조정은 의도를 LLM에 전달하여 모델이 목표에 맞게 결과물을 조정할 수 있도록 하는 방법입니다.

예를 들어, 어떤 LLM이 셰익스피어풍의 문체로 이메일을 작성할 수는 있지만 회사가 제공하는 제품의 세부 사항에 대해서는 전혀 모른다고 가정해 보겠습니다.

미세 조정을 사용하면 회사의 고유한 정보로 모델을 학습시킬 수 있습니다. 

미세 조정은 사전 학습된 모델이 고유한 태스크를 더 효과적으로 수행할 수 있도록 더욱 구체적인 데이터 세트를 사용해 학습시키는 프로세스입니다. 이 추가 학습 데이터는 모델의 매개 변수를 수정하고 기존 모델을 대체하는 새로운 버전을 생성합니다.

미세 조정은 도메인별 활용 사례에 맞게 LLM을 맞춤 설정하는 데 필수적입니다. 그러나 기존의 미세 조정에는 많은 비용이 소요됩니다. 

미세 조정에 많은 비용이 드는 이유는 무엇일까요?

LLM의 미세 조정에 많은 비용이 드는 이유는 여러 가지로 나뉘며, 예를 들면 다음과 같습니다.

  • 필요한 GPU: 미세 조정을 수행하려면 많은 처리 능력이 필요합니다. GPU(그래픽 처리 장치, Graphic Processing Unit)를 구매하고 운영하려면 많은 비용이 들며, 미세 조정 프로세스 중에는 더 오래 시스템을 구동해야 합니다. 전력 소비량과 쿨링 비용도 만만치 않습니다.
  • 데이터 요구 사항: 새로운 정보로 LLM을 미세 조정하는 데 필요한 데이터세트는 품질이 우수해야 하며 적절하게 레이블이 지정되어야 합니다. 이러한 데이터를 확보, 구축하고 사전 처리하려면 많은 비용과 시간이 소요됩니다. 

LLM 조정이란 원하는 결과물을 생성하기 위해 언어 모델을 학습시키고 맞춤 설정하는 프로세스를 말합니다.

다음 요인을 고려하여 다양한 LLM 조정 기술 중에서 적합한 방식을 선택하세요.

  • 데이터 종속성: 얼마나 많은 데이터가 필요한가요? 이 기술이 제대로 작동하는 데 필요한 데이터에 액세스할 수 있나요?
  • 정확도: 이 기술이 튜닝 후 모델의 정확도에 어느 정도로 영향을 미치나요?
  • 사용자 관점에서 본 복잡성: 사용하기가 얼마나 편리한가요?

PEFT는 기존 미세 조정에 비해 더 적은 데이터를 사용하고 정확도가 매우 높으며 사용하기도 더 편리합니다. 

고려해 볼 만한 또 하나의 LLM 조정 기술은 검색 증강 생성(Retrieval-augmented Generation, RAG)입니다. RAG는 데이터 리포지토리, 텍스트 모음, 기존 도큐멘테이션과 같은 선택한 외부 지식 소스를 통해 LLM 내에 존재하는 데이터를 보완하는 수단을 제공합니다. RAG는 데이터 종속성이 높지만 매우 정확하며 미세 조정에 비해 사용이 덜 까다롭습니다. 

RAG와 미세 조정(fine-tuning)의 차이점 알아보기

매개 변수 효율적인 미세 조정은 Red Hat® OpenShift® AI에서 지원되는 여러 조정 기술 중 하나입니다.

OpenShift AI는 유연하고 확장 가능한 MLOps 플랫폼으로, AI 지원 애플리케이션을 빌드, 배포, 관리할 수 있는 툴을 제공합니다. OpenShift AI는 온프레미스 및 퍼블릭 클라우드에서 AI/ML 실험 및 모델의 전체 라이프사이클을 지원합니다.

Red Hat OpenShift AI에 대해 자세히 알아보기

Red Hat® AI는 AI 여정의 초기 단계에 있는 기업이든, 하이브리드 클라우드 전반으로 확장할 준비까지 마친 기업이든 상관없이 AI 여정에 오른 기업이라면 모두 도움을 줄 수 있는 제품 및 서비스의 포트폴리오입니다. 고유한 엔터프라이즈 활용 사례에 대한 생성형 AI와 예측 AI를 둘 다 지원할 수 있습니다.

Red Hat AI는 오픈소스 기술과 다양한 인프라 전반에서 성능, 안정성, GPU 지원에 초점을 맞춘 파트너 에코시스템을 기반으로 합니다. Red Hat AI는 데이터가 있는 모든 위치에 배포할 수 있는 유연성을 바탕으로 목적에 맞는 소규모 모델을 효율적으로 조정합니다.

리소스

엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드

Red Hat OpenShift AI와 Red Hat Enterprise Linux AI가 어떻게 여러분의 AI 도입 여정을 가속화할 수 있는지 확인해 보세요.

Red Hat OpenShift AI

모델과 AI 지원 애플리케이션을 신속하게 개발하고, 학습시키고, 제공하고, 모니터링하기 위한 툴을 제공하는 인공지능(AI) 플랫폼입니다.

추가 자료

분산 추론(distributed inference)이란?

분산 추론은 추론 작업을 상호 연결된 일련의 기기에 분배하여 AI 모델이 더 효율적으로 워크로드를 처리할 수 있도록 하는 것을 말합니다.

MCP(Model Context Protocol)란?

MCP(Model Context Protocol)가 AI 애플리케이션을 외부 데이터 소스에 연결함으로써 더욱 스마트한 워크플로우를 구축하는 데 어떻게 도움이 되는지 알아보세요.

AIOps 설명

AIOps(IT 운영을 위한 AI)는 머신 러닝과 기타 고급 AI 기술로 IT 운영을 자동화하는 방식입니다.

AI/ML 리소스

관련 기사