생성형 AI

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (8)Llama 3.1 모델

대소니 2025. 2. 20. 08:16

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한
개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요

안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포

daeson.tistory.com

 

 

최근 메타(Meta)에서 공개한 Llama 3.1은 최신 대형 언어 모델(LLM) 중 하나로,
베이스 모델을 포함한 다양한 변형 모델이 제공되고 있어요.
이 글에서는 베이스 모델(Base Model)이 무엇인지, 어떻게 동작하는지, 그리고 이를 활용하는 방법에 대해 알아볼게요.

 

1. 베이스 모델이란?

베이스 모델의 개념

베이스 모델(Base Model)은 단순히 토큰 예측(Token Simulation)을 수행하는 모델이에요. 즉, 인터넷의 텍스트 데이터를 학습한 후, 주어진 입력에 대해 가장 확률이 높은 다음 단어를 생성하는 방식으로 작동해요. 하지만 이 단계에서는 아직 AI 어시스턴트(Assistant)처럼 질의응답을 수행할 수 없어요.

  • ✅ 베이스 모델 = 인터넷 텍스트 패턴을 예측하는 기계
  • ❌ 베이스 모델 ≠ 질문에 직접 답변하는 어시스턴트

왜 베이스 모델을 공개하는 회사가 적을까?

대형 IT 기업들은 엄청난 연산 비용을 들여 LLM을 학습하지만, 모든 회사가 베이스 모델을 공개하지는 않아요. 그 이유는 베이스 모델이 완전한 AI 서비스가 아니라, 추가적인 튜닝 과정(Instruction Tuning)이 필요하기 때문이에요.

몇몇 사례를 보면:

  • GPT-2 (2019년 출시): 15억 개의 파라미터를 가진 베이스 모델 공개
  • Llama 3 (2024년 출시): 450억 개의 파라미터를 가진 최신 베이스 모델 공개

이러한 모델들은 그대로 사용할 수 없고, 이후 지도학습(Supervised Fine-tuning)과 RLHF(강화학습) 등을 거쳐야만 AI 어시스턴트로 변신할 수 있어요.

 

2. 베이스 모델을 구성하는 요소

베이스 모델이 공개될 때 기본적으로 제공되는 두 가지 주요 요소가 있어요.

모델 아키텍처 코드

베이스 모델을 실행하려면 먼저 모델의 구조(Architecture)를 정의하는 코드가 필요해요. 일반적으로 몇백 줄 정도의 Python 코드로 이루어져 있으며, 신경망의 레이어, 활성화 함수, 어텐션 메커니즘 등이 포함돼요.

훈련된 파라미터(Weights)

이제 중요한 부분! 모델의 진짜 가치는 바로 훈련된 파라미터(Weights)에 있어요.
예를 들어, Llama 3.1의 450억 개의 파라미터는 인터넷 텍스트 데이터를 기반으로 학습된 결과물이죠. 이 파라미터들은 "어떤 입력이 들어오면 다음 단어는 무엇이 나올 확률이 높다"는 정보를 포함하고 있어요.

  • ✅ 모델 코드: 뉴럴 네트워크 구조를 정의
  • ✅ 훈련된 파라미터: 실제로 모델이 학습한 지식 저장소

 

3. 최신 베이스 모델: Llama 3.1

메타가 공개한 Llama 3.1은 기존 GPT-2와 비교할 수 없을 정도로 거대한 모델이에요.

모델파라미터 수학습 데이터량

GPT-2 15억 개 1000억 개의 토큰
Llama 3.1 450억 개 15조 개의 토큰

이처럼 Llama 3.1은 훨씬 더 많은 데이터를 학습한 최신 베이스 모델로, 우리가 실험해볼 가치가 있어요.

 

 

 

4. 베이스 모델의 동작 방식: 실제 실험

이제 Llama 3.1 베이스 모델을 실제로 실행해보고, 어떤 결과가 나오는지 살펴볼게요.

기본적인 동작: 토큰 예측

베이스 모델은 기본적으로 "고급 자동완성(Auto-complete)" 기능을 수행해요.
예를 들어, 다음과 같은 질문을 입력하면:

Q: 2 + 2는 얼마인가요?

베이스 모델이 이에 대한 정답을 바로 내놓을까요? 아닙니다.
그냥 인터넷에서 본 통계적 패턴을 기반으로 대답할 뿐이에요.

실험 결과:

  • "2 + 2는 4입니다."라고 정확히 답할 수도 있음
  • "수학적으로 2와 2를 더하면 4가 됩니다."라고 나오기도 함
  • 때로는 의미 없는 문장이 나올 수도 있음

즉, 베이스 모델은 확정적인 답을 내놓는 것이 아니라, 확률적으로 가장 적절한 답을 예측하는 방식이에요.

 

5. 베이스 모델의 한계와 활용 방법

한계: 일관성 없는 답변

베이스 모델은 "기억력이 없다"는 문제가 있어요.
즉, 같은 질문을 여러 번 입력해도 항상 다른 답을 내놓을 수 있어요.
이는 모델이 출력할 때 확률적으로 샘플링을 하기 때문이에요.

활용 방법 1: 프롬프트 엔지니어링

베이스 모델은 적절한 프롬프트(Prompt)를 설계하면 더 나은 결과를 낼 수 있어요.
예를 들어, 번역 모델을 만들고 싶다면 다음과 같은 프롬프트를 사용할 수 있어요.

apple - 사과
banana - 바나나
car - 자동차
teacher - (여기서 모델이 자동완성)
 

이렇게 하면 모델이 "teacher - 선생님" 이라고 적절한 번역을 생성할 확률이 높아져요.

활용 방법 2: 어시스턴트로 변신시키기

베이스 모델을 마치 챗봇처럼 동작하도록 만들 수도 있어요.
방법은 간단해요. 대화 형식의 텍스트를 프롬프트로 제공하면 됩니다.

Human: 안녕하세요!
AI: 안녕하세요! 무엇을 도와드릴까요?
Human: 하늘이 왜 파란가요?
AI: 하늘이 파란 이유는 레일리 산란 때문입니다...

이렇게 프롬프트를 구조화하면, 모델이 AI 어시스턴트처럼 동작하는 효과를 낼 수 있어요.

 

 

Llama 3.1 같은 최신 베이스 모델은 단순한 자동완성이 아니라, 방대한 데이터를 기반으로 한 지식 압축 장치라고 볼 수 있어요.
물론 이 자체로는 완전한 AI 서비스가 될 수 없지만, 적절한 프롬프트 엔지니어링과 후속 튜닝을 통해 매우 유용한 어시스턴트로 발전할 수 있어요.

💡 정리하면:
베이스 모델은 인터넷 텍스트 데이터를 기반으로 토큰을 예측하는 시스템
AI 어시스턴트처럼 동작하려면 추가적인 튜닝이 필요
적절한 프롬프트 설계를 통해 실용적인 활용 가능

앞으로도 베이스 모델의 발전과 활용 방법을 지속적으로 연구하면서, AI를 더욱 효과적으로 활용하는 방법을 찾아야겠어요! 🚀