본문 바로가기
생성형 AI

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (6) 추론

by 대소니 2025. 2. 18.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한
개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요

안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포

daeson.tistory.com

 

 

딥러닝 모델을 활용할 때 중요한 과정 중 하나가 추론(Inference) 이에요.
학습된 모델을 사용해 새로운 데이터를 생성하는 과정이죠.
이번 포스팅에서는 추론 과정이 어떻게 진행되는지, 왜 결과가 항상 동일하지 않은지, 그리고 실제 응용 사례를 설명해 볼게요.

 

1. 추론(Inference)이란?

추론이란, 이미 학습된 신경망 모델을 사용해 새로운 데이터를 생성하는 과정이에요.
즉, 학습 단계에서는 모델이 패턴을 익히는 반면, 추론 단계에서는 그 패턴을 활용하여 예측을 수행하는 것이죠.

예를 들어, 챗GPT 같은 언어 모델은 이전에 학습한 데이터의 확률 분포를 기반으로 새로운 문장을 생성해요.
그럼 이 과정이 어떻게 이루어지는지 자세히 살펴볼게요.

 

2. 추론 과정: 새로운 데이터 생성

추론은 다음과 같은 단계를 거쳐 진행돼요.

(1) 시작 토큰 입력

추론을 시작하려면 먼저 시작할 단어(토큰) 가 필요해요.
예를 들어, "91"이라는 숫자로 시작한다고 가정해볼게요.

(2) 확률 분포 생성

모델은 입력된 토큰을 기반으로 다음에 올 단어(토큰)의 확률 분포를 계산해요.
예를 들어, "91" 다음에 올 단어가 여러 개 가능하지만, 가장 높은 확률을 가지는 것이 선택될 가능성이 크죠.

(3) 확률에 따라 다음 단어 선택

이제 확률 분포에서 토큰을 샘플링해요.
즉, 확률이 높은 단어가 더 자주 선택되지만, 확률이 낮은 단어도 가끔 선택될 수 있어요.
이를 "편향된 동전 던지기(biased coin flipping)"라고 표현할 수 있어요.

예를 들어,

  • "860"이 높은 확률을 가졌다면, 이 토큰이 선택될 가능성이 커요.
  • 하지만 다른 가능성도 존재해요.

(4) 선택된 단어를 다시 입력하여 반복

이제 새롭게 선택된 단어를 다시 모델에 입력하고, 다음 단어를 예측하는 과정을 반복해요.
예를 들면:

  1. "91" → "860"
  2. "91 860" → "287"
  3. "91 860 287" → "13659"
    이런 식으로 계속해서 새로운 문장이 만들어지죠.

(5) 결과가 항상 동일하지 않은 이유

이 과정에서 중요한 점은, 같은 입력을 넣어도 매번 동일한 결과가 나오지 않을 수 있다는 점이에요.
왜냐하면, 모델이 항상 가장 높은 확률의 단어를 선택하는 것이 아니라, 확률적으로 샘플링하기 때문이에요.

예를 들어,
이전에 학습한 데이터에서는 "91" 다음에 "860"이 가장 자주 등장했을 수 있지만,
다른 경우에는 "862" 같은 다른 단어가 선택될 수도 있어요.
즉, 모델이 학습한 내용을 바탕으로 유사한 문장을 만들지만, 완전히 똑같이 복사하지는 않는다는 거죠.

추론이라고 하는 AI 모델이 답변을 생성하는 것은, 다음 단어 토큰을 학습된 데이터 공간에서
확률적으로 찾아서 생성을 하게 되기 때문에
같은 입력에도 다른 결과가 나오게 돼요.

 

 

3. 챗GPT에서 추론이 어떻게 적용될까?

챗GPT 같은 AI 모델도 결국 추론만 수행하는 모델이에요.

  • 챗GPT는 오픈AI가 사전에 학습한 모델을 제공하고,
  • 사용자는 학습이 끝난 모델을 그대로 활용하여 새로운 문장을 생성하는 거죠.

즉, 우리가 챗GPT와 대화할 때:

  1. 사용자가 입력한 질문(토큰)을 모델에 넣고,
  2. 모델이 다음 단어를 예측하며 문장을 생성하는 방식으로 진행돼요.
  3. 이 과정에서 학습된 내용을 기반으로 가장 자연스러운 답변을 생성하게 되죠.

하지만, 학습 데이터에서 본 내용을 그대로 복사하는 것이 아니라,
확률적 샘플링을 통해 유사하지만 새로운 문장을 만들어내는 것이 핵심이에요.

 

 

추론 과정은 딥러닝 모델이 학습한 내용을 실제로 활용하는 단계예요.

  • 학습(training): 모델이 데이터를 학습하고 패턴을 익힘
  • 추론(inference): 학습한 내용을 기반으로 새로운 데이터를 생성

특히, 챗GPT 같은 언어 모델에서는 확률적 샘플링을 통해 새로운 문장을 생성하기 때문에,
같은 입력을 넣어도 매번 다른 결과가 나올 수 있어요.

이제 딥러닝 모델이 어떻게 새로운 문장을 만들어내는지 이해하셨죠?
이 원리를 알면, 챗GPT의 동작 방식도 더 쉽게 이해할 수 있을 거예요! 😊

 

 

댓글