생성형 AI

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (2)학습데이터

대소니 2025. 2. 11. 08:04

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한
개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요

안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포

daeson.tistory.com

 

 

사전 훈련 단계 개요

AI 모델을 훈련하는 과정은 여러 단계로 구성돼 있어요.
그중 첫 번째 단계가 사전 훈련(pre-training)이에요.
이 과정에서 가장 먼저 해야 할 일은 인터넷에서 데이터를 다운로드하고 처리하는 것이에요.

이 과정이 어떻게 이루어지는지 감을 잡으려면, Hugging Face에서 제공하는 FineWeb 데이터셋을 살펴보면 좋아요.
FineWeb은 인터넷에서 수집한 방대한 데이터를 정제한 데이터셋으로, OpenAI, Anthropic, Google과 같은 주요 LLM(대형 언어 모델) 기업들도 이와 유사한 내부 데이터셋을 보유하고 있어요.

데이터 수집 목표

사전 훈련 단계에서 우리가 원하는 것은 다음과 같아요.

  1. 인터넷에서 방대한 양의 텍스트를 수집
  2. 공개적으로 접근 가능한 고품질 문서를 확보
  3. 다양한 주제의 콘텐츠를 포함
  4. 모델이 많은 지식을 학습할 수 있도록 데이터의 다양성을 극대화

이 목표를 달성하는 과정은 복잡하며 여러 단계를 거쳐야 해요.

데이터 크기

FineWeb 데이터셋은 약 44TB(테라바이트) 정도의 크기를 차지해요.
요즘 1TB짜리 USB 스틱을 쉽게 구할 수 있으니, 44TB는 하드디스크 몇 개로도 충분히 저장할 수 있는 크기예요.
즉, 인터넷이 거대하긴 하지만, 우리가 다루는 것은 텍스트 데이터이고, 강력한 필터링 과정을 거친다는 점을 기억해야 해요.

 

데이터 수집 과정: Common Crawl

대부분의 사전 훈련 데이터는 Common Crawl에서 시작돼요.
Common Crawl은 2007년부터 인터넷을 크롤링(crawling)하는 비영리 조직이에요.

  • 2024년 기준, 약 27억 개의 웹페이지를 크롤링했어요.
  • 크롤링 과정:
    1. 몇 개의 초기 웹페이지(Seed Pages)를 설정
    2. 이 페이지의 링크를 따라가며 점점 더 많은 웹페이지를 수집
    3. 반복하면서 인터넷 전체를 커버할 만큼 방대한 데이터를 확보

하지만 이 원본 데이터는 매우 거칠고(raw), 불필요한 정보가 많기 때문에 다양한 필터링 과정이 필요해요.

 

데이터 필터링 과정

FineWeb과 같은 데이터셋을 만들기 위해서는 여러 단계의 필터링이 필요해요.

1. URL 필터링

일정한 기준에 따라 특정 웹사이트를 차단 목록(block list)에 추가해요.
차단 대상에는 다음과 같은 웹사이트가 포함돼요.

  • 악성코드(malware) 배포 사이트
  • 스팸(spam) 사이트
  • 마케팅·광고 사이트
  • 혐오 발언(인종차별 등)을 포함한 사이트
  • 성인물(adult content) 사이트

이런 웹사이트의 데이터는 AI 모델에 포함될 필요가 없기 때문에 처음부터 제거해요.

2. 텍스트 추출

웹페이지는 HTML 코드로 이루어져 있어요.
하지만 우리가 필요한 것은 순수한 텍스트예요.

  • HTML에서 네비게이션 바, 광고, 스타일 코드(CSS), 스크립트(JavaScript) 등 불필요한 요소를 제거
  • 우리가 원하는 것은 본문 내용(text)만 남기는 것

이를 위해 다양한 필터링 및 전처리 기술이 사용돼요.

3. 언어 필터링

FineWeb에서는 언어 감지(language classification)를 통해 특정 언어만 포함할지 결정해요.

  • 예를 들어, 문서의 65% 이상이 영어일 경우에만 유지하는 정책을 적용
  • 만약 스페인어 문서를 모두 제거하면, 나중에 훈련된 AI 모델은 스페인어를 잘 이해하지 못할 것
  • 기업마다 멀티언어(multi-lingual) 모델을 만들지 여부를 선택할 수 있음

FineWeb의 경우, 영어 중심으로 구성되어 있기 때문에 훈련된 모델도 영어에 특화될 가능성이 커요.

4. 개인정보(PII) 제거

개인정보 보호를 위해 PII(Personally Identifiable Information) 데이터를 제거해요.

  • 예를 들어, 주소, 주민등록번호, 전화번호, 신용카드 정보 등이 포함된 웹페이지는 필터링
  • 모델이 개인 정보를 학습하지 않도록 사전에 조치

이 외에도 중복 제거(de-duplication), 품질 검증 등의 추가적인 필터링이 이루어져요.

 

최종 데이터셋과 예제

필터링이 끝나면, 최종적으로 훈련에 사용할 데이터셋이 만들어져요.

예를 들어, FineWeb에서 다운로드할 수 있는 데이터는 이런 형태의 순수한 텍스트로 구성돼 있어요.

  • 토네이도 관련 기사 (2012년 발생한 토네이도 사건)
  • 사람의 부신(adrenal glands)에 대한 의학 정보
  • 기타 다양한 과학·역사·문화 관련 글

즉, 인터넷에서 가져온 웹페이지를 필터링하고 정제한 후, 순수 텍스트 형태로 변환한 것이에요.

 

 

다음 단계:

이제 우리는 40TB에 달하는 정제된 텍스트 데이터를 확보했어요.
다음 단계는 신경망(Neural Network)을 이용해 이 데이터를 학습하는 것이에요.

이제 본격적으로 AI 모델이 훈련되는 과정으로 넘어가 볼게요!