본문 바로가기
생성형 AI

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (14) 토큰화 재검토

by 대소니 2025. 2. 28.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한
개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요

안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포

daeson.tistory.com

 

 

AI 모델이 철자 관련 작업에서 어려움을 겪는 이유는 무엇일까요?
이는 토크나이제이션(tokenization)이라는 개념과 밀접한 관련이 있어요.
우리가 단어를 문자(character) 단위로 인식하는 것과 달리, AI 모델은 텍스트를 토큰(token) 단위로 처리해요.
이로 인해 간단한 문자 기반 작업에서도 모델이 실수를 저지를 가능성이 커져요.

토크나이제이션의 한계점에 대한 내용으로 연구자들이 고려해야 할 내용이고 사용자들은 신경쓰지 않아도 되어요.
향후에 토큰의 개념이 조금더 발전될 수 있는 포인트 라고 생각해요.

 

AI 모델이 철자 인식에 취약한 이유

AI 모델은 개별 문자를 인식하지 않아요. 대신, 토큰이라는 작은 텍스트 조각 단위로 정보를 분석하죠. 예를 들어, "ubiquitous"라는 단어를 분석할 때, 인간은 문자 단위로 쉽게 접근할 수 있지만, AI 모델은 이 단어를 3개의 토큰으로 처리할 가능성이 높아요. 그렇기 때문에 "ubiquitous"에서 매 세 번째 문자를 추출하는 작업을 시키면, 우리가 기대하는 결과와 다르게 나올 수 있어요.

이러한 현상의 주요 원인은 토큰화(tokenization) 과정이에요. AI 모델이 학습하는 데이터는 인터넷 상의 다양한 텍스트이며, 토큰화는 주어진 문장을 보다 효율적으로 처리하기 위해 필요해요. 하지만 문자 단위로 토큰화를 하면 문장이 너무 길어지고, 현재 기술로는 이를 효과적으로 처리하는 방법이 확립되지 않았어요.

 

토큰화가 초래하는 철자 오류 사례

철자와 관련된 문제는 단순한 예시에서도 확인할 수 있어요. 대표적인 사례로 "strawberry"에서 'r'이 몇 개 있는지 물어보는 질문이 있어요. 초기 AI 모델들은 정답인 3개가 아니라 2개라고 답하는 경우가 많았어요. 왜 이런 일이 발생했을까요?

  1. AI 모델은 개별 문자가 아닌 토큰 단위로 단어를 인식해요.
  2. AI 모델은 기본적으로 숫자를 세는 작업에 약해요.
  3. 철자와 관련된 작업은 AI 모델이 정확하게 수행하기 어려운 구조를 가지고 있어요.

이 두 가지 요소가 결합되면서 AI 모델이 철자 관련 문제에서 실수를 범하는 거죠. 현재는 "strawberry"에서 'r'의 개수를 묻는 질문이 워낙 유명해져서, 일부 모델에서는 정답을 하드코딩(hardcoding)해 해결한 것으로 보이기도 해요.

 

AI 모델이 철자 문제를 해결하는 방법

AI 모델이 철자 관련 문제를 보다 정확하게 처리하기 위해서는 코드 활용이 효과적이에요. 예를 들어, 특정 문자열에서 매 세 번째 문자를 출력하는 작업을 모델에게 직접 수행하게 하는 대신, 파이썬과 같은 프로그래밍 언어를 활용하도록 하면 정확한 결과를 얻을 수 있어요. AI 모델이 "코드를 사용하라"는 지시를 받으면, 파이썬 인터프리터를 통해 해당 작업을 수행하고 올바른 답을 제공하게 돼요.

 

앞으로의 개선 방향

현재 AI 연구자들은 토큰화를 없애고 문자 단위(character-level) 또는 바이트 단위(byte-level) 모델을 개발하는 방안을 연구 중이에요. 하지만, 이러한 방식은 연산량이 증가하는 문제가 있어 아직까지 실용적인 해결책을 찾지 못했어요. 그러나 기술이 발전함에 따라 철자 인식 문제도 점차 해결될 가능성이 커요.

결론적으로, AI 모델이 철자에 약한 이유는 문자 단위가 아닌 토큰 단위로 텍스트를 분석하기 때문이에요. 이러한 한계를 극복하기 위해 코드를 활용하는 등의 방법을 사용할 수 있으며, 앞으로의 연구를 통해 더 정교한 해결책이 나올 것으로 기대돼요.

 

 

댓글