본문 바로가기
생성형 AI

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (19) AlphaGo

by 대소니 2025. 3. 11.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한
개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다.

 

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요

안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포

daeson.tistory.com

 

 

인공지능(AI) 분야에서 강화 학습의 강력함은 오래전부터 연구되어 왔어요. 특히 바둑 게임에서 그 가능성이 뚜렷하게 드러났죠. 대표적인 사례가 바로 딥마인드(DeepMind)의 알파고(AlphaGo)입니다.

이 글에서는 알파고가 어떻게 강화 학습을 통해 최고의 바둑 기사들을 뛰어넘었는지, 그리고 이 방식이 대형 언어 모델(LLM)과 같은 최신 AI 시스템에도 어떻게 적용될 수 있는지를 살펴볼게요.

 

알파고의 등장과 바둑 AI의 발전

바둑은 오랜 역사를 가진 전략 게임으로, 복잡한 수를 계산하고 최적의 결정을 내려야 하는 게임이에요. 기존의 AI 바둑 프로그램은 인간 기사의 기보를 학습하여 실력을 키우는 지도 학습(Supervised Learning) 방식이었어요. 즉, 전문가들의 수를 따라 하며 최적의 수를 찾는 방식이었죠.

하지만 이 방식에는 한계가 있었어요. 인간 기사의 기보를 그대로 모방하는 방식이기 때문에, 인간 최고 기사를 넘어서기는 어려웠어요. 아무리 많은 데이터를 학습하더라도 인간이 생각할 수 있는 범위를 벗어날 수 없었거든요.

여기서 강화 학습(Reinforcement Learning)이 등장했어요. 알파고는 단순히 인간 기보를 모방하는 것이 아니라, 스스로 바둑을 두면서 더 나은 전략을 발견하는 방식을 사용했어요. 이를 통해 기존의 방식보다 훨씬 뛰어난 성과를 내게 됐죠.

 

강화 학습이 어떻게 알파고를 최강으로 만들었을까?

알파고는 크게 두 가지 학습 방법을 결합했어요.

  1. 지도 학습(Supervised Learning)
    먼저, 인간 전문가들이 둔 바둑 기보를 학습했어요. 이를 통해 기본적인 바둑 실력을 갖추었죠.
  2. 강화 학습(Reinforcement Learning)
    이후에는 스스로 바둑을 두면서 승리 확률을 높이는 방향으로 학습했어요. 여기서 중요한 점은, 반복적인 대국을 통해 인간이 생각하지 못한 새로운 전략을 발견할 수 있었다는 것이에요.

알파고는 스스로와 끊임없이 대국하면서 승리로 이어지는 수를 강화했어요. 즉, 승리를 가져온 수는 더 강하게 학습하고, 패배로 이어진 수는 배제하는 방식으로 점점 더 강한 플레이를 할 수 있었죠.

이러한 학습 방식 덕분에 알파고는 기존의 바둑 AI를 압도하고, 2016년 당시 세계 최강의 바둑 기사 중 한 명이었던 이세돌 9단을 꺾는 역사적인 성과를 이루었어요.

 

전설이 된 ‘Move 37’ – 인간을 뛰어넘은 창의적 수

알파고와 이세돌 9단의 대결 중, ‘Move 37’이라는 전설적인 수가 등장했어요.
이 수는 인간이 거의 생각하지 못하는 확률(10,000분의 1)로 두어지는 매우 희귀한 수였어요.

당시 전문가들은 처음에 이 수가 실수라고 생각했어요.
하지만 경기가 진행될수록, 이 수가 알파고가 창의적으로 발견한 혁신적인 전략이라는 것이 밝혀졌죠.
결과적으로 이 수는 승리의 결정적 요인이 되었어요.

이 사례는 강화 학습의 강력함을 잘 보여줘요.
기존에는 인간의 방식만 따라가던 AI가, 강화 학습을 통해 인간이 생각하지 못한 새로운 전략을 만들어낼 수 있다는 점을 증명한 것이죠.

 

강화 학습, 이제는 언어 모델에도 적용된다

알파고의 성공 이후, 강화 학습의 개념은 바둑뿐만 아니라 다양한 AI 분야에서 활용되기 시작했어요. 특히 대형 언어 모델(LLM, Large Language Model)에서도 이 방식이 점점 더 중요해지고 있어요.

기존 언어 모델은 인간이 작성한 문서를 학습하면서 성장했어요.
하지만 단순한 모방을 넘어, 더 창의적이고 논리적인 사고를 하기 위해서는 강화 학습이 필요해요.

예를 들어, 언어 모델이 문제를 풀 때 단순히 기존 답변을 참고하는 것이 아니라,
여러 해결책을 시도해 보고 최적의 결과를 찾는 방식으로 발전할 수 있죠.
이 과정에서 기존 인간의 논리를 넘어서는 새로운 사고 방식이나 언어 구조를 발견할 가능성도 있어요.

 

AI의 미래 – 인간을 넘어서는 사고 방식?

강화 학습을 통해 AI는 인간이 생각하지 못했던 방식으로 문제를 해결할 가능성이 있어요.
이것이 단순히 숫자나 바둑에서 끝나는 것이 아니라, 논리적 사고와 창의적 문제 해결에도 적용될 수 있다는 점이 중요해요.

  • AI가 인간보다 더 창의적인 해답을 찾을 수도 있어요.
  • 기존 언어를 벗어나 AI만의 새로운 사고 구조를 만들어낼 수도 있어요.
  • 인간이 보지 못한 패턴을 AI가 발견할 수도 있어요.

강화 학습은 AI의 성장을 한계 없이 확장하는 중요한 기술이에요.
앞으로 AI가 어떤 혁신을 만들어낼지, 기대되는 부분이에요.

 

알파고는 바둑 AI의 패러다임을 바꿨고, 강화 학습의 가능성을 증명했어요.
이제는 이 개념이 언어 모델과 다양한 AI 시스템에도 적용되며, 인간을 넘어서는 사고 방식을 탐구하는 단계로 나아가고 있어요.

이 알파고와 이세돌의 대결은 모르는 분은 없으시죠. 이것이 참으로 의미가 깊었던 이유가 또 한가지 있어요.
이 대결 이전에는 AI 관련 논문이 일년에 700개 뿐이였다가, 이 대결 이후로 현재는 일년에 3만개의 논문이 나오는 계기가 되었어요.
전세계적으로 핫한 계기를 만들어 냈다는 것이 감동적인 딥마이드의 작품인거 같아요.

 

댓글