생성형 AI

대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요

대소니 2025. 2. 9. 22:08

안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로
입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.

원 저자는 Andrej Karpathy 로 스텐포드의 천재 박사로 AI 업계에서는 유명인이지요.
3일전에 유튜브에 공개한 3시간 30분짜리 영상에 인공지능 대형 모델에 대한
쉽게 풀어낸 원리를 공개했는데 ChatGPT의 원리와 활용에 대해서 아주 잘 설명하고 있습니다.

이번 시리즈 포스팅을 통해서 입문자들에게 좋은 학습 기회가 되기를 희망합니다.

 

 

Deep Dive into LLMs like ChatGPT 영상 목차

00:00:00 소개 / Introduction
00:01:00 사전 학습 데이터 (인터넷) / Pretraining Data (Internet)
00:07:47 토큰화 / Tokenization
00:14:27 신경망 입출력 / Neural Network I/O
00:20:11 신경망 내부 구조 / Neural Network Internals
00:26:01 추론 / Inference
00:31:09 GPT-2: 학습과 추론 / GPT-2: Training And Inference
00:42:52 Llama 3.1 기본 모델 추론 / Llama 3.1 Base Model Inference
00:59:23 사전 학습에서 사후 학습으로 / Pretraining To Post-Training
01:01:06 사후 학습 데이터 (대화) / Post-Training Data (Conversations)
01:20:32 환각, 도구 사용, 지식/작업 메모리 / Hallucinations, Tool Use, Knowledge/Working Memory
01:41:46 자기 인식 / Knowledge Of Self
01:46:56 모델은 사고를 위해 토큰이 필요함 / Models Need Tokens To Think
02:01:11 토큰화 재검토: 모델은 철자에 어려움을 겪음 / Tokenization Revisited: Models Struggle With Spelling
02:04:53 불규칙한 지능 / Jagged Intelligence
02:07:28 지도 미세 조정에서 강화 학습으로 / Supervised Finetuning To Reinforcement Learning
02:14:42 강화 학습 / Reinforcement Learning
02:27:47 DeepSeek-R1 / DeepSeek-R1
02:42:07 AlphaGo / AlphaGo
02:48:26 인간 피드백 기반 강화 학습 (RLHF) / Reinforcement Learning From Human Feedback (RLHF)
03:09:39 다가올 것들에 대한 미리보기 / Preview Of Things To Come
03:15:15 LLM 추적하기 / Keeping Track Of LLMs
03:18:34 LLM 찾는 곳 / Where To Find LLMs
03:21:46 종합 요약 / Grand Summary

 

Deep Dive into LLMs like ChatGPT 영상

 

 

Andrej Karpathy 소개

Andrej Karpathy는 딥러닝 연구자이자 엔지니어, 그리고 AI 교육자로서 세계적으로 유명한 인물이에요. 그는 특히 컴퓨터 비전(Computer Vision)과 자연어 처리(NLP) 분야에서 큰 영향력을 미친 연구자로 알려져 있어요.

📌 주요 경력

  • OpenAI 공동 창립 멤버
  • Tesla 전(前) AI 디렉터 (Autopilot 팀 리더)
  • 스탠퍼드 대학 박사 학위 (Andrew Ng 교수 연구실)
  • 유명한 AI 논문 및 교육 콘텐츠 제작

Karpathy는 학계뿐만 아니라 산업계에서도 중요한 역할을 해왔어요. 특히 테슬라(Tesla)에서 자율주행 기술을 위한 AI 개발을 이끌었으며, OpenAI에서는 GPT 모델 등 최첨단 AI 연구에 기여했어요.

 

주요 업적

1) "CS231n: Convolutional Neural Networks for Visual Recognition" 강의

스탠퍼드 대학교에서 진행한 CS231n 강의는 Karpathy를 AI 교육자로 널리 알린 계기가 되었어요. 이 강의는 컴퓨터 비전과 CNN(합성곱 신경망)을 깊이 있게 다루며, 딥러닝을 처음 배우는 사람들에게 최고의 자료 중 하나로 손꼽혀요. 유튜브에서도 무료로 시청할 수 있어서 전 세계 많은 사람들이 배우고 있답니다!

CS231n 강의는 세계 최초의 ccn 강의라고 친송할 만한 강의였지요. 저도 이 강의로 공부했었던 기억이 나네요

2) Tesla에서 자율주행 AI 개발

Karpathy는 테슬라의 자율주행 AI 개발을 이끈 핵심 인물이에요. 테슬라는 Autopilot 시스템을 개선하기 위해 딥러닝을 적극적으로 활용했는데, Karpathy가 그 중심에 있었어요. 특히 테슬라는 카메라 기반 자율주행 시스템을 도입하면서, LiDAR 없이도 높은 성능을 내는 기술을 개발했어요. 그의 리더십 아래 테슬라의 FSD(Full Self-Driving) 기술이 크게 발전했어요.

3) GPT-2, GPT-3 개발에 기여 (OpenAI 시절)

Karpathy는 OpenAI 초기 멤버로 활동하며, 자연어 처리(NLP)와 생성형 AI 연구에도 큰 기여를 했어요. 특히 GPT 모델 개발과 관련된 연구에 참여했으며, OpenAI에서 딥러닝 기술의 확산과 발전을 위해 힘썼어요.

4) 유명한 논문과 블로그 포스트

그는 연구자이자 엔지니어일 뿐만 아니라, 딥러닝을 쉽게 설명하는 글을 쓰는 것으로도 유명해요. Karpathy의 블로그에는 RNN(Recurrent Neural Networks), CNN, 강화학습 등의 개념을 직관적으로 설명한 글들이 많아서, AI를 공부하는 사람들에게 큰 도움이 되고 있어요.

 

Karpathy의 영향력과 철학

Karpathy는 "AI는 더 많은 사람들이 쉽게 접근할 수 있어야 한다"는 철학을 가지고 있어요. 그래서 복잡한 개념을 쉽게 설명하는 것에 많은 노력을 기울이고 있고, 누구나 AI를 배우고 활용할 수 있도록 돕는 것을 중요하게 생각해요.

📢 그가 강조하는 핵심 메시지
✅ "AI를 배우려면 직접 실험하고 코드를 작성해야 한다."
✅ "딥러닝 모델의 성능을 높이는 가장 좋은 방법은 데이터와 경험이다."
✅ "이론도 중요하지만, 실제 구현해보는 것이 가장 큰 배움이 된다!"

이론을 공부했다면 파이썬으로 실제 구현하고 실행해보면서 체험을 하는 것이 정말 좋은 경험이 됩니다.
단순 이론만으로는 활용하지 못하면 무의미해 질 수 있기 때문이에요.