최신 글
-
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (9) 사전/사후 학습
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다. 대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포daeson.tistory.com AI 언어 모델(LLM) 훈련 과정은 크게 두 단계로 나뉘어요. 첫 번째는 사전 훈련(pre-training) 단계이고, 두 번째는 후 훈련(post-training) 단계예요. 이 두 단계를 거쳐 우리가 원하는 AI 비서로 발전하게 돼요. 이번 포스팅에서는 각 단계의 과정과 ..
2025.02.21
-
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (8)Llama 3.1 모델
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다. 대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포daeson.tistory.com 최근 메타(Meta)에서 공개한 Llama 3.1은 최신 대형 언어 모델(LLM) 중 하나로,베이스 모델을 포함한 다양한 변형 모델이 제공되고 있어요. 이 글에서는 베이스 모델(Base Model)이 무엇인지, 어떻게 동작하는지, 그리고 이를 활용하는 방법에 대해 알아볼게요. 1..
2025.02.20
-
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (7)GPT-2 학습과 추론
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다. 대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포daeson.tistory.com 2019년, OpenAI는 GPT-2 모델을 발표했어요. 이 모델은 딥러닝 기반 자연어 처리(NLP)에서 획기적인 발전을 이룬 중요한 모델 중 하나였죠. 오늘날 우리가 사용하는 ChatGPT는 GPT-4를 기반으로 하고 있지만, GPT-2는 현대적인 대규모 언어 모델의 토대를 닦..
2025.02.19
-
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (6) 추론
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다. 대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포daeson.tistory.com 딥러닝 모델을 활용할 때 중요한 과정 중 하나가 추론(Inference) 이에요. 학습된 모델을 사용해 새로운 데이터를 생성하는 과정이죠. 이번 포스팅에서는 추론 과정이 어떻게 진행되는지, 왜 결과가 항상 동일하지 않은지, 그리고 실제 응용 사례를 설명해 볼게요. 1. 추론(In..
2025.02.18
-
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (5)신경망 내부
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다. 대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포daeson.tistory.com 1. 뉴럴 네트워크란 무엇인가?뉴럴 네트워크(Neural Network)는 인공지능의 핵심 기술 중 하나로, 데이터를 기반으로 학습하고 예측하는 강력한 도구예요. 이를 이해하기 위해서는 먼저 신경망이 내부에서 어떻게 동작하는지를 살펴봐야 해요.기본적으로 신경망은 입력(Input)..
2025.02.17
-
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 (4)신경망 입출력
대형 언어 모델의 세계로 - ChatGPT의 원리와 활용에 대한개요와 전체 목차 및 저자 소개는 아래의 이전 글에서 보실 수 있습니다. 대형 언어 모델의 세계로 - ChatGPT의 원리와 활용 개요안녕하세요 최근에 가장 많이 사용이 되고 있는 대형 언어 모델의 세계로 입문하고자 하시는 분들을 위해서 좋은 유튜브 강좌를 시리즈로 작성해 보려 합니다.원 저자는 Andrej Karpathy 로 스텐포daeson.tistory.com 지난번에 데이터셋의 텍스트 시퀀스를 토크나이저를 사용해 토큰 시퀀스로 변환했어요.결과를 보면, 예를 들어 Fine Web 데이터셋에서는 약 44테라바이트의 디스크 공간을 차지하는 데이터가 있으며, 이는 약 15조 개의 토큰 시퀀스로 구성되어 있어요. 여기에서 우리가 보는 것은 ..
2025.02.13