이글은 최근 구글에 발표한 테크니컬 리포트를 기반으로 합니다.
교육을 위한 교사와 교육적인 방침을 유지할 수 있는 교육 AI 모델에 대해서 알아보겠습니다.
1. 교육 기술의 과거와 현재
오늘날 생성 AI는 정보를 제시하는 데 중점을 둡니다.
그러나 인간 교사처럼 학습을 도울 수는 없습니다.
AI 시스템에 교육적 행동을 주입하는 방법,
즉 'pedagogical instruction following' 프레임을 도입합니다.
이 방식은 특정한 교육 정의에 얽매이지 않습니다.
대신 교사나 개발자가 모델 행동을 지정할 수 있습니다.
이 방법은 두 가지 큰 장점을 제공합니다.
첫째, 특정 교육 데이터 추가가 가능합니다.
둘째, 기존 모델 기능 확장이 용이합니다.
이를 통해 Gemini 모델의 학습 능력도 개선되었다고 합니다.
2. LearnLM의 주요 발견
구글은 교육계와 다양한 공공기관들과 함께 실험을 하였고 세 가지 중요한 사실을 발견했어요.
1) AI 튜터의 이상적인 행동 정의는 어려워요.
학생 수준, 과목, 언어, 문화 등 상황마다 요구되는 행동이 다르기 때문이에요.
예를 들어, 한 나라에서는 학생 중심의 대화형 학습이 중요하지만, 다른 나라에서는 규율 중심의 학습이 더 적합할 수도 있어요.
2) 정확한 지침을 따르는 AI가 중요해요.
선생님과 개발자들은 AI가 “정답을 알려주지 마세요” 같은 지침을 정확히 따르기를 원해요.
이러한 신뢰가 있을 때 AI를 활용한 학습 효과가 극대화될 수 있답니다.
3) 맞춤형 튜닝보다 효율적인 프롬프트 방식이 유리해요.
AI를 특정 목적에 맞게 조정하는 작업은 비용이 크고 관리가 어려워요.
따라서 적절한 프롬프트 설계가 여전히 가장 실용적인 방법이에요.
3. Modeling 생성 과정
1) 모델링의 시작: Supervised Fine-Tuning(SFT)
처음에 LearnLM은 기본 모델을 Supervised Fine-Tuning(SFT) 기법을 통해 다듬기 시작했어요. SFT는 기본적으로 모델이 주어진 데이터에서 더 나은 결과를 내도록 학습하는 과정이에요. 이때 사용된 데이터는 인공적으로 생성된 데이터와 사람이 직접 작성한 데이터로 구성되었어요.
인공 데이터는 특정 학습 목적을 위해 설계된 시뮬레이션 문제를 포함했고, 인간이 작성한 데이터는 실제 교육 환경에서 나온 질문과 답변 형식이었죠. 이를 통해 모델이 학습 콘텐츠를 효과적으로 다룰 수 있는 기본기를 갖추게 되었어요.
2) 교육에 초점 맞추기: 데이터의 진화
LearnLM은 단순한 데이터 사용에서 멈추지 않았어요. SFT 데이터는 시간이 지나면서 교육 목적에 더 적합하도록 업데이트되었답니다. 특히, 교수법에 초점을 맞춘 지침형 데이터가 추가되었어요.
이 변화는 모델이 단순히 정보를 전달하는 것을 넘어, 학습자의 사고를 이끌어낼 수 있는 방향으로 발전하는 데 중요한 역할을 했어요.
기존 데이터가 단순 질문과 답변으로 구성되었다면, 새로운 데이터는 "이 문제를 푸는 방법을 설명해 보세요"와 같은 교수법적 접근 방식을 포함했답니다.
3) 인간의 피드백 활용: 강화학습의 도입
AI 모델이 교육적으로 더 똑똑해지기 위해서는, 인간의 직관과 선호를 반영하는 과정이 필요했어요. LearnLM은 이를 위해 Reinforcement Learning from Human Feedback (RLHF)를 도입했답니다.
RLHF는 간단히 말해, 사람이 선호하는 학습 결과를 모델에 가르치는 과정이에요. 이를 위해 사람들의 피드백을 수집해 Reward Model (RM)을 만들고, 이를 강화학습 단계에서 활용했어요.
사람들이 "이 답변은 명확하고 이해하기 쉬워요"라고 평가하면, 모델은 이런 유형의 답변을 더 자주 생성하도록 학습했죠.
4) 협업의 힘: Gemini와의 코트레이닝
LearnLM의 또 다른 혁신은 독립적인 학습 단계를 넘어선 Gemini 모델과의 협업이에요.
기존에는 SFT와 RM, RL 단계를 개별적으로 진행했다면, 이제는 Gemini의 데이터와 단계를 직접적으로 통합했어요. 이를 통해 LearnLM은 Gemini의 강점과 시너지를 내면서 더욱 발전했답니다.
Gemini의 SFT 데이터와 LearnLM의 교육 지향 데이터를 결합해, 더 정교한 학습 시스템을 만들었어요. 이 과정은 단순히 두 기술을 합친 것이 아니라, 두 모델의 장점을 극대화하는 방식으로 설계되었답니다.
4. 핵심 모델 학습 전략
1단계: 교육적 지시 따르기 (Pedagogical Instruction Following)
AI가 교육에서 효과적으로 쓰이기 위해 가장 중요한 요소 중 하나는 바로 지시를 따르는 능력이에요. 이를 Instruction Following(IF)라고 불러요. 이 능력은 모델이 사람의 의도를 이해하고 그것에 맞게 행동하는 데 필수적이에요.
Gemini라는 AI 모델의 사례를 보면, 지시는 크게 두 가지로 나뉘어요:
사용자 지시(User Instructions): 사용자가 대화 중 직접 입력하는 지시.
시스템 지시(System Instructions): 개발자가 사전에 설정해 둔 지시로, 사용자 지시보다 우선 순위를 가져요.
예를 들어, "당신은 유능한 글쓰기 코치입니다"라는 간단한 문장에서부터 "사용자가 질문 3개를 맞추면 다음 주제로 넘어가세요" 같은 조건적 지시, 또는 몇 단락으로 구성된 복잡한 작업 설명까지 다양하죠.
이 지시는 다시 두 가지로 나뉩니다:
하드 제약(Hard Constraints): 길이나 형식, 내용 등을 명확히 제한해요. 예: "100단어 이내로 요약하세요."
소프트 제약(Soft Constraints): 스타일, 톤, 페르소나 등 세부적인 조정을 유도해요. 예: "비전문가도 이해할 수 있는 언어를 사용하세요."
2단계: 사후 학습 및 데이터 수집 전략 (Post-training and Data Collection Strategy)
모델이 교육 지시를 더 잘 따르도록 하기 위해, LearnLM은 데이터를 새롭게 수집하는 독특한 방법을 사용해요. 모든 대화를 특정 교육적 시스템 지시로 시작하게 하고, 평가자들이 각 모델의 반응을 보고 얼마나 지시를 잘 따르는지 레이블링했어요.
예를 들어:
효율적인 학습 지시: "학생의 답변을 절대 밝히지 말고 힌트를 제공하세요."
교육 동기 유발: "격려하는 어조를 유지하며 학생이 스스로 답을 찾도록 유도하세요."
이 데이터를 기반으로 모델이 사람의 선호도를 학습하게 돕는 보상 모델을 구축했어요. 이렇게 하면 단순한 지도 학습(SFT)보다 강화 학습(RL)이 훨씬 더 효과적이라는 사실이 밝혀졌어요. 특히 긴 대화에서 지시를 세밀하게 해석하고 따르는 능력을 키울 수 있었답니다.
3단계: 공동 학습의 이점 (Benefits of Co-training)
AI의 교육적 행동은 일반적인 대화형 AI의 동작과 자주 충돌해요. 왜냐하면 학습은 정보 전달만이 아니라 발견의 과정이기 때문이에요. LearnLM은 이런 충돌을 해결하기 위해, Gemini 모델의 기존 학습 데이터를 교육 중심 데이터와 함께 혼합하여 학습했어요.
이 방식의 장점은:
새로운 교육적 지시를 학습하면서 기존의 논리적 추론, 멀티모달 이해, 안전성 같은 핵심 기능을 잊지 않게 해줘요.
Gemini 모델의 업데이트와도 쉽게 동기화할 수 있어, 지속적인 발전이 가능해요.
5. 휴먼 평가 설계 방안
1) 인간 중심 평가 설계
먼저, LearnLM 팀은 AI와 인간 간의 상호작용을 평가하기 위해 시나리오 기반의 대화 평가와 직접 비교 방식을 활용했어요. 이 방식은 단순히 AI의 응답 품질을 측정하는 것을 넘어, AI가 실제 교육 상황에서 얼마나 유용한지 판단하는 데 초점이 맞춰져 있어요.
핵심 전략
시나리오 설계: AI와의 대화가 목적 없이 흘러가지 않도록 구체적인 시나리오를 준비했어요. 예를 들어, 과학 교실에서 학생 역할을 하는 참여자가 AI와 대화하며 학습 목표를 달성하는 모습을 상정했죠.
구체적인 시스템 지침: 각 시나리오마다 AI에게 명확한 목표와 행동 지침을 제공해 대화의 일관성과 품질을 유지했어요.
만약 참여자가 "태양계의 행성 순서를 알려줘."라는 질문을 했다면, AI는 단순히 답을 제공하는 것뿐만 아니라 학습자가 정보를 이해하고 활용할 수 있도록 대화를 이끌어야 했어요.
2. 단계별 평가 과정
평가는 총 세 단계로 진행되었어요.
2.1. 시나리오 설계
LearnLM 팀은 49개의 시나리오를 만들어 다양한 학습 환경을 반영했어요. 이를 위해 교육 전문가, 에듀테크 기업, 구글 팀과 협력해 실제 학습 현장에서 자주 발생하는 상황을 시뮬레이션했답니다.
1단계: 다양한 학습 목표와 상황을 고려해 시나리오를 초안으로 작성했어요.
2단계: 팀 내 교육 전문가들이 시나리오를 검토하고 개선했어요.
3단계: 학습 목표와 학습자 유형에 맞게 시나리오를 최종 조정했어요.
2.2. 대화 수집
교육 전문가 186명을 모집해 학습자 역할을 연기하며 AI와 대화했어요.
한 명의 참여자가 LearnLM과 비교 시스템 두 가지 AI와 대화를 나누며 동일한 시나리오를 실행했어요.
대화는 최소 10번의 턴으로 진행되었고, 평균적으로는 두 배 이상 길게 이어졌어요.
2.3. 교육 평가
다른 전문가 248명이 수집된 대화를 검토하며 AI의 교육적 성과를 평가했어요. 이 과정에서는 대화의 품질뿐만 아니라 AI가 학습자를 얼마나 효과적으로 지원했는지도 분석했어요.
3. 데이터 분석과 통찰
수집된 데이터는 베이즈 통계 모델을 사용해 분석되었어요. 이는 불확실성을 포함한 다양한 가능성을 검토하는 데 유용했죠.
정량적 분석
학습자와 AI의 상호작용 데이터를 바탕으로 AI의 학습 지원 능력을 수치화했어요.
반복 측정 데이터를 통해 정확한 평가 결과를 도출했답니다.
정성적 분석
참여자들이 남긴 자유로운 의견을 주제별로 분류하고, AI 시스템의 강점과 약점을 도출했어요. 예를 들어, "AI가 학습 목표를 명확히 설명해줬다"는 긍정적인 피드백과 "대화가 때로는 주제에서 벗어났다"는 개선점을 동시에 확인했어요.
6. 성능과 결과
1) 방대한 데이터, 철저한 검증
이번 평가에서 우리는 총 2360개의 대화 데이터를 수집했어요. 그 대화들은 58,459개의 학습자와 모델 간 메시지로 이루어졌고, 그중 10,192개의 전문가 평가가 포함됐어요. 각 대화 쌍을 평균 세 명의 전문가가 검토했답니다.
예를 들어, 대화 데이터 중 일부는 이런 식이었어요:
학습자 질문: “열역학에서 엔트로피는 무엇을 의미하나요?”
LearnLM의 답변: “엔트로피는 에너지의 무질서를 나타내는 개념이에요. 예를 들어 얼음이 녹아 물이 될 때 엔트로피가 증가하는 것처럼요.”
이런 데이터를 통해 우리는 모델의 반응 길이와 품질 간의 관계를 분석했어요. Gemini 1.5 Pro6과 LearnLM은 반응 길이에서 차이를 보였지만, 길이가 품질을 결정하는 주요 요소는 아니었어요. 이는 다른 연구 결과와도 일치하는 부분이에요.
2) 평가 결과: LearnLM이 돋보인 이유
비교 선호 평가에서 LearnLM은 GPT-4o4를 모든 5가지 평가 항목에서 압도했어요. 특히 전문가들은 "어떤 튜터가 더 나은 교육을 제공했는가?"라는 질문에서 LearnLM을 강하게 선호했답니다. Claude 3.5와 Gemini 1.5 Pro와 비교했을 때도 마찬가지로 LearnLM이 더 나은 평가를 받았죠.
그렇다면, 왜 LearnLM이 이렇게 뛰어난 평가를 받았을까요?
교육 데이터를 추가로 학습했기 때문이에요. 이 과정이 LearnLM의 튜터링 능력을 한 단계 끌어올린 거죠.
예를 들어, 다른 모델이 복잡한 수학 문제를 설명할 때 "이 문제는 방정식 X로 풀면 됩니다"라고 답변했다면, LearnLM은 추가로 "이 방정식은 이렇게 풀이됩니다"라고 더 친절하게 설명했어요.
LearnLM은 단순히 정보를 전달하는 AI가 아니에요. 학생들의 사고를 이끌고, 교사와 교육 개발자들에게 혁신적인 도구를 제공하는 데 초점을 맞췄어요. 앞으로의 AI 교육이 LearnLM을 통해 어떻게 발전할지, 우리 모두 기대해 봐요!
구글 테크 리포트 : https://blog.google/feed/learnlm-technical-report/
'Machine Learning > Paper' 카테고리의 다른 글
Retrieval Augmented Generation (RAG) and Beyond (1) | 2024.10.01 |
---|---|
Extensions of RNN LM (Recurrent Neural Network) (0) | 2017.03.24 |
RNN LM (Recurrent neural network based language model) (0) | 2017.03.21 |
댓글