본문 바로가기
IT 트랜드

DeepSeek-R1에 대해 #1 : 대형 언어 모델의 추론 능력을 강화하는 강화학습 기법 리뷰

by 마오양 2025. 2. 10.
반응형

오늘은 최근 생성형 인공지능 시장에 파란을 일으킨 딥씨크(DeepSeek)와 관련한 내용 중 가장 최근 릴리즈된 DeepSeek-R1 모델의 논문의 내용을 요약해 보겠습니다. 

DeepSeek-R1 성능 비교
DeepSeek-R1 성능 비교 <출처: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf>

 

 

대형 언어 모델의 추론 능력을 강화하는 강화학습 기법 리뷰 - DeepSeek-R1

DeepSeek 홈페이지에서 공개된 DeepSeek-R1 관련한 paper인 "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning"을 분석한 후, 핵심 내용을 요약해 보겠습니다.

그전에, 개인적인 판단으로 이 논문은 어떤 공식적인 학회에서 발표된 논문은 아닌 것으로 보입니다. 때문에 딥씨크 자체적인 paper로 생각하고 내용을 요약했음을 밝힙니다.

 

반응형

 

  내용 요약

1. 연구 개요

DeepSeek-R1 연구는 대형 언어 모델(LLM)의 추론 능력을 강화하기 위해 순수 강화학습(RL, Reinforcement Learning)을 적용한 모델을 소개합니다.

기존에는 대형 언어 모델을 개선할 때 지도학습(Supervised Fine-Tuning, SFT)이 필수적인 요소였지만, DeepSeek-R1 연구에서는 강화학습만으로도 추론 능력을 발전시킬 수 있다는 점을 입증하였습니다. 이를 위해 DeepSeek-R1-Zero와 DeepSeek-R1 두 가지 모델이 개발되었습니다.

 

2. 주요 기여(Contributions)

이 연구는 크게 두 가지 주요 기여를 합니다.

 

(1) 순수 강화학습 기반의 추론 능력 강화

  • 기존 모델들은 사전학습된 지도학습 데이터(SFT)에 의존하여 모델을 최적화했으나, DeepSeek-R1-Zero는 지도학습 없이 순수한 강화학습만으로도 모델의 추론 능력을 크게 향상했습니다.
  • 이를 통해 모델은 자연스럽게 문제 해결 과정(Chain of Thought, CoT)을 익히고, 스스로 검증 및 반성하는 능력을 갖추게 됩니다.
  • 특히, OpenAI의 o1-0912 모델과 비교할 수 있는 수준으로 발전했습니다.

 

 

(2) 소형 모델에도 추론 능력 전이(Distillation)

대형 모델(DeepSeek-R1)에서 학습된 추론 패턴을 소형 모델로 전달하는 기법을 적용하여, 작은 모델도 강력한 성능을 발휘할 수 있도록 만들었습니다.

예를 들어, DeepSeek-R1-Distill-Qwen-7B 모델은 GPT-4o(0513) 보다 수학(MATH-500)과 같은 영역에서 더 높은 성능을 기록했습니다.

이를 통해 소형 모델도 대형 모델 수준의 추론 능력을 가질 수 있도록 하는 방법론을 제시했습니다.

 

3. DeepSeek-R1 개발 과정

연구에서는 DeepSeek-R1 모델을 훈련하기 위해 두 단계의 강화학습 과정을 적용했습니다.

 

① DeepSeek-R1-Zero (순수 강화학습)

  • 사전학습 없이 바로 순수 강화학습을 적용한 모델입니다.
  • 강화학습 과정에서 자연스럽게 복잡한 문제 해결 방식이 형성되었지만, 단점으로는 문장 가독성이 낮고, 다국어 혼합이 발생하는 문제가 있었습니다.
  • 예를 들어, 수학 문제를 풀 때 여러 단계의 계산을 스스로 검증하며 해결하는 능력을 갖추었으나, 그 과정이 난해하게 표현되는 문제가 있었습니다.

 

② DeepSeek-R1 (Cold Start 데이터 포함)

  • DeepSeek-R1-Zero의 단점을 보완하기 위해 초기 지도학습 데이터(Cold Start Data)를 추가하여 모델을 미세 조정한 후, 강화학습을 적용하였습니다.
  • 이를 통해 가독성이 향상되고, 문제 해결 과정이 보다 논리적이고 인간 친화적으로 변화하였습니다.

이 과정에서 강화학습을 위해 두 가지 보상 시스템이 적용되었습니다.

  1. 정확도 보상(Accuracy Rewards) → 수학 문제처럼 정답이 명확한 경우, 정확한 답을 생성하면 높은 보상을 부여.
  2. 형식 보상(Format Rewards) → 모델이 논리적인 추론을 할 수 있도록 문제 해결 과정을 <think> 태그로 감싸고, 최종 답변을 <answer> 태그로 구분하도록 함.

이러한 방식으로 DeepSeek-R1은 기존 LLM들이 지도학습으로만 발전하던 방식을 순수 강화학습 기반의 추론 능력 향상으로 전환하였습니다.

 

 

 

4. 성능 평가 (Evaluation)

논문에서는 DeepSeek-R1이 여러 벤치마크에서 OpenAI의 최신 모델들과 경쟁할 수 있음을 보여주었습니다.

벤치마크 DeepSeek-R1 OpenAI o1-1217 GPT-4o(0513)
AIME 2024 (Pass@1) 79.8% 79.2% 9.3%
MATH-500 (Pass@1) 97.3% 96.4% 74.6%
GPQA Diamond (Pass@1) 71.5% 75.7% 49.9%
Codeforces (코딩) (Percentile) 96.3% 96.6% 23.6%

이 결과에서 DeepSeek-R1은 특히 수학과 코딩과 같은 복잡한 추론 작업에서 뛰어난 성능을 보임을 확인할 수 있습니다.

 

 

5. 소형 모델로의 지식 전이(Distillation)

이 연구는 대형 모델이 학습한 추론 능력을 소형 모델로 효과적으로 전이하는 방법도 제시했습니다.

모델 AIME 2024 (Pass@1) MATH-500 (Pass@1)
DeepSeek-R1-Distill-Qwen-7B 55.5% 92.8%
DeepSeek-R1-Distill-Qwen-32B 72.6% 94.3%
QwQ-32B-Preview 50.0% 90.6%

이러한 지식 전이 방법을 통해, 기존의 작은 모델도 대형 모델 수준의 추론 능력을 가질 수 있도록 학습되었습니다.

 

 

 

6. 연구의 한계 및 향후 연구 방향

논문에서 밝힌 연구의 한계점과 향후 개선 방향은 다음과 같습니다.

  1. 일반적인 언어 모델 기능 부족
    • DeepSeek-R1은 다중 턴 대화, JSON 출력, 함수 호출 등에서 DeepSeek-V3보다 성능이 부족합니다.
    • 향후 연구에서 추론 능력과 일반적인 언어 모델 기능을 조화롭게 결합하는 방향으로 개선할 예정입니다.
  2. 다국어 처리 문제
    • DeepSeek-R1은 주로 영어와 중국어에 최적화되어 있어, 다른 언어에서 혼합 출력되는 문제가 발생할 수 있습니다.
    • 이를 해결하기 위해 다국어 처리를 강화하는 연구가 필요합니다.
  3. 프롬프트 민감성 문제
    • DeepSeek-R1은 Few-shot prompting 시 성능이 저하되는 문제가 있습니다.
    • 향후 연구에서는 프롬프트 엔지니어링을 통한 성능 최적화가 필요합니다.

 


실제로 모델을 사용해 보면 작은 용량과 적은 리소스로도 성능이 GPT와 견줄만하니 이 논문의 내용을 안 믿을 방법은 없습니다. 더구나, 이들은 소스코드까지 오픈해 버렸기 때문에 이들의 주장을 의심할 수도 없죠.

미국은 '앗 뜨거워' 하며 학습자료 등에 대한 저작권 침해 등을 소송하겠다고 발표했던 것도 기억이 납니다. 뭐가 속이 비비 꼬이지만, 그 보다 더 문제는 우리는 뭐 하고 있는 건가요? 대형 국내 통신사에서 가입자 대상으로 1년간 퍼플렉서티 무료 이용권을 준 것은 고맙지만, 중국처럼 핵심기술 확보에는 여전히 눈치만 보고 있는 것인가요? 

인공지능의 큰 바람이 불어온 지도 이제 몇 년이 넘어가고 있는데, 우리 기업도 뭔가 했다고 시장을 좀 시끄럽게 해줬으면 하는 마음입니다.

반응형