본문 바로가기
AI·소프트웨어 리뷰

딥시크(Deepseek)로 알아보는 AI 학습 기법

by 치돈 2025. 2. 4.

 

안녕하세요! 오늘은 요즘 핫한 딥시크(DeepSeek)를 통해 간단한 AI 학습 기법 및 용어들을 알아보려 합니다~

 

그동안 ChatGPT, Claude, Gemini 등 서구권 위주로 굴러가던 AI 시장에서 새로운 문법을 제시한 것으로 큰 이슈가 되었는데요

 

딥시크가 무엇이고, 어째서 많은 주목을 받았는지 살펴봅시다.

 


 

딥시크(DeepSeek)란?

 

딥시크(DeepSeek)는 GPT 시리즈와 같은 텍스트 생성형 AI 모델입니다.

 

개발사는 High-Flyer라는 중국의 대형 헤지펀드를 뒷배로 두고 있어요. 해당 회사는 머신러닝 알고리즘을 기반으로 투자하는 관련 기술 인력을 갖추고 있어 그동안 DeepSeek-V2, DeepSeek-V2.5 등의 모델을 개발 및 공개하고 나름 꾸준한 성능 향상을 보이고 있었죠.

 

그러다가 최근 고작 80억 원 정도의 예산을 사용해 천문학적인 예산을 들여 개발한 GPT-o1에 버금가는 성능에, 더욱 낮은 컴퓨팅 자원을 요구하는 모델 DeepSeek-V3 R1을 공개해 큰 주목을 받았죠.

 

사실 엄밀히 따지면 이 금액은 해당 모델에 한정된 GPU 사용료에 불과해요. 인건비, 기존의 연구비, 전기세 및 인프라 비용 등은 포함되지 않았죠. 당장 DeepSeek-V3 R1의 논문 기여자 수만 200명쯤 된답니다. 

 

심지어 DeepSeek-V3 R1의 개발 방법과 관련 논문을 모두 오픈 소스로 공개해, 누구나 모델의 제작 기법을 재현하거나 약간의 인프라가 갖춰지면 모델을 직접 컴퓨터로 돌려 사용할 수도 있어요.

 

정치-시사적 이슈를 쏙 빼고 말하자면, OpenAI나 Claude 등 선두를 달리는 다른 AI 기업들이 숨기고 있던 영업 비밀을, 후발주자가 모두에게 공개해버려 큰 이슈가 된 셈이에요.

 

R1의 추론 기능을 사용하려면 텍스트 상자의 버튼을 눌러 활성화해주어야 한다

 

딥시크는 현재 공식 웹사이트나 앱 등을 다운로드받아 모든 기능을 무료로 사용할 수 있어요.

 

다만 전세계적으로 사용자가 많이 몰리는 탓에 서버가 불안정한 편입니다.

 

많이 사용하시는 ChatGPT와의 차별점은 인터넷 검색 기능추론 기능을 함께 사용할 수 있다는 점인데요, 중국산 모델이다보니 검색 시 출처로 중국어 사이트가 많이 나온다는 점은 감안해야겠죠.

 

가장 짙은 파란색이 R1, 짙은 회색이 gpt-o1

 

성능은 상당히 뛰어난 편입니다.

 

인공지능 모델의 정확도를 평가하는 지표, 벤치마크를 살펴보면 현재까지 최상의 지능을 가졌다 평가받는 GPT-o1과 같은 수준이거나, 더 높은 성능을 보이는 지표도 어렵지 않게 발견할 수 있어요.

정답은 15000원. 순손실은 변화량만을 따진다.

 

간단한 수학 문제를 질문해봤는데 잠시 생각하더니 쉽게 해결하는 모습입니다.

 

자산과 부채에 대한 개념을 잡아야 쉽게 풀 수 있는데, 실제로 gpt-4o는 계속 만 원이라고 오답을 말하더군요.

 

포스트 하단에 딥시크 웹사이트 링크를 첨부하였으니 참고 바랍니다.

출처 : https://www.wiz.io/blog/wiz-research-uncovers-exposed-deepseek-database-leak

 

다만 딥시크 사에서 직접 운영하는 공식 사이트는 중국스럽게 허술한 보안을 갖추고 있어서, 개인 사용자들의 채팅 기록은 물론이고 전문적인 사용자들이 사용하는 API 키 등이 저장된 데이터베이스가 몽땅 털리는 어이없는 사고가 발생하기도 했어요. 

 

포스트를 쓰며 알게 된 사실... 저도 급하게 API키를 삭제하고 왔어요

 

모델 자체는 모두에게 공개되었으니 퍼플렉시티 Perplexity 등 상대적으로 더 신뢰할 수 있는 프로바이더를 활용하는게 좋아보이는데, 정작 다른 프로바이더들은 공식 웹사이트와는 달리 검색기능의 성능이 처참하다는 단점이 있네요...

 

기호에 맞춰 사용하시면 되겠습니다.

 


 

딥시크의 학습 비법

 

딥시크가 충격적으로 다가온 이유는 그동안 AI 전문가들이 생각했던 것과는 다르게, 높은 성능의 모델 제작을 위한 방법을 모두가 이미 알고 있었다는 점이에요.

 

특히 그동안 정답으로 여겨지지 않았던 강화학습을 주로 사용해서 훈련했다는 점이 주요했죠.

 

딥시크에 사용된 여러 학습 기법에 대해 알아봅시다.

 

 

1. 지도학습 Supervised Learning

 

지도학습은 사람이 라벨링한 데이터셋을 통해 모델의 행동을 직접 학습시키는 기법이에요.

 

특정 데이터(사진, 텍스트 등)를 특정 범주에 따라 구분한 것을 라벨이라고 부르는데, 예를 들어 이 사진이 어떤 동물에 속하는지, 어떤 글의 장르가 무엇인지, 음악의 템포가 빠른지 느린지 등을 구분하는 모든 기준이 라벨이 됩니다.

 

대표적으로 스팸 메일을 구분하는 AI는 메일 내용과 해당 메일이 스팸인지에 대한 여부(라벨)을 AI에게 제공해요

 

메일 A.
안녕하세요. 귀하의 업무 제안서를 꼼꼼하게 확인해본 결과 -
...
아쉬운 소식을 전하게 되어 유감입니다. 지원해주셔서 감사합니다.

is_this_mail_spam : NO

메일 B.
(광고) 두 번 다시 오지 않는 기회! 지금 당장 -
...
>> 사전예약 신청 <<


is_this_mail_spam : YES

 

이런 예시 데이터를 엄청나게 많이 제공하면, 그 과정에서 스팸 메일 특유의 문법이나 문장 구성 등을 파악하는 일반화 능력을 기를 수 있어요.

 

마치 학생 시절 많은 양의 수학 문제를 풀다가 문제 푸는 요령, 혹은 직관력을 갖추게 되는 것과 유사해요.

 

지도학습은 라벨링(혹은 정답)이 잘 수행되었다는 가정 하에 강력한 방식이지만, 사람이 손수 라벨링한 높은 퀄리티의 데이터 세트가 필요하다는 맹점이 있어요.

 

대부분의 텍스트 생성형 AI는 특히 SNS나 인터넷 사이트의 글들을 학습하는데, 글의 형식 정도야 구분이 가능하지만 (광고 / SNS 게시글 / 에세이 / 논문 / 뉴스 등...) 글의 퀄리티나 가치까지 평가하기에는 애매하죠.

 

혹은 데이터 편향이 발생할 가능성도 있어요. 예를 들어 고양이와 개의 사진을 구분하도록 라벨링했는데, 전체 사진 중 80% 가까이가 개의 사진이라면 해당 AI는 나중에 고양이를 보고도 개로 구분할 확률이 생기죠.

 

따라서 DeepSeek의 연구진들은 초반 설계에만 지도학습을 사용하고, 이후에는 강화학습 기법을 도입했어요.

 


 

2. 강화학습 Reinforcement learning

 

강화학습은 피드백을 통해 AI의 행동 방향을 조정 tuning 하는 기법이에요

 

AI의 목적은 오직 자신이 가질 보상을 극대화하는 것으로 정하고, 올바른 행동을 했을 때 큰 보상을 주도록 설계하는 방식이죠.

 

예를 들어, 사용자가 "안녕?"이라고 입력하면, AI는 "안녕 안해요"라고도 응답할 수 있고, "안녕하세요~ 무엇을 도와드릴까요?"라고 말할 수도 있겠죠. 

 

이때 사용자는 "안녕 안해요"라는 응답에는 기분이 나빴으니 부정적인 피드백을, "안녕하세요~ ..."라는 응답에는 무응답 내지는 긍정적인 피드백을 남길 겁니다.

 

그런 피드백이 곧 AI의 답변 방향을 지정하는 보상이 되는 방식입니다. 

 

AI는 항상 보상을 최대로 타길 원하므로 이 과정을 반복하면 유저에게 친절한 방향으로 응답하게 될 거에요.

 

학습 수준(step, x축)에 따른 정답률(score, y축)을 나타낸 그래프, 출처 : X(前 Twitter)의 @jiayi_pirate

다만, 강화학습은 모델의 성능 - 직설적으로 말하면 지능 이 어느정도 보장될 때 효과적이에요

 

Jiayi Pan이라는 전문가는 30달러를 들여 딥시크 R1과 같은 원리로, 더 작은 규모의 모델 학습을 진행해 성공했다고 밝히기도 했습니다.

 

그는 간단한 count down 게임을 학습시키며 기본 모델의 성능이 낮으면 강화 학습의 퀄리티도 낮아진다는 결과를 도출해냈죠.

DeekSeek 역시 강화 학습을 메인으로 활용해 개발되었지만, 초기 학습에는 사람이 직접 AI의 행동 방향을 학습시키는 사람에 의한 지도 학습(RLHF Reinforcement Learning from Human Feedback)을 함께 활용해야 했어요. 여담으로 이런 학습 방법을 콜드 스타트 Cold Start 라고 부릅니다

 

DeekSeek를 학습시킴에 있어 강화 학습이 주로 활용되었다는 것이 중요하며, 지도 학습이 아예 사용되지 않은 건 아니라는 점을 명확히 알아두는게 좋겠죠?

 


 

3. MoE (Mixture of Experts)

 

사람 한 명이 모든 분야에 대해 전문성을 갖추기란 어렵습니다.

 

AI에게도 마찬가지죠.

 

하나의 모델이 모든 분야에 있어서 항상 올바른 대답을 제공하기는 어려워요.

 

따라서 사용자의 입력에 따라 전문화된 모델을 미리 제작한 뒤, 각 응답에 대해 적절한 전문가 모델을 호출하도록 설계하는 기법을 Mixture of Experts, 줄여서 MoE 기법이라고 부릅니다. 

전문가 네트워크, 출처 : https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf

 

MoE 기법을 활용하면 모델의 크기를 어느정도 줄이면서도, 특화된 모델 호출을 통해 답변의 퀄리티를 향상시킬 수 있어요.

 

조금 더 엄밀하게 말하면, 각 모델은 전체 네트워크의 일부분이고, 숫자, 형용사, 문장 부호 등 담당하는 토큰의 분류가 정해져 있어서 해당 토큰만 분석합니다. 인풋 토큰을 라우터가 해당하는 네트워크로 보내면 각 네트워크는 들어온 토큰만 분석해서 뱉는 방식이죠.

 

실제로 DeepSeek-V3는 모델의 전체 파라미터(간단히 생각하면 AI의 뇌)의 고작 2~4% 미만만 활성화하여 대부분의 응답을 처리한다고 합니다.

 


 

4. 어텐션 메커니즘 Attention mechanism

 

어텐션 메커니즘은 입력된 전체 문장의 각 단어에 가중치(중요도)를 부여하고, 가중치와 단어의 위치를 통해 전체 문장에서 중요한 단어를 찾아내는 자연어 처리 분야의 핵심이에요.

Example)

A : 역시 나주배가 맛있더라고.

B: 다 찼어, 내일부터 다이어트 시작한다.

 

A의 발언에서는 배, 그리고 나주배에 높은 가중치를 부여하여 전체 문맥을 해석하려 할 거에요.

 

반면 B의 발언에서는 보다는 다이어트라는 단어에 높은 가중치가 부여될 거에요.

 

어텐션 메커니즘은 AI가 전체 대화 맥락에서 어떤 단어에 집중 Attention 하는지 결정하고, 결과적으로 문장의 해석 능력에 영향을 끼쳐요.

 


DeepSeek R1은 여기서 멀티 헤드 어텐션 메커니즘 Multi-Head Attiontion Mechanism 을 도입했는데, 쉽게 말하면 전체 분석량을 헤드라는 이름의 보조 모델들에게 고르게 나누어 병렬적으로 분석하고, 분석한 중요도를 합쳐 계산하는 방식이에요.

 

그림을 살펴보면, 기존의 어텐션 메커니즘은 여러 단어를 동시에 고려하느라 작업 시간이 길어지는 반면, 동일한 작업을 잘게 쪼갠 멀티 헤드 어텐션 방식은 병렬 처리를 통해 작업 시간을 단축할 수 있어요.

 

또한, 각 헤드는 문맥을 고려하는 방향성이 서로 달라서 단일 헤드를 사용하는 방법에 비해 응답의 퀄리티를 크게 향상시킬 수 있어요.

 

예를 들어, 빨간색 헤드는 각 단어의 사용 맥락을 처리하고, 주황색 헤드는 문법적 올바름을 전담 분석하며, 노란색 헤드는 단어의 위치만 고려하는 방식이죠. 

 

마치 여러 사람이 모여 회의하듯 입력값을 분석하여 해석 능력을 크게 향상시켰다는 점이 핵심입니다.

 


 

5. 증류 Distillation

 

증류는 큰 파라미터를 가지는 거대 모델을 기반으로 높은 정확도를 가지는 경량화 모델을 학습시키는 기법을 의미합니다.

 

예를 들어,

  • 정확도는 100%인데, 응답 하나를 처리하는데 100분이 걸리는 거대 모델
  • 정확도는 90%인데, 응답 하나를 처리하는데 1분이 걸리는 경량화 모델

두 종류의 모델이 있다면 상업적 이용에는 아무래도 후자가 적합할 겁니다. 

 

사실 규모가 크면 정확도가 따라 향상될 것이라는 스케일링 법칙의 반례가 DeepSeek R1 모델이기도 해요.

 

증류를 쉽게 설명하면 큰 파라미터(쉽게 말하면 뉴런의 양이 많은)를 가진 모델을 선생님으로 삼아, 작은 모델이 학생처럼 선생의 응답을 학습하는 방식입니다.

 

실제로 DeepSeek의 연구진들은 DeepSeek-R1-zero라는 모델을 먼저 제작했는데, 추론 성능은 좋았지만 오로지 강화 학습만 진행한 탓에 가독성이 떨어지거나 사용하는 언어가 섞이는 등의 문제가 발생했다고 합니다.

 

DeekSeek-R1 모델을 개발할 때에는 이전의 모델이 응답한 자료를 기반으로 강화 학습과 지도 학습을 병행했다고 하죠.

 

증류를 사용하면 모델의 전체 규모가 감소응답 생성 비용이 줄어들고, 선생 모델의 정확한 응답을 데이터 세트로 활용할 수 있다는 장점이 있습니다.

 


 

 

DeekSeek R1 모델은 앞서 설명한 다섯 가지 기법 - 지도학습, 강화학습, MoE, 멀티 헤드 어텐션, 증류 기법을 조합해 비용은 낮추면서도 성능은 크게 끌어올렸습니다.

 

이런 모델이 오픈소스로 풀렸기 때문에, 당장 AI 기업 간의 경쟁 구도에도 큰 변화가 발생했어요.

 

대표적으로 OpenAI는 최근 구독자들을 대상으로 꽁꽁 숨기고 있었던 GPT-o3-mini 모델을 제공하기 시작했죠. Mini 모델 답게 DeepSeek에 비하면 아쉬운 성능이긴 합니다만...

 

 

 

이번 포스팅에서는 DeekSeek R1 모델에 대한 간략한 설명과 여러가지 학습 기법에 대해 알아봤습니다.

 

원하시는 분들은 아래 링크를 통해 DeepSeek을 체험해보시기 바라요:

 

https://chat.deepseek.com/