딥시크(Deepseek) 충격, 미국 AI 반도체 주가 붕괴?

2025년 01월 27일 by Coco___

    딥시크(Deepseek) 충격, 미국 AI 반도체 주가 붕괴? 목차
728x90
반응형

 

 

중국의 AI Deepseek

  

  Open AI 의 충격이 얼마 가지 않은 지금, 딥시크(Deepseek)로 또 한번의 충격이 발생했다. 이로 인해 엔비디아와 브로드컴의 주식은 Pre장부터 -11% -15% 의 급격한 하락을 보이고 있는 추세이다. 

 

 미국의 대통령 도날드 트럼프가 AI 에 투자하겠다고 밝힌지 얼마 안된 지금, 중국의 AI 반격은 그 어떤 산업보다 큰 충격으로 다가오고 있는데 그 이유는 무엇일까?

 

 바로 Open AI 보다 더 저렴한 GPU Chip을 사용할 수 있다는 기술력 때문이다. 오늘은 간단하게 딥시크가 어떠한 기술력을 가지고 있고 왜 엔비디아와 브로드컴 주식이 폭락을 하고 있는 지 그 이유에 대해 알아보고자 한다. 

 

 

 

 DeepSeek 의 추론 능력 강화 모델

DeepSeek-R1의 주요 기술 1. RL ( reinforcement learning) 과 2. Knowledge Distillation

 

 

  OPEN AI의 주요 추론 능력이 LLM  즉 대규모 언어 모델인 Large Language Models 이라는 사실은 이제 많이 들어서 알 것이다. 딥시크는 이 LLM 추론 능력을 강화시키기 위해 2가지 학습을 활용하였는데, 그것이 바로 1. RL ( reinforcement learning) 과 2. Knowledge Distillation 이다. 

 


1. RL ( reinforcement learning)

RL 은 모델이 보상 신호를 통해 스스로 학습 하면서 성능을 향상 시키는 학습 방법이다. 마치 사람처럼 보상을 주었을 때 더 나은 학습 효과를 가져온 다는 점인데, 답변이 정확할 때 보상을 주는 방식이다. 

 

 

 

계속 된 Step을 통해 점점 더 성능이 늘어난다는 논문 결과를 확인 할 수 있다. 

 


2. Knowledge Distillation

 

 이 기술은 대규모 모델 -> 소규모 모델로 지식을 전이 시킨 다는 점이 핵심이다. 소규모 모델에서 같은 작업을 수행해도 대규모 모델과 같은 성능을 발휘할 수 있으면서도, 비용이 줄어든 다는 점이 이번 AI 쇼크로 인한 엔비디아 주가 하락의 주요 원인이다. 

 

 소규모 모델을 사용함으로써 GPU / TPU 메모리를 덜 사용한다는 점 뿐만 아니라 훈련 시간도 감소하며 전기 사용량 역시 줄어들면서도 처리량 즉 Throughput은 증가 한다. 

 

그동안 LLM 훈련 및 추론에서 메모리 처리 속도에 대한 중요성이 커짐에 따라 HBM인기가 높아졌으나 이 Distillation의 등장은 기존 요구하던 HBM 의 고용량과 대역폭이 덜 중요해진다는 것을 알 수 있다. 즉 높은 가격을 주며 HBM을 사서 AI를 운용했던 경쟁사와 달리 일반 GPU를 사용하면서 AI를 사용할 수 있다는 장점을 가져온다. 

 

 

 

DeepSeek - V3 성능

 

 

 DeepSeek 성능 표를 보면, 대부분의 점수가 훌륭하다는 점을 알 수 있다. 영어 기반 Benchmark 결과는 조금 떨어진 수는 있으나 ( simpleQA, FRAMES 등) 대부분의 점수가 높은 편이다. 특히 MAth 점수가 GPT-4o 모델에 비해 훨등히 높은 점수를 보이고 있다는 점이 놀랍다. 

 

 AI 기술이 놀라울 정도로 무서운 속도로 발전하고 있다는 사실이 조금은 두렵기도 한 소식이다. 

 

 

 

 

 

출처 :  GitHub - deepseek-ai/DeepSeek-V3

 

728x90
반응형