DeepSeek의 접근 방식에서 영감을 얻은 다른 기술 회사가 이제 자체적으로 유사한 저렴한 추론 모델을 구축하기 시작할 수 있으며 에너지 소비에 대한 전망은 다음과 같습니다. 이미 찾고 있습니다 훨씬 덜 장미 빛.
모든 AI 모델의 수명주기에는 훈련과 추론의 두 단계가 있습니다. 교육은 종종 모델이 데이터에서 배우는 몇 달 동안의 프로세스입니다. 그런 다음이 모델은 추론을위한 준비가되어 있으며, 이는 전 세계의 누군가가 무언가를 물을 때마다 발생합니다. 둘 다 일반적으로 칩과 쿨 서버를 실행하기 위해 많은 에너지가 필요한 데이터 센터에서 발생합니다.
R1 모델의 교육 측면에서 DeepSeek의 팀은 “전문가 혼합”기술을 개선했으며, 모델의 수십억 개의 매개 변수 중 일부 (모델이 더 나은 답변을 형성하는 데 사용하는 손잡이) 만 켜져 있습니다. 훈련 중에 주어진 시간. 특히, 그들은 모델의 출력이 점수를 매기고 더 나은 것을 개선하는 강화 학습을 향상시켰다. 이것은 종종 인간 주석에 의해 수행되지만 Deepseek 팀은 자동화.
교육을보다 효율적으로 만드는 방법을 도입하면 AI 회사가 에너지를 적게 사용하여 AI 모델을 특정 표준으로 가져올 수 있습니다. 그래도 그것이 실제로 작동하는 방식은 아닙니다.
“더 지능적인 시스템을 갖는 가치가 너무 높기 때문에” 썼다 그의 블로그에서 의인적인 공동 창립자 인 Dario Amodei는“회사가 지출하게합니다. 더훈련 모델에서.” 회사가 돈을 더 많이 얻으면 더 많은 비용을 지출하고 더 많은 에너지를 사용하는 것이 가치가 있습니다. “비용 효율성의 이익은 회사의 재무 자원에 의해서만 제한되는 스마트 한 모델을 훈련시키는 데 전적으로 전념했습니다.” 그것은 Jevons Paradox로 알려진 예입니다.
그러나 그것은 AI 경주가 진행되는 한 훈련 측면에서 사실이었습니다. 추론에 필요한 에너지는 상황이 더 흥미로워지는 곳입니다.
DeepSeek은 추론 모델로 설계되었으며, 이는 논리, 패턴 찾기, 수학 및 전형적인 생성 AI 모델이 어려움을 겪고있는 기타 작업과 같은 것들에 대해 잘 수행하는 것을 의미합니다. 추론 모델은“사고의 사고”라고 불리는 것을 사용하여이를 수행합니다. 이를 통해 AI 모델은 결론을 내리기 전에 작업을 부분으로 나누고 논리적 순서로 작업 할 수 있습니다.
DeepSeek로 이것을 볼 수 있습니다. 누군가의 감정을 보호하기 위해 거짓말을하는 것이 괜찮은지 물어보십시오. 모델은 먼저 실용주의와의 문제를 해결하여 잠재적 인 미래의 피해에 대한 즉각적인 선을 평가합니다. 그런 다음 칸 티안 윤리를 고려하여 보편적 법이 될 수있는 최대에 따라 행동해야한다고 제안합니다. 결론을 공유하기 전에 이러한 뉘앙스와 다른 뉘앙스를 고려합니다. (거짓말은“일반적으로 친절과 피해 예방이 가장 중요하지만 보편적 인 해결책이없는 상황에서는 일반적으로 허용 될 수 있음을 알게됩니다.”