IT

생성 AI나 대규모 언어 모델의 개발에서 갈망받는 하이엔드 GPU "NVIDIA H100"이 부족한 이유는?

오델리아 2023. 8. 3. 17:04

반도체 제조업체 엔비디아의 텐서코어 GPU인 NVIDIA H100은, TSMC의 4N 프로세스 노드를 사용해 제조된, 현 시점에서는 최신 고성능 GPU로, 생성 AI나 대규모 언어 모델(LLM)과 같은 최근 인기를 끄는 추론 AI 워크로드에 특화된 엔비디아 H100은 수요 과다로 판매가격이 급등하고 있는 것으로 지적되고 있으며, 엔비디아도 이를 인정하고 있다. 그런데 이 GPU의 공급 부족은 왜 일어나는걸까?

 


ChatGPT 등을 개발하는 AI 기업 OpenAI의 샘 알트먼 CEO는, 2023년 5월 개최된 공청회에서 "GPU가 턱없이 부족하기 때문에, 우리 제품을 사용하는 사람이 적을수록 좋습니다", "GPU가 부족하기 때문에, 우리 제품 사용량이 줄어들었으면 좋겠다"며 GPU 공급 부족이 회사에 미치는 영향을 밝혔다. OpenAI 등 AI 기업들이 원하는 것은 NVIDIA H100과 같은 하이엔드 GPU....

NVIDIA H100을 필요로 하는 것은, LLM을 트레이닝하는 OpenAI와 같은 스타트업이나, Microsoft Azure와 AWS와 같은 클라우드 서비스 공급자로, 기존 AI 모델을 테스트하는 데 사용되는 경우도 있고, 대부분 무명의 스타트업들이 새로운 AI 모델을 처음부터 구축하기 위해, 엔비디아 H100과 같은 하이엔드 GPU를 사들이는 경우도 있다는 것.

하이엔드 GPU를 찾는 기업 대부분이 엔비디아 H100을 찾는 이유는 단순하며, "LLM 추론과 트레이닝 모두 기존 제품 중 최고의 성능을 발휘하기 때문"으로, .NVIDIA H100은 가성비도 높아 AI 모델 훈련에 소요되는 시간을 단축하는 데에도 도움이 된다.

 


한 딥러닝 연구자는 "NVIDIA H100은 효율이 최대 3배 높기 때문에, 이용이 권장되고 있습니다. 그리고 비용도 기존 GPU와 비교했을 때 불과 1.5~2배 정도이기 때문에, 가성비가 높다고 할 수 있습니다. 시스템 전체 비용과 GPU를 합쳐도, 엔비디아 H100은 1달러(약 140엔)당 성능을 훨씬 높일 수 있습니다. 게다가 시스템 퍼포먼스에 주목하면, 아마 1달러당 퍼포먼스는 4~5배나 됩니다"라고 NVIDIA H100의 유용성에 대해 이야기하고 있다.


NVIDIA H100(녹색)과 한 이전 세대의 하이엔드 GPU인 NVIDIA A100(회색), 그리고 NVIDIA H100과 NVLink 네트워크의 조합(연두색)인 HPC·AI 추론(AI Inference)·AI 트레이닝(AI Training)에서의 성능을 비교한 것이 아래 그래프로,  NVIDIA H100과 비교하면 16비트 추론에서는 약 3.5배, 16비트 훈련에서는 약 2.3배의 성능을 발휘.

 


또, NVIDIA H100(녹색)은 NVIDIA A100(연두색)과 비교해 9배의 처리량을 실현. NVIDIA A100이면 트레이닝에 7일 걸리는 것이라도, NVIDIA H100이면 불과 20시간 만에 완료 가능하다는 것.

 


그런 엔비디아 H100의 가격대는 제품에 따라 다르지만, 예를 들어 엔비디아 H100을 8개 탑재한 엔비디아 DGX H100의 경우, 판매가격은 46만달러(약 6억7천만원).이 중 10만달러(약 1억 5천만원)는 지원 비용으로, 스타트업은 약 5만달러(약 7천만원)를 할인받을 수 있다.

 


OpenAI의 LLM인 GPT-4의 경우, 약 1만~2만5000대의 NVIDIA A100에서 훈련된 것으로 생각되어지고, 그리고 메타는 약 2만1000대, 테슬라는 약 7000대, Stability AI는 약 5000대의 NVIDIA A100을 보유하고 있는 것으로 알려져 있다. 또한 Inflection은 GPT-3.5와 동등한 AI 모델을 훈련하는 데 3500대의 NVIDIA H100을 사용한 것으로 밝혀졌다.

그리고, Microsoft Azure의 경우, 약 1만~4만대의 NVIDIA H100을 사용하고 있으며, Oracle도 동등한 NVIDIA H100을 보유하고 있는 것으로 생각되어진다. Azure의 경우 보유한 NVIDIA H100 대부분이 OpenAI에 할당된 것으로 알려졌다.

그럼에도 OpenAI는 5만대, 메타는 2만5000대, Azure와 구글 클라우드, AWS 같은 대규모 클라우드 서비스는 각각 약 3만대 가량의 NVIDIA H100을 필요로 하는 것으로 보인다. 대당 엔비디아 H100의 가격을 약 3만5000달러로 추정하면, 기업들이 엔비디아 H100을 도입하려면 터무니없는 설비투자가 필요하다는 것을 잘 알 수 있을 것.

LLM 제품 중 가장 일반적으로 보급되고 있는 ChatGPT의 경우, 어떻게 GPU 수요가 형성되는지는 다음과 같다.

1: 사용자들이 ChatGPT를 많이 이용하고 있으며, OpenAI는 연간 500억달러(약 7조1400억엔)에 가까운 경상수익을 올리고 있다.

2: Chat GPT는 GPT-4 및 GPT-3.5 API로 실행된다.

 


3: GPT-4 및 GPT-3.5를 실행하려면, GPU가 필요하고, 또한 OpenAI는 ChatGPT와 API용으로 많은 기능을 출시하고 싶지만, 충분한 GPU에 접근할 수 없는 상태가 지속되고 있어 이를 출시하지 못하고 있다.

4: Open AI의 경우, Microsoft Azure를 통해 NVIDIA제의 GPU를 이용하고 있는데, 구체적으로는 NVIDIA H100을 요구하고 있다.

5: NVIDIA H100을 탑재한 NVIDIA DGX H100 등을 제조하기 위해, NVIDIA는 TSMC에 제조를 위탁. TSMC는 CoWoS 패키징 기술을 사용하여, 주로 SK하이닉스의 HBM3를 사용.

OpenAI 뿐만 아니라 많은 AI 기업들이 동일하게 LLM 제품 개발에 나서고 있기 때문에, 전 세계적으로 하이엔드 GPU 수요가 확대되고 공급 부족이 발생할 수 있다는 것. 또한 GPU유틸스에 따르면, NVIDIA H100의 공급 부족은 최소 2023년 말까지 이어져, 2024년 중반까지 지속될 수 있다고 지적하고 있다.