"AWS·애저·구글·OCI 통합"…엔비디아 '다이나모' AI 추론 확장

IT/과학

뉴스1,

2025년 11월 17일, 오전 09:23

엔비디아·AWS·구글·마이크로소프트·OCI 협력 다이나모 기반 AI 추론 가속(엔비디아 제공)

엔비디아가 인공지능(AI) 추론 성능을 높이기 위해 글로벌 빅테크 클라우드 기업들과 손잡고 '다이나모'(Dynamo) 기반 멀티 노드(서버) 추론 가속을 본격화한다고 17일 밝혔다.

엔비디아는 △아마존웹서비스(AWS) △구글 클라우드 △마이크로소프트 애저 △오라클 클라우드 인프라스트럭처(OCI) 등과 협력으로 엔터프라이즈급 AI 추론 환경 전반의 확장성을 높일 계획이다.

엔비디아 관계자는 "다이나모를 통해 블랙웰(Blackwell) 기반 시스템 전반에 대규모 AI 추론 및 전문가 혼합(MoE) 모델 등 복잡한 워크로드 성능을 효율적으로 지원할 수 있다"며 "쿠버네티스(Kubernetes) 관리형 서비스와 통합해 기업들이 클라우드 전반에서 멀티 노드 추론을 손쉽게 확장할 수 있도록 했다"고 말했다.

AWS는 엔비디아 다이나모와 자사 쿠버네티스 서비스(EKS)를 통합해 생성형 AI 추론을 가속한다.

구글 클라우드는 다이나모 레시피로 자사 AI 하이퍼컴퓨터에서 대형 언어모델(LLM) 추론을 최적화한다.

애저는 ND GB200-v6 GPU와 다이나모를 연동해 멀티 노드 추론을 지원한다. OCI는 슈퍼클러스터 환경에서 대규모 LLM 추론을 구현할 수 있게 됐다.

젠슨 황 엔비디아 CEO는 미국 워싱턴D.C.에서 열린 GTC 콘퍼런스에서 "블랙웰은 기존 호퍼(Hopper) 대비 10배 높은 성능과 수익을 제공한다"며 "강력한 추론 컴퓨팅이 클라우드 생태계 전반으로 확산될 것"이라고 했다.

엔비디아 다이나모는 프리필(prefill)과 디코드(decode) 과정이 분리된 분산형 서빙(disaggregated serving)을 지원해 기존 통합형 추론 방식 구조의 리소스 경합 및 병목 현상을 해결한다. 모델 지시문 해석·응답 생성을 각기 최적화된 GPU로 분산 실행해 처리 속도를 높이고 리소스 효율을 극대화하는 방식이다.

엔비디아는 쿠버네티스 기반 추론 관리 효율을 높이는 API '그로브'(Grove)도 공개했다. 그로브는 노드 할당·통신 경로 배치 등 복잡한 조율 과정을 자동 처리해 AI 서비스 운영을 단순화한다.

ideaed@news1.kr

추천 뉴스