엔비디아는 12일 지포스 RTX GPU, RTX PRO 플랫폼, DGX 스파크(DGX Spark) 시스템 전반에서 디퓨전젬마를 가속화할 수 있는 최적화 기술을 공개했다. 이번 최적화로 개발자와 연구자, AI 애호가들이 일상적으로 사용하는 단일 사용자 워크로드에서 혁신적인 저지연 AI 경험을 제공하며, 로컬 PC부터 클라우드 환경까지 폭넓은 활용이 가능해졌다.
디퓨전젬마는 이미지 생성형 AI의 디퓨전 방식을 텍스트 생성에 접목한 것이 특징이다. 260억개의 파라미터를 갖춘 전문가 혼합(MoE) 구조의 ‘젬마 4’ 아키텍처를 기반으로 구축됐으며, 단계마다 38억 개의 파라미터를 활성화하고 구글의 젬마 4 아키텍처에 디퓨전 헤드를 결합했다.
기존 거대언어모델(LLM)이 글자를 한 자씩 순차적으로 입력하듯 응답했다면, 디퓨전젬마는 노이즈 상태에서 시작해 각 단계마다 최대 256개의 토큰을 병렬로 디노이징하며 텍스트 블록 전체를 한 번에 정제해낸다. 대화형 채팅, 에이전틱 루프, 계획과 실행을 수행하는 온디바이스 어시스턴트 등 레이턴시에 민감한 단일 사용자 작업에서 빠른 응답을 제공하는 구조다.
이 같은 병렬 처리 방식은 메모리 대역폭 한계로 자원 활용이 제한되던 기존 LLM의 병목 현상을 해결했다. 대규모 병렬 연산에 특화된 엔비디아 텐서 코어와 쿠다(CUDA) 소프트웨어 스택을 만나면서 컴퓨팅 성능을 극대화한다.
실제 성능 측정 결과 디퓨전젬마는 단일 엔비디아 H100 GPU에서 초당 1000개 토큰, DGX 스파크에서 초당 150개 토큰을 처리했다. 748GB의 통합(coherent) 메모리를 기반으로 하는 DGX 스테이션에서는 초당 최대 2000개 토큰의 고속 추론 성능을 기록하며 동급 자기회귀 모델보다 약 4배 빠른 속도를 보였다.
이러한 성능상의 이점은 엔비디아 제품군 전반에서 발휘된다. 128GB 통합 메모리를 탑재한 엔비디아 GB10 그레이스 블랙웰 슈퍼칩 기반의 데스크사이드 개인용 AI 슈퍼컴퓨터 ‘DGX 스파크’에서는 프로토타이핑과 파인튜닝, 완전한 로컬 에이전트 워크플로우를 위한 소프트웨어 스택이 사전 설치돼 바로 실행할 수 있다. 전문 워크플로우를 위한 ‘RTX PRO 6000 워크스테이션’과 일반 사용자를 위한 ‘지포스 RTX GPU’도 지원하며, 지포스 RTX의 경우 향후 라마. cpp(llama. cpp) 지원이 추가될 예정이다.
디퓨전젬마는 아파치 2.0 라이선스 기반의 오픈 웨이트 모델로 제공돼 별도의 클라우드나 토큰당 비용 없이 허깅페이스 트랜스포머, vLLM, 언슬로스에서 기본 지원된다. 지포스 RTX 5090 또는 DGX 스파크 환경에서는 허깅페이스 트랜스포머를 통해 별도 설정 없이 바로 테스트할 수 있으며, 높은 처리량이 필요할 때는 vLLM을, 특정 도메인 맞춤형 적용 시에는 언슬로스와 엔비디아 네모(NeMo) 프레임워크를 통해 파인튜닝을 수행할 수 있다. 로컬 환경의 신속한 구동을 돕는 DGX 스파크, RTX PRO, DGX 스테이션용 vLLM 플레이북도 현재 열람 가능하다.
◇RTX AI 개러지 업데이트…비디오 모델·윈도우 에이전트 환경 강화
엔비디아는 이날 최신 개발자 혁신 기술을 다수 포함한 ‘RTX AI 개러지’ 업데이트도 함께 발표했다. 엔비디아 연구진은 단일 이미지와 카메라 경로 정보만으로 정밀한 6-DoF 제어가 가능한 720p 해상도의 1분 길이 오픈소스 비디오 월드 모델 ‘SANA-WM’을 공개했다. 26억 파라미터 규모의 이 모델은 NVFP4 포맷을 활용해 단일 지포스 RTX 5090 GPU에서 34초 만에 60초 분량의 비디오를 생성할 수 있다. 유사 오픈 모델 대비 처리량이 최대 36배 높다.
마이크로소프트와의 협력을 통한 윈도우 에이전트 구축 환경 강화 방안도 내놨다. 양사는 기본 윈도우 환경에서 활용 가능한 턴키 에이전트 샌드박싱 기능을 공개했다. 마이크로소프트 실행 컨테이너(eXecution Containers)와 엔비디아 오픈쉘(OpenShell) 런타임을 제공해 에이전틱 추론 속도를 최대 2배 향상시켰으며, 헤르메스 에이전트(Hermes Agent)의 기본 윈도우 지원도 추가했다.
개인용 AI 슈퍼컴퓨터인 ‘DGX 스파크’는 개봉 후 몇 분 만에 에이전트를 실행할 수 있는 환경을 제공한다. 간소화된 엔비디아 네모클로(NemoClaw) 설치 과정을 통해 개발자는 로컬 에이전트를 빠르게 활용할 수 있으며, 큐원(Qwen) 3.6-35B 모델은 vLLM에서 최대 2.6배 빠르게 실행된다. 아울러 새롭게 도입된 엔비디아 싱크(Sync)의 클러스터 어시스턴트 기능을 통해 최대 4대의 DGX 스파크를 하나의 512GB 풀로 연결, 약 4000억 개 파라미터 규모의 초대형 모델까지 로컬에서 실행할 수 있도록 지원한다.









