리벨리온 NPU 앞세운 가비아, ‘NPUaaS’ 출격…AI 추론 인프라 시장 정조준

IT/과학

이데일리,

2026년 4월 09일, 오후 03:31

[이데일리 김현아 기자] 가비아가 국내 AI 반도체 기업 리벨리온의 NPU ‘ATOM-Max’를 기반으로 한 클라우드 서비스 ‘NPUaaS(NPU as a Service)’를 9일 출시했다. 급증하는 AI 추론 수요에 대응해 국산 반도체 기반 인프라 대안을 제시하겠다는 전략이다.

최근 AI 산업이 모델 개발 단계를 넘어 실제 서비스 적용으로 빠르게 전환되면서, 생성형 AI와 AI 에이전트, 영상 분석 등 실시간 추론 인프라 수요가 크게 늘고 있다. 특히 GPU 공급 불안과 비용 부담이 커지면서, 기업들은 대안으로 NPU 기반 인프라 도입을 검토하는 추세다.

NPUaaS는 NPU 인프라를 클라우드 형태로 구독해 사용하는 서비스로, 학습된 AI 모델을 실제 서비스에 적용하는 ‘추론’ 작업에 특화돼 있다. GPU 대비 전력 효율과 비용 경쟁력이 높아 AI 인프라 운영 부담을 낮출 수 있다는 점이 특징이다.

가비아의 NPUaaS는 인스턴스(VM) 기반으로 제공되며, OS 커널 수준의 세밀한 설정과 커스터마이징이 가능하다. 이를 통해 기업은 특정 AI 워크로드에 맞춘 정밀한 인프라 구성을 구현하고, 필요에 따라 유연하게 확장할 수 있다.

서비스에 탑재된 ATOM-Max는 카드 1장 기준 128 TFLOPS(FP16) 연산 성능과 64GB NPU 메모리를 제공한다. 여기에 CPU 16vCore, 시스템 메모리 256GB, 월 4TB 트래픽이 포함되며, 대규모 언어모델(LLM), 비전 AI, 멀티모달, 피지컬 AI 등 다양한 워크로드를 지원한다.

특히 고성능 추론 환경이 필요한 대규모 LLM 서빙, 저지연이 요구되는 실시간 영상·음성 분석, 커널 수준 격리가 필요한 금융·의료·공공 분야 등에 적합하다는 설명이다.

가비아는 서비스 출시와 함께 ‘AI 추론 프레임워크 최적화 컨설팅’도 제공한다. 파이토치(PyTorch)와 텐서플로(TensorFlow) 기반 환경 설정부터 성능 튜닝까지 전문 인력이 지원하며, 허깅페이스 허브 오픈소스 모델 연동과 대규모언어모델 추론엔진(vLLM) 등 서빙 도구 활용도 가능하다.

또 라마3, 젬마 등 오픈소스 LLM이 ATOM-Max 환경에서 최적으로 구동될 수 있도록 프로파일링, 커널 최적화, 파라미터 튜닝 등 맞춤형 기술 지원도 병행한다. 해당 컨설팅은 도입을 검토 중인 PoC 고객사를 대상으로 우선 제공된다.

정대원 가비아 상무는 “AI 서비스 경쟁력은 모델뿐 아니라 추론 환경의 효율성에 달려 있다”며 “NPUaaS와 전문 컨설팅을 결합해 기업이 인프라 부담 없이 AI 비즈니스에 집중할 수 있도록 지원하겠다”고 밝혔다.

추천 뉴스