뉴스펍

[이데일리 신영빈 기자] AI·클라우드 소프트웨어 기업 오케스트로가 기업의 생성형 AI 서비스 운영 효율을 높이기 위한 AI 추론 운영 플랫폼을 선보였다.

오케스트로는 보유 GPU 인프라의 활용 효율을 높이고 AI 서비스의 추론 병목을 줄이는 ‘콘체르토 AI(CONCERTO A.I.)’를 공개했다고 29일 밝혔다.

오케스트로, AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개 (사진=오케스트로)

생성형 AI 활용이 확산되면서 기업 AI 인프라의 과제는 GPU 확보에서 추론 운영 효율화로 이동하고 있다. AI 챗봇, 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스 등 상시 활용되는 AI 서비스가 늘면서 모델 호출과 추론 연산도 빠르게 증가하고 있기 때문이다.

콘체르토 AI는 대규모 추론 요청을 분산 처리하고 GPU·NPU 등 가속기 자원을 작업 특성에 맞게 배분하는 방식으로 보유 인프라의 활용 효율을 높인다. 기업은 이를 통해 GPU 추가 확보 부담을 줄이면서 AI 서비스 응답 지연과 자원 낭비를 완화할 수 있다.

핵심은 분산 서빙 기반 추론 최적화다. 기존 단일 처리 방식은 질문을 분석하는 작업과 답변을 생성하는 작업을 같은 GPU 자원에서 처리한다. 요청이 몰리면 한 작업의 지연이 다른 작업에 영향을 주며 전체 응답 속도가 떨어질 수 있다. 콘체르토 AI는 두 작업을 나눠 처리하고 각 작업에 적합한 자원을 배치해 병목을 줄인다.

오케스트로는 콘체르토 AI에 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간과 토큰 처리 속도를 개선했다고 설명했다. 실시간 대기열과 자원 상태를 반영한 지능형 라우팅 기능도 결합해 고부하 환경에서도 안정적인 응답 성능을 유지하도록 지원한다.

자체 온프레미스 AI 인프라 환경에서 진행한 벤치마크 테스트에서는 동시 요청이 집중되는 고부하 환경에서 콘체르토 AI의 분산 서빙 방식이 기존 단일 처리 방식 대비 토큰 출력 속도를 2.2배 빠르게 유지한 것으로 나타났다.

운영 자동화 기능도 강화했다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 대규모언어모델 운영(LLMOps)에 필요한 기능을 하나의 플랫폼에서 제공한다. 표준화된 모델 패키징 기술을 기반으로 쿠버네티스 파드 생성부터 엔드포인트 연결까지 배포 과정을 자동화하고, 배포 이후에는 초기 응답 시간, 토큰 처리 속도, 자원 사용량 등 주요 지표를 통합 모니터링할 수 있다.

오케스트로는 콘체르토 AI가 GPU뿐 아니라 리벨리온, 퓨리오사AI 등 국산 NPU 환경까지 지원한다고 밝혔다. 이를 통해 기업과 기관은 프라이빗 AI와 소버린 AI 환경에서 특정 하드웨어 벤더 의존도를 낮추고, 서비스 특성과 보유 인프라에 맞춰 AI 추론 자원을 유연하게 구성할 수 있다는 설명이다.

김범재 오케스트로 대표는 “생성형 AI가 실제 업무로 확산되고 에이전트형 AI 서비스가 늘어나면서 기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 “오케스트로는 콘체르토 AI를 기반으로 기업이 보유한 AI 인프라의 활용 효율을 높이고, 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다”고 말했다.

오케스트로, AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개

IT/과학

추천 뉴스