(사진=AFP)
이 기술은 AI 시스템이 대화를 이어가거나 추론을 할 때 사용하는 ‘키-값 캐시’(key-value cache)의 병목 문제를 해결하는 것을 목표로 한다. 키-값 캐시는 AI가 이전에 처리한 정보를 임시로 저장해 두었다가 다음 계산에 빠르게 활용하도록 하는 일종의 작업 메모리 역할을 한다. LLM에서 대화 길이가 길어질수록 이 캐시에 저장해야 할 데이터가 급격히 늘어나면서 그래픽처리장치(GPU) 메모리를 많이 차지하게 된다. 이것은 비용 문제로 이어지는데, 터보퀀트는 이를 해결할 수 있는 기술이다.
구글 발표에 따르면 이 알고리즘은 추가 학습이나 미세 조정 없이도 키-값 캐시를 3비트 수준으로 압축하면서 모델 정확도를 유지할 수 있다. 오픈소스 모델을 대상으로 한 테스트에서는 키-값 메모리 크기를 6분의 1로 줄었다. 또한 엔비디아의 H100 GPU 가속기에서 종전 대비 최대 8배의 성능 향상도 확인됐다고 구글은 설명했다.
웰스파고 TMT 애널리스트 앤드루 로차는 “AI 모델이 한 번에 기억하고 참고할 수 있는 대화나 텍스트의 길이가 점점 길어지면서 이전 정보를 저장해 두는 키-값 캐시에 쌓이는 데이터도 급격히 늘어나고 있다. 그 결과 AI를 구동하는 데 필요한 메모리 용량도 계속 커지고 있다”며 “터보퀀트는 바로 이 비용을 해결하는 기술로, 널리 채택될 경우 비용 측면에서는 긍정적일 수 있다”고 말했다. 그는 또한 “필요한 메모리 사양이 낮아진다면 결국 전체 메모리 용량 수요가 얼마나 필요한지에 대한 의문이 제기될 수 있다”고 말했다.
다만 그는 이 기술이 구글에만 특화된 것인지, 다른 AI 연구소에서도 동일하게 적용될 수 있는지 아직 불확실하다고 말했다. 또한 실험실 테스트 결과가 실제 서비스 환경에서도 동일하게 나타날지 여부도 아직 확실하지 않다고 지적했다.
링스에쿼티스트래티지스의 KC 라지쿠마르 애널리스트는 “향후 3~5년 동안 극심한 공급 제약 때문에 이런 기술이 디램이나 플래시 메모리 수요를 크게 줄이기는 어렵다”며 “고급 압축 기술은 병목을 줄일 뿐 메모리 수요 자체를 파괴하지는 않는다”고 선을 그었다.









