메모리 효율↑… 반도체 급락 가져온 구글 ‘터보 퀀트’는?

해외

이데일리,

2026년 3월 26일, 오후 07:21

[이데일리 김윤지 기자] 삼성전자(005930), SK하이닉스(000660)가 26일 급락한 가운데 메모리 관련 주식의 주가 하락 배경으로 구글의 ‘터보 퀀트(Turbo Quant)’에 관심이 쏠린다.

(사진=AFP)
구글이 전일 공개한 터보 퀀트는 대형언어모델(LLM)과 비슷한 데이터를 찾아주는 ‘벡터 검색 엔진’에서 메모리 사용량을 줄이는 압축 기술이다. 즉, 인공지능(AI) 시스템의 메모리 반도체 사용 효율성을 이 알고리즘의 핵심이다.

이 기술은 AI 시스템이 대화를 이어가거나 추론을 할 때 사용하는 ‘키-값 캐시’(key-value cache)의 병목 문제를 해결하는 것을 목표로 한다. 키-값 캐시는 AI가 이전에 처리한 정보를 임시로 저장해 두었다가 다음 계산에 빠르게 활용하도록 하는 일종의 작업 메모리 역할을 한다. LLM에서 대화 길이가 길어질수록 이 캐시에 저장해야 할 데이터가 급격히 늘어나면서 그래픽처리장치(GPU) 메모리를 많이 차지하게 된다. 이것은 비용 문제로 이어지는데, 터보퀀트는 이를 해결할 수 있는 기술이다.

구글 발표에 따르면 이 알고리즘은 추가 학습이나 미세 조정 없이도 키-값 캐시를 3비트 수준으로 압축하면서 모델 정확도를 유지할 수 있다. 오픈소스 모델을 대상으로 한 테스트에서는 키-값 메모리 크기를 6분의 1로 줄었다. 또한 엔비디아의 H100 GPU 가속기에서 종전 대비 최대 8배의 성능 향상도 확인됐다고 구글은 설명했다.

웰스파고 TMT 애널리스트 앤드루 로차는 “AI 모델이 한 번에 기억하고 참고할 수 있는 대화나 텍스트의 길이가 점점 길어지면서 이전 정보를 저장해 두는 키-값 캐시에 쌓이는 데이터도 급격히 늘어나고 있다. 그 결과 AI를 구동하는 데 필요한 메모리 용량도 계속 커지고 있다”며 “터보퀀트는 바로 이 비용을 해결하는 기술로, 널리 채택될 경우 비용 측면에서는 긍정적일 수 있다”고 말했다. 그는 또한 “필요한 메모리 사양이 낮아진다면 결국 전체 메모리 용량 수요가 얼마나 필요한지에 대한 의문이 제기될 수 있다”고 말했다.

다만 그는 이 기술이 구글에만 특화된 것인지, 다른 AI 연구소에서도 동일하게 적용될 수 있는지 아직 불확실하다고 말했다. 또한 실험실 테스트 결과가 실제 서비스 환경에서도 동일하게 나타날지 여부도 아직 확실하지 않다고 지적했다.

링스에쿼티스트래티지스의 KC 라지쿠마르 애널리스트는 “향후 3~5년 동안 극심한 공급 제약 때문에 이런 기술이 디램이나 플래시 메모리 수요를 크게 줄이기는 어렵다”며 “고급 압축 기술은 병목을 줄일 뿐 메모리 수요 자체를 파괴하지는 않는다”고 선을 그었다.


추천 뉴스