기존엔 대규모언어모델(LLM) 추론 과정에서 KV 캐시(KV Cache)가 메모리 병목의 핵심으로 지목돼 왔지만, 이를 4비트 이하로 압축하면서도 성능 저하를 최소화할 수 있게 되면 하이퍼스케일러들의 인프라 투자 효율이 한층 높아질 수 있다는 진단이다.
(표=하나증권)
구글은 이를 자사 모델인 젬마(Gemma)뿐 아니라 경쟁사 모델인 미스트랄(Mistral)에도 적용해 성능을 검증했으며, 오픈소스로 공개해 확산 가능성도 열어뒀다.
이 기술이 주목받는 이유는 추론 시스템의 메모리 효율을 크게 높일 수 있어서다. LLM 서비스 운영 시 GPU 메모리는 모델 가중치와 KV 캐시가 대부분을 차지하는데, 특히 문맥 길이가 길어질수록 KV 캐시가 차지하는 비중이 빠르게 커진다.
보고서는 이론적으로 KV 캐시를 4비트 수준으로 줄일 경우 동일한 메모리 용량에서 수용 가능한 컨텍스트 길이가 4배 늘어나거나, 동시 접속자 수를 4배까지 확대할 수 있다고 봤다. 이는 데이터센터 전력 소모 감소와 서버 구축 비용 절감으로 이어져 하이퍼스케일러의 투자수익률(ROI) 개선에 기여할 수 있다는 분석이다.
다만 김 연구원은 이 같은 압축 기술이 메모리 수요를 단순히 줄이는 방향으로만 작동하지는 않을 것으로 봤다. 메모리 업체 입장에서는 오히려 새로운 형태의 고성능 수요가 열릴 수 있다는 것이다. 압축된 데이터를 다시 풀어 연산하는 과정이 필요해지면서 HBM의 커스터마이징 수요가 확대되고, 메모리 단에서 압축·해제를 처리하는 PIM(Processor-in-Memory) 기술 고도화 필요성도 커질 것으로 예상했다. 결국 용량 자체보다 대역폭과 처리속도를 높이는 경쟁이 더 중요해질 수 있다는 설명이다.
일반 D램 역시 부정적으로만 볼 일은 아니라는 평가다. 표면적으로는 워크로드되는 용량이 줄어들 수 있지만, 고객사들이 실제로는 줄어든 메모리 사용량만큼 더 많은 사용자 요청을 처리하는 방향으로 시스템을 운영할 가능성이 높기 때문이다. 여기에 압축·해제 연산을 빠르게 처리하기 위해 일반 DDR5보다 대역폭이 높은 MRDIMM이나 SOCAMM2 같은 고성능 규격 수요도 늘어날 수 있다고 보고서는 짚었다.
스토리지의 역할 변화도 핵심 포인트로 제시됐다. 기존에는 SSD가 모델 가중치 로딩이나 체크포인트 저장 등 보조적 기능에 머물렀다면, 앞으로는 압축 기술 확산에 따라 스토리지가 사실상 확장 메모리처럼 활용될 수 있다는 것이다. 이에 따라 단순 저장용 SSD보다 읽기 속도가 빠른 NVMe Gen5·Gen6 기반 SSD의 중요성이 더 커질 것으로 전망됐다. 보고서는 이를 두고 ‘단순 용량’보다 ‘메모리처럼 작동하는 스토리지’의 비중이 커지는 방향이라고 해석했다.
결론적으로 김 연구원은 터보 퀀트 같은 압축 기술이 중장기적으로 보편화되더라도 AI 서비스 전체 사용량과 메모리의 절대 수요를 훼손할 가능성은 제한적이라고 판단했다. 비트당 수요 효율화로 메모리 비용 진입장벽이 낮아지면, 오히려 더 많은 AI 서비스와 추론 수요를 끌어내 전체 시장 파이를 키울 수 있다는 시각이다.
김 연구원은 이에 따라 반도체 업종에 대해 ‘비중확대(Overweight)’ 의견을 유지하고, 삼성전자(005930)와 SK하이닉스(000660)를 최선호 종목으로 제시했다. 목표주가는 각각 30만원, 145만원이다.









