SKT는 7일 “4개월여의 짧은 개발 기간과 제한된 GPU 자원에도 효율을 극대화한 설계로 국내 첫 500B 이상 초거대 모델을 완성했다”며 “딥시크 V3.1 등 글로벌 오픈소스 초거대 모델과 비교해 유사하거나 더 높은 수준의 성능을 확인했다”고 밝혔다. 일반적으로 매개변수가 커질수록 최적화 시간과 GPU 투입이 늘어나는데, 최소 2배 이상 큰 모델 규모를 확보하면서도 성능 지표를 끌어올렸다는 설명이다.
김태윤 SK텔레콤 파운데이션 모델 담당이 지난달 19일 서울 중구 더플라자 호텔에서 열린 ‘이데일리 글로벌 AI포럼(GAIF 2025)’에서 ‘AI 국가대표 기업에 듣는다’ 주제로 발표를 하고 있다.[이데일리 이영훈 기자]
이번 보고서에 따르면 정예팀은 1000개의 GPU 자원을 활용해 학습을 진행했다. 학습 기간과 GPU 규모를 바탕으로 가능한 총 학습량을 추산한 뒤, 스케일링 이론을 근거로 목표 모델 크기를 설계했다. 그 결과 519B 규모를 목표로 정하고 약 10조개(10T) 데이터를 투입해 학습했다.
학습에는 웹 데이터, 코드, 이공계(STEM) 데이터, 추론 데이터 등 고품질 데이터를 활용했으며, 한국어 특화 PDF 문서를 파싱해 합성 데이터를 생성하고 난이도별 커리큘럼 학습 방식도 적용했다고 밝혔다.
SKT는 이번 개발이 정부 지원 없이 자체 GPU 조달로 진행됐다는 점도 의미로 짚었다.
성능 비교 결과도 공개했다. 수학 성능은 AIME25 벤치마크에서 89.8점을 기록해 딥시크 V3.1(88.4점) 대비 102% 수준이라고 밝혔다. 코딩 성능을 측정하는 LiveCodeBench에서는 영어 기반 75.8점, 한국어 기반 73.1점을 기록했다. 딥시크 V3.1의 영어 기반 69.5점, 한국어 기반 66.2점과 비교해 각각 109%, 110% 수준이라는 설명이다. 보고서에는 매개변수 685B의 딥시크 V3.1과 357B의 GLM 4.6 등과의 비교를 통해 ‘규모 대비 성능’을 확인할 수 있도록 구성했다고 SKT는 덧붙였다.
모델 구조 측면에서는 전체 519B 중 33B만 선택적으로 활성화하는 전문가 혼합(MoE) 방식을 적용해 효율을 높이고, 훈련 안정성과 효율을 동시에 확보했다고 밝혔다. 또 128K 토큰의 긴 문맥을 처리할 수 있도록 설계해, 한국어 기준 약 10만 단어 분량의 자료도 한 번에 다룰 수 있다고 설명했다.









