지난해 12월 30일 오후 서울 강남구 코엑스 오디토리움에서 열린 '독자 AI파운데이션 프로젝트' 발표회에서 참관객들이 SK텔레콤의 AI모델 'A.X K1'을 체험하기 위해 줄을 서고 있다. 2025.12.30/뉴스1 © News1 구윤성 기자
SK텔레콤(017670) 정예팀이 매개변수 5190억 개(519B) 규모의 초거대 인공지능(AI) 모델 'A.X K1'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 7일 공개했다.
A.X K1은 약 4개월의 짧은 개발 기간과 제한된 GPU 자원 속에서 500B급 초거대 모델 구현에 성공한 것이 특징이다.
정예팀은 약 1000개의 GPU로 학습을 진행했으며, 학습 기간과 자원 규모를 고려해 투입 가능한 연산량을 수학적으로 설계해 519B라는 드문 모델 구조를 채택했다.
학습에는 웹 데이터, 코드, 과학·기술·공학·수학(STEM) 데이터, 추론 데이터 등 고품질 데이터 등 약 10조 개의 고품질 데이터가 활용됐다.
'A.X K1'는 수학과 코딩 등 초거대 인공지능 모델의 능력을 필요로 하는 분야에서 우수한 성능을 나타냈다. 특히 글로벌 오픈소스 대표 모델인 '딥시크-V3.1'과 비교한 벤치마크에서 규모 대비 높은 성능을 기록했다.
수학 올림피아드 기반 AIME25에서는 89.8점으로 딥시크(88.4점) 대비 102% 수준의 앞선 성능이 확인됐다. AIME25는 미국 고등학생 수학 올림피아드 문제로 AI의 수학 실력을 측정하며, 창의적이고 복잡한 난이도의 문제가 출제된다.
AI가 실시간으로 나오는 최신 코딩 문제를 얼마나 잘 푸는지 측정하는 시험인 LiveCodeBench에서도 영어 75.8점, 한국어 73.1점으로 각각 딥시크 대비 109%, 110% 수준의 성능을 보였다.
A.X K1은 전체 519B 파라미터 중 33B만 활성화하는 전문가 혼합(MoE) 구조를 채택해 연산 효율과 학습 안정성을 동시에 확보했다. MoE란 여러 개의 작은 전문가 모델들이 모여서 하나의 큰 문제를 해결하는 방식이다. 각 전문가 모델은 특정 유형의 데이터를 잘 처리하도록 특화돼 있고, 입력 데이터에 따라 가장 적합한 전문가가 선택되어 문제를 해결한다.
또한 A.X K1은 최대 128K 토큰의 긴 문맥을 처리할 수 있다. 한국어 기준 약 10만 단어로, 인공지능 모델이 소설책 한 권 또는 기업 연간 보고서 한 권도 동시에 검토할 수 있다.
이번 개발은 정부 지원 없이 자체 조달한 GPU 자원만으로 이뤄졌다. SKT는 연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획이다.
kxmxs4104@news1.kr









