SKT 컨소시엄 주요 기업. (사진=SK텔레콤)

SK텔레콤 정예팀은 매개변수 519B(5190억 개) 규모의 초거대 AI 모델 'A.X K1(에이닷엑스 케이원)'의 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했다고 7일 밝혔다.

SK텔레콤 정예팀은 다양한 기술과 효율성을 극대화한 설계로 국내 첫 500B 이상 초거대 모델 'A.X K1'을 완성했다고 전했다. 한정된 시간 안에 519B 규모를 갖췄음에도 주요 벤치마크에서 딥시크-V3.1 등 세계적으로 많이 활용되는 초거대 모델과 유사하거나 더 높은 성능을 달성했다는 설명이다.

정예팀은 1000개의 GPU 자원을 활용해 'A.X K1' 학습을 진행했다. 학습 기간과 GPU 규모를 바탕으로 가능한 총 학습량을 추산하고, 이를 바탕으로 최대 모델 크기를 스케일링 이론(모델 성능은 투입 자원에 비례한다는 이론)에 근거해 설계했다.

모델 학습에는 웹 데이터, 코드, 이공계 데이터(STEM, Science, Technology, Engineering, Mathematics), 추론 데이터 등 다양한 고품질 데이터를 활용했다. 또 한국어 특화 PDF 문서를 파싱 및 합성 데이터를 생성했고, 난이도별 커리큘럼 학습 방식도 적용했다.

그 결과 'A.X K1'은 수학과 코딩 등 초거대 인공지능 모델의 능력을 필요로 하는 분야에서 우수한 성능을 구현했다.

수학은 AIME25 벤치마크에서 89.8점을 받아 딥시크-V3.1 모델(88.4점) 대비 102% 수준으로 앞선 성능을 확인했다. AIME25는 미국 고등학생 수학 올림피아드 문제로 AI의 수학 실력을 측정하며, 창의적이고 복잡한 난이도의 문제가 출제된다.

코딩 활용도 측면에서 측정한 LiveCodeBench는 영어 기반 75.8점, 한국어 기반 73.1점을 기록하며 실시간 코딩 문제 해결 능력을 입증했다. 영어 기반 69.5점, 한국어 기반 66.2점을 받은 딥시크-V3.1 대비 각각 109%, 110% 수준의 높은 성능을 보였다.

이밖에 'A.X K1'은 한 번에 128K 토큰의 긴 문맥도 처리할 수 있는 능력을 갖췄다. 이는 한국어 기준 약 10만 단어로, 인공지능 모델이 소설책 한 권 또는 기업 연간 보고서 한 권도 동시에 검토할 수 있게 돕는다.

SKT 정예팀 관계자는 "'A.X K1'은 향후 추가 연구 기간에 따라 더 많은 컴퓨팅 자원과 데이터를 투입해 성능을 더욱 높일 수 있는 모델"이라며 "연내 멀티모달 기능을 추가하고 조 단위 파라미터로 확대할 계획"이라고 말했다.