(사진=NC AI)

엔씨소프트의 AI 자회사 NC AI가 16일 한국어 기반 멀티모달 AI 기술력을 집약한 ‘VARCO-VISION 2.0’ 멀티모달 AI 모델 4종을 오픈소스로 공개한다고 발표했다.

NC AI는 “오픈소스 텍스트 모델을 기반으로 추가학습을 통해 멀티모달 모델을 구축, 최고 수준의 한국어 성능을 바탕으로 이미지와 텍스트를 함께 이해하는 능력을 갖춘 차세대 인공지능 모델을 선보였다”고 밝혔다.

특히 VARCO-VISION 2.0 14B는 글로벌 오픈소스 VLM((비전언어모델) 최고 성능으로 알려진 InternVL3-14B(140억 파라미터)와 알리바바의 Ovis2-16B, Qwen2.5-VL 7B를 능가하는 성과를 달성했다. 4종의 모델 중 14B와 임베딩 모델 2종은 오늘, 1.7B와 OCR모델은 차주 중 공개 예정이다.

NC AI의 VARCO-VISION 2.0은 이미지와 텍스트를 함께 이해해 질문에 답할 수 있는 차세대 인공지능 모델로, 여러 장의 이미지를 동시에 분석할 수 있어 복잡한 문서나 표, 차트도 효과적으로 처리할 수 있다는 점이 핵심 차별화 요소다. 한국어와 영어 모두 자연스럽게 이해할 수 있으며, 특히 텍스트 생성 능력과 한국 문화에 대한 이해도를 크게 향상시켰다고 회사 측은 설명했다.

특히 오늘 공개된 14B모델의 경우 멀티모달 AI로 기존 최고 성능으로 알려진 InternVL3-14B, Ovis2-16B, Qwen2.5-VL 7B 등 동급 모델들을 영문 이미지 이해, 한국어 이미지 이해, OCR 벤치마크 등 다양한 벤치마크에서 능가하며, 멀티모달 AI에서도 소버린AI의 가능성을 확인했다고 전했다.

이번에 공개된 4종의 모델은 금융, 교육, 문화, 쇼핑, 제조 등 다양한 도메인에서 활용 가능하다. 복잡한 보고서, 계약서, 청구서 등의 자동 분석 및 디지털화, 표와 차트가 포함된 문서 처리나 주문서 자동 정리 및 요약 등 문서 처리 및 자동화 분야에서 광범위하게 활용할 수 있다. 또 제품 이미지 기반 자동 설명 생성, 비디오 콘텐츠의 자연어 기반 검색 시스템, 크리에이티브 콘텐츠 생성 및 광고 문구 작성 등 콘텐츠 및 미디어 분야에서도 업무효율의 증대를 가져올 것으로 예상된다.

NC AI는 이번에 공개하는 4종 모델 모두를 연구용 오픈소스로 공개해 국내 AI 기술의 자주성과 접근성을 동시에 높일 계획이다.

이연수 NC AI 대표는 “기술 고도화로 글로벌 트렌드가 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전언어모델로 전환되고 있다”며 “이번 4종 모델 공개를 통해 미디어와 게임, 패션 등 버티컬 AI로 기존 국내 멀티모달 AI를 선도하는 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다”고 밝혔다.