
NC AI는 16일 한국어 기반 멀티모달 AI 기술력을 집약한 바르코 비전 2.0을 포함, 총 4종(14B / 1.7B / 1.7B OCR / 비디오-임베딩)의 멀티모달 AI(인공지능) 모델을 오픈소스로 공개한다고 발표했다.
NC AI는 오픈소스 텍스트 모델을 기반으로 추가학습을 통해 멀티모달 모델을 구축했다. 이번 멀티모달 모델은 최고 수준의 한국어 성능을 바탕으로 이미지와 텍스트를 함께 이해하는 능력을 갖춰 복잡한 문서처리 영역에 강점을 보인다.
이번 멀티모달 AI 모델 4종을 오픈소스로 공개, 기술 민주화에 기여해 정부가 추진하는 '소버린AI' 강화에 힘을 더한다는 계획이다. 회사 측은 한국어 특화 성능과 실용적 활용성을 겸비한 이들 모델이 다양한 국내 산업에 적용돼 AI 혁신을 가속화할 것으로 기대한다.
바르코 비전 2.0은 이미지와 텍스트를 함께 이해해 질문에 답할 수 있는 차세대 AI 모델이다. 여러 장의 이미지를 동시에 분석해 복잡한 문서나 표, 차트도 효과적으로 처리한다. 한국어와 영어 모두 자연스럽게 이해하고, 텍스트 생성 능력과 한국 문화에 대한 이해도도 크게 향상됐다.
이날 발표한 4종 모델 중 '바르코 비전 2.0 14B'(이하 14B)는 글로벌 VLM((비전언어모델) 중 최고 성능인 중국의 '인턴VL3-14B'(140억 파라미터)와 알리바바 오비스2(Ovis2-16B), 큐원2.5-VL 7B를 능가했다. 멀티모달 AI에서도 소버린AI의 가능성을 확인했다는 평가다. 이 모델은 멀티이미지 분석과 고도화된 추론이 필요한 업무 환경에 최적화돼 있다.
멀티모달 임베딩 모델은 텍스트, 이미지, 비디오 간의 의미적 유사도를 고차원 임베딩(영상 내용을 숫자로 변환해 저장) 공간에서 정밀 계산한다. 사용자가 자연어로 명령하면 동영상 콘텐츠를 고차원 임베딩으로 변환하고, 이 임베딩 간의 거리나 유사도를 기반으로 관련성 높은 이미지나 비디오를 검색한다. 특히 검색 벡터 개념을 도입, 비디오 검색 벤치마크(MultiVENT2.0) 제로샷 기준 최고 성능 모델로 등극했다. 잘 만들어진 검색 AI 능력을 복사해 영상 검색 AI에 더해주는 방식으로, 추가 학습 없이도 검색 성능을 강화했다.
해당 게시물에 음란물(아동 포함), 도박,광고가 있거나 바이러스, 사기파일이 첨부된 경우에 하단의 신고를 클릭해주세요.
단, 정상적인 게시물을 신고할 시 사이트 이용에 불이익을 받으실 수 있습니다.
ㅇㅅㅎ04 님의 최근 커뮤니티 글.