image credit : 스켈터랩스
인공지능 기술 기업 스켈터랩스는 자체 개발한 한국어 AI 언어 모델이 한국어 기계 독해(Machine Reading Comprehension, MRC) 데이터셋 ‘KorQuAD 1.0’ 기반 성능 평가 리더보드(Leaderboard)에서 F1 스코어 95.15점을 받아 1위를 기록했다고 14일 밝혔다.
KorQuAD 1.0은 LG CNS가 2018년 12월 공개한 한국어 질의응답 데이터셋으로, 기계 독해 AI 학습 및 검증을 위해 위키백과로부터 추출한 표준 데이터 7만 개로 구성되어 있다. 성능 평가는 데이터셋에서 추출한 내용을 질문으로 제시하고, 이에 대해 개발 모델이 답을 찾아내는 방식으로 이뤄진다. 개발된 AI 기계 독해 모델을 제출하면 모델이 찾은 답과 실제 정답을 글자 단위로 비교해, 정밀도(Precision)와 재현율(Recall)을 종합적으로 고려한 수치인 F1 스코어와 모델이 정답을 정확히 맞힌 데이터의 비율을 뜻하는 EM 스코어로 성능 평가 결과를 받을 수 있다. KorQuAD 독해 문제를 인간이 직접 풀었을 때는 F1 스코어 91.20점, EM 스코어 80.17점을 기록했으며, 이를 기준으로 인간 대비 AI의 독해력을 평가하고 있다.
스켈터랩스는 F1 스코어 95.15점으로 인간의 독해력 수준은 물론, 기존 등재된 AI 모델들을 뛰어넘는 점수를 받아 1위에 기록됐다. 이번에 평가받은 스켈터랩스 AI 모델은 적은 양의 학습 데이터로도 한국어에서 관찰되는 다양한 고유 특성을 학습할 수 있도록 설계됐다. 또한, 새롭게 개발되는 언어 모델이나 활용 분야에 대해 유연하게 적용할 수 있도록 자체 프레임워크를 개발해 모델의 성능을 향상하는 것에도 중점을 뒀다.
스켈터랩스는 해당 모델을 바탕으로 한 질의응답 기술을 올해 상반기 내 자사 AI 챗봇 설계 솔루션 AIQ.TALK Chatbot에 적용하고, 모듈 단위로도 제공할 예정이다. 이를 통해 금융, 보험, 법률, 특허, 의료 등의 분야에서 대용량의 광범위한 문서를 AI가 빠르고 정확하게 이해하여 사용자의 의사결정에 유용한 정보를 추출하는 데에 활용될 수 있다. 방대한 펀드 약관에서 사전 정의된 체크리스트를 바탕으로 AI가 내용을 분석하여 적정성 여부를 판단함으로써 심사 시간을 대폭 줄일 수 있는 것이 하나의 활용 예시이다.
스켈터랩스 조성진 CTO는 “방대한 양의 데이터와 자원을 보유하고 있는 기업이나 기관들 사이에서 스켈터랩스가 이들을 뛰어넘는 탁월한 기술우수성을 가지고 있다는 것을 보여준 기회라고 생각한다"며, “스켈터랩스는 해당 언어 모델의 성능을 지속적으로 향상해 한국어 자연어 이해(NLU) 분야에서 최고의 기술력을 갖춘 기업으로 공고히 자리매김해 나가는 한편, 음성인식 기술의 고도화에도 집중해 올해 1분기 내에 이 분야에서도 최고 성능임을 입증받을 것"이라고 말했다.
스켈터랩스 : https://www.skelterlabs.com/