Public 8등(EM:65.8300,F1:78.100) → Private 6등(EM:65.2800,F1:75.3100)
서버 문제로 인한 미제출 파일 제출 시
: Public 1등(EM : 70.4200, F1 : 81.1700) → Private 1등(EM: 68.3300 , F1 : 78.6500)
Question Answering (QA)은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야임.다양한 QA 시스템 중, Open-Domain Question Answering (ODQA) 은 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Knowledge resource 에서 질문에 대답할 수 있는 문서를 찾는 과정이 추가되기 때문에 더 어려운 문제임.
본 ODQA 대회에서 우리가 만들 모델은 two-stage로 구성되어 있음. 첫 단계는 질문에 관련된 문서를 찾아주는 "retriever" 단계이고, 다음으로는 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 "reader" 단계임. 두 가지 단계를 각각 구성하고 그것들을 적절히 통합하게 되면, 어려운 질문을 던져도 답변을 해주는 ODQA 시스템을 만들 수 있음.
retriever
wikipedia : 총 60613개
Column | description |
---|---|
text | 문서 내용 |
corpus_source | 문서 출처 |
title | 문서 주제 |
document_id | 문서 고유 번호 |
reader
korQuAD_v1.0 :
위와 같은 구조를 가진 데이터입니다. 하나의 context에 여러가지 질문이 담겨 있음.
이를 위와 같은 코드를 통해 context 가 같아도 질문이 다르면 전부 데이터를 사용함.
총 60407 개의 데이터를 만들 수 있었음.
ko_wiki_v1 :
AI-HUB 에 ‘일반상식’ 이라는 데이터에서 한글 위키피디아 를 바탕으로 질문 답변 쌍 데이터가 위와 같은 구조로 이루어져 있음. KorQuAD 와 비슷한 구조의 데이터 이므로 MRC 모델을 학습시키는데에 사용함. 총 68538 개의 데이터를 얻음.
KorQuAD 데이터와 Ko-WIKI 질문 답변 쌍 데이터가 context 와 질문이 같다면 데이터가 중복이라고 간주하고 삭제하는 과정을 거침. 이후 총 121483 개의 train 데이터를 얻음.
id
: 질문의 고유 idquestion
: 질문