Wrap-Up | Notion

NLP-08 조

대회 결과

Public 8등(EM:65.8300,F1:78.100) → Private 6등(EM:65.2800,F1:75.3100)

서버 문제로 인한 미제출 파일 제출 시

: Public 1등(EM : 70.4200, F1 : 81.1700) → Private 1등(EM: 68.3300 , F1 : 78.6500)

1-1. 프로젝트 개요

프로젝트 주제

Question Answering (QA)은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야임.다양한 QA 시스템 중, Open-Domain Question Answering (ODQA) 은 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Knowledge resource 에서 질문에 대답할 수 있는 문서를 찾는 과정이 추가되기 때문에 더 어려운 문제임.

스크린샷 2023-01-06 10.54.41.png

본 ODQA 대회에서 우리가 만들 모델은 two-stage로 구성되어 있음. 첫 단계는 질문에 관련된 문서를 찾아주는 "retriever" 단계이고, 다음으로는 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 "reader" 단계임. 두 가지 단계를 각각 구성하고 그것들을 적절히 통합하게 되면, 어려운 질문을 던져도 답변을 해주는 ODQA 시스템을 만들 수 있음.

Data 예시

retriever

wikipedia : 총 60613개

Column	description
text	문서 내용
corpus_source	문서 출처
title	문서 주제
document_id	문서 고유 번호

reader

korQuAD_v1.0 :

위와 같은 구조를 가진 데이터입니다. 하나의 context에 여러가지 질문이 담겨 있음.

이를 위와 같은 코드를 통해 context 가 같아도 질문이 다르면 전부 데이터를 사용함.

총 60407 개의 데이터를 만들 수 있었음.

ko_wiki_v1 :

AI-HUB 에 ‘일반상식’ 이라는 데이터에서 한글 위키피디아 를 바탕으로 질문 답변 쌍 데이터가 위와 같은 구조로 이루어져 있음. KorQuAD 와 비슷한 구조의 데이터 이므로 MRC 모델을 학습시키는데에 사용함. 총 68538 개의 데이터를 얻음.

KorQuAD 데이터와 Ko-WIKI 질문 답변 쌍 데이터가 context 와 질문이 같다면 데이터가 중복이라고 간주하고 삭제하는 과정을 거침. 이후 총 121483 개의 train 데이터를 얻음.

Untitled

id: 질문의 고유 id
question: 질문