[223]기계독해 QA: 검색인가, NLP인가?

기계독해 QA:
검색인가, NLP인가?
이름 : 서민준
소속 : NAVER / Clova ML

너 큰일난듯. 탑항공 폐업했대!
*실제로 일어난 일
허럴? 진짜?
왜 폐업했대?
몰라
내 표 환불가능할까?
도와줘 네이버!
도움이 안되는 친굴세.
전화도 안받어…

CONTENTS
1. 검색으로 “찾는” QA – 10분
2. NLP로 “읽는” QA – 10분
3. 검색과 NLP의 접점 – 20분
4. Q&A – 5분

1. 검색으로 “찾는” QA

탑항공 폐업
• 내용 및 제목의 관련성
• 비슷한 검색을 한 유저가 읽은 문서
• 웹사이트의 신뢰도
• 문서의 인기도
• 검색자의 정보
• …
종합적으로 고려해요!

탑항공 폐업
• 내용 및 제목의 관련성
• 비슷한 검색을 한 유저가 읽은 문서
• 웹사이트의 신뢰도
• 문서의 인기도
• 검색자의 정보
• …

Word Matching
검색한 단어가 존재하는 문서를 가져옴
• Ctrl-F
• 제목에만 적용할 경우 꽤 효과적임

“탑항공이 폐업한게 진짜임?”
“탑항공 폐업 레알?”

TF-IDF
Term Frequency – Inverse Document Frequency
• 중요 키워드 (흔하지 않은 단어)에 더 높은 가중치를 줌.
• 질문이 길어지고 문서 내용 검색을 한다면 필수

Okapi BM25
“Best Matching” (Robertson et al., 1970s)
• TF-IDF 의 “업그레이드 버젼”
• TF 부분을 변경
왜 더했다 뺐다
그러는 거야

LSA
Latent Semantic Analysis (Deerwester et al., 1988)
• Bag of words (sparse) à dense vector via SVD
• 각 단어에 추상적인 “태그”를 달아줌
• 추상적인 ”태그”를 통해 다른 단어끼리도 비교할 수 있게 됨.
• “폐업” ~ “망하다” ~ “몰락”

내가 궁금한 걸 꼭 집어서 알려줄 순 없어?
문서는 찾아드릴 수 있는데요…

검색의 한계
문장을 “읽는” 것이 아니다
• 단어 (lexical) 수준의 정보습득은 가능하나…
• 문법적 (syntactic) 또는 의미적 (semantic) 맥락을 파악 못함.
• 문서나 문단 수준 이상으로 “꼭 집어서” 답을 가져오기 힘듬.

게으른 우리가 원하는 것

제가 읽어봤는데요,
대내외적인 경영환경 악화로
폐업했대요.
왜 폐업했대?
똑똑하구만!

기계학습의 첫 단계:
인풋 ,아웃풋 정의하기

탑항공이 왜 폐업했대?
대내외적인 경영환경 악화
Inputs Output
일단 인풋과
아웃풋을
정의해보잣

생성모델은 매력적으로 보이지만…

Generative Model 의 문제점
서비스 퀄리티가 안나온다.
• 엉뚱한 답을 내는 경우가 너무 많음.
• 데이터 퀄리티 컨트롤이 어려움. (예: MS MARCO1)
1 Nguyen et al. MS MARCO: A human generated machine reading
comprehension dataset. 2016.
평가 (Evaluation) 도 어렵다.
• BLEU 가 있기는 하지만…

5분만에 보는
Neural Extractive QA Trend

7 Milestones in Extractive QA
1. Sentence-level QA (May 2015)
2. Phrase-level QA (May 2016)
3. Cross-attention (Nov 2016)
4. Self-attention (Mar 2017)
5. Transfer learning (Nov 2017)
6. Super-human level (Jan 2018)
7. What’s next? (Nov 2018)
Task definition
Models

7 Milestones in Extractive QA
1. Sentence-level QA (May 2015)
2. Phrase-level QA (May 2016)
3. Cross-attention (Nov 2016)
4. Self-attention (Mar 2017)
5. Transfer learning (Nov 2017)
6. Super-human level (Jan 2018)
7. What’s next? (Nov 2018)

1. Sentence-level QA
Second Epistle to the Corinthians The
Second Epistle to the Corinthians, often
referred to as Second Corinthians (and
written as 2 Corinthians), is the eighth book
of the New Testament of the Bible. Paul the
Apostle and “Timothy our brother” wrote
this epistle to “the church of God which is at
Corinth, with all the saints which are in all
Achaia”.
Who wrote second
Corinthians?
Yang et al. WikiQA: A Challenge Dataset for Open-domain
Question Answering. EMNLP 2015.

1. Sentence-level QA
this epistle to “the church of God which is
at Corinth, with all the saints which are in
all Achaia”.
Who wrote second
Corinthians?
Yang et al. WikiQA: A Challenge Dataset for Open-domain
Question Answering. EMNLP 2015.

하지만 답이 너무 길다…

답만 딱 보여줄 수 없을까?

2. Phrase-level QA
Achaia”.
Who wrote second
Corinthians?
Rajpurkar et al. SQuAD: 100,000+ Questions for Machine
Comprehension of Text. EMNLP 2016

2. Cross-attention
Achaia”.
Who wrote second
Corinthians?

문서를 읽으면서 질문을 참고
질문을 읽으면서 문서를 참고

2. Cross-attention
Achaia”.
Who wrote second
Corinthians?
Seo et al. Bi-directional attention flow for machine
comprehension. ICLR 2017.