Table2text 2

ToTTo: A Controlled Table-To-Text Generation Dataset (EMNLP 2020)

구글 리서치에서 발표한 ToTTo 데이터셋에 대한 논문입니다. Table-to-Text generation 을 위한 데이터셋인데, 기존의 데이터셋을 이용한 텍스트 요약, Data-to-text dataset 등에서는 할루시네이션을 잘 일으킨다는 문제가 있었습니다. 이 때 할루시네이션은 맥락 상 말도 안되는 내용을 쓴다기 보다는 원문(source)에 충실하지 않은 텍스트 생성을 전반적으로 의미합니다. 이 할루시네이션 때문에 의료와 같이 높은 정확도가 요구되는 응용 분야에서는 사용 못하게 될 수도 있죠. Wikibio 데이터셋에 대한 베이스라인 신경망 모델의 예측 결과입니다. 벨기에 축구 스타디움에 대한 infobox 항목을 요약하는데, 피겨스케이트 선수라고 잘못 요약한 것을 확인할 수 있습니다. 이 같은 ..

Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time) (IJCNLP 2019 )

Table-to-Text generation을 위한 Efficient Hierachical Encoder을 제안하는 논문입니다. 이번 논문의 모델은 3개의 Layer로 구성되어 있습니다. 1) Record Encoder 2) Record Fusion gate 3) Row-level Encoder (content selection gate) 로 구성됩니다. 1) 행 차원, 열 차원, 시간 차원 총 3차원에 대해 self-attention 등의 기법을 사용해 정보를 추출하여 각 context vector 생성 2) 이를 Record Fusion gate에서 통합하여 하나의 Cell representation을 만듭니다. 3) Row-level Encoder에서는 Cell representation 들에 대해..

728x90