구글 리서치에서 발표한 ToTTo 데이터셋에 대한 논문입니다. Table-to-Text generation 을 위한 데이터셋인데, 기존의 데이터셋을 이용한 텍스트 요약, Data-to-text dataset 등에서는 할루시네이션을 잘 일으킨다는 문제가 있었습니다. 이 때 할루시네이션은 맥락 상 말도 안되는 내용을 쓴다기 보다는 원문(source)에 충실하지 않은 텍스트 생성을 전반적으로 의미합니다. 이 할루시네이션 때문에 의료와 같이 높은 정확도가 요구되는 응용 분야에서는 사용 못하게 될 수도 있죠. Wikibio 데이터셋에 대한 베이스라인 신경망 모델의 예측 결과입니다. 벨기에 축구 스타디움에 대한 infobox 항목을 요약하는데, 피겨스케이트 선수라고 잘못 요약한 것을 확인할 수 있습니다. 이 같은 ..