เมื่องาน Machine Learning พึ่งพาการ label จากมนุษย์เป็นหลัก แต่มนุษย์เองก็ผิดพลาดเรื่อง labels ได้ตลอดเวลา
เราจึงจำเป็นต้องมีโมเดลเพื่อประเมินความแม่นยำของการ labels อีกที เช่นงานนี้ครับ Bayesian Model of Annotations https://www.mitpressjournals.org/doi/pdfplus/10.1162/tacl_a_00040
ในงาน Text Generation การวัดผลลัพธ์ความแม่นยำของ Text ที่ถูกสร้างขึ้นก็สำคัญเช่นกัน metric มาตรฐานเช่น BLEU บังคับให้ text ที่ถูก generated ต้องใข้คำเช่นเดียวกันกับ Annotated Ground Truth ทั้งที่จริงๆ แล้ว เราสามารถเลือกหลากหลายคำที่ไม่จำเป็นต้องเหมือน Ground Truths เพื่อสร้าง texts ได้หลายรูปแบบ ดังนั้นจึงจำเป็นต้องมีการวัดผลที่สะท้อน Semantics (ความหมาย) ของ Generated texts มากขึ้นดังเช่น 2 งานล่าสุดใน ACL 2020 นี้ครับ
SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization https://www.aclweb.org/anthology/2020.acl-main.124.pdf
BLEURT: Learning Robust Metrics for Text Generation https://www.aclweb.org/anthology/2020.acl-main.704.pdf
ใน ACL2020 มีสองงานที่ดีมากๆ เสนอให้เราเปลี่ยนมุมมองและวิธีการวัดผลใหม่ทั้งหมด (Start from basics) คือให้ทำเป็น Checklists ในเรื่องง่ายๆ (ที่โมเดลไม่ควรผิดพลาด) และให้เน้นออกแบบ Checkllist ให้ครอบคลุมให้มากที่สุด
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
https://www.aclweb.org/anthology/2020.acl-main.442/
To Test Machine Comprehension, Start by Defining Comprehension
https://arxiv.org/abs/2005.01525 หรือ blog : https://www.elementalcognition.com/position-paper-blog