AWS AI Practitioner· ~6 นาที

การวัดผลสายสร้างข้อความ (BLEU & ROUGE)

เมื่อคำตอบไม่มีผิดถูก 100% เราจะวัดการแปลภาษาและการสรุปความได้อย่างไร

พื้นฐานที่ควรรู้: เมื่อ AI ต้องเขียนเรียงความ หรือแปลภาษา มันสามารถเขียนได้ 100 รูปแบบโดยที่ความหมายยังถูกเหมือนเดิม การจะให้คอมพิวเตอร์ตรวจเทียบตัวอักษรแบบเป๊ะๆ จึงทำไม่ได้

การตรวจการบ้านแบบหาคีย์เวิร์ด

เหมือนอาจารย์ตรวจข้อสอบอัตนัย โดยการกวาดสายตาหา "คีย์เวิร์ด" ว่านักเรียนเขียนคำสำคัญที่ตรงกับธงคำตอบมาครบไหม ยิ่งมีคำตรงกันเยอะ ยิ่งได้คะแนนดี

Metrics ยอดนิยม

BLEU (Bilingual Evaluation Understudy): เน้นความแม่นยำ (Precision) ดูว่าคำที่ AI ผลิตออกมา ปรากฏอยู่ในเฉลยเยอะแค่ไหน มักใช้กับงานแปลภาษา
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): เน้นความครอบคลุม (Recall) ดูว่าคำจากเฉลย โผล่ในคำตอบของ AI เยอะแค่ไหน มักใช้กับงานสรุปความ

สรุป Key Takeaways

BLEU เหมาะกับงานแปลภาษา (Machine Translation)
ROUGE เหมาะกับงานสรุปใจความ (Text Summarization)
ทั้งสองตัววัดผลจากการนับคำที่ตรงกับเฉลย (N-gram overlap)

อ่านจบแล้วอย่าลืมทำเครื่องหมาย

ก่อนหน้าการวัดผลแบบมีคำตอบตายตัว (Precision & Recall)ถัดไปใช้ AI ตรวจ AI (LLM-as-a-Judge)