ข้ามไปเนื้อหาหลัก
AWS AI Practitioner· ~6 นาที

การวัดผลสายสร้างข้อความ (BLEU & ROUGE)

เมื่อคำตอบไม่มีผิดถูก 100% เราจะวัดการแปลภาษาและการสรุปความได้อย่างไร

พื้นฐานที่ควรรู้: เมื่อ AI ต้องเขียนเรียงความ หรือแปลภาษา มันสามารถเขียนได้ 100 รูปแบบโดยที่ความหมายยังถูกเหมือนเดิม การจะให้คอมพิวเตอร์ตรวจเทียบตัวอักษรแบบเป๊ะๆ จึงทำไม่ได้

การตรวจการบ้านแบบหาคีย์เวิร์ด

เหมือนอาจารย์ตรวจข้อสอบอัตนัย โดยการกวาดสายตาหา "คีย์เวิร์ด" ว่านักเรียนเขียนคำสำคัญที่ตรงกับธงคำตอบมาครบไหม ยิ่งมีคำตรงกันเยอะ ยิ่งได้คะแนนดี

Metrics ยอดนิยม

  • BLEU (Bilingual Evaluation Understudy): เน้นความแม่นยำ (Precision) ดูว่าคำที่ AI ผลิตออกมา ปรากฏอยู่ในเฉลยเยอะแค่ไหน มักใช้กับงานแปลภาษา
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): เน้นความครอบคลุม (Recall) ดูว่าคำจากเฉลย โผล่ในคำตอบของ AI เยอะแค่ไหน มักใช้กับงานสรุปความ

สรุป Key Takeaways

  • BLEU เหมาะกับงานแปลภาษา (Machine Translation)
  • ROUGE เหมาะกับงานสรุปใจความ (Text Summarization)
  • ทั้งสองตัววัดผลจากการนับคำที่ตรงกับเฉลย (N-gram overlap)
อ่านจบแล้วอย่าลืมทำเครื่องหมาย