AWS AI Practitioner· ~6 นาที
การวัดผลสายสร้างข้อความ (BLEU & ROUGE)
เมื่อคำตอบไม่มีผิดถูก 100% เราจะวัดการแปลภาษาและการสรุปความได้อย่างไร
พื้นฐานที่ควรรู้: เมื่อ AI ต้องเขียนเรียงความ หรือแปลภาษา มันสามารถเขียนได้ 100 รูปแบบโดยที่ความหมายยังถูกเหมือนเดิม การจะให้คอมพิวเตอร์ตรวจเทียบตัวอักษรแบบเป๊ะๆ จึงทำไม่ได้
เหมือนอาจารย์ตรวจข้อสอบอัตนัย โดยการกวาดสายตาหา "คีย์เวิร์ด" ว่านักเรียนเขียนคำสำคัญที่ตรงกับธงคำตอบมาครบไหม ยิ่งมีคำตรงกันเยอะ ยิ่งได้คะแนนดี
Metrics ยอดนิยม
- BLEU (Bilingual Evaluation Understudy): เน้นความแม่นยำ (Precision) ดูว่าคำที่ AI ผลิตออกมา ปรากฏอยู่ในเฉลยเยอะแค่ไหน มักใช้กับงานแปลภาษา
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): เน้นความครอบคลุม (Recall) ดูว่าคำจากเฉลย โผล่ในคำตอบของ AI เยอะแค่ไหน มักใช้กับงานสรุปความ
สรุป Key Takeaways
- BLEU เหมาะกับงานแปลภาษา (Machine Translation)
- ROUGE เหมาะกับงานสรุปใจความ (Text Summarization)
- ทั้งสองตัววัดผลจากการนับคำที่ตรงกับเฉลย (N-gram overlap)
อ่านจบแล้วอย่าลืมทำเครื่องหมาย

