AWS AI Practitioner· ~8 นาที

การวัดผลแบบมีคำตอบตายตัว (Precision & Recall)

เรียนรู้ตัวชี้วัดคลาสสิกสำหรับงานที่ AI ต้องฟันธง เช่น ตรวจจับสแปม, จัดหมวดหมู่

พื้นฐานที่ควรรู้: ในงานคลาสสิกของ Machine Learning อย่างเช่น "นี่คือรูปหมาหรือแมว?" หรือ "อีเมลนี้เป็น Spam หรือไม่?" เรามีคำตอบที่ถูกแบบเป๊ะๆ อยู่แล้ว เราจึงใช้วิธีวัดผลแบบสถิติพื้นฐาน

เครื่องตรวจจับโลหะที่สนามบิน

Precision (ความแม่นยำ): ถ้าเครื่องดัง แปลว่ามีมีดจริงๆ ใช่ไหม? (ถ้าดังแล้วเป็นแค่เหรียญ = False Positive รำคาญผู้โดยสาร) Recall (ความครอบคลุม): มีดที่ซ่อนอยู่ทั้งหมด เครื่องตรวจเจอหมดไหม? (ถ้ามีดหลุดเข้าเครื่องบินไปได้ = False Negative อันตรายมาก)

เลือกใช้อะไรดี?

งานที่กลัว False Positive: เช่น การวินิจฉัยโรคร้ายแรง ถ้าระบบบอกว่าเป็นมะเร็งแต่จริงๆ ไม่เป็น คนไข้จะเครียดฟรี แบบนี้ต้องเน้น Precision สูงๆ
งานที่กลัว False Negative: เช่น เครื่องตรวจระเบิด ถ้าระบบบอกว่าไม่มีระเบิดแต่จริงๆ มี คนจะตายหมด แบบนี้ต้องเน้น Recall สูงๆ (ยอมให้เครื่องดังบ่อยๆ แม้จะเป็นแค่พวงกุญแจ)
F1 Score: คือค่าเฉลี่ยแบบพิเศษที่บาลานซ์ระหว่าง Precision กับ Recall ใช้เมื่อเราอยากได้ความพอดี

สรุป Key Takeaways

Accuracy (ความแม่นยำรวม) อาจหลอกตาเราได้ถ้าระบบมีความไม่สมดุล (Imbalanced Data)
Precision (ความแม่นยำ) = ตอบไปแล้ว ถูกกี่เปอร์เซ็นต์ (เน้นชัวร์)
Recall (ความครอบคลุม) = ของจริงที่มีอยู่ หาเจอมากแค่ไหน (เน้นไม่ให้หลุด)

อ่านจบแล้วอย่าลืมทำเครื่องหมาย

ก่อนหน้าทำไมเราต้องวัดผล AI?ถัดไปการวัดผลสายสร้างข้อความ (BLEU & ROUGE)