AWS AI Practitioner· ~5 นาที

ทำไมเราต้องวัดผล AI?

เข้าใจความสำคัญของการวัดผล (Evaluation) เพราะความรู้สึกว่า "ตอบดี" นั้นไม่สามารถวัดผลเป็นตัวเลขในระดับโปรดักชันได้

พื้นฐานที่ควรรู้: เวลาเราเขียนโปรแกรมปกติ เรามี Unit Test เพื่อยืนยันว่าโค้ดทำงานถูก 100% แต่ผลลัพธ์ของ AI (โดยเฉพาะ Generative AI) มักจะมีความลื่นไหลและเปลี่ยนไปเรื่อยๆ การใช้ Test แบบเดิมจึงไม่ตอบโจทย์ เราจึงต้องมี "มาตรวัด" (Metrics) เฉพาะทางเพื่อเช็คว่า AI ของเราเก่งขึ้นหรือแย่ลง

การตรวจการบ้านเรียงความ

การวัดผล AI เหมือนครูตรวจเรียงความ — มันไม่มีคำตอบที่ถูก 100% แบบคณิตศาสตร์ ครูต้องมีเกณฑ์ให้คะแนน (Rubric) เช่น ความสละสลวย, ความถูกต้องของข้อมูล, และการสะกดคำ เพื่อแปลงผลลัพธ์เชิงศิลปะให้กลายเป็นคะแนน

เราวัดผลไปทำไม?

เพื่อเลือกโมเดล: รุ่นเล็ก 8B เพียงพอไหม หรือต้องใช้รุ่นใหญ่ 70B?
เพื่อเช็คการอัปเดต: เปลี่ยน Prompt ใหม่แล้ว คำตอบโดยรวมดีขึ้นหรือแย่ลง?
เพื่อป้องกันระบบพัง: ตรวจจับว่า AI เริ่มให้ข้อมูลเท็จ (Hallucination) หรือพูดจาไม่สุภาพ (Toxicity) เกินลิมิตที่รับได้หรือยัง

สรุป Key Takeaways

Vibe Check (การลองพิมพ์ถามตอบ) เหมาะกับแค่ช่วงเริ่มต้น แต่ไม่พอสำหรับการทำระบบจริง
ต้องมี "ชุดข้อสอบ" (Dataset/Benchmarks) ให้ AI ทำซ้ำๆ เพื่อดูคะแนน
ตัวชี้วัดที่ต่างกัน เหมาะกับงานที่ต่างกัน (เช่น การแปลภาษา วัดผลต่างจากการแยกแยะสแปม)

อ่านจบแล้วอย่าลืมทำเครื่องหมาย

ก่อนหน้ารู้จักกับ Amazon Q ถัดไปการวัดผลแบบมีคำตอบตายตัว (Precision & Recall)