AWS AI Practitioner· ~5 นาที
ทำไมเราต้องวัดผล AI?
เข้าใจความสำคัญของการวัดผล (Evaluation) เพราะความรู้สึกว่า "ตอบดี" นั้นไม่สามารถวัดผลเป็นตัวเลขในระดับโปรดักชันได้
พื้นฐานที่ควรรู้: เวลาเราเขียนโปรแกรมปกติ เรามี Unit Test เพื่อยืนยันว่าโค้ดทำงานถูก 100% แต่ผลลัพธ์ของ AI (โดยเฉพาะ Generative AI) มักจะมีความลื่นไหลและเปลี่ยนไปเรื่อยๆ การใช้ Test แบบเดิมจึงไม่ตอบโจทย์ เราจึงต้องมี "มาตรวัด" (Metrics) เฉพาะทางเพื่อเช็คว่า AI ของเราเก่งขึ้นหรือแย่ลง
การวัดผล AI เหมือนครูตรวจเรียงความ — มันไม่มีคำตอบที่ถูก 100% แบบคณิตศาสตร์ ครูต้องมีเกณฑ์ให้คะแนน (Rubric) เช่น ความสละสลวย, ความถูกต้องของข้อมูล, และการสะกดคำ เพื่อแปลงผลลัพธ์เชิงศิลปะให้กลายเป็นคะแนน
เราวัดผลไปทำไม?
- เพื่อเลือกโมเดล: รุ่นเล็ก 8B เพียงพอไหม หรือต้องใช้รุ่นใหญ่ 70B?
- เพื่อเช็คการอัปเดต: เปลี่ยน Prompt ใหม่แล้ว คำตอบโดยรวมดีขึ้นหรือแย่ลง?
- เพื่อป้องกันระบบพัง: ตรวจจับว่า AI เริ่มให้ข้อมูลเท็จ (Hallucination) หรือพูดจาไม่สุภาพ (Toxicity) เกินลิมิตที่รับได้หรือยัง
สรุป Key Takeaways
- Vibe Check (การลองพิมพ์ถามตอบ) เหมาะกับแค่ช่วงเริ่มต้น แต่ไม่พอสำหรับการทำระบบจริง
- ต้องมี "ชุดข้อสอบ" (Dataset/Benchmarks) ให้ AI ทำซ้ำๆ เพื่อดูคะแนน
- ตัวชี้วัดที่ต่างกัน เหมาะกับงานที่ต่างกัน (เช่น การแปลภาษา วัดผลต่างจากการแยกแยะสแปม)
อ่านจบแล้วอย่าลืมทำเครื่องหมาย

