การวัดผล RAG และความปลอดภัย (Toxicity / Hallucination)
RAGAS, โทนภาษา และการวัดอาการมั่วของ AI เพื่อความปลอดภัยระดับ Enterprise
พื้นฐานที่ควรรู้: ถ้าระบบ RAG ของเราตอบผิด สาเหตุอาจเกิดได้จาก 2 ทาง คือ 1) ระบบค้นหาเอกสาร (Search) ดึงเอกสารมาผิดตั้งแต่แรก หรือ 2) ดึงมาถูกแล้ว แต่ตัว AI (LLM) สรุปความผิดหรือมั่วขึ้นมาเอง การวัดผลจึงต้องแยกส่วนกัน
Context Precision/Recall คือการเช็คว่าบรรณารักษ์เดินไปหยิบหนังสือมาถูกเล่มไหม Faithfulness คือการเช็คว่าบรรณารักษ์เปิดหนังสืออ่านแล้วสรุปตามนั้นเป๊ะๆ หรือแต่งเรื่องเสริมเอง Answer Relevance คือการเช็คว่าตอบตรงกับคำถามที่เราถามตอนแรกหรือเปล่า
Toxicity & Bias (ความเป็นพิษและอคติ)
นอกจากความถูกต้อง เราต้องมีตัววัดผลด้านความปลอดภัยด้วย (Safety Metrics) โดยมักจะมีเครื่องมือสแกน (เช่น Perspective API) เพื่อให้คะแนนจาก 0 ถึง 1 ว่าประโยคนี้มีความเกลียดชังทางเชื้อชาติ (Racism), คำหยาบ (Profanity), หรือคุกคามทางเพศหรือไม่ เพื่อบล็อกคำตอบก่อนส่งให้ผู้ใช้
สรุป Key Takeaways
- RAGAS คือเฟรมเวิร์กยอดฮิตสำหรับวัดผลระบบ RAG
- ต้องวัดทั้งฝั่ง Retrieval (ค้นเอกสารแม่นไหม) และ Generation (ตอบตรงไหม)
- Toxicity Metrics ช่วยสแกนหาคำหยาบ ความเกลียดชัง หรือการเหยียด

