AWS AI Practitioner· ~7 นาที

การวัดผล RAG และความปลอดภัย (Toxicity / Hallucination)

RAGAS, โทนภาษา และการวัดอาการมั่วของ AI เพื่อความปลอดภัยระดับ Enterprise

พื้นฐานที่ควรรู้: ถ้าระบบ RAG ของเราตอบผิด สาเหตุอาจเกิดได้จาก 2 ทาง คือ 1) ระบบค้นหาเอกสาร (Search) ดึงเอกสารมาผิดตั้งแต่แรก หรือ 2) ดึงมาถูกแล้ว แต่ตัว AI (LLM) สรุปความผิดหรือมั่วขึ้นมาเอง การวัดผลจึงต้องแยกส่วนกัน

ผู้ช่วยหาหนังสือในห้องสมุด

Context Precision/Recall คือการเช็คว่าบรรณารักษ์เดินไปหยิบหนังสือมาถูกเล่มไหม Faithfulness คือการเช็คว่าบรรณารักษ์เปิดหนังสืออ่านแล้วสรุปตามนั้นเป๊ะๆ หรือแต่งเรื่องเสริมเอง Answer Relevance คือการเช็คว่าตอบตรงกับคำถามที่เราถามตอนแรกหรือเปล่า

Toxicity & Bias (ความเป็นพิษและอคติ)

นอกจากความถูกต้อง เราต้องมีตัววัดผลด้านความปลอดภัยด้วย (Safety Metrics) โดยมักจะมีเครื่องมือสแกน (เช่น Perspective API) เพื่อให้คะแนนจาก 0 ถึง 1 ว่าประโยคนี้มีความเกลียดชังทางเชื้อชาติ (Racism), คำหยาบ (Profanity), หรือคุกคามทางเพศหรือไม่ เพื่อบล็อกคำตอบก่อนส่งให้ผู้ใช้

สรุป Key Takeaways

RAGAS คือเฟรมเวิร์กยอดฮิตสำหรับวัดผลระบบ RAG
ต้องวัดทั้งฝั่ง Retrieval (ค้นเอกสารแม่นไหม) และ Generation (ตอบตรงไหม)
Toxicity Metrics ช่วยสแกนหาคำหยาบ ความเกลียดชัง หรือการเหยียด

อ่านจบแล้วอย่าลืมทำเครื่องหมาย

ก่อนหน้าใช้ AI ตรวจ AI (LLM-as-a-Judge)ถัดไปหลักการของ Responsible AI