AWS AI Practitioner· ~7 นาที
ใช้ AI ตรวจ AI (LLM-as-a-Judge)
ทางออกที่ดีที่สุดในปัจจุบัน เมื่อตัวชี้วัดสถิติไม่ตอบโจทย์ความซับซ้อนของภาษา
พื้นฐานที่ควรรู้: ในยุคที่ AI สร้างบทกวี เขียนโค้ด และตอบคำถามปลายเปิดได้ ตัววัดผลแบบนับคำอย่าง BLEU หรือ ROUGE แทบจะหมดประโยชน์ ทางออกที่ดีที่สุดคือใช้ "มนุษย์" ตรวจ แต่การจ้างคนมานั่งอ่านคำตอบ 10,000 ข้อนั้นใช้เงินและเวลามหาศาล
เหมือนเราให้ AI รุ่นเล็ก (เช่น Llama 3 8B) ทำหน้าที่สร้างคำตอบ จากนั้นเราจ้าง AI รุ่นใหญ่ (เช่น GPT-4o) มาสวมบทเป็นอาจารย์คอยให้คะแนน 1-10 ตามเกณฑ์ที่เรากำหนด
คุณคือกรรมการประเมินคำตอบของ Customer Service AI
โปรดให้คะแนนคำตอบด้านล่างตั้งแต่ 1 ถึง 5 ตามเกณฑ์ต่อไปนี้:
- ความถูกต้องของข้อมูล (เปรียบเทียบกับเอกสารอ้างอิง)
- ความสุภาพและน้ำเสียงที่เหมาะสม
- ห้ามมีข้อมูลอ้างอิงที่แต่งขึ้นเอง (Hallucination)
คำถามจากลูกค้า: [คำถาม]
เอกสารอ้างอิง: [ข้อมูลจริง]
คำตอบจาก AI ของเรา: [คำตอบที่ต้องการประเมิน]
จงอธิบายเหตุผลทีละข้อ แล้วค่อยสรุปคะแนนในบรรทัดสุดท้ายแบบ JSON: {"score": 4}สรุป Key Takeaways
- Human Evaluation (ใช้คนตรวจ) ดีที่สุด แต่แพงและช้าที่สุด
- LLM-as-a-Judge คือการเอา AI รุ่นที่ฉลาดมากๆ (เช่น GPT-4o) มาเป็นกรรมการตรวจคำตอบของ AI รุ่นที่เล็กกว่า
- ต้องมี Rubric (เกณฑ์ให้คะแนน) ที่ชัดเจนให้กรรมการ
อ่านจบแล้วอย่าลืมทำเครื่องหมาย

