AWS AI Practitioner· ~7 นาที

ใช้ AI ตรวจ AI (LLM-as-a-Judge)

ทางออกที่ดีที่สุดในปัจจุบัน เมื่อตัวชี้วัดสถิติไม่ตอบโจทย์ความซับซ้อนของภาษา

พื้นฐานที่ควรรู้: ในยุคที่ AI สร้างบทกวี เขียนโค้ด และตอบคำถามปลายเปิดได้ ตัววัดผลแบบนับคำอย่าง BLEU หรือ ROUGE แทบจะหมดประโยชน์ ทางออกที่ดีที่สุดคือใช้ "มนุษย์" ตรวจ แต่การจ้างคนมานั่งอ่านคำตอบ 10,000 ข้อนั้นใช้เงินและเวลามหาศาล

ส่งอาจารย์มหาวิทยาลัยมาตรวจงานเด็กมัธยม

เหมือนเราให้ AI รุ่นเล็ก (เช่น Llama 3 8B) ทำหน้าที่สร้างคำตอบ จากนั้นเราจ้าง AI รุ่นใหญ่ (เช่น GPT-4o) มาสวมบทเป็นอาจารย์คอยให้คะแนน 1-10 ตามเกณฑ์ที่เรากำหนด

คุณคือกรรมการประเมินคำตอบของ Customer Service AI
โปรดให้คะแนนคำตอบด้านล่างตั้งแต่ 1 ถึง 5 ตามเกณฑ์ต่อไปนี้:
- ความถูกต้องของข้อมูล (เปรียบเทียบกับเอกสารอ้างอิง)
- ความสุภาพและน้ำเสียงที่เหมาะสม
- ห้ามมีข้อมูลอ้างอิงที่แต่งขึ้นเอง (Hallucination)

คำถามจากลูกค้า: [คำถาม]
เอกสารอ้างอิง: [ข้อมูลจริง]
คำตอบจาก AI ของเรา: [คำตอบที่ต้องการประเมิน]

จงอธิบายเหตุผลทีละข้อ แล้วค่อยสรุปคะแนนในบรรทัดสุดท้ายแบบ JSON: {"score": 4}

💻 ตัวอย่าง Prompt สำหรับ LLM กรรมการ

สรุป Key Takeaways

Human Evaluation (ใช้คนตรวจ) ดีที่สุด แต่แพงและช้าที่สุด
LLM-as-a-Judge คือการเอา AI รุ่นที่ฉลาดมากๆ (เช่น GPT-4o) มาเป็นกรรมการตรวจคำตอบของ AI รุ่นที่เล็กกว่า
ต้องมี Rubric (เกณฑ์ให้คะแนน) ที่ชัดเจนให้กรรมการ

อ่านจบแล้วอย่าลืมทำเครื่องหมาย

ก่อนหน้าการวัดผลสายสร้างข้อความ (BLEU & ROUGE)ถัดไปการวัดผล RAG และความปลอดภัย (Toxicity / Hallucination)