ข้ามไปเนื้อหาหลัก
AI Mastery· ~5 นาที

AI อ่านรูปได้ — ส่งรูปให้วิเคราะห์

ใช้งาน Multimodal ส่งภาพให้ AI อธิบาย หรือดึงข้อมูล

ดวงตาของ AI (Vision Capabilities)

ความสามารถที่เรียกว่า Multimodal (มัลติโมดัล: การประมวลผลข้อมูลหลายรูปแบบ ทั้งข้อความ ภาพ เสียง) ทำให้เราส่งรูปให้ AI วิเคราะห์ได้

การอ่านภาพของ AI

เหมือนคุณตาบอดแล้วมีเพื่อนตาดีคอยอธิบายสิ่งที่อยู่ตรงหน้าให้ฟัง แต่เพื่อนคนนี้มีความจำระดับสารานุกรมโลก ทำให้บอกได้เลยว่าต้นไม้ในรูปคือพันธุ์อะไร หรือโค้ดในรูปผิดตรงไหน

[แนบรูปภาพใบเสร็จ / บิลค่าน้ำไฟ / สลิปโอนเงิน]
ช่วยดึงข้อมูลทั้งหมดออกมาเป็น JSON Format (ฟอร์แมตข้อมูลคอมพิวเตอร์)
ต้องมี Keys ดังนี้: store_name, date, total_amount, vat_amount, items (เป็น Array ของรายการสินค้า)
💻 Prompt สกัดข้อมูลจากใบเสร็จ

สรุป Key Takeaways

  • AI สามารถอ่านข้อความ (OCR) ในรูปภาพได้
  • สามารถส่ง Diagram ให้ AI อธิบายระบบ
  • เหมาะสำหรับงานดึงข้อมูลจากใบเสร็จ หรือแปลงภาพวาดบนกระดานเป็นตาราง
อ่านจบแล้วอย่าลืมทำเครื่องหมาย