Mistral บริษัทปัญญาประดิษฐ์จากฝรั่งเศสเปิดตัวโมเดล LLM ในชื่อ Mistral Small 3 โมเดลแบบโอเพนซอร์สขนาด 24B แต่มีความสามารถใกล้เคียง GPT-4o-mini ที่เป็นโมเดลปิด
แนวทางการออกแบบของ Mistral Small 3 เน้นการลดชั้น (layer) ของโมเดล ทำให้มี latency ต่ำส่งผลถึงความเร็วในการตอบที่ระดับ 150 โทเค็นต่อวินาที
ผลการทดสอบของ Mistral Small 3 ทำได้ดีกว่าโมเดลขนาดใหญ่กว่าหลายตัว เช่น Gemma2-27B, Qwen-2.5-32B โดยรวมเข้าใกล้ GPT-4o-mini แนวทางการ
ทาง Mistral แนะนำให้ใช้งานโมเดลนี้ในกลุ่มงานที่ต้องการความเร็ว เช่น ผู้ช่วยที่ต้องการตอบผลทันที หรือการใช้เป็นโมเดลตั้งต้นสำหรับการ finetune ความรู้เฉพาะทางเพิ่มเติม ตลอดจนกรณีที่ต้องการรันโมเดลในศูนย์ข้อมูลขององค์กรเอง นอกจากนี้ยังโมเดลยังเป็นสัญญาอนุญาตแบบ Apache 2.0 เปิดทางให้สามารถฝึกคิดก่อนตอบแบบ DeepSeek-R1 ได้
โมเดลเปิดให้ใช้งานบน Le Platforme ของ Mistral เอง และยังใช้งานได้ผ่านแพลตฟอร์มอื่น เช่น Together.AI, IBM watsonx, หรือ Ollama
ที่มา - Mistral
Topics:
Mistral
LLM
Continue reading...
แนวทางการออกแบบของ Mistral Small 3 เน้นการลดชั้น (layer) ของโมเดล ทำให้มี latency ต่ำส่งผลถึงความเร็วในการตอบที่ระดับ 150 โทเค็นต่อวินาที
ผลการทดสอบของ Mistral Small 3 ทำได้ดีกว่าโมเดลขนาดใหญ่กว่าหลายตัว เช่น Gemma2-27B, Qwen-2.5-32B โดยรวมเข้าใกล้ GPT-4o-mini แนวทางการ
ทาง Mistral แนะนำให้ใช้งานโมเดลนี้ในกลุ่มงานที่ต้องการความเร็ว เช่น ผู้ช่วยที่ต้องการตอบผลทันที หรือการใช้เป็นโมเดลตั้งต้นสำหรับการ finetune ความรู้เฉพาะทางเพิ่มเติม ตลอดจนกรณีที่ต้องการรันโมเดลในศูนย์ข้อมูลขององค์กรเอง นอกจากนี้ยังโมเดลยังเป็นสัญญาอนุญาตแบบ Apache 2.0 เปิดทางให้สามารถฝึกคิดก่อนตอบแบบ DeepSeek-R1 ได้
โมเดลเปิดให้ใช้งานบน Le Platforme ของ Mistral เอง และยังใช้งานได้ผ่านแพลตฟอร์มอื่น เช่น Together.AI, IBM watsonx, หรือ Ollama
ที่มา - Mistral
Topics:
Mistral
LLM
Continue reading...