DeepSeek ผู้พัฒนาปัญญาประดิษฐ์ LLM จากจีน ปล่อยโมเดล DeepSeek v3 โมเดล LLM ขนาดใหญ่มาก จำนวนพารามิเตอร์มากขึ้น 685B จากเดิมที่โมเดลเปิดใหญ่สุดคือ Llama 3.1 405B
ตอนนี้ยังไม่มีข้อมูลเกี่ยวกับโมเดลนี้นัก แต่ทาง Aider โครงการซอฟต์แวร์ช่วยเขียนโปรแกรมก็โชว์ผลทดสอบพบว่า DeepSeek v3 ทำคะแนนทดสอบได้ดีมาก แซงหน้า Claude 3.5 Sonnet อละ Gemini Exp 1206 ไปได้ เป็นรองเพียง OpenAI o1 เท่านั้น ตัวโมเดลใช้สถาปัตยกรรม Mixture-of-Experts แยก expert ออก 256 ชุด และเลือกใช้ 8 ชุดในแต่ละ token
ตอนนี้ยังไม่มีเอกสารเพิ่มเติมว่าโมเดลที่ปล่อยออกมาใช้ไลเซนส์แบบใด แต่คาดว่าจะเป็น DeepSeek License ที่ใช้งานได้ค่่อนข้างอิสระ ยกเว้นการใช้งานผิดกฎหมายหรือการใช้งานทางการทหาร
ที่มา - Simon Willson's Weblog, Aider Leaderboard
Topics:
LLM
Artificial Intelligence
Continue reading...
ตอนนี้ยังไม่มีข้อมูลเกี่ยวกับโมเดลนี้นัก แต่ทาง Aider โครงการซอฟต์แวร์ช่วยเขียนโปรแกรมก็โชว์ผลทดสอบพบว่า DeepSeek v3 ทำคะแนนทดสอบได้ดีมาก แซงหน้า Claude 3.5 Sonnet อละ Gemini Exp 1206 ไปได้ เป็นรองเพียง OpenAI o1 เท่านั้น ตัวโมเดลใช้สถาปัตยกรรม Mixture-of-Experts แยก expert ออก 256 ชุด และเลือกใช้ 8 ชุดในแต่ละ token
ตอนนี้ยังไม่มีเอกสารเพิ่มเติมว่าโมเดลที่ปล่อยออกมาใช้ไลเซนส์แบบใด แต่คาดว่าจะเป็น DeepSeek License ที่ใช้งานได้ค่่อนข้างอิสระ ยกเว้นการใช้งานผิดกฎหมายหรือการใช้งานทางการทหาร
ที่มา - Simon Willson's Weblog, Aider Leaderboard
Topics:
LLM
Artificial Intelligence
Continue reading...