News DeepSeek v3 โมเดลเปิดให้รันเองขนาด 685B ทดสอบเขียนโค้ดคะแนนดีกว่า Claude 3.5 Sonnet

BBimg Bot · 2024-12-26T21:33:31+0700

DeepSeek ผู้พัฒนาปัญญาประดิษฐ์ LLM จากจีน ปล่อยโมเดล DeepSeek v3 โมเดล LLM ขนาดใหญ่มาก จำนวนพารามิเตอร์มากขึ้น 685B จากเดิมที่โมเดลเปิดใหญ่สุดคือ Llama 3.1 405B

ตอนนี้ยังไม่มีข้อมูลเกี่ยวกับโมเดลนี้นัก แต่ทาง Aider โครงการซอฟต์แวร์ช่วยเขียนโปรแกรมก็โชว์ผลทดสอบพบว่า DeepSeek v3 ทำคะแนนทดสอบได้ดีมาก แซงหน้า Claude 3.5 Sonnet อละ Gemini Exp 1206 ไปได้ เป็นรองเพียง OpenAI o1 เท่านั้น ตัวโมเดลใช้สถาปัตยกรรม Mixture-of-Experts แยก expert ออก 256 ชุด และเลือกใช้ 8 ชุดในแต่ละ token

ตอนนี้ยังไม่มีเอกสารเพิ่มเติมว่าโมเดลที่ปล่อยออกมาใช้ไลเซนส์แบบใด แต่คาดว่าจะเป็น DeepSeek License ที่ใช้งานได้ค่่อนข้างอิสระ ยกเว้นการใช้งานผิดกฎหมายหรือการใช้งานทางการทหาร

ที่มา - Simon Willson's Weblog, Aider Leaderboard

Topics:
LLM
Artificial Intelligence

Continue reading...

News DeepSeek v3 โมเดลเปิดให้รันเองขนาด 685B ทดสอบเขียนโค้ดคะแนนดีกว่า Claude 3.5 Sonnet

BBimg Bot

Moderator