News SCB10X ปล่อยโมเดล Typhoon2 มีทั้งรุ่นข้อความ, ภาพ, และโมเดลเสียง

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ BBimg Bot
  • วันที่เริ่มต้น วันที่เริ่มต้น

BBimg Bot

Moderator
สมาชิกทีมงาน
SCB10X ประกาศปล่อยโมเดลปัญญาประดิษฐ์ LLM โดยรองรับหลายรูปแบบทั้งแบบขัอความปกติ, แบบรับภาพ, และแบบรับ/ตอบเป็นเสียง

ตัวโมเดลทั้งหมดพัฒนาต่อมาจากโมเดลโอเพนซอร์ส Llama-3.1/3.2, Qwen2.5 พร้อมกับโมเดลความปลอดภัย Typhoon2-Safety ที่พัฒนามาจาก mdeberta-v3-base โดยจุดสำคัญคือการสร้างชุดข้อมูลที่สะท้อนวัฒนธรรมไทย ทีมงานสร้างโมเดลปัญญาประดิษฐ์มาจัดคะแนนข้อมูลว่าเกี่ยวข้องกับประเทศไทยหรือไม่ โดยให้คะแนน 1-5 ชุดข้อมูลที่ได้คะแนนเกินเกณฑ์ในหมวดต่างๆ ก็จะถูกนำมาใช้งาน ข้อมูลอีกส่วนหนึ่งยังเป็นการสร้างจาก LLM ที่อ่านข้อความแล้วเขียนเป็นภาษาไทยในสไตล์ หนังสือเรียน, บล็อก, หรือบทความวิชาการ

ผลการฝึกนั้น Typhoon2-Llama-70B-base สามารถทำคะแนนได้ดีกว่าโมเดลตั้งต้นอย่าง Llama3.1-70B ในทุกชุดทดสอบภาษาไทย ขณะที่โมเดลเวอร์ชั่นเล็กลงไปนั้นได้คะแนนดีขึ้นหลายชุดแม้จะมีบางส่วนคะแนนแย่ลงกว่าโมเดลตั้งต้นบ้าง

โมเดลแบบ multimodal นั้นมีสองรุ่น พัฒนามาจาก Llama 3.2 และ Qwen-VL สามารถทำคะแนนได้ดีขึ้นในการทดสอบภาษาไทยกว่าโมเดลเดิมอย่างชัดเจน เช่น ชุดทดสอบ OCR (TH) โมเดล Typhoon2-Llama-3.2-11Bทำคะแนน ROGUE-L ได้ 79.51 คะแนน ขณะโมเดลตั้งต้นได้ 64.41 คะแนน

โมเดลเสียงเป็นการประกอบ encoder เพื่อสร้างอินพุตให้กับโมเดล LLM ที่เป็น Typhoon2-8B (Llama-3.1) อีกที ส่วนเอาท์พุตสร้างจากสถาปัตยกรรม Llama-Omni แล้วสร้างชุดข้อมูลจากระบบแปลงข้อความเป็นเสียงของ Google Cloud Platform เมื่อวัดคะแนนทั้งในแง่ความผิดพลาดและคุณภาพเสียง Typhoon2 เอาชนะซอฟต์แวร์แปลงข้อความเป็นเสียงแบบโอเพนซอร์สได้ แต่ยังไม่สามารถเอาชนะบริการปิดผ่าน Google Cloud หรือ Azure ไปได้ โดยรายงานระบุว่าตอนนี้หากให้พูดไทย ก็จะเหมือนฝรั่งพูดไทย ขณะที่หากให้พูดภาษาอังกฤษก็จะเหมือนคนไทยพูดภาษาอังกฤษ

โมเดลทั้งหมดเปิดให้ดาวน์โหลดแล้วบน HuggingFace

ที่มา - SCB10X

No Description

Topics:
SCB10X
LLM
Artificial Intelligence

Continue reading...
 


กลับ
ยอดนิยม