AMD เผยผลการทดสอบเบนช์มาร์ก (benchmark) ด้านการฝึกอบรม
- AI training ใหม่ล่าสุด จากการส่งผลทดสอบ MLPerf 5.1
- ครั้งล่าสุด ซึ่งรวมถึงการใช้กราฟิกการ์ด (GPU) ซีรีส์
- AMD Instinct MI350 สำหรับการฝึกอบรม AI เป็นครั้งแรก
ผลการทดสอบเบนช์มาร์กเผยให้เห็นว่ากราฟิกการ์ดซีรีส์ AMD Instinct MI350 มอบประสิทธิภาพการประมวลผลที่เพิ่มขึ้นอย่างก้าวกระโดด (significant generational performance gains) แสดงให้เห็นประสิทธิภาพที่สูงขึ้นอย่างน่าประทับใจถึง 2.9 เท่า ในการทดสอบ Llama 2-70B เมื่อเทียบกับรุ่นก่อนหน้า
การทดสอบรอบนี้ยังถือเป็นสถิติใหม่ของการมีส่วนร่วมในอุตสาหกรรม โดยมีพันธมิตรเข้าร่วมถึง 9 ราย ที่ต่างส่งผลการทดสอบโดยใช้ฮาร์ดแวร์กราฟิกการ์ด AMD Instinct ประกอบด้วยผู้นำอุตสาหกรรมอย่าง Asustek, Cisco, Dell และ Mangoboost เป็นการตอกย้ำถึงความแข็งแกร่งและความยอดเยี่ยมของระบบนิเวศ AMD AI และความเชื่อมั่นในวงกว้างของอุตสาหกรรม
เพื่อให้สอดคล้องกับผลลัพธ์ MLPerf ที่ประกาศในวันนี้ AMD ได้เผยแพร่บล็อกเชิงเทคนิค (technical deep dive blog) ที่ให้รายละเอียดเพิ่มเติมเกี่ยวกับการส่งผลทดสอบครั้งนี้
AMD เปิดเผยผลลัพธ์ AI Training โมเดลภาษาขนาดใหญ่ (LLM) ในการทดสอบมาตรฐานอุตสาหกรรม MLPerf Training v5.1 ซึ่งเผยแพร่เมื่อวันที่ 12 พฤศจิกายน 2568 โดยนำเสนอประสิทธิภาพของ GPU Instinct™ รุ่นใหม่ล่าสุด และผลักดันการเพิ่มมาตรฐานการทดสอบใหม่ที่เข้าถึงได้ง่ายขึ้น
ไฮไลต์สำคัญใน MLPerf Training v5.1 ของ AMD
เปิดตัว GPU ใหม่: เป็นครั้งแรกที่มีการนำเสนอผลการทดสอบ MLPerf Training บนการ์ดประมวลผล AMD Instinct™ MI355X และ MI350X
มาตรฐานใหม่ Llama 3.1 8B Pretraining: AMD เป็นผู้นำในการพัฒนามิติการทดสอบใหม่นี้ ซึ่งออกแบบมาให้เป็นเวอร์ชันที่องค์กรหรือสถาบันการศึกษาที่มีทรัพยากรจำกัดสามารถเข้าถึงการวัดประสิทธิภาพการ Pretraining LLM ได้ง่ายขึ้น โดยยังคงคุณสมบัติทางเทคนิคส่วนใหญ่ของรุ่น Llama 3.1 405B ที่ใหญ่กว่าไว้
ทดสอบ GPU ถึง 3 เจเนอเรชัน: มีการส่งผลลัพธ์บน GPU ตระกูล AMD Instinct ถึงสามรุ่น ได้แก่ MI355X, MI350X, MI325X และ MI300X
เจาะลึก: ขุมพลังใหม่ AMD Instinct MI350 Series
AMD Instinct MI355X GPU ซึ่งใช้สถาปัตยกรรม AMD CDNA™ 4 ถูกออกแบบมาเพื่อมอบประสิทธิภาพอันโดดเด่นสำหรับการประมวลผล AI ยุคใหม่ โดยมีจุดเด่นดังนี้:
รองรับ FP4 แบบ Native: GPU ซีรีส์ MI350 รองรับความแม่นยำแบบ FP4 (4-bit floating-point) โดยตรง ให้ประสิทธิภาพสูงสุดถึง 20 Petaflops ซึ่งสำคัญอย่างยิ่งสำหรับการใช้งานโมเดล AI ขนาดใหญ่
หน่วยความจำชั้นนำของอุตสาหกรรม: มาพร้อมกับหน่วยความจำ HBM3e ขนาด 288 GB ซึ่งมีแบนด์วิดท์สูงถึง 8TB/s ช่วยลดภาระหน่วยความจำและการคำนวณได้อย่างมาก
ระบบระบายความร้อนด้วยของเหลว (Liquid Cooling): การรองรับการระบายความร้อนด้วยของเหลวช่วยให้ GPU สามารถรักษาประสิทธิภาพสูงสุดได้อย่างเสถียรภายใต้ภาระงานหนักต่อเนื่อง ทั้งยังช่วยลดการใช้พลังงานในศูนย์ข้อมูล
ผลการทดสอบและความได้เปรียบในการแข่งขัน
AMD ได้ส่งผลลัพธ์ในการทดสอบ Llama 2 70B LoRA finetuning และ Llama 3.1 8B pretraining โดยผลลัพธ์แสดงให้เห็นถึงความก้าวหน้าอย่างก้าวกระโดด:
ประสิทธิภาพที่เหนือกว่ารุ่นก่อน:
- MI355X แสดงประสิทธิภาพด้านเวลาในการฝึกอบรม ดีกว่า MI300X ถึง 2.8 เท่า
- MI355X ดีกว่า MI325X ถึง 2.1 เท่า
เทียบชั้นคู่แข่ง (Nvidia B200/B300):
- Llama 2 70B LoRA finetuning: ประสิทธิภาพของ AMD Instinct MI355X แตกต่างจากแพลตฟอร์ม B200 เพียง 3% และ B300 เพียง 6%
- Llama 3.1 8B pretraining: แตกต่างจาก B200 เพียง 6% และ B300 เพียง 5%
- โดยเฉพาะอย่างยิ่ง สำหรับการฝึกอบรมด้วยความแม่นยำ FP8 (ซึ่งเป็นที่ยอมรับอย่างกว้างขวางในอุตสาหกรรม) MI355X สามารถทำเวลาในภาระงาน Llama 2 70B LoRA finetuning ได้ที่ 10.18 นาที ซึ่ง ดีกว่าผลลัพธ์ FP8 ล่าสุดของ Nvidia (GB200) จากรอบ v5.0 ถึงเกือบ 10%
ความสามารถในการแข่งขันที่ใกล้เคียงกับแพลตฟอร์มของ Nvidia แสดงให้เห็นอย่างชัดเจนว่า GPU AMD Instinct ได้กลายเป็น "ทางเลือกที่แท้จริง" (real alternative) สำหรับภาระงาน AI Training ในระดับองค์กรแล้ว
เบื้องหลังความสำเร็จ: เทคนิคการเพิ่มประสิทธิภาพ
ผลลัพธ์ที่โดดเด่นนี้เกิดจากการปรับปรุงทั้งฮาร์ดแวร์และซอฟต์แวร์อย่างละเอียด:
- การปรับแต่ง GEMM: เนื่องจาก General Matrix Multiply (GEMM) เป็นการดำเนินการที่ใช้เวลาส่วนใหญ่ในภาระงาน LLM (กว่า 50%) AMD จึงได้พัฒนาโครงสร้างพื้นฐานอัตโนมัติเพื่อปรับแต่งขนาดไทล์ (tile sizes) เพื่อเพิ่มการใช้คอร์ประมวลผลให้สูงสุด
- Flash Attention v3 (FAv3): พัฒนา FAv3 ที่ใช้ AITER framework เพื่อปรับปรุงรูปแบบการเข้าถึงหน่วยความจำและการใช้คอร์ ทำให้การดำเนินการ Multi-Head Attention เร็วขึ้นอย่างมาก
- อัปเกรด Software Stack ครั้งใหญ่: อัปเกรดเป็น ROCm 7.0 (เพิ่มการสนับสนุน MI350 และ AI Tensor Engines พร้อม OCP-FP8/MXFP4) และ PyTorch 2.8 เพื่อให้การผสานรวมฮาร์ดแวร์-ซอฟต์แวร์ราบรื่นและใช้ประโยชน์จากการปรับปรุงประสิทธิภาพของ ROCm อย่างเต็มที่
- การปรับแต่งระบบ (System Tuning): ใช้สคริปต์เพื่อปรับแต่งระดับ OS เช่น การปิดใช้งานสถานะประหยัดพลังงานของ CPU, การตั้งค่าความถี่ CPU เป็นโหมดประสิทธิภาพ, และการเปิดใช้งาน Transparent Huge Pages (THP) เพื่อลดความหน่วงและเพิ่มประสิทธิภาพการเข้าถึงหน่วยความจำ
สรุป
การส่งผลงานใน MLPerf Training v5.1 ของ AMD เป็นการตอกย้ำถึงความสมบูรณ์ของระบบนิเวศแบบ "End-to-End" ทั้งด้านฮาร์ดแวร์ (GPU Instinct ที่มีแบนด์วิดท์สูง) และซอฟต์แวร์ (ROCm Stack และไลบรารีที่ได้รับการปรับแต่ง) ทำให้ AMD เป็นคู่แข่งที่น่าจับตามองในตลาด AI Training และเป็นตัวเลือกที่มีประสิทธิภาพสูงสำหรับองค์กรที่ต้องการพัฒนา LLM ในขนาดใหญ่



COMMENTS