AMD โชว์ศักยภาพ GPU Instinct MI355X ท้าชนคู่แข่งใน MLPerf Training v5.1 พร้อมเปิดตัวมาตรฐานใหม่ Llama 3.1 8B

AMD เผยผลการทดสอบเบนช์มาร์ก (benchmark) ด้านการฝึกอบรม

AI training ใหม่ล่าสุด จากการส่งผลทดสอบ MLPerf 5.1
ครั้งล่าสุด ซึ่งรวมถึงการใช้กราฟิกการ์ด (GPU) ซีรีส์
AMD Instinct MI350 สำหรับการฝึกอบรม AI เป็นครั้งแรก

ผลการทดสอบเบนช์มาร์กเผยให้เห็นว่ากราฟิกการ์ดซีรีส์ AMD Instinct MI350 มอบประสิทธิภาพการประมวลผลที่เพิ่มขึ้นอย่างก้าวกระโดด (significant generational performance gains) แสดงให้เห็นประสิทธิภาพที่สูงขึ้นอย่างน่าประทับใจถึง 2.9 เท่า ในการทดสอบ Llama 2-70B เมื่อเทียบกับรุ่นก่อนหน้า

การทดสอบรอบนี้ยังถือเป็นสถิติใหม่ของการมีส่วนร่วมในอุตสาหกรรม โดยมีพันธมิตรเข้าร่วมถึง 9 ราย ที่ต่างส่งผลการทดสอบโดยใช้ฮาร์ดแวร์กราฟิกการ์ด AMD Instinct ประกอบด้วยผู้นำอุตสาหกรรมอย่าง Asustek, Cisco, Dell และ Mangoboost เป็นการตอกย้ำถึงความแข็งแกร่งและความยอดเยี่ยมของระบบนิเวศ AMD AI และความเชื่อมั่นในวงกว้างของอุตสาหกรรม

เพื่อให้สอดคล้องกับผลลัพธ์ MLPerf ที่ประกาศในวันนี้ AMD ได้เผยแพร่บล็อกเชิงเทคนิค (technical deep dive blog) ที่ให้รายละเอียดเพิ่มเติมเกี่ยวกับการส่งผลทดสอบครั้งนี้

AMD เปิดเผยผลลัพธ์ AI Training โมเดลภาษาขนาดใหญ่ (LLM) ในการทดสอบมาตรฐานอุตสาหกรรม MLPerf Training v5.1 ซึ่งเผยแพร่เมื่อวันที่ 12 พฤศจิกายน 2568 โดยนำเสนอประสิทธิภาพของ GPU Instinct™ รุ่นใหม่ล่าสุด และผลักดันการเพิ่มมาตรฐานการทดสอบใหม่ที่เข้าถึงได้ง่ายขึ้น

ไฮไลต์สำคัญใน MLPerf Training v5.1 ของ AMD

เปิดตัว GPU ใหม่: เป็นครั้งแรกที่มีการนำเสนอผลการทดสอบ MLPerf Training บนการ์ดประมวลผล AMD Instinct™ MI355X และ MI350X

มาตรฐานใหม่ Llama 3.1 8B Pretraining: AMD เป็นผู้นำในการพัฒนามิติการทดสอบใหม่นี้ ซึ่งออกแบบมาให้เป็นเวอร์ชันที่องค์กรหรือสถาบันการศึกษาที่มีทรัพยากรจำกัดสามารถเข้าถึงการวัดประสิทธิภาพการ Pretraining LLM ได้ง่ายขึ้น โดยยังคงคุณสมบัติทางเทคนิคส่วนใหญ่ของรุ่น Llama 3.1 405B ที่ใหญ่กว่าไว้

ทดสอบ GPU ถึง 3 เจเนอเรชัน: มีการส่งผลลัพธ์บน GPU ตระกูล AMD Instinct ถึงสามรุ่น ได้แก่ MI355X, MI350X, MI325X และ MI300X

เจาะลึก: ขุมพลังใหม่ AMD Instinct MI350 Series

AMD Instinct MI355X GPU ซึ่งใช้สถาปัตยกรรม AMD CDNA™ 4 ถูกออกแบบมาเพื่อมอบประสิทธิภาพอันโดดเด่นสำหรับการประมวลผล AI ยุคใหม่ โดยมีจุดเด่นดังนี้:

รองรับ FP4 แบบ Native: GPU ซีรีส์ MI350 รองรับความแม่นยำแบบ FP4 (4-bit floating-point) โดยตรง ให้ประสิทธิภาพสูงสุดถึง 20 Petaflops ซึ่งสำคัญอย่างยิ่งสำหรับการใช้งานโมเดล AI ขนาดใหญ่

หน่วยความจำชั้นนำของอุตสาหกรรม: มาพร้อมกับหน่วยความจำ HBM3e ขนาด 288 GB ซึ่งมีแบนด์วิดท์สูงถึง 8TB/s ช่วยลดภาระหน่วยความจำและการคำนวณได้อย่างมาก

ระบบระบายความร้อนด้วยของเหลว (Liquid Cooling): การรองรับการระบายความร้อนด้วยของเหลวช่วยให้ GPU สามารถรักษาประสิทธิภาพสูงสุดได้อย่างเสถียรภายใต้ภาระงานหนักต่อเนื่อง ทั้งยังช่วยลดการใช้พลังงานในศูนย์ข้อมูล

ผลการทดสอบและความได้เปรียบในการแข่งขัน

AMD ได้ส่งผลลัพธ์ในการทดสอบ Llama 2 70B LoRA finetuning และ Llama 3.1 8B pretraining โดยผลลัพธ์แสดงให้เห็นถึงความก้าวหน้าอย่างก้าวกระโดด:

ประสิทธิภาพที่เหนือกว่ารุ่นก่อน:

MI355X แสดงประสิทธิภาพด้านเวลาในการฝึกอบรม ดีกว่า MI300X ถึง 2.8 เท่า
MI355X ดีกว่า MI325X ถึง 2.1 เท่า

เทียบชั้นคู่แข่ง (Nvidia B200/B300):

Llama 2 70B LoRA finetuning: ประสิทธิภาพของ AMD Instinct MI355X แตกต่างจากแพลตฟอร์ม B200 เพียง 3% และ B300 เพียง 6%
Llama 3.1 8B pretraining: แตกต่างจาก B200 เพียง 6% และ B300 เพียง 5%
โดยเฉพาะอย่างยิ่ง สำหรับการฝึกอบรมด้วยความแม่นยำ FP8 (ซึ่งเป็นที่ยอมรับอย่างกว้างขวางในอุตสาหกรรม) MI355X สามารถทำเวลาในภาระงาน Llama 2 70B LoRA finetuning ได้ที่ 10.18 นาที ซึ่ง ดีกว่าผลลัพธ์ FP8 ล่าสุดของ Nvidia (GB200) จากรอบ v5.0 ถึงเกือบ 10%

ความสามารถในการแข่งขันที่ใกล้เคียงกับแพลตฟอร์มของ Nvidia แสดงให้เห็นอย่างชัดเจนว่า GPU AMD Instinct ได้กลายเป็น "ทางเลือกที่แท้จริง" (real alternative) สำหรับภาระงาน AI Training ในระดับองค์กรแล้ว

เบื้องหลังความสำเร็จ: เทคนิคการเพิ่มประสิทธิภาพ

ผลลัพธ์ที่โดดเด่นนี้เกิดจากการปรับปรุงทั้งฮาร์ดแวร์และซอฟต์แวร์อย่างละเอียด:

การปรับแต่ง GEMM: เนื่องจาก General Matrix Multiply (GEMM) เป็นการดำเนินการที่ใช้เวลาส่วนใหญ่ในภาระงาน LLM (กว่า 50%) AMD จึงได้พัฒนาโครงสร้างพื้นฐานอัตโนมัติเพื่อปรับแต่งขนาดไทล์ (tile sizes) เพื่อเพิ่มการใช้คอร์ประมวลผลให้สูงสุด

Flash Attention v3 (FAv3): พัฒนา FAv3 ที่ใช้ AITER framework เพื่อปรับปรุงรูปแบบการเข้าถึงหน่วยความจำและการใช้คอร์ ทำให้การดำเนินการ Multi-Head Attention เร็วขึ้นอย่างมาก

อัปเกรด Software Stack ครั้งใหญ่: อัปเกรดเป็น ROCm 7.0 (เพิ่มการสนับสนุน MI350 และ AI Tensor Engines พร้อม OCP-FP8/MXFP4) และ PyTorch 2.8 เพื่อให้การผสานรวมฮาร์ดแวร์-ซอฟต์แวร์ราบรื่นและใช้ประโยชน์จากการปรับปรุงประสิทธิภาพของ ROCm อย่างเต็มที่

การปรับแต่งระบบ (System Tuning): ใช้สคริปต์เพื่อปรับแต่งระดับ OS เช่น การปิดใช้งานสถานะประหยัดพลังงานของ CPU, การตั้งค่าความถี่ CPU เป็นโหมดประสิทธิภาพ, และการเปิดใช้งาน Transparent Huge Pages (THP) เพื่อลดความหน่วงและเพิ่มประสิทธิภาพการเข้าถึงหน่วยความจำ

สรุป

การส่งผลงานใน MLPerf Training v5.1 ของ AMD เป็นการตอกย้ำถึงความสมบูรณ์ของระบบนิเวศแบบ "End-to-End" ทั้งด้านฮาร์ดแวร์ (GPU Instinct ที่มีแบนด์วิดท์สูง) และซอฟต์แวร์ (ROCm Stack และไลบรารีที่ได้รับการปรับแต่ง) ทำให้ AMD เป็นคู่แข่งที่น่าจับตามองในตลาด AI Training และเป็นตัวเลือกที่มีประสิทธิภาพสูงสำหรับองค์กรที่ต้องการพัฒนา LLM ในขนาดใหญ่

NextTopBrand

NextTopBrand

Header$type=social_icons

Value Content$type=grid$count=9$meta=0$sn=0$rm=0$hide=post

AMD โชว์ศักยภาพ GPU Instinct MI355X ท้าชนคู่แข่งใน MLPerf Training v5.1 พร้อมเปิดตัวมาตรฐานใหม่ Llama 3.1 8B

ไฮไลต์สำคัญใน MLPerf Training v5.1 ของ AMD

เจาะลึก: ขุมพลังใหม่ AMD Instinct MI350 Series

ผลการทดสอบและความได้เปรียบในการแข่งขัน

เบื้องหลังความสำเร็จ: เทคนิคการเพิ่มประสิทธิภาพ

สรุป

ป้ายกำกับ:

COMMENTS

Rate Card

RECENT WITH THUMBS$type=blogging$m=0$cate=0$sn=0$rm=0$c=4$va=0

RECENT$type=list-tab$date=0$au=0$c=5

REPLIES$type=list-tab$com=0$c=4$src=recent-comments

RANDOM$type=list-tab$date=0$au=0$c=5$src=random-posts

คลังบทความของบล็อก

เกี่ยวกับฉัน

Value Content$type=grid$count=9$meta=0$sn=0$rm=0$hide=post

AMD โชว์ศักยภาพ GPU Instinct MI355X ท้าชนคู่แข่งใน MLPerf Training v5.1 พร้อมเปิดตัวมาตรฐานใหม่ Llama 3.1 8B

ไฮไลต์สำคัญใน MLPerf Training v5.1 ของ AMD

เจาะลึก: ขุมพลังใหม่ AMD Instinct MI350 Series

ผลการทดสอบและความได้เปรียบในการแข่งขัน

เบื้องหลังความสำเร็จ: เทคนิคการเพิ่มประสิทธิภาพ

สรุป

ป้ายกำกับ:

SHARE:

COMMENTS

Rate Card

RECENT WITH THUMBS$type=blogging$m=0$cate=0$sn=0$rm=0$c=4$va=0

RECENT$type=list-tab$date=0$au=0$c=5

REPLIES$type=list-tab$com=0$c=4$src=recent-comments

RANDOM$type=list-tab$date=0$au=0$c=5$src=random-posts

คลังบทความของบล็อก

เกี่ยวกับฉัน