Wan2.2 โมเดลสร้างวิดีโอแบบโอเพ่นซอร์สรุ่นแรกในอุตสาหกรรม ที่ใช้สถาปัตยกรรม MoE ช่วยให้ครีเอเตอร์และนักพัฒนาทั่วโลกควบคุมการผลิตวิดีโอได้อย่างยอดเยี่ยม
อาลีบาบา เปิดตัว Wan2.2 โมเดลสร้างวิดีโอขนาดใหญ่แบบโอเพ่นซอร์สที่สร้างบนสถาปัตยกรรม MoE (Mixture-of-Experts) เป็นโมเดลแรกในอุตสาหกรรม เพื่อช่วยยกระดับความสามารถในการผลิตวิดีโอสไตล์ภาพยนตร์ให้กับครีเอเตอร์และนักพัฒนา ด้วยการคลิกเพียงครั้งเดียว
Wan2.2 series เป็นไฮบริดโมเดลที่รองรับการสร้างวิดีโอจากข้อความและจากภาพภายใต้เฟรมเวิร์กเดียวกัน ประกอบด้วยโมเดลแปลงข้อความเป็นวิดีโอ Wan2.2-T2V-A14B และโมเดลแปลงภาพเป็นวิดีโอ Wan2.2-12V-A14B และ Wan2.2-TI2V-5B
Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B สร้างขึ้นบนสถาปัตยกรรม MoE ได้รับการเทรนด้วยชุดข้อมูลภาพที่คัดสรรมาอย่างพิถีพิถัน ทำให้สามารถสร้างวิดีโอที่มีคุณภาพและสวยงามในเกรดภาพยนต์ ครีเอเตอร์สามารถควบคุมมิติสำคัญ ๆ ได้อย่างแม่นยำ เช่น แสง เวลาที่ต้องการ โทนสี มุมกล้อง ขนาดของเฟรม องค์ประกอบ และ ระยะโพกัส เป็นต้น
โมเดล MoE ทั้งสองนี้ ยังแสดงให้เห็นถึงประสิทธิภาพในการสร้างการเคลื่อนไหวที่ซับซ้อนได้อย่างโดดเด่น ไม่ว่าจะเป็นการแสดงออกทางสีหน้าที่สดใส ท่าทางมือที่เคลื่อนไหวแบบไดนามิก ไปจนถึงการเคลื่อนไหวที่ซับซ้อนของการเล่นกีฬา นอกจากนี้ยังช่วยให้การนำเสนอสมจริง ด้วยความสามารถในการทำตามคำสั่งและยึดหลักปฏิบัติตามกฎทางกายภาพได้ดีมากขึ้น
Wan2.2-T2V-A14B และ Wan2.2-I2V-A14B ใช้การออกแบบ แบบ two-expert ในกระบวนการลดเสียงรบกวนของโมเดลการแพร่กระจาย (diffusion model) ต่าง ๆ เพื่อแก้ปัญหาในการสร้างวิดีโอที่ต้องใช้ทรัพยากรประมวลผลสูงที่เกิดจากการใช้โทเค็นที่ใช้ได้ตลอดระยะเวลาของการสตรีมสื่อ (long tokens) ซึ่งรวมถึง high-noise expert ที่เน้นไปที่เค้าโครงของฉากในภาพรวม และ low-noise expert เพื่อปรับแต่งรายละเอียดและพื้นผิว ทั้งนี้แม้ว่าทั้งสองโมเดลจะมีพารามิเตอร์รวม 27 พันล้านพารามิเตอร์ แต่ในแต่ละขั้นตอนจะเปิดใช้งานเพียง 14 พันล้านพารามิเตอร์เท่านั้น ทำให้สามารถลดการใช้ทรัพยากรการประมวลผลลงได้มากถึง 50%
Wan2.2 รองรับการปรับแต่งอย่างละเอียดผ่านระบบพรอมต์ที่ได้รับแรงบันดาลใจจากงานภาพยนตร์ โดยจัดหมวดหมู่มิติสำคัญต่าง ๆ เช่น แสง ความสว่าง องค์ประกอบภาพ และ โทนสี ช่วยให้ Wan2.2 สามารถตีความและถ่ายทอดเจตนารมณ์ของผู้ใช้งานได้อย่างแม่นยำตลอดกระบวนการสร้างวิดีโอ
Wan2.2 ได้รับการเทรนจากชุดข้อมูลที่มีขนาดใหญ่ขึ้นมาก เพื่อเพิ่มความสามารถให้ใช้ได้ในวงกว้างมากขึ้น และเพิ่มความหลากหลายของการสร้างสรรค์ โดยมีข้อมูลภาพเพิ่มขึ้น 65.6% และข้อมูลวิดีโอเพิ่มขึ้น 83.2% เมื่อเทียบกับ Wan2.1 ทำให้ Wan2.2 มีประสิทธิภาพในการสร้างฉากและการเคลื่อนไหวที่ซับซ้อน รวมถึงความสามารถในการแสดงออกทางศิลปะเพิ่มมากขึ้น
โมเดลขนาดกะทัดรัด เพื่อเพิ่มประสิทธิภาพและความสามารถในการปรับขนาด
Wan2.2 มาพร้อม Wan2.2-TI2V-5B ซึ่งเป็นไฮบริดโมเดลของ Wan2.2 และเป็น dense model ที่ใช้สถาปัตยกรรม 3D VAE ที่มีอัตราการบีบอัดข้อมูลสูง เพื่อให้ได้ใช้อัตราส่วนการบีบอัดเชิงเวลาและเชิงพื้นที่ที่ 4x16x16 ซึ่งช่วยเพิ่มอัตราการบีบอัดข้อมูลโดยรวมที่ 64 ทั้งนี้ TI2V-5B สามารถสร้างวิดีโอยาว 5 วินาที และมีความละเอียด 720P ได้ในเวลาไม่กี่นาทีบน GPU ที่เป็นเกรดผู้บริโภคเพียงตัวเดียว เป็นการช่วยให้นักพัฒนาและคอนเทนต์ครีเอเตอร์สร้างสรรค์วิดีโอได้อย่างมีประสิทธิภาพและสามารถปรับขนาดได้ตามต้องการ
โมเดล Wan2.2 พร้อมให้ดาวน์โหลดแล้วบน Hugging Face และ GitHub รวมถึงบน ModelScope ซึ่งเป็นชุมชนด้านโอเพ่นซอร์สของอาลีบาบา คลาวด์ นอกจากนี้ อาลีบาบา ในฐานะหนึ่งในผู้มีส่วนร่วมหลักของชุมชนโอเพ่นซอร์สระดับโลก ได้เปิดโอเพ่นซอร์สโมเดล Wan2.1 สี่โมเดล เมื่อเดือนกุมภาพันธ์ 2568 และโอเพ่นซอร์ส Wan 2.1-VACE (โมเดลสร้างและตัดต่อวิดีโอแบบ all-in-one) เมื่อเดือนพฤษภาคม 2568 ปัจจุบัน โมเดลเหล่านี้มียอดดาวน์โหลดมากกว่า 5.4 ล้านครั้งบน Hugging Face และ ModelScope
วิดีโอเพิ่มเติมเกี่ยวกับ Wan2.2
Wan 2.2, the generative AI model built for the language of film: https://www.youtube.com/watch?v=ktDogWm7Hac
Wan 2.2, introduces a "Cinematic Aesthetic Control System”:
https://www.youtube.com/watch?v=8MEHiucuUOc
ตัวอย่าง Prompt ที่แปลจากพรอมต์ภาษาจีน และนี่คือวิดีโอผลลัพธ์ที่ได้
https://www.youtube.com/watch?v=mTWCXw_CrPo
"Day time, daylight, soft lighting, side lighting, center composition, warm colors, close-up shot. The lower half of a young woman’s face is in sharp focus: a petite nose and slightly parted lips blow a huge bubble-gum bubble. The translucent sphere shimmers gently and contains a miniature aquarium where three orange-and-white goldfish swim slowly, fins waving as if in water. A pure light-blue background keeps the frame clean and bright, drawing all attention to this whimsical moment."
https://drive.google.com/file/d/1uzPCW_v0r8GDjxcGTNIUyZ0xzJsJGOre/view?usp=sharing
"Daylight, soft lighting, medium shot, center composition. On a bright sunny day, two young people relax lazily on a lush green grassy field. One wears white thick-soled shoes and pink long socks, the details captured in sharp focus as if seen through a handheld magnifying lens. The shoes rest casually on the grass, drawing attention to the stylish footwear. Both figures wear vintage-inspired outfits—light linen shirts and wide-leg pants, their relaxed poses conveying ease and comfort. A neatly trimmed hedge and a white classical building frame the background, enhancing the nostalgic ambiance. Overhead, the pale blue sky is clear, with subtle metallic letters spelling \"WAN2.2\" slowly assembling in mid-air, each character sleek and reflective, catching the sunlight with a quiet, modern elegance. A gentle breeze sways the leaves slightly, adding subtle motion to the scene."







COMMENTS