Helios là gì
Helios là mô hình tạo video thời gian thực với 14B tham số được phát triển bởi Đại học Bắc Kinh và ByteDance, có thể tạo video dài phút với tốc độ 19.5 FPS trên một GPU H100. Mô hình này đột phá khi không cần các công nghệ tăng tốc thông thường như bộ nhớ KV, lượng tử hóa hay mặt nạ nguyên nhân, thông qua việc tiêm lịch sử thống nhất, nén sâu và chưng cất phân tầng đối kháng, giảm chi phí tính toán xuống mức của mô hình 1.3B. Helios hỗ trợ tạo video từ văn bản, hình ảnh và viết tiếp video, vượt trội về chất lượng và tốc độ so với các giải pháp hiện có, mã nguồn và mô hình đã được mở nguồn.

Các tính năng chính của Helios
-
Tạo video từ văn bản: Helios hỗ trợ tạo video từ văn bản, trực tiếp tạo nội dung video chất lượng cao dựa trên mô tả bằng chữ.
-
Tạo video từ hình ảnh: Helios hỗ trợ tạo video từ hình ảnh, có thể chuyển đổi hình ảnh tĩnh thành video động.
-
Tạo video từ video: Helios hỗ trợ tạo video từ video, có thể viết tiếp hoặc chuyển đổi phong cách cho video hiện có.
-
Tạo hình tương tác: Helios hỗ trợ tạo hình tương tác thời gian thực, cho phép người dùng điều chỉnh từ khóa trong quá trình tạo hình.
-
Tạo video dài: Helios hỗ trợ tạo video dài phút, có thể ổn định xuất ra video liên tục lên đến 1440 khung hình.
Nguyên lý kỹ thuật của Helios
- Tiêm lịch sử thống nhất: Helios cải tiến mô hình sinh tự hồi tiếp bằng cách ghép nối các khung hình lịch sử và khung hình nhiễu làm đầu vào. Khung hình lịch sử được cố định tại bước thời gian 0 để giữ sạch, khung hình nhiễu tham gia vào việc khử nhiễu, cơ chế điều khiển cho phép cùng một kiến trúc tự động thích ứng với ba chế độ nhiệm vụ – khi lịch sử hoàn toàn bằng không là tạo video từ văn bản, khi chỉ khung cuối không bằng không là tạo video từ hình ảnh, và khi bất kỳ khung hình lịch sử nào không bằng không thì là viết tiếp video.
- Cơ chế chú ý hướng dẫn: Helios tính toán các khóa truy vấn của ngữ cảnh lịch sử và nhiễu trong các lớp tự chú ý, điều chỉnh cường độ thông tin lịch sử một cách chọn lọc thông qua việc phóng đại đầu cấp; trong lớp chú ý chéo, chỉ tiêm ngữ nghĩa văn bản vào ngữ cảnh nhiễu, tránh sự chồng chéo ngữ nghĩa của các khung hình lịch sử, giải tách các đặc tính thống kê khác nhau của hai loại ngữ cảnh.
- Chiến lược chống trôi đơn giản: Helios sử dụng mã hóa vị trí tương đối để cố định phạm vi chỉ mục thời gian, loại bỏ sự lệch vị trí trong việc tạo video dài; buộc giữ khung hình đầu tiên làm điểm neo thị giác toàn cầu để kiềm chế sự trôi màu; trong quá trình huấn luyện, áp dụng ngẫu nhiên các biến động như điều chỉnh phơi sáng, thêm nhiễu hoặc làm mờ lên các khung hình lịch sử, mô phỏng sự tích lũy sai số trong suy diễn, loại bỏ chuyển động lặp lại từ nguồn gốc.
- Nén sâu: Helios sử dụng các khối nhớ nhiều giai đoạn để nén các khung hình lịch sử với tỷ lệ nén khác nhau theo khoảng cách, giữ ngân sách token không đổi; sử dụng bộ điều chỉnh dự đoán thống nhất hình chóp để lấy mẫu theo từng giai đoạn trong không gian tiềm năng đa quy mô, xác định cấu trúc toàn cầu ở độ phân giải thấp trong giai đoạn đầu, và tinh chỉnh chi tiết ở độ phân giải cao trong giai đoạn sau, giảm lượng tính toán token của mô hình 14B xuống mức 1.3B.
- Chưng cất phân tầng đối kháng: Helios sử dụng mô hình giáo viên tự hồi tiếp làm chuẩn, thu được ước lượng đa quy mô thông qua mô phỏng ngược giai đoạn, thực hiện học tập theo khóa học thông qua việc điều chỉnh nhiễu động, đưa vào đào tạo sau đối kháng để vượt qua giới hạn hiệu suất của mô hình giáo viên, cuối cùng giảm số bước lấy mẫu từ 50 bước xuống 3 bước mà không cần hướng dẫn của bộ phân loại.
Địa chỉ dự án của Helios
- Trang web dự án: https://pku-yuangroup.github.io/Helios-Page/
- Kho lưu trữ GitHub: https://github.com/PKU-YuanGroup/Helios
- Thư viện mô hình HuggingFace: https://huggingface.co/collections/BestWishYsh/helios
- Bài báo kỹ thuật arXiv: https://arxiv.org/pdf/2603.04379
Các ứng dụng của Helios
- Sản xuất phim và quảng cáo: Khả năng tạo hình thời gian thực của Helios có thể tăng tốc đáng kể quy trình sản xuất trailer phim, ý tưởng quảng cáo và phân cảnh động, cho phép người sáng tạo nhanh chóng lặp lại các khái niệm hình ảnh, rút ngắn thời gian render truyền thống từ hàng giờ xuống chỉ còn vài phút.
- Trò chơi và giải trí tương tác: Là thành phần cơ bản của mô hình thế giới, Helios hỗ trợ tạo hình thời gian thực cho các cảnh trò chơi và môi trường động với độ dài không giới hạn, cung cấp dòng nội dung hình ảnh liên tục cho trò chơi thế giới mở, trải nghiệm thực tế ảo và kể chuyện tương tác.
- Mạng xã hội và sáng tạo nội dung: Người dùng thông thường có thể sử dụng Helios để chuyển đổi văn bản hoặc hình ảnh thành video ngắn chất lượng cao ngay lập tức, giảm bớt rào cản trong việc sản xuất video chuyên nghiệp, giúp các nhà sáng tạo cá nhân nhanh chóng sản xuất nội dung hình ảnh cấp độ điện ảnh.
- Thiết kế và xác minh nguyên mẫu: Các nhà thiết kế có thể sử dụng tính năng tạo video từ hình ảnh và viết tiếp video của Helios để chuyển đổi bản thiết kế tĩnh thành trình diễn động, xem trước hiệu ứng hoạt hình sản phẩm theo thời gian thực, tăng tốc vòng lặp phản hồi lặp lại.
