Tạo Video AI Miễn Phí: Hướng Dẫn ComfyUI và WAN 2.1

Updated on Mar 26,2025

Chào mừng bạn đến với hướng dẫn toàn diện về cách tạo video AI miễn phí bằng ComfyUI và mô hình WAN 2.1. Bài viết này sẽ cung cấp cho bạn những kiến thức cần thiết để tự tạo ra những video ấn tượng trên máy tính của bạn. Khám phá các bước cài đặt, cấu hình và tối ưu hóa để tạo ra những video chất lượng cao.

Điểm Nổi Bật

Cập nhật ComfyUI lên phiên bản mới nhất để đảm bảo tương thích.

Tải và cài đặt các models cần thiết cho workflow.

Sử dụng workflows có sẵn để tạo video từ text hoặc hình ảnh.

Tối ưu hóa các cài đặt để đạt được chất lượng video tốt nhất.

Nâng cấp độ phân giải video bằng Topaz Video AI.

Hướng Dẫn Tạo Video AI Miễn Phí với ComfyUI và WAN 2.1

Cập Nhật ComfyUI và Cài Đặt Ban Đầu

Để bắt đầu, bạn cần cập nhật ComfyUI lên phiên bản mới nhất. Điều này đảm bảo rằng bạn có tất cả các tính năng và bản sửa lỗi mới nhất, cũng như tương thích tốt nhất với mô hình WAN 2.1. Bạn có thể thực hiện việc này thông qua trình quản lý tích hợp trong ComfyUI.

Sau khi cập nhật xong, bạn cần phải khởi động lại ComfyUI để những thay đổi được áp dụng. Việc cập nhật phiên bản mới nhất cho phép ComfyUI hoạt động một cách trơn tru và ổn định hơn.

Các bước thực hiện:

  1. Mở ComfyUI.
  2. Tìm đến phần 'Manager' (Quản lý) trên giao diện.
  3. Click vào 'Update ComfyUI' (Cập nhật ComfyUI) hoặc 'Update All' (Cập nhật Tất cả).
  4. Chờ quá trình cập nhật hoàn tất.
  5. Khởi động lại ComfyUI khi được yêu cầu.

Tải và Cài Đặt Models WAN 2.1

Mô hình WAN 2.1 yêu cầu tải xuống và cài đặt một số models cụ thể. Các models này bao gồm diffusion model, CLIP và VAE. Bạn có thể tìm thấy các models này trên trang web Hugging Face.

Để thuận tiện cho người dùng, trong workflow sẽ bao gồm các đường dẫn trực tiếp để tải xuống các models này, cùng với các hướng dẫn về vị trí cài đặt chúng trong thư mục ComfyUI.

Các models cần thiết:

  • WAN 2.1 Diffusion Model
  • CLIP Model
  • VAE Model

Lưu ý quan trọng: Đảm bảo rằng bạn đặt các models này vào đúng thư mục để ComfyUI có thể tìm thấy và sử dụng chúng một cách chính xác.

Workflow Cơ Bản Text-to-Video với WAN 2.1

Workflow cơ bản này cho phép bạn tạo video từ lời nhắc văn bản. Nó bao gồm các nodes để tải model, mã hóa văn bản, lấy mẫu và giải mã video. Để sử dụng workflow này, bạn cần nhập một lời nhắc văn bản vào node 'CLIP Text Encode (Positive Prompt)' và định cấu hình các cài đặt lấy mẫu trong node 'KSampler'. Sau đó, bạn có thể nhấp vào 'Queue Prompt' (Xếp hàng Lời nhắc) để tạo video của bạn.

Workflow này được thiết kế để dễ sử dụng và tùy chỉnh. Bạn có thể thử nghiệm với các lời nhắc văn bản khác nhau và các cài đặt lấy mẫu để tạo ra những kết quả độc đáo.

Thêm vào đó, bạn có thể điều chỉnh các cài đặt như độ dài video và tỷ lệ khung hình trong node 'EmptyHunyuanLatentVideo' để tùy chỉnh thêm video của bạn.

Bạn có thể sử dụng ChatGPT để có được những promt tốt hơn

| Tham số           | Mô tả                                                                                                                                                                                             |
| --------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Prompt         | Mô tả chi tiết cảnh quay, nhân vật, hành động và phong cách mong muốn.                                                                                                                                |
| Seed             | Giá trị ngẫu nhiên để tạo ra các kết quả khác nhau. Thay đổi seed có thể dẫn đến những biến thể đáng kể trong video được tạo.                                                                                    |
| Steps            | Số lượng bước khử nhiễu được sử dụng trong quá trình lấy mẫu. Giá trị cao hơn có thể cải thiện chất lượng nhưng cũng làm tăng thời gian tạo.                                                                                 |
| CFG Scale       | Điều khiển mức độ mà lời nhắc văn bản ảnh hưởng đến video được tạo. Giá trị cao hơn có nghĩa là ảnh hưởng mạnh hơn.                                                                                                    |
| Sampler         | Thuật toán lấy mẫu được sử dụng. Các sampler khác nhau có thể tạo ra các kết quả khác nhau.                                                                                                                    |
| Scheduler       | Lịch trình kiểm soát cách sampler di chuyển qua không gian tiềm ẩn.                                                                                                                                         |
| Denoise        | Cường độ khử nhiễu. Giá trị cao hơn có thể giảm nhiễu nhưng cũng có thể làm mất chi tiết.                                                                                                                            |
| Width & Height  | Độ phân giải của video được tạo.                                                                                                                                                                    |
| Length          | Số lượng khung hình trong video được tạo.                                                                                                                                                               |
| Frame Rate     | Số lượng khung hình trên giây (FPS) của video.                                                                                                                                                            |
| Filename Prefix | Tiền tố cho tên tệp của video được tạo.                                                                                                                                                                |
| Format          | Định dạng tệp của video được tạo (ví dụ: mp4).                                                                                                                                                             |

Workflow Cơ Bản Image-to-Video với WAN 2.1

Workflow này cho phép bạn tạo video từ một hình ảnh đầu vào. Nó bao gồm các nodes để tải hình ảnh, mã hóa hình ảnh, mã hóa văn bản (để mô tả chuyển động và phong cách), lấy mẫu và giải mã video. Để sử dụng workflow này, bạn cần tải một hình ảnh vào node 'Load Image' (Tải Hình ảnh) và nhập một lời nhắc văn bản vào node 'CLIP Text Encode (Positive Prompt)' để mô tả chuyển động và phong cách bạn muốn thêm vào video.

Tương tự như workflow text-to-video, bạn có thể điều chỉnh các cài đặt trong node 'KSampler' và 'EmptyHunyuanLatentVideo' để tùy chỉnh kết quả.

Bằng cách sử dụng một CLIP Vision Encode, ComfyUI sẽ tìm hiểu chi tiết về hình ảnh hiện có để văn bản sẽ sử dụng nó như thế nào.

Để có được các workflow này, bạn có thể vào kênh pixaroma-workflows trong Discord

Tối Ưu Hóa Video AI

Để cải thiện chất lượng video AI, có một vài kỹ thuật bạn có thể sử dụng:

  • Lời Nhắc Chi Tiết: Sử dụng các lời nhắc văn bản chi tiết và mô tả để hướng dẫn quá trình tạo video một cách tốt hơn.
  • Thử Nghiệm với Cài Đặt: Thử nghiệm với các cài đặt khác nhau trong nodes 'KSampler' và 'EmptyHunyuanLatentVideo' để tìm ra những cài đặt hoạt động tốt nhất cho nội dung của bạn.
  • Sử Dụng Hình Ảnh Chất Lượng Cao: Khi sử dụng workflow image-to-video, hãy đảm bảo rằng bạn sử dụng hình ảnh đầu vào chất lượng cao.
  • Upscaling: Sử dụng các công cụ upscaling video như Topaz Video AI để tăng độ phân giải của video được tạo.

Bằng cách sử dụng các kỹ thuật này, bạn có thể tạo ra những video AI tuyệt đẹp và chất lượng cao bằng ComfyUI và WAN 2.1.

Nâng Cấp Độ Phân Giải với Topaz Video AI

Khi bạn đã tạo ra một video AI bằng ComfyUI và WAN 2.1, bạn có thể muốn nâng cấp độ phân giải của nó để có chất lượng hình ảnh tốt hơn. Một công cụ tuyệt vời để làm điều này là Topaz Video AI. Đây là một phần mềm trả phí sử dụng AI để upscaling video mà không làm mất đi các chi tiết.

Các bước thực hiện upscaling video bằng Topaz Video AI:

  1. Mở Topaz Video AI.
  2. Nhập video AI của bạn.
  3. Chọn độ phân giải đầu ra mong muốn (ví dụ: 1920x1080 cho Full HD).
  4. Chọn AI model phù hợp (ví dụ: Proteus).
  5. Điều chỉnh các cài đặt khác nếu cần.
  6. Nhấp vào 'Export' (Xuất) để bắt đầu quá trình upscaling.

Quá trình upscaling có thể mất một thời gian, tùy thuộc vào độ dài video và sức mạnh phần cứng của bạn. Tuy nhiên, kết quả sẽ là một video có độ phân giải cao hơn nhiều mà vẫn giữ được các chi tiết.

Lựa chọn model WAN 2.1 phù hợp

Model 1.3B so với Model 14B

Khi làm việc với WAN 2.1, bạn sẽ gặp các phiên bản khác nhau như 1.3B và 14B. Những ký hiệu này biểu thị số lượng tham số trong model, ảnh hưởng đến kích thước, tốc độ và chất lượng video kết quả.

  • 1.3B: Model này có 1.3 tỷ tham số. Ưu điểm của nó là kích thước nhỏ gọn, yêu cầu ít VRAM (Video RAM) hơn và tạo video nhanh chóng. Tuy nhiên, chất lượng video có thể không cao bằng các model lớn hơn.
  • 14B: Model này có 14 tỷ tham số, lớn hơn đáng kể so với 1.3B. Mặc dù cho chất lượng video cao hơn, nhưng nó đòi hỏi nhiều VRAM hơn và thời gian tạo video cũng lâu hơn.

Sự lựa chọn giữa 1.3B và 14B phụ thuộc vào phần cứng của bạn. Nếu bạn có một card đồ họa với ít VRAM (ví dụ: 8GB), thì model 1.3B là một lựa chọn tốt. Nếu bạn có card đồ họa cao cấp hơn với nhiều VRAM, bạn có thể sử dụng model 14B để có được chất lượng video tốt hơn.

GGUF: Lựa chọn tiết kiệm VRAM

Nếu bạn có card đồ họa yếu bạn có thể dùng GGUF:

Để giúp chạy WAN 2.1 trên các card đồ họa có VRAM hạn chế, các phiên bản GGUF (GPT-Generated Unified Format) đã được phát triển.

Các phiên bản này được lượng tử hóa, có nghĩa là kích thước của model đã được giảm bớt, cho phép nó chạy trên các phần cứng có ít VRAM hơn. Điều này đi kèm với một sự đánh đổi nhỏ về chất lượng, nhưng đối với nhiều người dùng, sự tiện lợi của việc chạy model cục bộ outweighs bất kỳ sự khác biệt nhỏ nào về chất lượng.

Có một vài định dạng GGUF khác nhau có sẵn, mỗi định dạng có mức độ lượng tử hóa khác nhau. Các định dạng phổ biến bao gồm Q4, Q5 và Q8.

  • Q4: Nhỏ nhất, nhanh nhất, nhưng chất lượng thấp nhất.
  • Q5: Sự cân bằng giữa kích thước, tốc độ và chất lượng.
  • Q8: Lớn nhất, chậm nhất, nhưng chất lượng tốt nhất.

Sự lựa chọn định dạng GGUF phụ thuộc vào yêu cầu và phần cứng cụ thể của bạn. Nếu bạn có card đồ họa rất yếu, bạn có thể cần phải sử dụng định dạng Q4. Nếu bạn có card đồ họa mạnh hơn, bạn có thể sử dụng định dạng Q5 hoặc Q8 để có được chất lượng video tốt hơn.

Ưu và Nhược Điểm của ComfyUI và WAN 2.1

👍 Pros

Miễn phí và mã nguồn mở

Linh hoạt và có khả năng tùy chỉnh

Khả năng tạo ra những video chất lượng cao

Dễ sử dụng

👎 Cons

Yêu cầu phần cứng mạnh

Có thể mất thời gian để tạo video

Chất lượng video có thể khác nhau tùy thuộc vào model và cài đặt được sử dụng

Câu Hỏi Thường Gặp

Tôi cần phần cứng nào để chạy ComfyUI và WAN 2.1?
ComfyUI và WAN 2.1 có thể chạy trên nhiều loại phần cứng, nhưng bạn sẽ cần một card đồ họa có ít nhất 8GB VRAM để có hiệu suất tốt nhất. Card đồ họa càng mạnh thì quá trình tạo video càng nhanh chóng.
Tôi có thể sử dụng WAN 2.1 cho mục đích thương mại không?
Việc sử dụng WAN 2.1 cho mục đích thương mại phụ thuộc vào các điều khoản và điều kiện cấp phép của Alibaba. Vui lòng tham khảo tài liệu cấp phép để biết thêm thông tin.
Làm thế nào để tìm các workflows ComfyUI tốt hơn?
Bạn có thể tìm thấy rất nhiều luồng công việc ComfyUI hữu ích trong kênh pixaroma-workflows trên Discord.

Các câu hỏi liên quan

Những yếu tố nào ảnh hưởng đến thời gian tạo video AI?
Thời gian tạo video AI chịu ảnh hưởng bởi nhiều yếu tố, bao gồm: Sức mạnh của card đồ họa của bạn Kích thước và độ phức tạp của model Độ phân giải và tỷ lệ khung hình của video Số lượng bước khử nhiễu được sử dụng Bạn có thể giảm thời gian tạo bằng cách sử dụng card đồ họa mạnh hơn, model nhỏ hơn, độ phân giải thấp hơn hoặc số lượng bước khử nhiễu ít hơn.

Most people like