手记

如何在Mac、Windows和Linux上用Comfy UI使用WAN 2.1视频生成模型:详尽教程

2025年2月25日,阿里云震撼了AI领域,通过开源广受赞誉的通义系列视频生成模型“万2.1”。这项突破性技术可以将文本提示转换成令人惊叹的视频,精准地捕捉细微的动作和空间细节。凭借84.7%的VBench评分、强大的多语言兼容性和免费使用,“万2.1”迅速跻身行业顶尖之列,与OpenAI的Sora、Minimax,快手的Kling,以及谷歌的Veo 2等重量级选手比肩。

更令人兴奋的是,ComfyUI 最近宣布了对 Wan 2.1 的原生支持。如其在 Twitter 上所分享,此次更新带来了包括 14B 和 1.3B 模型变体在内的多种选项,能够在配备 40GB 显存的系统上生成并展示高质量的 720p 视频,并且将 1.3B 模型的显存优化至 15GB,同时保持了高成功率。准备好迎接一波新的开放视频模型发布浪潮,这些模型有望重新定义 AI 视频创作的可能。

如果你不想经历这一切麻烦,可以试试 Anakin AI。这个一站式平台让你可以直接开始 AI 视频创作,并不仅支持 WAN 2.1 还支持 Runway MLMinimaxLTX Video 等模型。不论你是想快速上手,还是喜欢尝试不同模型,Anakin AI 都能帮你简化所有步骤,让你立即生成精彩视频。如果你更喜欢动手操作,这份指南将一步步教你如何在 Mac、Windows 和 Linux 上使用 WAN 2.1 和 Comfy UI,从安装配置到高级视频生成技巧。让我们一起探索 AI 驱动视频创作的精彩未来吧!

万 2.1 AI文字转视频生成器 | 免费AI工具 | 阿尼金

万2.1 Text to Video AI视频生成器是一款创新的应用,它使用先进的AI技术将文字转化为高质量的动态视频,让用户几分钟内轻松制作专业的视频内容,配有自定义模板、风格和旁白。

app.anakin.ai

让我们来聊聊系统准备

开始前,请确认系统符合所需的软硬件条件。

硬件配置

最小配置要求
GPU:NVIDIA GTX 1080(8GB 显存)或 Apple M1
内存:16GB DDR4
存储:至少需要 15GB 的 SSD 空间来存储模型和依赖项
推荐配置
GPU:NVIDIA RTX 4090(24GB 显存)或 Apple M1 Ultra
内存:32GB DDR5
存储:至少需要 50GB 空间的 NVMe SSD

软件依赖

Python: 版本 3.10 至 3.11(在 Apple Silicon 上,3.11.6 表现最佳)
PyTorch: 版本 2.2+,搭配 CUDA 12.1(适用于 Windows 或 Linux)或 Metal 支持(适用于 macOS)
FFmpeg: 版本 6.1 用于视频编码/解码
驱动程序:Windows 或 Linux 上的 NVIDIA Studio 驱动程序版本 550+,macOS 上支持 Metal

在不同平台上安装ComfyUI的方法

按照下面的详细步骤来安装和配置 Comfy UI,这是使用 WAN 2.1 和 Comfy UI 的重要一步。

Windows: 安装步骤

方法:ComfyUI桌面版(官方公测版)

  1. 下载: 下载 ComfyUI_Desktop_Windows_0.9.3b.execomfyui.org/downloads
  2. 运行安装程序: 运行安装程序,并确保启用了NVIDIA的GPU加速。
  3. 验证: 打开命令提示符并运行 这个批处理文件:\run_nvidia_gpu.bat。请运行 .\run_nvidia_gpu.bat

方法B:手动搭建

  1. 复制代码库:
git clone https://github.com/comfyanonymous/ComfyUI
cdComfyUI // 下载并进入ComfyUI目录
  1. 创建虚拟环境: python -m venv venv venv\Scripts\activate
  2. 安装PyTorch: pip install torch==2.2.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
  3. 安装依赖项: pip install -r requirements.txt

macOS 安装(M1/M2/M3)

  1. 安装Homebrew(如果还未安装): /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  2. 安装Python和FFmpeg: brew install python@3.11 ffmpeg
  3. 克隆并设置ComfyUI:

    git clone https://github.com/comfyanonymous/ComfyUI
    cd ComfyUI
    运行 python3.11 -m pip install --pre torch torchvision --extra-index-url https://download.pytorch.org/whl/torch_stable.html
    运行 pip3 install -r requirements.txt

Linux 安装(本机/WSL2 模式)

对于 WSL2,

WSL2:

  1. 安装 WSL2 并选择 Ubuntu 22.04: wsl --install -d Ubuntu-22.04
  2. 在终端中输入以下命令来更新和升级: sudo apt update && sudo apt full-upgrade -y

安装 ComfyUI:

  1. 克隆仓库: git clone https://github.com/comfyanonymous/ComfyUI
  2. (建议)设置Conda环境: conda create -n comfy python=3.10 (激活名为comfy的Conda环境: conda activate comfy
  3. 安装带有CUDA支持的PyTorch: pip install torch==2.2.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
  4. 安装依赖项: pip install -r requirements.txt

……

集成WAN 2.1模型的整合

在 ComfyUI 正常运行之后,接下来是时候集成 WAN 2.1 model 了。

模型的获取和配置

  • 下载权重文件:

  • wan_2.1_base.safetensors(约8.4GB)

  • wan_2.1_vae.pth(约1.2GB)请使用您习惯的下载工具,比如wget

  • 文件放置:

  • 将该文件放入ComfyUI/models/checkpoints/文件夹中。

  • 将该文件放入ComfyUI/models/vae/文件夹中。

自定义节点的安装

通过安装所需的自定义节点来提升您的工作流程效率。

  1. 导航到自定义节点文件夹: cd ComfyUI/custom_nodes
  2. 克隆必要扩展: git clone https://github.com/WASasquatch/was-node-suite-comfyuigit clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

这些功能扩展增加了视频帧插值和批量处理等功能,让您的视频制作流程更顺畅。

……

配置工作流以适应WAN 2.1的环境

学会如何用WAN 2.1构建理想的视频制作流程,生成惊艳的视频作品。

设置文本转视频管道

一个简化的流程可能包括,

  • 加载WAN 2.1模型权重的检查点节点: 加载您的WAN 2.1模型权重。
  • CLIPTextEncode节点: 将文本描述(例如,“在星云中翱翔的赛博格龙”)转换为条件数据。
  • WANSampler节点: 对潜在空间进行采样,使用以下参数:
  • 分辨率: 1024×576帧
  • 帧数: 48帧(可调)
  • 运动尺度: 一般在1.2到2.5之间,以实现平滑过渡。
  • VAEDecode节点: 将潜在数据解码为最终视频

参数微调和优化

  • 运动尺度: 尝试将值设置为约1.8以获得平衡的过渡效果。
  • 时间注意力: 将设置保持在0.85到0.97之间可以保持一致性。
  • 噪声调度和帧插值: 使用如Karras和FilmNet等选项来减少伪影。
  • 混合输入: 结合参考图像和深度图,以增强风格转换并创造伪3D效果。

    • *
高级视频生成技巧

让你的项目更进一步,试试这些高级方法:

多图引用

  • 风格转换: 使用多张参考图像来转换艺术风格。
  • 深度图控制: 引入深度图来模拟三维空间感。
  • ControlNet(姿态估计): 通过人体姿态或物体位置来引导模型以达到更精细的效果。

相机移动模拟

通过利用 CameraController 节点模拟动态摄像机移动。

  • 轨道速度: 例如,0.12
  • 移焦缩放: 例如,-0.05
  • 翻滚波动: 例如,2.7 这些设置能让您的视频更具有电影感,使它们真正引人入胜。

    • *
性能优化与排障

视频内存管理技巧

让你的系统保持高效运转:

  • 帧缓存技术: 通过设置 enable_offload_technique = True 并使用激进的 VRAM 优化模式(例如,更高级别的优化)来启用。
  • 混合精度: 通过设置 torch.set_float32_matmul_precision('medium') 来提高性能。

常见问题处理

  • 黑色边框提示: 确认你的 VAE 文件 (wan_2.1_vae.pth) 与你的模型版本匹配,并检查你的时间注意力设置。
  • VRAM 超出: 使用类似 --medvram--xformers 的标志启动 ComfyUI 以减少内存使用。
  • 日志分析: 检查 comfy.log 中的任何 ERROR 或 CRITICAL 错误以快速诊断问题。

    • *
不同平台的安装差异

了解不同平台的细微差别很重要,特别是当你研究如何使用 WAN 2.1 with Comfy UI 时。

Windows

传统的做法:

  • 包括便携式 ZIP 文件的解压、手动设置 Python 环境以及运行批处理文件(例如 run_nvidia_gpu.bat)。
  • 需要单独安装 7-Zip 并手动配置 CUDA 工具包。#### V1 桌面应用程序:
  • 提供一个一键安装程序(大约 200MB 的捆绑包),自动完成安装。

macOS (通常译为 "macOS" 或直接用 "Mac OS" 也行,视上下文而定)

传统方法:

  • 使用Homebrew安装核心包,并需要手动配置Python和MPS。
  • 通过终端启动,需要使用Python 3.11+或更高版本以获得最佳Apple Silicon性能。#### V1桌面版:
  • 作为集成Python环境的通用.dmg包交付,简化了安装过程。

Linux 操作系统

传统做法,

  • 使用基于终端的克隆、使用 conda 或 pip 管理,以及手动安装 NVIDIA 和 AMD 的驱动程序。
  • 可能需要对 AppArmor/SELinux 策略进行调整。#### V1 桌面应用:**
  • 提供签名的二进制文件(通过 AppImage/DEB 包),简化依赖项的管理和更新过程。

V1桌面应用通过提供自动依赖解析并统一模型库,大大简化了跨平台安装过程。


如果你不想这么麻烦,可以尝试使用Anakin AI。这个一站式平台让你可以直接开始制作AI视频,不仅支持WAN 2.1,还支持Runway ML、Minimax、LTX Video等多种模型。无论你是想快速上手还是尝试多种AI视频生成模型,Anakin AI都能满足你的需求。对于喜欢亲自动手的人,本指南详细介绍了如何在Mac、Windows和Linux系统上使用WAN 2.1和Comfy UI,从安装和配置到高级视频生成技巧一应俱全。跟我一起探索AI驱动的视频创作的未来吧!


最后的感想

WAN 2.1 配合 Comfy UI 可以为 AI 驱动的视频生成打开无限的创意大门。无论是 Windows、macOS 还是 Linux 操作系统,本指南从硬件要求到高级技术,提供了所有你需要的信息,帮助你制作出令人惊叹的视频作品。拥抱这一创新技术,尝试各种模型并将其应用于你的创意,将你的创意变为现实之作。祝你视频创作愉快!

0人推荐
随时随地看视频
慕课网APP