2025年2月25日,阿里云震撼了AI领域,通过开源广受赞誉的通义系列视频生成模型“万2.1”。这项突破性技术可以将文本提示转换成令人惊叹的视频,精准地捕捉细微的动作和空间细节。凭借84.7%的VBench评分、强大的多语言兼容性和免费使用,“万2.1”迅速跻身行业顶尖之列,与OpenAI的Sora、Minimax,快手的Kling,以及谷歌的Veo 2等重量级选手比肩。
更令人兴奋的是,ComfyUI 最近宣布了对 Wan 2.1 的原生支持。如其在 Twitter 上所分享,此次更新带来了包括 14B 和 1.3B 模型变体在内的多种选项,能够在配备 40GB 显存的系统上生成并展示高质量的 720p 视频,并且将 1.3B 模型的显存优化至 15GB,同时保持了高成功率。准备好迎接一波新的开放视频模型发布浪潮,这些模型有望重新定义 AI 视频创作的可能。
万 2.1 AI文字转视频生成器 | 免费AI工具 | 阿尼金如果你不想经历这一切麻烦,可以试试 Anakin AI。这个一站式平台让你可以直接开始 AI 视频创作,并不仅支持 WAN 2.1 还支持 Runway ML、Minimax、LTX Video 等模型。不论你是想快速上手,还是喜欢尝试不同模型,Anakin AI 都能帮你简化所有步骤,让你立即生成精彩视频。如果你更喜欢动手操作,这份指南将一步步教你如何在 Mac、Windows 和 Linux 上使用 WAN 2.1 和 Comfy UI,从安装配置到高级视频生成技巧。让我们一起探索 AI 驱动视频创作的精彩未来吧!
万2.1 Text to Video AI视频生成器是一款创新的应用,它使用先进的AI技术将文字转化为高质量的动态视频,让用户几分钟内轻松制作专业的视频内容,配有自定义模板、风格和旁白。
app.anakin.ai
开始前,请确认系统符合所需的软硬件条件。
硬件配置
最小配置要求:
GPU:NVIDIA GTX 1080(8GB 显存)或 Apple M1
内存:16GB DDR4
存储:至少需要 15GB 的 SSD 空间来存储模型和依赖项
推荐配置:
GPU:NVIDIA RTX 4090(24GB 显存)或 Apple M1 Ultra
内存:32GB DDR5
存储:至少需要 50GB 空间的 NVMe SSD
软件依赖
Python: 版本 3.10 至 3.11(在 Apple Silicon 上,3.11.6 表现最佳)
PyTorch: 版本 2.2+,搭配 CUDA 12.1(适用于 Windows 或 Linux)或 Metal 支持(适用于 macOS)
FFmpeg: 版本 6.1 用于视频编码/解码
驱动程序:Windows 或 Linux 上的 NVIDIA Studio 驱动程序版本 550+,macOS 上支持 Metal
按照下面的详细步骤来安装和配置 Comfy UI,这是使用 WAN 2.1 和 Comfy UI 的重要一步。
Windows: 安装步骤
方法:ComfyUI桌面版(官方公测版)
- 下载: 下载
ComfyUI_Desktop_Windows_0.9.3b.exe
从 comfyui.org/downloads。 - 运行安装程序: 运行安装程序,并确保启用了NVIDIA的GPU加速。
- 验证: 打开命令提示符并运行
这个批处理文件:\run_nvidia_gpu.bat
。请运行.\run_nvidia_gpu.bat
方法B:手动搭建
- 复制代码库:
git clone https://github.com/comfyanonymous/ComfyUI
cdComfyUI // 下载并进入ComfyUI目录
- 创建虚拟环境:
python -m venv venv venv\Scripts\activate
- 安装PyTorch:
pip install torch==2.2.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
- 安装依赖项:
pip install -r requirements.txt
macOS 安装(M1/M2/M3)
- 安装Homebrew(如果还未安装):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- 安装Python和FFmpeg:
brew install python@3.11 ffmpeg
-
克隆并设置ComfyUI:
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
运行python3.11 -m pip install --pre torch torchvision --extra-index-url https://download.pytorch.org/whl/torch_stable.html
运行pip3 install -r requirements.txt
Linux 安装(本机/WSL2 模式)
对于 WSL2,
WSL2:
- 安装 WSL2 并选择 Ubuntu 22.04:
wsl --install -d Ubuntu-22.04
- 在终端中输入以下命令来更新和升级:
sudo apt update && sudo apt full-upgrade -y
安装 ComfyUI:
- 克隆仓库:
git clone https://github.com/comfyanonymous/ComfyUI
- (建议)设置Conda环境:
conda create -n comfy python=3.10
(激活名为comfy的Conda环境:conda activate comfy
) - 安装带有CUDA支持的PyTorch:
pip install torch==2.2.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
- 安装依赖项:
pip install -r requirements.txt
……
集成WAN 2.1模型的整合在 ComfyUI 正常运行之后,接下来是时候集成 WAN 2.1 model 了。
模型的获取和配置
-
下载权重文件:
-
wan_2.1_base.safetensors
(约8.4GB) -
wan_2.1_vae.pth
(约1.2GB)请使用您习惯的下载工具,比如wget
。 -
文件放置:
-
将该文件放入
ComfyUI/models/checkpoints/
文件夹中。 - 将该文件放入
ComfyUI/models/vae/
文件夹中。
自定义节点的安装
通过安装所需的自定义节点来提升您的工作流程效率。
- 导航到自定义节点文件夹:
cd ComfyUI/custom_nodes
- 克隆必要扩展:
git clone https://github.com/WASasquatch/was-node-suite-comfyui
和git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
这些功能扩展增加了视频帧插值和批量处理等功能,让您的视频制作流程更顺畅。
……
配置工作流以适应WAN 2.1的环境学会如何用WAN 2.1构建理想的视频制作流程,生成惊艳的视频作品。
设置文本转视频管道
一个简化的流程可能包括,
- 加载WAN 2.1模型权重的检查点节点: 加载您的WAN 2.1模型权重。
- CLIPTextEncode节点: 将文本描述(例如,“在星云中翱翔的赛博格龙”)转换为条件数据。
- WANSampler节点: 对潜在空间进行采样,使用以下参数:
- 分辨率: 1024×576帧
- 帧数: 48帧(可调)
- 运动尺度: 一般在1.2到2.5之间,以实现平滑过渡。
- VAEDecode节点: 将潜在数据解码为最终视频
参数微调和优化
- 运动尺度: 尝试将值设置为约1.8以获得平衡的过渡效果。
- 时间注意力: 将设置保持在0.85到0.97之间可以保持一致性。
- 噪声调度和帧插值: 使用如Karras和FilmNet等选项来减少伪影。
-
混合输入: 结合参考图像和深度图,以增强风格转换并创造伪3D效果。
-
- *
让你的项目更进一步,试试这些高级方法:
多图引用
- 风格转换: 使用多张参考图像来转换艺术风格。
- 深度图控制: 引入深度图来模拟三维空间感。
- ControlNet(姿态估计): 通过人体姿态或物体位置来引导模型以达到更精细的效果。
相机移动模拟
通过利用 CameraController
节点模拟动态摄像机移动。
- 轨道速度: 例如,0.12
- 移焦缩放: 例如,-0.05
-
翻滚波动: 例如,2.7 这些设置能让您的视频更具有电影感,使它们真正引人入胜。
-
- *
视频内存管理技巧
让你的系统保持高效运转:
- 帧缓存技术: 通过设置
enable_offload_technique = True
并使用激进的 VRAM 优化模式(例如,更高级别的优化)来启用。 - 混合精度: 通过设置
torch.set_float32_matmul_precision('medium')
来提高性能。
常见问题处理
- 黑色边框提示: 确认你的 VAE 文件 (
wan_2.1_vae.pth
) 与你的模型版本匹配,并检查你的时间注意力设置。 - VRAM 超出: 使用类似
--medvram
和--xformers
的标志启动 ComfyUI 以减少内存使用。 -
日志分析: 检查
comfy.log
中的任何 ERROR 或 CRITICAL 错误以快速诊断问题。 -
- *
了解不同平台的细微差别很重要,特别是当你研究如何使用 WAN 2.1 with Comfy UI 时。
Windows
传统的做法:
- 包括便携式 ZIP 文件的解压、手动设置 Python 环境以及运行批处理文件(例如
run_nvidia_gpu.bat
)。 - 需要单独安装 7-Zip 并手动配置 CUDA 工具包。#### V1 桌面应用程序:
- 提供一个一键安装程序(大约 200MB 的捆绑包),自动完成安装。
macOS (通常译为 "macOS" 或直接用 "Mac OS" 也行,视上下文而定)
传统方法:
- 使用Homebrew安装核心包,并需要手动配置Python和MPS。
- 通过终端启动,需要使用Python 3.11+或更高版本以获得最佳Apple Silicon性能。#### V1桌面版:
- 作为集成Python环境的通用.dmg包交付,简化了安装过程。
Linux 操作系统
传统做法,
- 使用基于终端的克隆、使用 conda 或 pip 管理,以及手动安装 NVIDIA 和 AMD 的驱动程序。
- 可能需要对 AppArmor/SELinux 策略进行调整。#### V1 桌面应用:**
- 提供签名的二进制文件(通过 AppImage/DEB 包),简化依赖项的管理和更新过程。
V1桌面应用通过提供自动依赖解析并统一模型库,大大简化了跨平台安装过程。
如果你不想这么麻烦,可以尝试使用Anakin AI。这个一站式平台让你可以直接开始制作AI视频,不仅支持WAN 2.1,还支持Runway ML、Minimax、LTX Video等多种模型。无论你是想快速上手还是尝试多种AI视频生成模型,Anakin AI都能满足你的需求。对于喜欢亲自动手的人,本指南详细介绍了如何在Mac、Windows和Linux系统上使用WAN 2.1和Comfy UI,从安装和配置到高级视频生成技巧一应俱全。跟我一起探索AI驱动的视频创作的未来吧!
最后的感想
WAN 2.1 配合 Comfy UI 可以为 AI 驱动的视频生成打开无限的创意大门。无论是 Windows、macOS 还是 Linux 操作系统,本指南从硬件要求到高级技术,提供了所有你需要的信息,帮助你制作出令人惊叹的视频作品。拥抱这一创新技术,尝试各种模型并将其应用于你的创意,将你的创意变为现实之作。祝你视频创作愉快!