Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KJ 完整部署指南
一、硬件配置(表格)
表格
| 配置类型 | 最低配置 | 推荐配置 | 专业配置 |
|---|---|---|---|
| GPU 显存 | 16GB(RTX 4060 Ti/3090) | 24GB+(RTX 4090/3090 Ti) | 48GB+(A100/RTX 6000 Ada) |
| 系统内存 | 32GB | 64GB+ | 128GB+ |
| 存储 | 50GB+ SSD(模型 + 依赖) | 100GB+ NVMe SSD | 200GB+ NVMe SSD |
| CPU | 8 核 16 线程(i7/Ryzen 7) | 16 核 32 线程(i9/Ryzen 9) | 32 核 64 线程(至强 / 线程撕裂者) |
| 系统 | Windows 10/11、Linux(Ubuntu 20.04+) | Windows 11、Linux(Ubuntu 22.04+) | Linux(Ubuntu 22.04+)Wan-Animate |
| CUDA | 11.3+ | 12.1+ | 12.1+ |
| Python | 3.10 | 3.11 | 3.11Wan-Animate |
| 生成性能 | 512×896/24fps,14–18 分钟 / 10 秒 | 768×1344/24fps,6–8 分钟 / 10 秒 | 896×1568/30fps,30 秒内 / 10 秒 |
二、使用说明
核心功能
- 角色动画生成:单张参考图 + 驱动视频,生成角色动作一致的视频,保留面部与身份特征。
- 图像转视频(I2V):静态图生成动态视频,支持姿势、表情、光影控制。
- 视频风格迁移:替换视频角色,保持原动作与场景逻辑。
- FP8 量化优化:
e4m3fn精度,显存占用降低 50%,速度提升 30%+,适配 16GB 显存硬件。
输入规范
- 参考图像:JPG/PNG,≤5MB,最短边≥200px,最长边≤4096px,主体居中、面部清晰。
- 驱动视频:MP4/AVI/MOV,≤200MB,2–30 秒,分辨率 720P–4K,帧率 15–30fps,主体居中、动作连贯。
- 提示词:正面描述角色、动作、场景;负面提示排除瑕疵、模糊、变形等。
三、安装教程
1. 环境准备
- 安装 Python 3.11、CUDA 12.1+、GitWan-Animate。
- 创建虚拟环境:
bash
运行
# Windows
python -m venv wan_animate_env
wan_animate_env\Scripts\activate
# Linux/macOS
python3 -m venv wan_animate_env
source wan_animate_env/bin/activate
# 升级pip
python -m pip install --upgrade pip
2. 安装 ComfyUI
bash
运行
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
3. 安装 WanVideo 自定义节点
bash
运行
cd custom_nodes
git clone https://gitcode.com/hf_mirrors/Kijai/WanVideo_comfy_fp8_scaled.git
cd WanVideo_comfy_fp8_scaled
pip install -r requirements.txt
4. 模型文件部署(核心)
表格
| 模型类型 | 文件名 | 存放路径 |
|---|---|---|
| 主模型 | Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KJ.safetensors | ComfyUI/models/diffusion_models/ |
| VAE 模型 | Wan2.1_VAE_bf16.safetensors | ComfyUI/models/vae/ |
| 文本编码器 | umt5-xxl-fp8.safetensors | ComfyUI/models/text_encoders/ |
| LoRA 模型 | lightx2v_I2V_14B、WanAnimate_relight_lora | ComfyUI/models/loras/Wan-Animate |
| 检测模型 | yolov10m.onnx、vitpose-l-wholebody.onnx | ComfyUI/models/detection/ |
| 分割模型 | SEG-4B-FP8.safetensors | ComfyUI/models/sams/ |
5. 启动验证
bash
运行
cd ComfyUI
python main.py
启动后检查节点面板是否出现 WanVideoLoader、WanAnimateSampler 节点,加载成功即可使用。
四、安装目录结构(文件夹图示)
plaintext
ComfyUI/
├── custom_nodes/
│ └── WanVideo_comfy_fp8_scaled/ # 自定义节点
├── models/
│ ├── diffusion_models/
│ │ └── Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KJ.safetensors # 主模型
│ ├── vae/
│ │ └── Wan2.1_VAE_bf16.safetensors
│ ├── text_encoders/
│ │ └── umt5-xxl-fp8.safetensors
│ ├── loras/
│ │ ├── lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
│ │ └── WanAnimate_relight_lora_fp16.safetensors
│ ├── detection/
│ │ ├── yolov10m.onnx
│ │ └── vitpose-l-wholebody.onnx
│ └── sams/
│ └── SEG-4B-FP8.safetensors
├── outputs/ # 生成视频输出目录
└── main.py # 启动脚本
五、建立工作流(ComfyUI)
标准工作流步骤
- 加载参考图像:使用
Load Image节点上传角色图。 - 加载驱动视频:使用
Load Video节点上传动作视频。 - 检测与分割:
YOLOv10 Detection:检测主体位置。DWPose Estimation:提取人体关键点。SAM2 Segmentation:生成主体掩码,分离前景 / 背景。
- 模型加载:
WanVideoLoader:加载主模型、VAE、文本编码器。CLIP Vision Encode:提取参考图视觉特征。
- 提示词设置:
Text Encode:正面提示(角色 + 动作 + 场景)。Negative Text Encode:负面提示(排除瑕疵)。
- 动画生成:
WanAnimateSampler设置参数(分辨率、帧率、步数),连接所有输入节点。 - 后处理:
Video Combine合并帧,RIFE插帧提升流畅度,Save Video导出结果。
六、提示词模板
正面提示(示例)
plaintext
A 21-year-old general's daughter, Shen Qingci, wearing a red imperial concubine dress, with delicate facial features, sharp eyes, walking gracefully in the imperial palace, cinematic lighting, high detail, smooth motion, 4K resolution, 30fps
负面提示(通用)
plaintext
blurry, low resolution, distorted face, unnatural movement, floating head, bad anatomy, ugly, disfigured, noisy, grainy, overexposed, underexposed
七、可直接导入的 ComfyUI 工作流图片
工作流导入方法
- 右键点击 ComfyUI 画布 → 选择 Load (JSON/PNG)。
- 选择上述工作流图片 → 自动加载所有节点与连接。
- 替换参考图像、驱动视频,调整提示词与参数 → 点击 Queue Prompt 生成视频。
