ltx-2-19b-distilled-lora-384 完整使用指南
一、硬件配置(分类型)
1. 最低配置(勉强运行,速度慢)
- GPU:NVIDIA CUDA 显卡,≥12GB 显存(如 RTX 3060 12GB、RTX 4060 Ti 16GB)
- 系统内存:≥16GB RAM
- 存储:≥80GB 可用 SSD 空间(模型 + 缓存 + 输出)
- 系统:Windows 10+/Ubuntu 20.04+,仅支持 NVIDIA 显卡
2. 推荐配置(流畅运行,效率高)
- GPU:RTX 4090/3090/4080 Ti,≥24GB 显存(优先 32GB+)
- 系统内存:≥64GB RAM
- 存储:≥100GB 高速 SSD(NVMe 最佳)
- 软件依赖:Python 3.10.x、CUDA 11.7+、PyTorch 2.0+
3. 高端配置(专业级,全功能)
- GPU:RTX 6000 Ada/ A100,48GB + 显存
- 系统内存:≥128GB RAM
- 存储:≥200GB NVMe SSD
- 优势:支持高分辨率(1024×768)、多帧并行、完整采样步数
二、使用说明
1. 模型定位
- ltx-2-19b-distilled-lora-384 是 LTX-2 19B 模型的蒸馏版 LoRA,专为384 分辨率视频生成优化,大幅降低显存占用、提升生成速度,适合中低端显卡。
- 核心作用:轻量化微调,在保持基础生成能力的同时,适配低显存设备,生成 384 高度的短视频。
2. 核心功能
- 适配 ComfyUI 框架,支持文生视频(T2V)、图生视频(I2V)。
- 搭配蒸馏主模型(ltx-2-19b-distilled-fp8),12GB 显存即可运行,速度比完整模型快 30%-50%。
- 支持 LoRA 强度调节(0-1),控制生成风格与细节的融合度。
3. 适用场景
- 短视频创作(10-30 秒,384×512/512×384 分辨率)
- 低显存设备本地部署、快速迭代测试
- 批量生成低成本视频素材
三、安装教程(ComfyUI 环境)
前置准备
- 安装 ComfyUI(版本≥1.7.0),并配置好 Python 3.10、CUDA 11.7+ 环境。
- 下载核心文件:
- 蒸馏主模型:ltx-2-19b-distilled-fp8.safetensors(约 27GB)
- 目标 LoRA:ltx-2-19b-distilled-lora-384.safetensors(约数 GB)
- 辅助模型:Gemma 文本编码器、空间 / 时间上采样器(按需)
安装步骤(2 种方式)
方式 1:ComfyUI Manager 安装(推荐)
- 启动 ComfyUI,按 Ctrl+M 打开 Manager。
- 选择 Install Custom Nodes,搜索 LTXVideo 并安装。
- 重启 ComfyUI,完成扩展加载。
- 将下载的模型文件放入对应目录(见下文)。
方式 2:手动安装
- 打开终端,进入 ComfyUI 的
custom-nodes目录:bash运行cd ComfyUI/custom-nodes git clone https://gitcode.com/GitHub_Trending/co/ComfyUI-LTXVideo.git cd ComfyUI-LTXVideo pip install -r requirements.txt --no-cache-dir - 重启 ComfyUI,确认扩展加载成功。
📂 ComfyUI 完整安装目录(核心结构)
以 Windows 便携版为例,解压后根目录为:
ComfyUI_windows_portable
plaintext
📁 ComfyUI_windows_portable
├── 📁 ComfyUI # 主程序根目录(核心)
│ ├── 📁 custom_nodes # 自定义节点/插件目录
│ │ └── 📁 ComfyUI-LTXVideo # LTX-2 视频生成插件(必须)
│ ├── 📁 models # 所有模型存放总目录(重点)
│ │ ├── 📁 checkpoints # 主模型(蒸馏版)
│ │ │ └── ltx-2-19b-distilled-fp8.safetensors
│ │ ├── 📁 loras # LoRA 模型(384 专用)
│ │ │ └── ltx-2-19b-distilled-lora-384.safetensors
│ │ ├── 📁 text_encoders # 文本编码器(Gemma)
│ │ │ └── 📁 gemma-3-12b-it-qat-q4_0-unquantized # 完整文件夹
│ │ ├── 📁 latent_upscale_models # 上采样器(空间/时间)
│ │ │ ├── ltx-2-spatial-upscaler-x2-1.0.safetensors
│ │ │ └── ltx-2-temporal-upscaler-x2-1.0.safetensors
│ │ └── 📁 vae # VAE 模型(可选,LTX-2 内置)
│ ├── 📁 input # 输入图片/视频目录
│ ├── 📁 output # 生成视频输出目录
│ └── run_nvidia_gpu.bat # 启动脚本(N 卡)
├── 📁 python_embeded # 内置 Python 环境
└── run_nvidia_gpu.bat # 根目录启动脚本
🎯 关键文件路径(直接复制对照)
1. 主模型(蒸馏版)
- 路径:
ComfyUI/models/checkpoints/ltx-2-19b-distilled-fp8.safetensors - 作用:LTX-2 19B 蒸馏主模型,FP8 量化,适配低显存。
2. LoRA 模型(384 专用)
- 路径:
ComfyUI/models/loras/ltx-2-19b-distilled-lora-384.safetensors - 作用:384 分辨率优化 LoRA,降低显存占用、提升速度。
3. 文本编码器(Gemma)
- 路径:
ComfyUI/models/text_encoders/gemma-3-12b-it-qat-q4_0-unquantized/ - 说明:需将下载的 Gemma 编码器整个文件夹放入此目录。
4. 上采样器(空间 / 时间)
- 路径:
ComfyUI/models/latent_upscale_models/ - 文件:
ltx-2-spatial-upscaler-x2-1.0.safetensors(空间放大)ltx-2-temporal-upscaler-x2-1.0.safetensors(时间放大)
5. 插件目录(ComfyUI-LTXVideo)
- 路径:
ComfyUI/custom_nodes/ComfyUI-LTXVideo/ - 说明:通过 Git 克隆或 ComfyUI Manager 安装,存放 LTX-2 专用节点。
✅ 安装检查清单(确保路径正确)
- 主模型在
checkpoints目录,文件名完全匹配。 - LoRA 在
loras目录,文件名含384。 - Gemma 编码器是完整文件夹,在
text_encoders下。 - 上采样器在
latent_upscale_models目录。 - 插件
ComfyUI-LTXVideo在custom_nodes目录。 - 重启 ComfyUI,点击「Refresh」刷新模型列表。
⚠️ 常见错误与解决
- 报错「Model not found」:检查路径层级、文件名拼写、文件扩展名(
.safetensors)。 - 无法识别 LoRA:确保目录名是
loras(复数),非lora或LoRAs。 - 编码器加载失败:Gemma 文件夹名必须完全一致,不可重命名。
五、建立工作流(ComfyUI 可视化)
1. 基础文生视频工作流(含 LoRA)
- 加载预设工作流:打开 ComfyUI,点击左侧「工作流」,加载 LTX-2_T2V_wLora.json。
- 核心节点配置:
- Checkpoint Loader:选择
ltx-2-19b-distilled-fp8。 - LoRA Loader:选择
ltx-2-19b-distilled-lora-384,强度设为 0.6-0.8(推荐)。 - CLIP Text Encode:输入提示词(见下文)。
- LTX-2 T2V Sampler:
- 分辨率:512×384(适配 LoRA)
- 帧数:16-32 帧(5-10 秒,24fps)
- 采样步数:25-30(蒸馏版推荐)
- 采样器:K_EULER_ANCESTRAL
- VAEDecode + Save Video:输出视频文件。
- Checkpoint Loader:选择
2. 低显存优化(12GB 显存)
- 启用 低显存模式:在 LTX-2 节点勾选「Low VRAM」。
- 降低分辨率至 384×384,采样步数≤25。
- 关闭上采样器,减少后处理节点。
六、提示词(Prompt)规范
1. 核心结构(官方推荐)
- 核心动作(1 句话):如「A woman walks slowly through a rainy street」。
- 细节描述:动作、姿势、外貌、服饰(如「wearing a red coat, holding an umbrella」)。
- 环境与镜头:背景、光线、视角(如「neon lights, wet pavement, cinematic close-up」)。
- 风格与质量:分辨率、帧率、风格(如「4K, 24fps, moody film noir」)。
2. 示例(适配 384 分辨率)
plaintext
A young man runs through a sunflower field at golden hour, wind blowing his hair, smiling, wide shot, soft focus, warm lighting, 512x384 resolution, cinematic, high detail, smooth motion
3. 避坑指南
- 避免过于复杂的多动作描述(如「跑 + 跳 + 转身 + 说话」),模型易混乱。
- 明确分辨率(512×384),匹配 LoRA 优化尺寸。
- 加入motion 相关词(如「slowly moving」「wind blowing」),提升视频流畅度。
- 字数控制在200 字内,聚焦 1-2 个核心视觉元素。