Hello, I'd like some help with the workflow shown in this video.
https://www.youtube.com/watch?v=dc9dmzuksdo&t=100s
I've watched the video several times, and I have the exact same values as in the video, except for the resolution, because I want the generation to be faster for testing. My configuration is an i7-14700k CPU, a 3090 GPU, and 64 GB of RAM.
The result is that the video is generated, but I only get the first frame; then the image goes black with the audio. I'm sharing the generation log in the hope that you can help me understand what's happening, as well as the link to the workflow.
Workflow:https://drive.google.com/drive/folders/1btSUWxPdzNN3yXrGE2aFsgJLMTxVO6sO
LOG:
got prompt
Failed to validate prompt for output 131:
* easy clearCacheAll 443:
- Required input is missing: anything
Output will be ignored
Failed to validate prompt for output 443:
* (prompt):
- Required input is missing: anything
Output will be ignored
Failed to validate prompt for output 438:
Output will be ignored
Failed to validate prompt for output 444:
Output will be ignored
Failed to validate prompt for output 369:
Output will be ignored
Prompt executed in 1.59 seconds
got prompt
C:\Users\rico\Downloads\ComfyUI-Easy-Install-SageAttention-etc\ComfyUI-Easy-Install\ComfyUI-Easy-Install\python_embeded\Lib\site-packages\onnxruntime\capi\onnxruntime_inference_collection.py:123: UserWarning: Specified provider 'CUDAExecutionProvider' is not in available provider names.Available providers: 'AzureExecutionProvider, CPUExecutionProvider'
warnings.warn(
Detecting bboxes: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [02:30<00:00, 1.21s/it]
Extracting keypoints: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [05:12<00:00, 2.52s/it]
Drawing pose images: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:00<00:00, 458.47it/s]
Image size 640x360 is not divisible by 16, resizing to 640x352
WanVAE encoding frames: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 31/31 [00:03<00:00, 10.01it/s]
WanVideoEncode: Encoded latents shape torch.Size([1, 16, 31, 44, 80])
Using accelerate to load and assign controlnet model weights to device...
Loading transformer parameters to cpu: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 490/490 [00:00<00:00, 898.06it/s]
Loading T5 parameters: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 242/242 [00:06<00:00, 38.16it/s]
T5Encoder: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:00<00:00, 586.83it/s]
prompt token count: tensor([7], device='cuda:0')
T5Encoder: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:00<00:00, 1599.99it/s]
prompt token count: tensor([126], device='cuda:0')
model_path: C:\Users\rico\Downloads\ComfyUI-Easy-Install-SageAttention-etc\ComfyUI-Easy-Install\ComfyUI-Easy-Install\ComfyUI\models\sam2\sam2.1_hiera_base_plus-fp16.safetensors
Using model config: C:\Users\rico\Downloads\ComfyUI-Easy-Install-SageAttention-etc\ComfyUI-Easy-Install\ComfyUI-Easy-Install\ComfyUI\custom_nodes\ComfyUI-segment-anything-2\sam2_configs\sam2.1_hiera_b+.yaml
Resizing to model input image size: 1024
propagate in video: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:07<00:00, 17.36it/s]
Expanding/Contracting Mask: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:00<00:00, 566.21it/s]
BlockifyMask batch: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:00<00:00, 765.44it/s]
DrawMaskOnImage batch: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 124/124 [00:00<00:00, 488.19it/s]
Requested to load CLIPVisionModelProjection
loaded completely; 20240.72 MB usable, 1208.10 MB loaded, full load: True
Clip embeds shape: torch.Size([1, 257, 1280]), dtype: torch.float32
Combined clip embeds shape: torch.Size([1, 257, 1280])
WanVAE encoding frames: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 76.92it/s]
CUDA Compute Capability: 8.6
Detected model in_channels: 36
Model cross attention type: i2v, num_heads: 40, num_layers: 40
Model variant detected: 14B
Loading LoRA: WanAnimate_relight_lora_fp16_resized_from_128_to_dynamic_22 with strength: 1.0
Loading LoRA: lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16 with strength: 1.2
Loading and assigning model weights to device...
Loading transformer parameters to cuda:0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1427/1427 [00:07<00:00, 182.53it/s]
-------------------------
Transformer weights loaded:
Device: cuda:0 | Memory: 3,078,979.31 MB
Device: cpu | Memory: 10,201,402.52 MB
Using 1261 LoRA weight patches for WanVideo model
------- Scheduler info -------
Total timesteps: tensor([999, 937, 833, 624], device='cuda:0')
Using timesteps: tensor([999, 937, 833, 624], device='cuda:0')
Using sigmas: tensor([1.0000, 0.9375, 0.8333, 0.6249, 0.0000])
------------------------------
Rope function: comfy
WanAnimate: Face input torch.Size([1, 3, 124, 512, 512]) padded to shape torch.Size([1, 3, 153, 512, 512])
WanAnimate: Ref masks torch.Size([4, 31, 44, 80]) padded to shape torch.Size([4, 40, 44, 80])
WanAnimate: BG images torch.Size([3, 124, 352, 640]) padded to shape torch.Size([3, 124, 352, 640])
WanAnimate: Pose images torch.Size([3, 124, 352, 640]) padded to shape torch.Size([3, 153, 352, 640])
Sampling 121 frames in 2 windows, at 640x352 with 4 steps
WanVAE encoding frames: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:01<00:00, 12.04it/s]
Generated new RoPE frequencies
Frames 0-77: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:58<00:00, 14.51s/it]
Frames 76-153: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:48<00:00, 12.22s/it]
[Sampling] Max allocated memory: max_memory=10.261 GB
[Sampling] Max reserved memory: max_reserved=12.062 GB
WanVAE encoding frames: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 39/39 [00:04<00:00, 9.17it/s]
WanVideoEncode: Encoded latents shape torch.Size([1, 16, 39, 44, 80])
Requested to load CLIPVisionModelProjection
loaded completely; 20220.92 MB usable, 1208.10 MB loaded, full load: True
Clip embeds shape: torch.Size([1, 257, 1280]), dtype: torch.float32
Combined clip embeds shape: torch.Size([1, 257, 1280])
Loading and assigning model weights to device...
Loading transformer parameters to cuda:0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1633/1633 [00:08<00:00, 193.02it/s]
-------------------------
Transformer weights loaded:
Device: cuda:0 | Memory: 4,094,394.36 MB
Device: cpu | Memory: 10,801,487.25 MB
Using 1261 LoRA weight patches for WanVideo model
------- Scheduler info -------
Total timesteps: tensor([999, 982, 956, 916, 846, 687], device='cuda:0')
Using timesteps: tensor([999, 982, 956, 916, 846, 687], device='cuda:0')
Using sigmas: tensor([1.0000, 0.9821, 0.9565, 0.9167, 0.8461, 0.6875, 0.0000])
------------------------------
Multitalk audio features shapes (per speaker): [(124, 12, 768)]
Rope function: comfy
Multitalk mode: infinitetalk
Sampling 124 frames in 2 windows, at 640x352 with 6 steps
Sampling audio indices 0-81: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [01:42<00:00, 17.01s/it]
Audio embedding for subject 0 not long enough: 124, need 153, padding...
Padding length: 32
Sampling audio indices 72-153: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [01:13<00:00, 12.24s/it]
[Sampling] Max allocated memory: max_memory=12.245 GB
[Sampling] Max reserved memory: max_reserved=13.031 GB
Prompt executed in 00:14:55