Skip to content

视频编辑范式 RL 训练中降低帧数和去噪步数的潜在风险 #148

@ShaoDingBao

Description

@ShaoDingBao

你好,我现在在使用 Flow-Factory 训练视频编辑任务,基础模型已经经过 SFT,当前效果很好。接下来希望利用强化学习进一步提升编辑质量,因此想请教一下当前 RL 配置是否存在潜在风险,尤其是训练与真实推理设置不一致的问题。

当前任务背景

  • 任务:视频编辑
  • 当前阶段:已完成 SFT,主观效果较好,希望继续做 RL fine-tuning
  • 奖励模型:qwenvl3-32b
  • 奖励含义:主要评测视频编辑质量
  • 奖励模型部署方式:部署成一个两卡服务,通过远程 reward service 调用
  • 训练机器:5 * 8 * 80g
  • 训练 world size:30
  • 真实推理设置:49 帧、20 个去噪步
  • 为提升训练速度,RL 训练中设置为:17 帧、12 个去噪步

想咨询的问题

  1. 训练阶段使用 17 帧、12 步,而真实推理/评估使用 49 帧、20 步,会有哪些潜在风险?
  2. 我看样例中,wan2.2的帧数只设置为1,用图像奖励模型进行评分,这样实际效果怎么样呢,想请问你有测试过嘛,会影响视频模型的时序能力吗
  3. wan2.1 14B模型进行full大概需要多少显存呢,我目前的配置能够支撑训练吗

当前配置补充

配置文件:

train:
  trainer_type: "nft"
  advantage_aggregation: "gdpo"
  nft_beta: 0.1

  off_policy: true
  ema_decay_schedule: "piecewise_linear"
  flat_steps: 0
  ramp_rate: 0.001
  ema_decay: 0.5
  ema_update_interval: 1
  ema_device: "cpu"

  num_train_timesteps: 4
  time_sampling_strategy: "discrete"
  time_shift: 3.0
  timestep_range: 0.9

  kl_type: "v-based"
  kl_beta: 0.0
  ref_param_device: "cuda"
  adv_clip_range: 5.0

  resolution: [832, 480]  
  num_frames: 17  
  num_inference_steps: 12
  guidance_scale: 6.0  

  per_device_batch_size: 1
  group_size: 8
  global_std: false
  unique_sample_num_per_epoch: 30
  gradient_step_per_epoch: 1
  gradient_accumulation_steps: auto

  seed: 42  
  learning_rate: 1.0e-5
  adam_weight_decay: 1.0e-4
  adam_betas: [0.9, 0.999]
  adam_epsilon: 1.0e-8
  max_grad_norm: 1.0
  enable_gradient_checkpointing: true
  offload_samples_to_cpu: true

scheduler:
  dynamics_type: "ODE"

最后,感谢您开源这么完善的框架!

Metadata

Metadata

Assignees

No one assigned

    Labels

    discussionDiscussion about experiment configs, phenomena and etc.

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions