视频编辑范式 RL 训练中降低帧数和去噪步数的潜在风险

你好，我现在在使用 Flow-Factory 训练视频编辑任务，基础模型已经经过 SFT，当前效果很好。接下来希望利用强化学习进一步提升编辑质量，因此想请教一下当前 RL 配置是否存在潜在风险，尤其是训练与真实推理设置不一致的问题。

## 当前任务背景

- 任务：视频编辑
- 当前阶段：已完成 SFT，主观效果较好，希望继续做 RL fine-tuning
- 奖励模型：`qwenvl3-32b`
- 奖励含义：主要评测视频编辑质量
- 奖励模型部署方式：部署成一个两卡服务，通过远程 reward service 调用
- 训练机器：`5 * 8 * 80g` 卡
- 训练 world size：`30`
- 真实推理设置：`49` 帧、`20` 个去噪步
- 为提升训练速度，RL 训练中设置为：`17` 帧、`12` 个去噪步

## 想咨询的问题

1. 训练阶段使用 `17` 帧、`12` 步，而真实推理/评估使用 `49` 帧、`20` 步，会有哪些潜在风险？
2. 我看样例中，wan2.2的帧数只设置为1，用图像奖励模型进行评分，这样实际效果怎么样呢，想请问你有测试过嘛，会影响视频模型的时序能力吗
3. wan2.1 14B模型进行full大概需要多少显存呢，我目前的配置能够支撑训练吗
## 当前配置补充

配置文件：


```yaml
train:
  trainer_type: "nft"
  advantage_aggregation: "gdpo"
  nft_beta: 0.1

  off_policy: true
  ema_decay_schedule: "piecewise_linear"
  flat_steps: 0
  ramp_rate: 0.001
  ema_decay: 0.5
  ema_update_interval: 1
  ema_device: "cpu"

  num_train_timesteps: 4
  time_sampling_strategy: "discrete"
  time_shift: 3.0
  timestep_range: 0.9

  kl_type: "v-based"
  kl_beta: 0.0
  ref_param_device: "cuda"
  adv_clip_range: 5.0

  resolution: [832, 480]  
  num_frames: 17  
  num_inference_steps: 12
  guidance_scale: 6.0  

  per_device_batch_size: 1
  group_size: 8
  global_std: false
  unique_sample_num_per_epoch: 30
  gradient_step_per_epoch: 1
  gradient_accumulation_steps: auto

  seed: 42  
  learning_rate: 1.0e-5
  adam_weight_decay: 1.0e-4
  adam_betas: [0.9, 0.999]
  adam_epsilon: 1.0e-8
  max_grad_norm: 1.0
  enable_gradient_checkpointing: true
  offload_samples_to_cpu: true

scheduler:
  dynamics_type: "ODE"
```
最后，感谢您开源这么完善的框架！


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

视频编辑范式 RL 训练中降低帧数和去噪步数的潜在风险 #148

当前任务背景

想咨询的问题

当前配置补充

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

视频编辑范式 RL 训练中降低帧数和去噪步数的潜在风险 #148

Description

当前任务背景

想咨询的问题

当前配置补充

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions