你好,我现在在使用 Flow-Factory 训练视频编辑任务,基础模型已经经过 SFT,当前效果很好。接下来希望利用强化学习进一步提升编辑质量,因此想请教一下当前 RL 配置是否存在潜在风险,尤其是训练与真实推理设置不一致的问题。
当前任务背景
- 任务:视频编辑
- 当前阶段:已完成 SFT,主观效果较好,希望继续做 RL fine-tuning
- 奖励模型:
qwenvl3-32b
- 奖励含义:主要评测视频编辑质量
- 奖励模型部署方式:部署成一个两卡服务,通过远程 reward service 调用
- 训练机器:
5 * 8 * 80g 卡
- 训练 world size:
30
- 真实推理设置:
49 帧、20 个去噪步
- 为提升训练速度,RL 训练中设置为:
17 帧、12 个去噪步
想咨询的问题
- 训练阶段使用
17 帧、12 步,而真实推理/评估使用 49 帧、20 步,会有哪些潜在风险?
- 我看样例中,wan2.2的帧数只设置为1,用图像奖励模型进行评分,这样实际效果怎么样呢,想请问你有测试过嘛,会影响视频模型的时序能力吗
- wan2.1 14B模型进行full大概需要多少显存呢,我目前的配置能够支撑训练吗
当前配置补充
配置文件:
train:
trainer_type: "nft"
advantage_aggregation: "gdpo"
nft_beta: 0.1
off_policy: true
ema_decay_schedule: "piecewise_linear"
flat_steps: 0
ramp_rate: 0.001
ema_decay: 0.5
ema_update_interval: 1
ema_device: "cpu"
num_train_timesteps: 4
time_sampling_strategy: "discrete"
time_shift: 3.0
timestep_range: 0.9
kl_type: "v-based"
kl_beta: 0.0
ref_param_device: "cuda"
adv_clip_range: 5.0
resolution: [832, 480]
num_frames: 17
num_inference_steps: 12
guidance_scale: 6.0
per_device_batch_size: 1
group_size: 8
global_std: false
unique_sample_num_per_epoch: 30
gradient_step_per_epoch: 1
gradient_accumulation_steps: auto
seed: 42
learning_rate: 1.0e-5
adam_weight_decay: 1.0e-4
adam_betas: [0.9, 0.999]
adam_epsilon: 1.0e-8
max_grad_norm: 1.0
enable_gradient_checkpointing: true
offload_samples_to_cpu: true
scheduler:
dynamics_type: "ODE"
最后,感谢您开源这么完善的框架!
你好,我现在在使用 Flow-Factory 训练视频编辑任务,基础模型已经经过 SFT,当前效果很好。接下来希望利用强化学习进一步提升编辑质量,因此想请教一下当前 RL 配置是否存在潜在风险,尤其是训练与真实推理设置不一致的问题。
当前任务背景
qwenvl3-32b5 * 8 * 80g卡3049帧、20个去噪步17帧、12个去噪步想咨询的问题
17帧、12步,而真实推理/评估使用49帧、20步,会有哪些潜在风险?当前配置补充
配置文件:
最后,感谢您开源这么完善的框架!