网易首页 > 网易号 > 正文 申请入驻

DanceGRPO:首个统一视觉生成的强化学习框架

0
分享至




本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

现在,我们推出名为DanceGRPO的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。



  • 论文标题:DanceGRPO: Unleashing GRPO on Visual Generation
  • arXiv 链接:http://arxiv.org/pdf/2505.07818

动机

在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的视野,首先是 GPT-3.5/o1 等一系列工作让大家明白了 RLHF 在 LLM 中的意义,LLM 领域的 RLHF 方案百花齐放,发展的相对成熟一些,今年更催生了 R1 这一类的大爆款工作。同时,大家也发现,对于视觉生成任务,RLHF 对美感等指标几乎有着决定性影响,但相较 LLM 的成熟度,生成领域的 RLHF 方案显然没那么成熟,目前的主流方案大概分为两类:

1. Diffusion/Flow-DPO:这一类方法是也是直接来自于 LLM 的 DPO 的影响,在实际操作中,大体分为两种方案,第一种是离线 DPO,即让模型去生成一批数据,然后人工标注,然后让好和坏的数据组成 pairs 送回模型去优化,第二种是在线 DPO,即在线生成数据,然后让 reward model 实时打分,然后拿回去训练,这两种思路大同小异。在实际操作中,我们发现 DPO 对模型的效果比较微弱,比如 DPO 前后的生成结果区别并不是很大,原因也很好理解,DPO 并没有拿 reward 作为信号去 reinforce 模型的学习,而是用一种类似 SFT 的方案去做,这种情况下对模型的作用并不是很大。

2. ReFL:这一类方案是 diffusion/rectified flow 所专有的,思路非常简单直接,就是直接在 z_t 步下直接预测 z_0 的结果,然后 vae 去 decode 直接送进 reward model 去直接反向传播进行优化。这一类方案在图像上效果很明显,但是因为要对 reward model 和 decode 后的 features 进行反向传播,在面对 100 帧以上的视频生成的时候显存压力很大。而且,目前 LLM 和 diffusion 联合训练已成为大势所驱,ReFL 这种通过建模 z_t 和 z_0 的关系,并且直接反向传播的方式,似乎和这一类模型的建模策略有着很大的 gap。

于是,利用强化学习对模型进行优化的思路也就呼之欲出了,之前社区也对强化学习优化生成模型有过一些探索,例如 DDPO 和 DPOK,但是他们都有很强的局限性:

1. 尝试的数据集非常小,一般小于 100 个 prompts,

2. 只针对文生图 diffusion model 进行了测试,并没有涉及到目前流行的 rectified flow 和视频生成模型

实现目标

于是,我们的目标也呼之欲出,我们的强化学习算法需要满足以下特征:

1. 提升明显,reward 上涨的足够多

2. 在 video 上实现的时候显存压力不能大,即,不能直接反向传播 reward model 和 vae

3. 能在大型 prompt 数据集上训练

4. 能迁移到 rectified flow 和视频生成模型

DanceGRPO

核心贡献

我们是第一个视觉生成 + 强化学习的大一统框架,一个 DanceGRPO,可以应用在 diffusion 和 rectified flow,可以应用在文生图,文生视频,图生视频三类任务,我们在四个 foundation model 上进行了测试,包括了 Stable Diffusion,FLUX,HunyuanVideo,SkyReel-I2V,我们还在五个 reward model 上进行了测试。

方案设计

受最近在 LLM 大火的 GRPO 影响,我们开始尝试 GRPO 这一类方案是否能在 diffusion model 或者 rectified flow 上稳定训练,首先我们要 claim 的点是,diffusion model 和 rectified flow 的出发点虽然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情况,在这种 case 下,他们的采样方程都可以用 SDE 实现,具体的公式推导参见原文即可。

接下来,我们就开始实现啦,核心的思路还是 follow 了 DeepSeek 的 GRPO 策略,即,用一个 prompt,生成一批数据,然后用 GRPO 的目标函数进行优化,但我们并没有加入 KL 散度的正则项,因为发现这一项实际上作用不大,以下是我们实验过程中的一些核心发现:

1. 同一个 prompt 的初始化噪声最好相同,不然容易 reward hacking

2. 我们可以采样一个子集的 timesteps 来加速训练,同时让模型见过更多的 prompts

3. 实现中可以使用多个 reward model 叠加,而且实现的时候最好是多个 advantage 来叠加

4. DanceGRPO 可以学会 best-of-n inference scaling 的轨迹

5. 强化学习会削弱生成的多样性

6. 训练尽量不要打开 cfg,如果非要打开的话,一批 prompt 只能更新一次梯度

算法流程如下:



接下来是关于 reward model 的讨论,我们一共使用了五类 reward model:

(1) 图像美感

(2) 视频美感

(3) 图文匹配

(4) 视频动态质量

(5) 我们提出了一种新的 reward model,即把美感 & 图文匹配 reward model 的结果给二值化,意思是大于某个阈值就是 1,小于这个阈值就是 0

我们在文生图,文生视频和图生视频上进行了测试。

实验结果

我们使用了 HPS-v2.1 和 Clip score 去优化模型,结果如下所示:





我们利用 VideoAlign 在 HunyuanVideo 上进行训练:



以下是一些 reward 曲线:





ps:i2v 任务有一些区别,我们拿视觉美感 reward model 训练的时候很容易发散,个人认为是因为 i2v 的美感更多取决于首帧,这个任务本身只有 motion quality 可言,所以我们只选择了使用 motion quality reward 去进行训练。

这是一个随着 FLUX 训练迭代次数的增加,可视化的变化,我们在训练过程中引入随机性,但是可视化是不会引入的,就是正常的 ODE solver。



更多的结果欢迎看原文~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄仁勋焦虑的背后:中国2800颗算力卫星或将终结GPU时代

黄仁勋焦虑的背后:中国2800颗算力卫星或将终结GPU时代

星光看娱乐
2025-05-15 10:26:26
印巴空战连锁反应出现,印尼审查81亿美元阵风订单,马克龙尴尬了

印巴空战连锁反应出现,印尼审查81亿美元阵风订单,马克龙尴尬了

第一军情
2025-05-15 11:16:49
特朗普到访,卡塔尔要买160架飞机,波音公司获价值2000亿美元的订单!波音股价直线拉升

特朗普到访,卡塔尔要买160架飞机,波音公司获价值2000亿美元的订单!波音股价直线拉升

每日经济新闻
2025-05-15 00:07:14
巴基斯坦组“巨型人体歼10C战机”,向中国等支持巴基斯坦的国家致谢

巴基斯坦组“巨型人体歼10C战机”,向中国等支持巴基斯坦的国家致谢

可达鸭面面观
2025-05-15 21:10:28
公务员收入稳定,建议取消机关食堂,让他们去街上吃饭来带动消费

公务员收入稳定,建议取消机关食堂,让他们去街上吃饭来带动消费

小萝卜丝
2025-05-15 20:35:43
“家长被迫抱婴儿站护学岗”,当地教育局通报:已责成学校整改

“家长被迫抱婴儿站护学岗”,当地教育局通报:已责成学校整改

界面新闻
2025-05-15 22:18:56
王阳明真迹卖出1.09亿人民币天价

王阳明真迹卖出1.09亿人民币天价

大象新闻
2025-05-15 11:34:11
《碟中谍8》首映口碑爆了:最伟大的动作片,但内地上映无望

《碟中谍8》首映口碑爆了:最伟大的动作片,但内地上映无望

光影新天地
2025-05-15 17:50:53
上一场贸易战中国打赢了吗?其实前两场咱们都输了,而且输的厉害

上一场贸易战中国打赢了吗?其实前两场咱们都输了,而且输的厉害

慢看世界
2025-05-15 11:52:04
杨晨:已向法兰克福推荐王钰栋,他可以参考孙兴慜的旅欧经历

杨晨:已向法兰克福推荐王钰栋,他可以参考孙兴慜的旅欧经历

懂球帝
2025-05-15 20:39:05
缺乏“大国担当”的印度:收本国大学生学费34元,收外国留学生1.8万!

缺乏“大国担当”的印度:收本国大学生学费34元,收外国留学生1.8万!

深度报
2025-05-15 22:26:57
浙江省台州市政协原副主席林虹被“双开”

浙江省台州市政协原副主席林虹被“双开”

澎湃新闻
2025-05-15 21:32:27
恶搞不能逾越边界

恶搞不能逾越边界

报人刘亚东
2025-05-15 16:47:21
长城魏建军:丰田埃尔法是最好的MPV,我们买了五辆来研究

长城魏建军:丰田埃尔法是最好的MPV,我们买了五辆来研究

金融界
2025-05-15 14:26:07
不到48小时,特朗普风口突变,对华无理关税未取消,外交部发声

不到48小时,特朗普风口突变,对华无理关税未取消,外交部发声

逍遥史记
2025-05-15 15:26:55
商务部:长和集团出售港口交易各方不得采取任何方式规避审查,未获批准前,不得实施集中,否则将承担法律责任

商务部:长和集团出售港口交易各方不得采取任何方式规避审查,未获批准前,不得实施集中,否则将承担法律责任

每日经济新闻
2025-05-15 21:58:43
较量开始了!美国限制任何国家使用华为昇腾,中国打出两记重拳!

较量开始了!美国限制任何国家使用华为昇腾,中国打出两记重拳!

大卫聊科技
2025-05-15 15:02:24
湖南农业银行致老人死亡后续:侄女公布事情经过,银行忙撇清关系

湖南农业银行致老人死亡后续:侄女公布事情经过,银行忙撇清关系

说说史事
2025-05-15 18:18:07
95年杭州夫妻花50万囤茅台酒,15年后,茅台价格让他们愣住

95年杭州夫妻花50万囤茅台酒,15年后,茅台价格让他们愣住

故事秘栈
2025-05-13 22:37:11
救命‼️王安宇的CP怎么每对都像真情侣‼️

救命‼️王安宇的CP怎么每对都像真情侣‼️

枫尘余往逝
2025-05-15 00:22:07
2025-05-16 02:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10488文章数 142314关注度
往期回顾 全部

科技要闻

特朗普施压库克:不希望苹果在印度建厂!

头条要闻

刘晓庆被实名举报涉嫌偷税漏税 官方:正依法依规办理

头条要闻

刘晓庆被实名举报涉嫌偷税漏税 官方:正依法依规办理

体育要闻

越过山丘!郑钦文:山海皆可平 罗马站4强

娱乐要闻

一场恋情瓜暴露了赵丽颖的真实处境

财经要闻

李强:把做强国内大循环摆到更加突出位置

汽车要闻

下半年上市/预计15万元左右 长安启源A06官图发布

态度原创

家居
房产
数码
公开课
军事航空

家居要闻

自然木色 松弛温暖家园

房产要闻

三年血亏468万!天河、黄埔网红盘,跌到底了吗?

数码要闻

BiCS8 TLC 进入企业级领域,铠侠发布 CM9 系列 PCIe 5.0 SSD

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京和特朗普均缺席俄乌土耳其会谈

无障碍浏览 进入关怀版