你的位置:科目三 裸舞 > 草榴最新地址 >
麻生希ed2k 视觉自追忆生成意会裁剪大一统!北大团队多模态新冲破,熟练数据代码全面开源
发布日期:2025-04-16 07:10    点击次数:115

麻生希ed2k 视觉自追忆生成意会裁剪大一统!北大团队多模态新冲破,熟练数据代码全面开源

最近 Google 的 Gemini Flash 和 OpenAI 的 GPT-4o 等先进模子又一次鼓舞了 AI 波涛。这些模子通过整合文本、图像、音频等多种数据体式麻生希ed2k,罢了了更为当然和高效的生成和交互。

北京大学团队继 VARGPT 罢了视觉意会与生成任务并吞之后,再度推出了 VARGPT-v1.1 版块。

该版块进一步擢升了视觉自追忆模子的智力,不仅在在视觉意会方面有所加强,还在图像生成和裁剪任务中达到新的性能高度

现在熟练、推理和评估代码,数据,模子均已开源。

VARGPT-v1.1 连接了前作的蓄意理念,采用了翻新的" next-token "与" next-scale "自追忆预测机制,同期引入四大缺点翻新点:

迭代视觉指示微调与强化学习蛊卦的熟练政策:  通过瓜代进行监督微调(SFT)与基于偏好径直优化(DPO)的强化学习,有用提高了模子的图像生成质地。模子冉冉擢升图像生因素辨率,从 256 × 256 延长至 512 × 512 像素,图像细节与信得过性显耀增强。

更大限制的视觉生成熟练数据集:  VARGPT-v1.1 采用了多达 830 万条视觉生成指示数据,包括信得过宇宙的 LAION-COCO 数据集以及由 Midjourney 与 Flux 模子生成的合成数据。大限制数据的使用显耀扩大了模子对不同类型图像生成的泛化智力。

升级谈话模子骨干至 Qwen2:  引入最新的 Qwen2-7B 谈话模子骨干,愚弄其高效的着重力机制与更好的 token 化政策,有用擢升了模子的视觉意会智力。

无架构修改的图像裁剪智力:  VARGPT-v1.1 在不变嫌模子架构的基础上,通过故意构建的图像裁剪数据集,罢了了图像裁剪功能。这使得模子不仅不错意会和生成图像,还能把柄用户指示对图像进行裁剪。

1 模子架构

VARGPT-v1.1 罢职 VARGPT 的模子架构蓄意,以并吞视觉意会和生成,其架构如上图所示。由(1)一个大谈话模子(Qwen2-7B)、视觉编码器和用于视觉意会的意会投影器;(2)视觉解码器和用于视觉生成的双生成投影器构成。VARGPT-v1.1 在大谈话模子骨干中采用因果着重力机制,同期在视觉解码器中使用块因果着重力机制。

2 熟练政策

VARGPT-v1.1 的熟练罢职 VARGPT 的三阶段熟练措施,举座熟练过程如上图所示。区别于 VARGPT,在第三阶段, VARGPT-v1.1 提议了迭代指示微补救强化学习的措施,以增强并吞模子的视觉生成智力。具体来说,第三阶段的迭代熟练过程如下图所示:

2.1 视觉指示微调

视觉生成的指示微调旨在通过监督微调赋予 VARGPT-v1.1 视觉生成智力。这个阶段,领先解冻视觉解码器和两个投影器,并冻结其他参数以进行有监督微调,如上图所示。本文华纳一种冉冉提高图像分辨率的熟练措施来熟练 VARGPT-v1.1。具体来说,在第一个 SFT 阶段,图像分辨率竖立为 256x256,模子熟练 40K 步,以赋予其生成图像的开动智力。在第二个 SFT 阶段,图像分辨率竖立为 512x512 ,模子熟练 30K 步,以进一步增强其高分辨率视觉生成智力。该视觉指示微调阶段的熟练数据包括 8.3M 网罗和构建的指示对。

2.2 基于东谈主类响应的强化学习

除了指示微调外麻生希ed2k,VARGPT-v1.1 提议迭代指示微调与强化学习来熟练视觉自追忆的大视觉谈话模子。VARGPT-v1.1 通过将生成质地的擢升表述为一个偏好采用问题 , 并采用径直偏好优化(DPO)来对模子进行熟练。这种措施引发模子倾向于生成高质地的图像输出,同期拒却质地较差的输出。具体来说,VARGPT-v1.1 熟练时将倾向于拒却低质地的图像 , 接受高质地的图像来优化政策模子 :

2.3 视觉裁剪的有监督微调

经过有监督微调(SFT)和径直偏好优化(DPO)的多阶段渐进式分辨率迭代后,咱们系统地构建了一个包含来自 Style-Booth 的 11325 个样本的指示调优数据集,以使 VARGPT-v1.1 具备视觉裁剪智力。该经过通过视觉编码器解决看法图像,同期愚弄裁剪指示手脚文本教导,来监督模子对裁剪后图像散布的靠拢。这种措施罢了了:(1)架构保留式适配,无需引入的冗余蓄意罢了裁剪智力;(2)通过结伙文本 - 图像记号预测罢了并吞的多模态裁剪。在该监督微调时候,整个模子参数均未冻结,以在保捏生成各样性的同期最大化裁剪保真度。

3 实验与恶果

罢职 VARGPT 和其他多模态大谈话模子的竖立,本文在一系列面向学术任务的基准测试和最新的视觉意会基准测试中,评估了 VARGPT-v1.1 在视觉意会方面的有用性,悉数触及 11 个基准测试:在包括 MMMU、MME、MMBench、SEEDBench 和 POPE (包括不同的竖立,当场、流行和挣扎)在内的多模态基准上进行零样本多模态评估。总体来说,VARGPT-v1.1 罢了了显耀的视觉意会性能,在各样并吞模子和各样多模态大谈话模子的对比上均占上风。

3.1 Zero-shot multi-modal evaluation

对 VARGPT-v1.1 与各样先进的多模态模子进行了全面评估,恶果如下表。实验恶果标明 VARGPT -v1.1 在整个基准测试中发达出色,在 MMBench 上达到 81.01,在 SEED 上达到 76.08,在 MMMU 上达到 48.56,取得了先进水平的恶果。此外,在 LLaVA - Bench 基准测试上的捏续性能擢升考证了咱们的架构采用和熟练政策的有用性,建设了 VARGPT-v1.1 手脚一个强盛且通用的多模态模子的地位。

3.2 Performance comparison on visual question answering tasks

本文在多个视觉问答数据集上评估了 VARGPT - v1.1 的性能,并将其与几种早先进的多模态模子进行了比较。恶果见表 3。咱们的实验恶果标明 VARGPT-v1.1 在整个视觉问答(VQA)基准测试中均取得了超卓的性能,相较于现存模子有显耀擢升。

3.3 Performance comparison on visual question answering tasks.

为了评估 VARGPT 的视觉生成智力,咱们使用等闲采用的 GenEval 基准和 DPG - Bench 基准进行了全面评估,定量恶果分离见下表。这些数据集为文本到图像的生成智力提供了严格的评估框架。咱们的实验恶果标明,VARGPT-v1.1 优于很多故意的图像生成模子,包括基于扩散的架构(如 SDv2.1)和自追忆措施(如 LlamaGen)。

3.4 Performance comparison on the DPG-Bench benchmark.

3.5 视觉意会的比较

VARGPT-v1.1 展现了更强的意会息争读视觉施行中幽默元素的智力。

3.6 多模态图像文本生成

VARGPT-v1.1 生成的一些 512 x 512 的样本如下所示。VARGPT-v1.1 支撑用户输入文本和图像指示,并同期输出文本和图像的羼杂模态数据。此外,与现存的并吞模子基线比较,咱们的措施在准确的文本到图像生成方面取得了显耀改造。如下图所示,咱们展示了 VARGPT-v1.1 生成的代表性图像输出和对话交互。定性分析标明,VARGPT-v1.1 恒久能生成与给定文本指示密致匹配的高质地图像。

3.7 图像裁剪智力

视觉裁剪恶果可视化如下图所示,本文对视觉裁剪智力进行的定性评估标明,VARGPT-v1.1 具备基本的图像操作智力。这种智力仅通过使用视觉裁剪指示微调数据进行熟练即可得到,无需对架构进行任何修改。此外,这些不雅察恶果说明了并吞模子架构在单一框架内罢了通用视觉意会、生成和裁剪方面具有弘大后劲。

4 论断与谋划

VARGPT-v1.1 通过采用为多模态大模子蓄意的纯果然熟练政策使其具有可延长性,同期为多模态系统架构蓄意开导了新的工夫路线。尽管 VARGPT-v1.1 取得了紧要进展,但团队指出现在版块和商用生成模子之间仍存在差距,此外皮图像裁剪智力方面也存在局限性。改日,团队将进一步延长熟练数据限制,探索新式 token 化措施,并尝试更多的强化学习政策,进一步鼓舞多模态生成意会并吞大模子的发展。

project:   https://vargpt1-1.github.io/

code:   https://github.com/VARGPT-family/VARGPT-v1.1

arxiv:   https://arxiv.org/abs/2504.02949

一键三连「点赞」「转发」「小心心」

接待在驳斥区留住你的念念法!

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿施行‍

附上论文 / 边幅主页纠合,以及关联格式哦

av天堂电影网

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见麻生希ed2k



栏目分类
相关资讯