比特派官网app下载|突破性技术！开源多模态模型—MiniGPT-5 -

2023-11-05 10:28:59来源：比特派官网app下载编辑：标签：

文章导读: 加州大学圣克鲁斯分校研发了MiniGPT-5模型，并提出了全新技术概念“Generative Vokens "，成为文本特征空间和图像特征空间之间的“桥梁”...

原文来源：AIGC开放社区

图片来源：由无界 AI生成

多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域，但如何实现连贯的文本和相关图像是一个棘手的难题。

为了突破技术瓶颈，加州大学圣克鲁斯分校研发了MiniGPT-5模型，并提出了全新技术概念“Generative Vokens "，成为文本特征空间和图像特征空间之间的“桥梁”,实现了普通训练数据的有效对齐,同时生成高质量的文本和图像。

为了评估MiniGPT-5的效果,研究人员在多个数据集上进行了测试,包括CC3M、VIST和MMDialog。结果显示,MiniGPT-5在多个指标上都优于多个对比基线,能够生成连贯、高质量的文本和图像。

例如，在VIST数据集上,MiniGPT-5生成的图像CLIP分数高于fine-tunedStable Diffusion 2; 在人类评估中,MiniGPT-5生成的语言连贯性更好(57.18%),图像质量更高(52.06%),多模态连贯性更强(57.62%)。

在MMDialog数据集上,MiniGPT-5的MM相关性指标达到0.67,超过基准模型Divter的0.62。这充分证明MiniGPT-5在不同数据模式下的强大适应能力。

开源地址：https://github.com/eric-ai-lab/MiniGPT-5

论文地址：https://arxiv.org/abs/2310.02239

MiniGPT-5模型主要有3大创新点：1）利用多模态编码器提取文本和图像特征,代表了一种全新的文本与图像对齐技术,效果优于直接利用大语言模型生成视觉token的方法。

2）提出了无需完整图像描述的双阶段训练策略：第一阶段，专注文本与图像的简单对齐;第二阶段，进行多模态细粒度特征学习。

3）在训练中引入了“无分类器指导”技术,可有效提升多模态生成的内容质量。主要模块架构如下。

Generative Vokens

MiniGPT-5的核心创新就是提出了“Generative Vokens”技术概念，实现了大语言模型与图像生成模型的无缝对接。

具体来说,研究人员向模型的词表中加入了8个特殊的Voken词元[IMG1]-[IMG8]。这些Voken在模型训练时作为图像的占位符使用。

在输入端,图像特征会与Voken的词向量拼接,组成序列输入。在输出端,模型会预测这些Voken的位置,对应的隐状态h_voken用于表示图像内容。

然后,h_voken通过一个特征映射模块,转换为与Stable Diffusion文本编码器输出对齐的图像条件特征ˆh_voken。

在Stable Diffusion中,ˆh_voken作为指导图像生成的条件输入。整个pipeline实现了从图像到语言模型再到图像生成的对接。

这种通过Voken实现对齐的方式,比逆向计算要直接,也比利用图像描述更为通用。简单来说，Generative Vokens就像是一座“桥梁”,使不同模型域之间信息传递更顺畅。

双阶段训练策略

考虑到文本和图像特征空间存在一定的域差异,MiniGPT-5采用了两阶段的训练策略。

第一阶段是单模态对齐阶段：只使用单个图像-文本对的数据,如CC3M。模型学习从图像标题生成对应的Voken。同时,加入辅助的图像标题损失,帮助Voken与图像内容对齐。

第二阶段是多模态学习阶段：使用包含连续多模态样本的数据,如VIST,进行微调。设置不同的训练任务,包括生成文本、生成图像和同时生成两者。增强了模型处理多模态信息的能力。

这种分阶段策略,可以缓解直接在有限数据上训练带来的问题。先进行粗粒度对齐,再微调细粒度特征，并提升了模型的表达能力和鲁棒性。

无分类器指导

为进一步提升生成文本和图像的连贯性,MiniGPT-5还采用了“无分类器指导”的技术。

其核心思想是,在图像扩散过程中,以一定概率用零特征替换条件Voken,实现无条件生成。

在推理时,将有条件和无条件的结果作为正负样本,模型可以更好地利用两者的对比关系,产生连贯的多模态输出。这种方法简单高效,不需要引入额外的分类器,通过数据对比自然指导模型学习。

文本到图像生成模型

MiniGPT-5使用了Stable Diffusion 2.1和多模态模型MiniGPT-4作为文本到图像生成模型。可以根据文本描述生成高质量、高分辨率的图片。

Stable Diffusion使用Diffusion模型和U-Net作为主要组件。Diffusion模型可以将图片表示成噪声数据,然后逐步进行去噪和重构。

U-Net则利用文本特征作为条件,指导去噪过程生成对应的图片。相比GAN,Diffusion模型更稳定,生成效果也更清晰逼真。

为了准确地将生成标记与生成模型对齐，研究人员制定了一个用于维度匹配的紧凑映射模块，并结合了一些监督损失，包括文本空间损失和潜在扩散模型损失。

文本空间损失帮助模型学习标记的正确位置，而潜在扩散损失直接将标记与适当的视觉特征对齐。由于生成Vokens的特征直接由图像引导，因此，不需要图像的全面描述就能实现无描述学习。

研究人员表示,MiniGPT-5的最大贡献在于实现了文本生成和图像生成的有效集成。只需要普通的文本、图像进行预训练,就可以进行连贯的多模态生成,而无需复杂的图像描述。这为多模态任务提供了统一的高效解决方案。

上一篇：比特派钱包官网下载|VR/AR的“芯”病，有救了！ - 返回首页 返回栏目

下一篇：没有了

头条资讯

比特派官网app下载|突破性技术！开源多模: 比特派钱包官网下载|VR/AR的“芯”病，有比特派钱包安卓版下载|大模型的“成本瘦比特派官网下载app|大模型现在还带不动

Bitpie|Gen-2颠覆AI生成视频！一句话秒出4: Bitpie下载|蚂蚁集团发布 DevOps 领域大模型 bitpie安卓版下载|国光电器成立科技公司， bitpie安卓版下载|医联成立 AI 学术委员会

比特派官网app下载最新版本|就业数据公司: bitpie.com官网下载|马斯克：AI 比最聪明的 bitpie钱包app下载|VanceAI 发布面向电子商务比特派|信华信发布软件工程领域大模型

近期热点

热门文章

日榜周榜: 1 比特派官网app下载|突破性技术！开源多模
加州大学圣克鲁斯分校研发了MiniGPT-5模型，并提出了全新技术概念“Generative Vokens "，成为...
2 比特派钱包官网下载|VR/AR的“芯”病，有
一款好芯片，真的能解决行业面临的各种难题吗？ ...
3 比特派钱包安卓版下载|大模型的“成本瘦
怎么给大模型“减负”呢？...
4 比特派官网下载app|大模型现在还带不动
XR行业为什么会遭遇寒冬？寒冬什么时候会过去？AI对XR又会有哪些影响？...
5 Bitpie|Gen-2颠覆AI生成视频！一句话秒出4
这，绝对称得上是生成式AI进程中的里程碑。...
6 比特派app|华信永道：与智谱 AI 签订人工
据界面新闻报道，华信永道 11 月 2 日公告，公司与北京智谱华章科技有限公司就生成式人工智...
7 Bitpie下载|蚂蚁集团发布 DevOps 领域大模型
据站长之家 11 月 2 日报道，蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基...
8 bitpie安卓版下载|国光电器成立科技公司，
据 DoNews 11 月 2 日报道，天眼查 App 显示，近日，苏州国光科技有限公司成立，法定代表人为肖...
9 bitpie安卓版下载|医联成立 AI 学术委员会
据 36 氪 11 月 2 日报道，2023 ⾸届 AI 医学⼤会近日在成都举办。医联在会上宣布成立 AI 学术委...
10 比特派官网app下载最新版本|就业数据公司
据金十 11 月 2 日报道，在最新发布的调查中，就业数据公司挑战者表示其在 10 月又发现了 1...; 1 比特派官网app下载|突破性技术！开源多模
加州大学圣克鲁斯分校研发了MiniGPT-5模型，并提出了全新技术概念“Generative Vokens "，成为...
2 比特派钱包官网下载|VR/AR的“芯”病，有
一款好芯片，真的能解决行业面临的各种难题吗？ ...
3 比特派钱包安卓版下载|大模型的“成本瘦
怎么给大模型“减负”呢？...
4 比特派官网下载app|大模型现在还带不动
XR行业为什么会遭遇寒冬？寒冬什么时候会过去？AI对XR又会有哪些影响？...
5 Bitpie|Gen-2颠覆AI生成视频！一句话秒出4
这，绝对称得上是生成式AI进程中的里程碑。...
6 比特派app|华信永道：与智谱 AI 签订人工
据界面新闻报道，华信永道 11 月 2 日公告，公司与北京智谱华章科技有限公司就生成式人工智...
7 Bitpie下载|蚂蚁集团发布 DevOps 领域大模型
据站长之家 11 月 2 日报道，蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基...
8 bitpie安卓版下载|国光电器成立科技公司，
据 DoNews 11 月 2 日报道，天眼查 App 显示，近日，苏州国光科技有限公司成立，法定代表人为肖...
9 bitpie安卓版下载|医联成立 AI 学术委员会
据 36 氪 11 月 2 日报道，2023 ⾸届 AI 医学⼤会近日在成都举办。医联在会上宣布成立 AI 学术委...
10 比特派官网app下载最新版本|就业数据公司
据金十 11 月 2 日报道，在最新发布的调查中，就业数据公司挑战者表示其在 10 月又发现了 1...