Stability AI发布全新扩散模型DeepFloyd IF!

Stability AI发布全新扩散模型DeepFloyd IF!

Stability AI发布了全新扩散模型DeepFloyd IF,这是一款由文本生成图像的强大模型,并且可以智能地将文本集成到图像中

今天,Stability AI与其多模态人工智能研究实验室DeepFloyd宣布发布DeepFloyd IF,这是一款强大的文本到图像级联像素扩散模型。

DeepFloyd IF是一种最先进的文本到图像模型,基于非商业、研究许可的许可发布,为研究实验室提供了检查和实验先进文本到图像生成方法的机会。与其他Stability AI模型一样,Stability AI打算在未来发布一个完全开源的DeepFloyd IF模型。

特征

• 深度文本理解能力:

生成过程使用了T5-XXL-1.1大型语言模型作为文本编码器。同时,大量的文本-图像交叉注意层也大大优化了提示词与图像的结合。

• 文本描述嵌入图像:

结合T5模型的智能,DeepFloyd IF可以将连贯清晰的文本与不同空间关系中出现的不同属性的对象一起生成。到目前为止,这对大多数文本-图像模型来说都是一个挑战。

• 更加完美的写实主义:

这一特性体现在COCO数据集上优秀的的FID零样本迁移能力得分——6.66分。 (FID是用于评估文本到图像模型性能的主要指标;分数越低越好)。

• 纵横比转换:

具有生成与标准方形宽高比图像相同的非标准宽高比(垂直或水平)能力。

• 零样本迁移能力实现图像到图像的转换:

图像的修改/转换通过以下三步实现:

(1)将原始图像调整为64像素

(2)通过前向扩散加入噪声

(3)使用新的提示符进行后向扩散,对图像进行去噪(在inpainting模式下,该过程发生在图像的局部区域)。

可以通过超分辨率模块通过提示文本描述进一步更改样式。这种方法提供了在保持源图像的基本形式的同时修改输出中的样式、模式和细节的机会——所有这些都不需要微调。

官方示例
官方图像转换示例

提示词示例

DeepFloyd IF可以通过提示词将文本、风格和空间关系创造为不同的融合概念,以适应用户的需求。

官方示例

定义和过程

DeepFloyd IF是一个模块化、级联的像素扩散模型。我们将分别介绍每一个描述词的定义:

模块化:

DeepFloyd IF由几个神经模块(可以解决独立任务的神经网络,比如从文本提示词生成图像的神经网络以及用于图像放大的神经网络)组成,它们在一个架构中的交互产生协同作用。

级联:

DeepFloyd IF以级联方式对高分辨率数据进行建模,使用一系列不同分辨率的单独训练模型。该过程从产生独特的低分辨率样本(“播放器”)的基本模型开始,然后通过连续在超分辨率模型(“放大器”)上进行采样来产生高分辨率图像。

扩散:

DeepFloyd IF的基础模型和超分辨率模型都是扩散模型,其中使用马尔可夫链将随机噪声注入数据,然后将该过程反转以从噪声中生成新的数据样本。

像素:

DeepFloyd IF在像素空间中工作。扩散是在像素级上实现的,不像潜空间扩散模型(如Stable Diffusion),后者使用潜在表示。

官方流程图
这个生成流程图代表了三个阶段的表现:

文本提示词通过T5-XXL语言模型进行转换,以将其转换为定性文本表示。

阶段1:

基本扩散模型将定性文本转换为64×64图像。这个过程就像见证黑胶唱片的凹槽变成音乐一样神奇。DeepFloyd团队已经训练了三个版本的基础模型,每个版本都有不同的参数:IF-I 400M、IF-I 900M和IF-I 4.3B。

阶段2:

“放大”图像,将两个文本条件超分辨率模型(Efficient U-Net)应用于基础模型的输出。第一种方法将64×64图像升级为256×256图像。同样,该模型有几个版本:IF-II 400M和IF-II 1.2B。

阶段3:

应用第二种超分辨率扩散模型生成生动的1024×1024图像。最后的第三级模型IF-III具有700M参数。注意:我们还没有发布这个第三阶段的模型;然而,中频模型的模块化特性允许我们在第三阶段使用其他放大模型-如Stable Diffusion x4 Upscaler。

训练数据集

DeepFloyd IF在一个自定义的高质量LAION-A数据集上进行训练,该数据集包含1B (image, text) pairs(图像,文本)。LAION-A是LAION-5B数据集英文部分的子集,是在基于相似性散列、额外清理和对原始数据集的其他修改进行重复数据删除后获得的。DeepFloyd的自定义过滤器用于删除水印,NSFW和其他不适当的内容。

许可证

作为一个新模型,我们最初是根据研究许可发布DeepFloyd IF的。结合反馈,我们打算发布一个宽松的许可证,请发送反馈到deepfloyd@stability.ai。我们相信,对DeepFloyd IF的研究可以导致跨各个领域的新应用的发展,包括艺术,设计,讲故事,虚拟现实,可访问性等等。通过释放这种最先进的文本到图像模型的全部潜力,研究人员可以创建创新的解决方案,使广泛的用户和行业受益。

作为潜在研究的灵感来源,我们提出了几个问题,分为技术,学术和道德三组。

1. 技术研究问题:

a)用户如何通过识别提高其性能、可扩展性和效率的潜在改进来优化中频模型?

b)如何通过更好的采样、引导甚至微调DeepFloyd中频模式来提高输出质量?

c)用户如何在DeepFloyd IF上应用某些用于修改稳定扩散输出的技术,如DreamBooth、ControlNet和LoRA ?

2. 学术研究问题:

a)探索预训练在迁移学习中的作用:DeepFloyd IF是否可以通过微调(或ControlNet)解决生成任务(例如语义分割)以外的任务?

b)增强模型对图像生成的控制:研究人员能否探索对生成的图像提供更大控制的方法?这些变量包括特定的视觉属性,如自定义图像样式、定制图像合成或其他用户首选项。

c)探索多模态集成,以扩展模型的能力,超越文本到图像的合成:将多种模态(如音频或视频)与DeepFloyd IF集成,以生成更大的动态和上下文感知的视觉表示的最佳方法是什么?

d)评估模型的可解释性:为了更清楚地了解DeepFloyd IF的内部过程,研究人员可以开发技术来提高模型的可解释性,例如,允许对生成图像的视觉特征进行更深入的理解。

3.伦理研究问题:

a) DeepFloyd IF中的偏见是什么,我们如何减轻它们的影响?与任何人工智能模型一样,DeepFloyd IF可能包含源自其训练数据的偏见。研究人员可以探索生成图像中的潜在偏见,并开发减轻其影响的方法,确保人工智能生成内容的公平性和公平性。

b)该模式对社交媒体和内容生成的影响是什么?由于DeepFloyd IF可以从文本中生成高质量的图像,因此理解它对社交媒体内容创作的影响至关重要。研究人员可以研究生成的图像如何影响用户参与度、错误信息以及社交媒体平台上内容的整体质量。

c)研究人员如何利用我们的模型开发有效的假图像检测器?研究人员能否设计一个DeepFloyd if支持的检测系统来识别旨在传播错误信息和假新闻的人工智能生成的内容?

可以在DeepFloyd ‘s hugs Face空间接受模特卡上的许可来获得权重: https://huggingface.co/DeepFloyd。

如果您想了解更多,请查看该模型的网站: https://deepfloyd.ai/deepfloyd-if。

模型卡和代码可在这里获得: https://github.com/deep-floyd/IF。

欢迎大家尝试gradio上的测试版: https://huggingface.co/spaces/DeepFloyd/IF。

加入我们的公开讨论: https://linktr.ee/deepfloyd

我们欢迎您的反馈!请将您对DeepFloyd IF的评论和建议发送到deepfloyd@stability.ai

(图像均来自官网)

给TA打赏
共{{data.count}}人
人已打赏
SD作品展

女骑士

2023-7-16 21:47:45

SD教程

SD神级智能填充扩图手把手一分钟教程,平替PS AI

2023-6-13 11:15:21

个人中心
购物车
优惠劵
搜索