AI艺术引擎：开启创意的无限可能

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News CN AI艺术引擎：开启创意的无限可能

AI艺术引擎：开启创意的无限可能

AI图像生成的背景
DALL-E和DALLE-2：AI图像生成的里程碑
通过文本生成图像：模型和数据集
「引导式工程」：与深度学习模型的对话
多维空间和隐藏变量：理解深度学习模型
扩展艺术风格：为机器传递艺术家的灵感
后果和问题：隐含偏见和伦理问题
文字到图像的未来：虚拟世界和创意产业
创意人群对AI图像生成的看法

🤖 AI图像生成的背景

过去的七年中，自动图像标题生成成为了人工智能研究中的一项重要发展。机器学习算法已经能够标记图像中的对象，并学会用自然语言描述这些标签。这引起了一些研究人员的好奇心，他们将这一过程反转，尝试从文本生成图像。这项更为复杂的任务不同于谷歌搜索的图像检索，而是要生成从未出现过的全新场景。研究人员询问了计算机模型一个从未见过的事物，例如将所有已见过的校车都是黄色的，但是如果我们写道“红色或绿色的校车”，它会尝试生成一些绿色的东西吗？然后它真的做到了。尽管生成的图像只是32x32像素的微小图像，但它展示了研究人员所期望的新可能性。一年后，也就是2021年1月，人工智能公司Open AI宣布了DALL-E模型，该模型可以根据文本描述生成图像。这一重大突破标志着这项技术在短短一年内取得的巨大进展。

🚀 DALL-E和DALLE-2：AI图像生成的里程碑

DALL-E模型的问世引发了巨大的关注，它被命名为Dali和这些人。它可以根据各种概念的文本描述生成图像。而在最近推出的DALLE-2模型中，承诺能够提供更真实的结果和无缝的编辑功能。然而，目前这两个版本都还未面向公众发布。在过去的一年中，一些独立开发者和开源社区利用其他预训练模型构建了文字到图像的生成器，并可以在网络上免费使用。其中一家名为Midjourney的公司甚至创建了一个基于Discord的社区，使用机器人将文本转化为图像，每分钟不到一分钟就能完成。这种技术的低门槛使其成为全新的创意领域。

🖼️ 通过文本生成图像：模型和数据集

要使图像生成器能够对各种不同的提示作出反应，需要使用大量且多样化的训练数据集。这些数据集通常是通过从互联网上收集数亿张图片及其文字描述构建而成的。这些描述可以来自网站所有者为了辅助残障人士和搜索引擎而上传的图片的替代文本。工程师们利用这些巨大的数据集来训练模型。然而，模型具体如何使用这些数据集却不同于我们的猜想。我们可能认为，当我们给定一个文本提示时，模型会从训练数据中找到相关的图像，然后复制其中一些像素。但事实并非如此。生成的图像并不是来自于训练数据，而是来自于深度学习模型的"潜在空间"。我将在后文具体介绍这一过程。

🗣️ 「引导式工程」：与深度学习模型的对话

将适当的文本提示传递给深度学习模型被称为"引导式工程"。这个过程有点像魔法，你必须知道对应的咒语才能使其发挥作用。随着与模型的对话，你会发现可以不断优化与机器的交流方式。可以说一些像"octane render blender 3D"、"使用虚幻引擎"、"某种类型的电影镜头和相机设备"、"上世纪50年代、60年代"、"横切线或木刻等等"这样的话，产生有趣的组合，例如"Faberge Egg McMuffin"，或者描述中国汉字的单色信息图海报。有时，最引人注目的图像是由模型合成一长串概念生成的。这就像与一个奇怪的合作者一起蹦蹦跳跳地交换创意，不断展现出一些令人无法预测的想法。这个过程让人着迷！

🌌 多维空间和隐藏变量：理解深度学习模型

通过深度学习模型将一个逐字逐句的文本提示转化为一幅实际图像，这涉及到一个称为扩散的生成过程。它从噪声开始，通过一系列迭代过程，将像素排列成对人类来说有意义的构图。这个过程中有一些随机性，因此对于同样的提示，模型生成的图像永远不会完全相同。即使在不同的模型中输入相同的提示也会得到不同的结果，因为它们所处的潜在空间不同。这个潜在空间由500多个维度组成，这些轴代表了人类无法识别或命名的变量。这种方式创建的数学空间中，不同区域可以被看作是可能图像的设计方案，而文本提示则可以将我们导航到特定的位置。

🎨 扩展艺术风格：为机器传递艺术家的灵感

深度学习的能力可以通过很多方式来模仿艺术家的风格，而不是只是复制他们的图像。只需要在提示中提供他们的名字，即可让模型学会模仿他们的风格。美国插画家詹姆斯·格尼（James Gurney）成为了文字到图像模型用户参考的一个流行艺术家。他认为，对于那些浏览这些作品的人来说，了解提示是什么以及使用了什么软件进行创作是应该公平的。他还认为艺术家应该可以选择是否允许将他们费尽心思手工创作的作品用于生成其他艺术品。然而，对于这个问题，相关的版权问题尚未得到解决。

⚖️ 后果和问题：隐含偏见和伦理问题

这项技术所使用的模型潜在空间包含着一些阴暗的角落，随着输出结果变得越来越接近真实照片，这些角落变得更加可怕。同时，模型还保存了数不清的联系，我们本来不会教给孩子们，但它们从互联网中学到了。例如，如果你要求它生成一位CEO的图像，那么通常会生成一位老白男。如果你要求生成护士的图像，那么它们几乎都是女性。我们并不知道OpenAI或Midjourney使用的数据集具体内容是什么，但我们知道互联网对英语和西方概念的偏见，整个文化没有得到充分的表达。在某个开放的数据集中，"亚洲"一词以大量色情内容的方式展示出来。这只是一个无穷复杂的镜子，展示了我们的社会以及我们认为值得在互联网上发布的东西，并且以一种我们认为应该在发布时正确认识自我的方式运作。

🌍 文字到图像的未来：虚拟世界和创意产业

通过引导式工程，这项技术消除了创意和图像之间的障碍，并最终推动了视频、动画和整个虚拟世界的发展。这对于人类的想象力、沟通方式和文化的表达都将产生深远的影响。这个变革不仅仅影响一个时代或产生一些即时的技术后果，它改变了人类对于创作的看法，以及与我们自己文化互动的方式。这将带来长远的、好的和坏的后果，我们无法完全预测。