AI绘图: stablediffusion 从零到商业细教程一

炫暗东明007

2024-06-27 帮助1人

AI绘图之 stablediffusion 从零到商业实战超细教程（一）

序言

一、AI绘图的发展历史

二、stablediffusion与midjouney的区别

1. midjouney的特点：

2. stablediffusion的特点：

3.midjouney和stablediffusion的优劣

三、AI绘图对社会的影响

序言

在开始学习之前，我们应当简单了解一下AI绘图的发展历史及其对社会的影响，这是很有必要的，因为制定任何目标前，您一定先得明白目标的方向和意义，内容较长。

一、AI绘图的发展历史

AI绘图的出现时间可能比很多人想象的要早。计算机是上世纪60年代出现的，而就在70年代，一位艺术家，哈罗德·科恩Harold Cohen（画家，加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序“AARON”进行绘画创作。与当下 AI 绘画不同之处在于，ARRON 使用机械手臂在画布上进行绘画，而非数字绘图。

学新通

AARON利用机械手臂绘图

2012年，Google两位大名鼎鼎的AI大神，Andrew Ng和Jef Dean进行了一场空前的试验。联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络。用来指导计算机画出猫脸图片。这是一次具有突破意义的尝试，正式开启了深度学习模型支持的AI绘画这个“全新”研究方向。

2015年 Google发布的一个图像工具深梦 (Deep Dream)。深梦发布了一系列画作，一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。但如果较真一下，深梦与其说是AI绘画，更像是一个高级AI版滤镜。同样在2015年，加拿大蒙特利尔大学的Ian Goodfellow于2014年提出了生成对抗网络GAN的算法，这个算法一度成为了AI生成绘画的主流方向。GAN的原理是通过训练两个深度神经网络模型，一个生成器（Generator）和一个判别器（Discriminator），使得生成器可以生成与真实数据相似的新数据样本，并且判别器可以准确地区分生成器生成的假样本和真实数据。

2017年，Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型，号称创造性对抗网络CAN，在尝试输出一些像是艺术家作品的图画，它们是独一无二的，而不是现存艺术作品的仿品。

2021年初，OpenAI发布了广受关注的DALL-E系统，其AI绘画的水平也就一般，但到了这里，AI开始拥有了一个重要的能力，就是按照输入的提示进行创作。

2022年2月，在GAN技术路线上遇到瓶颈后，科学家想出了非常神奇的 Diffusion Model (扩散模型)(通俗一点的理解就是计算机先生成一幅由无数噪点-可以直接理解为点，然后再根据我们的要求去除不需要的点，最终形成一幅我们人类可以理解的图片，就好比用一层沙子铺在盘子里，然后扣掉部分沙子就能形成一幅画了) 的办法去训练模型：把原图用马尔科夫链将噪点不断地添加到其中，最终成为一个随机噪声图像，然后让训练神经网络把此过程逆转过来，从随机噪声图像逐渐还原成原图。基于扩散模型的AI绘图生成器——Disco diffusion开始爆红，它可以根据描述场景的关键词渲染出对应的图像。

至此，AI绘图翻开了新的篇章，开始往实际应用发展。

2022年3月，一款由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。Midjouney选择搭载在discord平台，借助discord聊天式的人机交互方式，不需要之前繁琐的操作，也没有Disco diffusion十分复杂的参数调节，你只需要向聊天窗口输入文字就可以生成图像。更关键的是，Midjouney生成的图片效果非常惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI绘画生成的。

学新通

midjouney操作界面

2022年8月，一幅使用AI绘画服务 MidJourney 生成的数字油画,，生成它的用户以这幅画《Theatre Dopera Spatial》参加美国科罗拉多州博览会的艺术比赛，夺得了第一名。这件事被曝光之后引发了网络上巨大的争论至今。

学新通

Theatre Dopera Spatial

2022年8月22日stablediffusion首次发布，由Stability AI、CompVis和Runway合作开发，并得到EleutherAI和LAION的支持。

- stablediffusion的技术原理是基于latent diffusion model（LDM）的，LDM是一种在2015年推出的扩散模型的变体，其目的是消除对训练图像的连续应用高斯噪声，可以将其视为一系列去噪自编码器。stablediffusion由三个部分组成：变分自编码器（VAE）、U-Net和一个文本编码器。它使用CLIP text encoder提取的text embeddings（可以理解为文字）作为condition（条件），可以根据文本的描述产生详细图像，也可以应用于其他任务，如内补绘制、外补绘制，以及在提示词指导下产生图生图的翻译。

stablediffusion的特点是开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。

stablediffusion的发展历程如下：

- 2022年8月22日，stablediffusion 1.0版本发布，支持以512×512分辨率生成图像。

- 2022年9月15日，stablediffusion 1.1版本发布，修复了一些bug，并增加了对float16精度加载权重的支持。

- 2022年10月7日，stablediffusion 2.0版本发布，引入了以768×768分辨率生成图像的能力，并增加了无分类指导比例值（classifier-free guidance scale value）这一可配置选项。

- 2022年10月18日，Stability AI宣布获得了1.01亿美元超额融资，估值达10亿美元。

- 2022年12月7日，stablediffusion 2.1版本发布，优化了代码结构，并增加了对Dreamstudio云端服务的支持

二、stablediffusion与midjouney的区别

至此，我们可以看到stablediffusion和midjouney成为了AI绘图领域两股主流，代表AI绘图的最前沿发展方向，那么我们如何在两者之间选择呢？我们得看到它们的区别：

1. midjouney的特点：

midjouney是一个商业化产品，用户需要付费才能使用，而且只能通过其官方Discord上的Discord机器人使用。midjouney没有公布其技术细节，但是其生成的图像效果非常惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI绘画生成的。 midjouney善于适应实际的艺术风格，创造出用户想要的任何效果组合的图像。它擅长环境效果，特别是幻想和科幻场景，看起来就像游戏的艺术效果。midjouney的提示词门槛低，不需要特别精细的描述也可以出不错的图像。但是缺点是画面不太受控，而且被BAN的敏感词非常多，像bare,nude（裸体）这类词就用不了。

2. stablediffusion的特点：

stablediffusion是一个开源的模型，任何人都可以免费使用（但是需要有GPU来跑），也可以部署到GoogleColab和Drive去薅Tesla T4。stablediffusion是基于latent diffusion model（LDM）的条件扩散模型，采用CLIP text encoder提取的text embeddings作为condition。stablediffusion对当代艺术图像有比较好的理解，可以产生充满细节的艺术作品。除了文生图功能外，还支持图生图、图像重绘、个性化模型训练、可控生成等多种扩展应用。stablediffusion比较适合生成复杂的、有创意的插图。但是缺点是提示词门槛高，手部问题，Lora的兼容性等等。

3.midjouney和stablediffusion的优劣

midjouney和stablediffusion各有优劣之处，具体如下：

① midjouney的优点是：出图质量高、出图稳定、提示词简单、艺术风格丰富、环境效果出色。

②midjouney的缺点是：收费昂贵、只能通过Discord使用、技术细节不透明、画面不太受控、敏感词过多。

③stablediffusion的优点是：开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。

④stablediffusion的缺点是：需要GPU资源、提示词门槛高、手部问题突出、Lora兼容性差。

那么对于普通人来说，选择stablediffusion可能比选择midjouney更合适，原因如下：

①stablediffusion是免费的，而midjouney是收费的，对于预算有限的普通人来说，stablediffusion更划算。

②stablediffusion是开源的，而midjouney是闭源的，对于想要了解AI绘图技术原理和细节的普通人来说，stablediffusion更透明。

③stablediffusion是灵活的，而midjouney是固定的，对于想要尝试不同功能和插件的普通人来说，stablediffusion更多样。

④stablediffusion是创新的，而midjouney是成熟的，对于想要挑战自己和发挥想象力的普通人来说，stablediffusion更有趣。

总的来说，如果您会使用midjouney，就相当于您学会了买车票搭车去某个地方，你只能选择路线，而您会使用stablediffusion，就相当于您自己买了一辆车，考了一个驾照，想去哪里就去哪里，想怎么开车就怎么开车（划重点）。

三、AI绘图对社会的影响

AI绘图技术的出现对市场和行业都带来了很大的变化和影响，但是并不一定会导致大批人失业。AI绘图可以成为设计师、插画师、美术工作者等创意人士的辅助工具，提高他们的创作效率和质量，拓展他们的创作空间和想象力。

AI绘图也可以为普通人提供一个新的娱乐方式和表达方式，让他们能够通过文字描述来创造出自己想要的图像，享受到创作带来的快乐和成就感。AI绘图还可以用于教育、娱乐、社交、商业等多个领域，为人们提供更多样化和个性化的服务和体验。

AI绘图也可能带来一些负面影响和挑战，比如对于版权、伦理、审美等方面的问题。AI绘图可能会侵犯原创作者的版权，或者被用于制造虚假或有害的信息。AI绘图也可能会影响人们对于艺术和美学的认识和评价，或者导致人们对于真实和虚拟之间的界限模糊。

AI绘图技术是当今社会的一个重要趋势和发展方向，不学习AI绘图可能会导致一些不利的后果，比如：

落后于时代的步伐，失去与AI绘图相关的机会和竞争力，无法适应和应对AI绘图带来的变化和挑战。

缺乏创新和创造力，无法充分发挥自己的潜能和价值，无法享受AI绘图带来的乐趣和成就感。

限制了自己的视野和思维，无法理解和欣赏AI绘图的艺术和美学，无法与AI绘图的创作者和用户进行有效的沟通和交流。

而学习AI绘图可以带来一些有利的结果，比如：

跟上时代的潮流，抓住与AI绘图相关的机会和竞争力，能够适应和应对AI绘图带来的变化和挑战。

增强创新和创造力，能够充分发挥自己的潜能和价值，能够享受AI绘图带来的乐趣和成就感。

扩展了自己的视野和思维，能够理解和欣赏AI绘图的艺术和美学，能够与AI绘图的创作者和用户进行有效的沟通和交流。

总的来说，AI绘图是一种利用人工智能技术生成图像的方法，它有着悠久而又充满变革的发展历史，它对社会产生了深远而又复杂的影响，它有着广阔而又充满挑战的前景，它在很多商业领域得到了应用和利用，它需要我们去学习和掌握。

本教程立足实用性，将从stablediffusion的本地部署、功能介绍、模块介绍、插件介绍、商业实战等角度带领大家由浅入深的学习stablediffusion，最终达到学以致用，让大家在新兴领域分得自己的一杯羹。

这篇好文章是转载于：学新通技术网

AI绘图: stablediffusion 从零到商业细教程一

序言

一、AI绘图的发展历史

二、stablediffusion与midjouney的区别

1. midjouney的特点：

2. stablediffusion的特点：

3.midjouney和stablediffusion的优劣

三、AI绘图对社会的影响

photoshop保存的图片太大微信发不了怎么办

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

《学习通》视频自动暂停处理方法

TikTok加速器哪个好免费的TK加速器推荐

Android 11 保存文件到外部存储，并分享文件

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

微信运动停用后别人还能看到步数吗

excel打印预览压线压字怎么办

AI绘图: stablediffusion 从零到商业 细教程一

序言

一、AI绘图的发展历史

二、stablediffusion与midjouney的区别

1. midjouney的特点：

2. stablediffusion的特点：

3.midjouney和stablediffusion的优劣

三、AI绘图对社会的影响

photoshop保存的图片太大微信发不了怎么办

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

《学习通》视频自动暂停处理方法

TikTok加速器哪个好免费的TK加速器推荐

Android 11 保存文件到外部存储，并分享文件

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

微信运动停用后别人还能看到步数吗

excel打印预览压线压字怎么办

AI绘图: stablediffusion 从零到商业细教程一