• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

AI绘图: stablediffusion 从零到商业 细教程一

武飞扬头像
炫暗东明007
帮助1

AI绘图之 stablediffusion 从零到商业实战 超细教程(一)

目录

序言

 一、AI绘图的发展历史

二、stablediffusion与midjouney的区别

           1. midjouney的特点:

           2. stablediffusion的特点:

           3.midjouney和stablediffusion的优劣

三、AI绘图对社会的影响


序言

           在开始学习之前,我们应当简单了解一下AI绘图的发展历史及其对社会的影响,这是很有必要的,因为制定任何目标前,您一定先得明白目标的方向和意义,内容较长。

 一、AI绘图的发展历史

           AI绘图的出现时间可能比很多人想象的要早。计算机是上世纪60年代出现的,而就在70年代,一位艺术家,哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序“AARON”进行绘画创作。与当下 AI 绘画不同之处在于,ARRON 使用机械手臂在画布上进行绘画,而非数字绘图。

           学新通

AARON利用机械手臂绘图

           2012年,Google两位大名鼎鼎的AI大神,Andrew Ng和Jef Dean进行了一场空前的试验。联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络。用来指导计算机画出猫脸图片。这是一次具有突破意义的尝试,正式开启了深度学习模型支持的AI绘画这个“全新”研究方向。

           2015年 Google发布的一个图像工具深梦 (Deep Dream)。深梦发布了一系列画作,一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展。但如果较真一下,深梦与其说是AI绘画,更像是一个高级AI版滤镜。同样在2015年,加拿大蒙特利尔大学的Ian Goodfellow于2014年提出了生成对抗网络GAN的算法,这个算法一度成为了AI生成绘画的主流方向。GAN的原理是通过训练两个深度神经网络模型,一个生成器(Generator)和一个判别器(Discriminator),使得生成器可以生成与真实数据相似的新数据样本,并且判别器可以准确地区分生成器生成的假样本和真实数据。

           2017年,Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型,号称创造性对抗网络CAN,在尝试输出一些像是艺术家作品的图画,它们是独一无二的,而不是现存艺术作品的仿品。

           2021年初,OpenAI发布了广受关注的DALL-E系统,其AI绘画的水平也就一般,但到了这里,AI开始拥有了一个重要的能力,就是按照输入的提示进行创作。

            2022年2月,在GAN技术路线上遇到瓶颈后,科学家想出了非常神奇的 Diffusion Model (扩散模型)(通俗一点的理解就是计算机先生成一幅由无数噪点-可以直接理解为点,然后再根据我们的要求去除不需要的点,最终形成一幅我们人类可以理解的图片,就好比用一层沙子铺在盘子里,然后扣掉部分沙子就能形成一幅画了) 的办法去训练模型:把原图用马尔科夫链将噪点不断地添加到其中,最终成为一个随机噪声图像,然后让训练神经网络把此过程逆转过来,从随机噪声图像逐渐还原成原图。基于扩散模型的AI绘图生成器——Disco diffusion开始爆红,它可以根据描述场景的关键词渲染出对应的图像。

           至此,AI绘图翻开了新的篇章,开始往实际应用发展。

           2022年3月,一款由Disco diffusion的核心开发参与建设的AI生成器Midjouney正式发布。Midjouney选择搭载在discord平台,借助discord聊天式的人机交互方式,不需要之前繁琐的操作,也没有Disco diffusion十分复杂的参数调节,你只需要向聊天窗口输入文字就可以生成图像。更关键的是,Midjouney生成的图片效果非常惊艳,普通人几乎已经很难分辨出它产生的作品,竟然是AI绘画生成的。

学新通

 midjouney操作界面

           2022年8月,一幅使用AI绘画服务 MidJourney 生成的数字油画,,生成它的用户以这幅画《Theatre Dopera Spatial》参加美国科罗拉多州博览会的艺术比赛,夺得了第一名。这件事被曝光之后引发了网络上巨大的争论至今。

学新通

Theatre Dopera Spatial

           2022年8月22日stablediffusion首次发布,由Stability AI、CompVis和Runway合作开发,并得到EleutherAI和LAION的支持。

- stablediffusion的技术原理是基于latent diffusion model(LDM)的,LDM是一种在2015年推出的扩散模型的变体,其目的是消除对训练图像的连续应用高斯噪声,可以将其视为一系列去噪自编码器。stablediffusion由三个部分组成:变分自编码器(VAE)、U-Net和一个文本编码器。它使用CLIP text encoder提取的text embeddings(可以理解为文字)作为condition(条件),可以根据文本的描述产生详细图像,也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图生图的翻译。

           stablediffusion的特点是开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。

           stablediffusion的发展历程如下:

    - 2022年8月22日,stablediffusion 1.0版本发布,支持以512×512分辨率生成图像。

    - 2022年9月15日,stablediffusion 1.1版本发布,修复了一些bug,并增加了对float16精度加载权重的支持。

    - 2022年10月7日,stablediffusion 2.0版本发布,引入了以768×768分辨率生成图像的能力,并增加了无分类指导比例值(classifier-free guidance scale value)这一可配置选项。

    - 2022年10月18日,Stability AI宣布获得了1.01亿美元超额融资,估值达10亿美元。

    - 2022年12月7日,stablediffusion 2.1版本发布,优化了代码结构,并增加了对Dreamstudio云端服务的支持

二、stablediffusion与midjouney的区别

           至此,我们可以看到stablediffusion和midjouney成为了AI绘图领域两股主流,代表AI绘图的最前沿发展方向,那么我们如何在两者之间选择呢?我们得看到它们的区别:

           1. midjouney的特点:

           midjouney是一个商业化产品,用户需要付费才能使用,而且只能通过其官方Discord上的Discord机器人使用。midjouney没有公布其技术细节,但是其生成的图像效果非常惊艳,普通人几乎已经很难分辨出它产生的作品,竟然是AI绘画生成的。         midjouney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。midjouney的提示词门槛低,不需要特别精细的描述也可以出不错的图像。但是缺点是画面不太受控,而且被BAN的敏感词非常多,像bare,nude(裸体)这类词就用不了。

           2. stablediffusion的特点:

           stablediffusion是一个开源的模型,任何人都可以免费使用(但是需要有GPU来跑),也可以部署到GoogleColab和Drive去薅Tesla T4。stablediffusion是基于latent diffusion model(LDM)的条件扩散模型,采用CLIP text encoder提取的text embeddings作为condition。stablediffusion对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。除了文生图功能外,还支持图生图、图像重绘、个性化模型训练、可控生成等多种扩展应用。stablediffusion比较适合生成复杂的、有创意的插图。但是缺点是提示词门槛高,手部问题,Lora的兼容性等等。

           3.midjouney和stablediffusion的优劣

   midjouney和stablediffusion各有优劣之处,具体如下:

    ① midjouney的优点是:出图质量高、出图稳定、提示词简单、艺术风格丰富、环境效果出色。

    ②midjouney的缺点是:收费昂贵、只能通过Discord使用、技术细节不透明、画面不太受控、敏感词过多。

    ③stablediffusion的优点是:开源免费、可本地部署或云端使用、技术原理清晰、扩展应用多样、当代艺术理解好。

    ④stablediffusion的缺点是:需要GPU资源、提示词门槛高、手部问题突出、Lora兼容性差。

           那么对于普通人来说,选择stablediffusion可能比选择midjouney更合适,原因如下:

    ①stablediffusion是免费的,而midjouney是收费的,对于预算有限的普通人来说,stablediffusion更划算。

    ②stablediffusion是开源的,而midjouney是闭源的,对于想要了解AI绘图技术原理和细节的普通人来说,stablediffusion更透明。

    ③stablediffusion是灵活的,而midjouney是固定的,对于想要尝试不同功能和插件的普通人来说,stablediffusion更多样。

    ④stablediffusion是创新的,而midjouney是成熟的,对于想要挑战自己和发挥想象力的普通人来说,stablediffusion更有趣。

           总的来说,如果您会使用midjouney,就相当于您学会了买车票搭车去某个地方,你只能选择路线,而您会使用stablediffusion,就相当于您自己买了一辆车,考了一个驾照,想去哪里就去哪里,想怎么开车就怎么开车(划重点)。

三、AI绘图对社会的影响

           AI绘图技术的出现对市场和行业都带来了很大的变化和影响,但是并不一定会导致大批人失业。AI绘图可以成为设计师、插画师、美术工作者等创意人士的辅助工具,提高他们的创作效率和质量,拓展他们的创作空间和想象力。

           AI绘图也可以为普通人提供一个新的娱乐方式和表达方式,让他们能够通过文字描述来创造出自己想要的图像,享受到创作带来的快乐和成就感。AI绘图还可以用于教育、娱乐、社交、商业等多个领域,为人们提供更多样化和个性化的服务和体验。

           AI绘图也可能带来一些负面影响和挑战,比如对于版权、伦理、审美等方面的问题。AI绘图可能会侵犯原创作者的版权,或者被用于制造虚假或有害的信息。AI绘图也可能会影响人们对于艺术和美学的认识和评价,或者导致人们对于真实和虚拟之间的界限模糊。

           AI绘图技术是当今社会的一个重要趋势和发展方向,不学习AI绘图可能会导致一些不利的后果,比如:

            落后于时代的步伐,失去与AI绘图相关的机会和竞争力,无法适应和应对AI绘图带来的变化和挑战。

            缺乏创新和创造力,无法充分发挥自己的潜能和价值,无法享受AI绘图带来的乐趣和成就感。

            限制了自己的视野和思维,无法理解和欣赏AI绘图的艺术和美学,无法与AI绘图的创作者和用户进行有效的沟通和交流。

           而学习AI绘图可以带来一些有利的结果,比如:

            跟上时代的潮流,抓住与AI绘图相关的机会和竞争力,能够适应和应对AI绘图带来的变化和挑战。

            增强创新和创造力,能够充分发挥自己的潜能和价值,能够享受AI绘图带来的乐趣和成就感。

            扩展了自己的视野和思维,能够理解和欣赏AI绘图的艺术和美学,能够与AI绘图的创作者和用户进行有效的沟通和交流。

           总的来说,AI绘图是一种利用人工智能技术生成图像的方法,它有着悠久而又充满变革的发展历史,它对社会产生了深远而又复杂的影响,它有着广阔而又充满挑战的前景,它在很多商业领域得到了应用和利用,它需要我们去学习和掌握。

           本教程立足实用性,将从stablediffusion的本地部署、功能介绍、模块介绍、插件介绍、商业实战等角度带领大家由浅入深的学习stablediffusion,最终达到学以致用,让大家在新兴领域分得自己的一杯羹。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhiacffi
系列文章
更多 icon
同类精品
更多 icon
继续加载