这也就是为什么AI Art工具其实从很早之前就有了,但此前的图像效果经常会有“太假”或者不够完整等种种问题,甚至不如直接用做一些风格化处理,因此这些作品也就失去了如今时代作为艺术品的收藏与分享价值。
通过指数级爆发的帖子和作品展示,以Disco 、 、DALL-E2、这些算法和工具为代表的生成器,已经成为了AI生成向C端落地、以及更广阔的元宇宙世界的先发力量。
上图记录了足以让人们真正关注到AI Art领域的一起标志性事件:一副AI生成艺术作品在科罗拉多州博览会艺术比赛中获得了第一名。
目前,AI Art工具主要也还在欧美等国家发展较快,国内起步稍晚,参与者主要是在AI 领域或者图片编辑领域有较多积累的大厂,比如百度、美图等。
本文,36氪梳理了全球范围内正在流行的AI Art工具,分析其差异和共性,给国内有类似想法或者能力的创业公司、想要在AIGC方面做出投资的投资从业者以借鉴。
由于目前市场上的AI Art工具和服务中仍然有相当一部分使用的底层算法是或者GAN,而近期热度主要来自,因此我们把它们分成了两类。
一、 ()
是时下最先锋、也是最流行的AI绘画机器学习模型,上线于2022年8月22日,由开发,Web演示版本搭载于AI开源社区。是一家创立于2019年的人工智能初创公司,总部位于伦敦,致力于构建以AI为技术载体的解决方案。目前, 正在测试其商业版本,后者具有更快的生成速度,同时即将上线API功能。据知情人士透露,正在被、等知名VC考虑以5-10亿美元的估值进行投资。
来源:
Disco ()
Disco 具有一个强大的开源 CLIP- 模型,基于谷歌技术架构,可以创建详细、逼真的图像。上线于2021年10月29日,由开发,是一家创立于2016年的公司,致力于帮助每个团队和个人找到适合他们的 AI 驱动的图像工作流程。
来源:Disco
DALL-E2()
可以从自然语言的描述中创建逼真的图像和艺术,上线于2022年4月6日,由开发。由马斯克、美国创业孵化器Y 总裁阿尔特曼、全球在线支付平台联合创始人彼得·蒂尔等硅谷科技大亨在2015年创立。此前,在尚未正式发布时,每周仅向1000名用户发布,9 月 29 日, 已经取消了访问其文本生成图像系统 DALL-E 2 的等待名单,任何人都可以立即注册使用。 称,大约 150 万 DALL-E 用户每天生成超过 200 万张图像。
来源:
Mid ()
Mid 是一个流行但尚未普遍可用的AI艺术生成器。 是一个独立的研究实验室,探索新的思想媒介并扩大人类的想象力。 是一个小型自筹资金团队,专注于设计、人类基础设施和人工智能。 是托管在 服务器上的 AI 文本到图像扩散模型。目前已经有150万用户。
Mid
()
是由国内团队研发的一款人工智能绘画工具,于2022年7月22日上线,公司总部位于上海。目前还处于内测版本。
AI()
由AIGC公司开发,位于美国旧金山,此前专注于AI文本创作。目前,已经生成了超过一百万张图像。在 上线后一周上线,据 创始人形容, AI是抄袭了 的开源版本。
AI
二、非()
作为市场上最受欢迎的AI艺术生成器之一,上线于2015年6月,是由谷歌工程师 创建的计算机视觉程序,可以探索不同的 AI 算法。目前,市场上大量艺术效果生成应用都基于这一开源技术
()
上线于2019年11月,由开发。是一個娱乐、社交及新闻网站,创立于2005年2月3日,总部位于旧金山,致力于为世界上每个人带来社区和归属感。通过,用户可以获得所生成艺术作品的所有权,也可以购买作品的打印版本。
()
上线于2019年5月,由Joel和 创建。旨在成为一种新型的创意工具,通过让协作和探索变得更容易来赋予用户创造力。 使用和 模型。其中一个使用的最小开源版本。
Big Sleep()
Big Sleep是一个基于的AI艺术生成器。由谷歌开发,其使用 和 的 CLIP 通过 Colab 笔记本从 用户 生成文本到图像。需要通过编程语言生成,处理图像需要一段时间和大量内存,有可能无法在计算机上运行脚本。
()
是一个AI艺术生成器App,目前在 play上已经有超过50万的下载量。作为移动应用,有iOS和版本,可以在移动端使用,支持创建NFT,同时支持生成步数等进阶选项。
WOMBO Dream()
Wombo是一家总部位于多伦多的合成媒体公司,曾于2021年3月推出了一款由AI驱动的对口型App,允许用户上传任何静止的肖像并对其进行动画处理,以唱出他们选择的歌曲,该产品引发了爆发式裂变。目前,WOMBO Dream算法应用的是开发的CLIP所引导的方法。
于2017年成立于旧金山,曾于2019年获得种子轮融资。使用HTML5、 和等12项技术产品和服务。的技术包括、/兼容和等。最初其功能是将黑白照片自动上色为彩色。
三、大厂进展
2022年5月, 发布了。此次谷歌的抛弃了从文本特征映射到图像特征再用GAN或扩散模型生成图像的常规思路,而是使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。这里的图像生成模型,依然是扩散模型,是一系列的扩散模型。这就意味着其纯文本数据获取方面和全面性方面比获取图文对数据容易,其文本理解能力上比图文对数据的理解能力强。
Parti
2022年6月,公布了其Parti文本到图像的计算机模型,该模型通过研究数百亿个参数来渲染超现实图像。Parti 全称为“ Text-to-Image”(路径自回归文本转图像)。随着可使用参数数量的增长,其输出的图像也能够更加逼真。该模型在生成最终图像之前研究了200亿个参数。
Parti与不同,是一种文本到图像生成器,谷歌设计用于扩散学习。该过程通过在图像中添加“噪声”来训练计算机模型,使其变得模糊。然后,该模型学习对静态图像进行解码,以重新创建原始图像。随着模型的改进,它可以将看起来像一系列随机点的东西变成一幅图像。
目前,谷歌没有向公众发布Parti或。
/Meta Make-A-Scene
Meta于2022年7月官宣Make-A-Scene的存在,目前,该团队正在测试并收集 Meta 员工的反馈,Make-A-Scene 正在Meta内部开放使用权限。Make-A-Scene可以捕捉预先设置的场景布局,使草图也成为输入内容的一部分,然后用户通过文本输入来对框架进行填充。该模型还可以通过输入文本来创建自己的布局,但这意味着用户放弃了部分控制权。
NUWA
2022年3月,微软亚洲研究院最新推出的多模态模型 NÜWA。NÜWA 支持八大视觉生成和编辑任务。其中,支持图像的四类任务包括:文本到图像,草图到图像,图像补全,图像编辑;支持视频的四类任务包括:文本到视频,视频草图到视频,视频预测,视频编辑。7月,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-,可生成任意大小的高分辨率图像或长时间视频。
文心·一格( )
文心·一格是基于文心大模型的文生图系统实现的产品化创新。上线于2022年8月19日。这是百度依托飞桨、文心大模型的技术创新推出的“AI 作画”首款产品。百度的AI-飞桨文心大模型,是产业级知识增强大模型。文生图领域的大模型服务,支持输入一段文本描述,并选择生成风格和分辨率,模型就会根据输入的内容自动创作出符合要求的图像。
美图AI开放平台()
美图AI开放平台是美图公司推出的AI服务平台,专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,为客户提供经市场验证的专业AI算法服务和解决方案。
AI生成在社交媒体上的泛滥讨论一直带有科学伦理方面的色彩和偏见,而关于图像生成技术的讨论则始终由艺术爱好者、设计师、艺术家这类人群在推动,因此,AI Art所带来的关于艺术设计生产效率、知识产权、图像数据复用等方面的延展和保护性服务可能会是下一个市场风向。
另外值得一提的事,近期在全球最大的产品社区 Hunt上,已经出现了针对AI Art的艺术作品交易市场。这可能是自NFT流行以来又一个新兴的垂类版权交易赛道。
AI Art交易市场
如果优质的AI Art可以卖出一个好价钱,那无疑将会出现一个“全民艺术家”的时代。
当然,任何新兴的技术,在开始都会经历万众瞩目的阶段,之后不免会被市场“失望”之音淹没。AI Art现在正在早期繁荣期,未来,的确也还有一些难点需要攻克。
最重要的问题是,比起AIGC其他赛道,现在的AI Art多了几分性感,却好像少了几分“实用价值”。
首先,随着技术从算法模型下沉到用户的手里,如何精准找到客户群体,进行商业化?作为一项黑科技,尽管目前看来比较吸引人眼球,但是目前AI Art具体的使用者可能仍然停留在:艺术家的灵感工具、设计师的素材工具、普罗大众的猎奇工具。对风格各异的艺术图片有消费需求的个人用户和B端企业究竟有多少?目前还尚未可知。
不过,根据36氪判断,在可以想象到的范围内,AI Art可落地的商业场景主要有以下几类:
最直接的是场景用于toC端美图秀秀等消费级修图应用、to设计师端的即时设计等生产工具,为这些产品增加场景丰富度,提高用户黏性,事实上,根据了解,这类厂商也都已经在进行相关的布局;
即时设计已经推出AI设计插件
革新专业创作人员的生产方式,比如作为提效工具为插画师、动画师、电影创作者等实现能力补充,解放生产力。未来,大量创造性工作的主要职业能力会体现在生产和粘合数字化素材的能力,而不再是原始的手工工艺(就像想吃米饭需要从种水稻开始); AI Art背靠的是广阔的UGC和用户个性化空间,当下能够很好地贴合全民自媒体、低门槛内容制作的潮流,未来也会在元宇宙市场中有更深层次的发挥空间。基于这一点考虑,国内主要内容生产分发的平台、电商平台、互联网大厂等很可能会先后在自有产品生态中孵化AI Art的功能,帮助用户快速生产符合平台调性的艺术内容,同时服务自己的用户和企业客户; 由于AIGC这一大领域本身符合无代码潮流,因此AI Art也非常可能具有高潜力的企服价值,最直接的目标企业是广告公司、影视创作公司、建筑事务所等对于艺术效果图有大量需求的企业客户,单是这几类企业就有不低的市场天花板,另外,品牌商家的广告和创意部门也是有力的受众之一;
用Mid 生成的品牌广告
不过,不同的用户群体,其具体的需求点又大相径庭,产品后续的迭代也会根据不同的需求进行调整,因此,现在还停留在算法、测试版生成工具、平台社区的AI Art存在形式,也很有可能会因此而分化出不同的价值和服务类型。毕竟,底层技术的革新和赛道的开拓,只是“AI代替人类”万里长征的第一步。
商业化之外,另一机遇与威胁并存的点是,目前的产品多以英语自然语言理解为基础,而汉语、西班牙语、法语、德语、日语等其他主要语言毫无疑问也有相当大的市场需求尚未被满足。在满足不同语言的需求过程中,又会出现更多难题,比如中文的AI学习难度是英文的指数级,这或许也是国内暂时落后于欧美的原因之一。
但挑战也预示着蓝海和机会。比如国内已经出现了第一家以中文自然语言理解为亮点的AI Art公司。再比如在AICG行业发达的日本,第一家能够做到支持日语输入的企业服务级AI Art厂商,势必会有很大的市场空间能够去开拓。
尽管困难重重,但是,欧美VC依然愿意为充满风险的未来机遇买单。
首先,AI Art在目前看来,是比较符合现在海内外认可的PLG/CLG模式,产品能够有效提高生产力,足够从个人使用者逐渐扩展至团队乃至企业使用。在国内,PLG/CLG也都出现了头部公司,比如蓝湖、等。
其次,AI 近年来一直被视为未来的方向,只不过落地场景仍需摸索。此刻,AI Art乃至AIGC是AI成熟期里已有明确需求的场景,值得被看好。毕竟,文化和社区正在初步形成。比如Mid 基于的服务已经使之成为了上的第二大社群,目前处于内测阶段的国产先发者每天也都会收到成百上千份理由翔实的申请表。一个开放共享的社区对于AI Art领域来说至关重要,也是考核一个AI Art公司的重要标准之一。其贡献还体现在,互联网逻辑下的思维方式,能够快速将AI Art变成一门“数字化技能”。
网友发起了Disco 词库共享计划
为了更好地进行AI Art创作,网友发起了Disco 词库共享计划。(因为Disco 在 Colab 上的测试版本仍然有一定的理解和生成门槛,但现在不少工具已经加入了关于艺术风格的引导和筛选功能。)
2022年,可称为被开启的AI Art元年。接下来的三至五年内,AI Art将会往更加自由的方向发展,比如展现出更强的耦合性,可被用户定制的空间更大,也就是说更贴近“主观创作”的过程,艺术作品中也会分化和体现出越来越细致的用户想法。近期上线的 AI已经展现出了这一特点。
AI
同时,全球范围内元宇宙、Web3概念的盛行,也给AI Art提供了一个结合思路。搭上了AI 和Web3的双重热门概念,AI Art有可能斩获一批相信未来的投资者。
追风口无错,不过,放眼国内,越加谨慎的投资氛围,有可能对AI Art创业公司的底层能力考核严格。靠新概念融资的时代过去了,未来,能在国内掀起波澜的AI Art创业公司,至少一定能够具备:更深厚的AI算法技术储备、更开放的社区和可观的数据训练壁垒、更贴合东亚使用习惯的产品落地场景、更长期主义理想的创业者。
*实习分析师古振兴对本文亦有贡献
323AI导航网发布