AI画手会画手了!Stable Diffusion学会想象,卷趴人类提示工程师
编辑:Aeneas 好困
【新智元导读】趁我们不注意,AI画手一直在悄悄迭代,最近新推出的Stable Diffusion Reimagine和Midjourney v5功能如此强大,不仅要淘汰人类画师,连提示工程师的饭碗怕是都要丢了。
这次,人类画手是真要失业了。
你敢相信,这张电影剧照一样的图片,居然是AI画的?
Midjourney v5生成的光影和皮肤效果
更邪乎的是,AI画手还会自己动脑子。
最近新出的Stable Diffusion Reimagine,只要你给它一张图,它就会无限开发自己的想象力。你要多少版,它就给你生成多少版。
有了这个AI,无论要求多奇葩,要改多少次,甲方爸爸想要的方案,设计师和画手几分钟就甩给他。
logo放大的同时能不能缩小一点?改!
想要五彩斑斓的黑?改!
就是这么气定神闲,游刃有余。
唯一要担心的就是,千万别让甲方爸爸知道……
AI学会想象,人类连prompt的工作也要丢了?
Stable Diffusion这个AI画图工具,咱们都很熟悉了。
昨天,Stability AI又曝出一个震撼消息:它把Stable Diffusion大大改进了一把。
这次新推出的产品,叫做Stable Diffusion Reimagine。
敢叫Reimagine,听起来就很震撼。
没错,现在你只要上传一张图片,SDR就可以根据这个图片创作无数张新图。
而且它是真的想象,真的创作,并不是照抄原始图片里的面孔或物体,而是根据原始图像的灵感,重新创作新图。
体验地址:https://clipdrop.co/stable-diffusion-reimagine
我们都知道,在以往的AI作图工具中,prompt的质量,往往决定着你能画出图片的上限。
很多人说,会不会prompt,将成为使用AI的庸人和天才的分水岭。同样,提示工程师也把prompt视为自己打开AI大奖的秘密武器。
去年在科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,就拒绝分享出自己在Midjourney所用的提示。据说,他花了80多个小时,在900次迭代中,才完成了这幅画作。
而现在,不需要多复杂的prompt,只需要把一张图片丢给AI,算法就可以创造出我们想要的无穷多变化。
轻点一下鼠标,你的卧室立马大变样。
技术原理
这个全新的Stable Diffusion Reimagine,是基于stability.ai创造的一种新算法。
经典的Stable Diffusion模型,都是被训练成以文本输入为条件。
而Reimagine中,用一个图像编码器取代了原来的文本编码器。不是根据文本输入来生成图像,而是从图像中生成图像。在编码器通过算法后,还加入一些噪音,以产生变化。
这种方法产生了外观相似、但细节和构图不同的图像。
而与图像到图像的算法不同,原始图像首先就被完全编码,这意味着生成器并未使用来自原始图像的任何一个像素。
而且,Clipdrop还能提升图片的分辨率。用户只需上传一张小图,就能获得一张至少有两倍细节水平的图片。
据悉,Stable Diffusion Reimagine的模型很快就会在StabilityAI的GitHub上开源了。
发挥不稳
当然,Reimagine也存在一定的局限性。
最大的缺陷就是,它不会根据原始的prompt创作图像。
另外呢,它的发挥也没有那么稳定,有时很惊艳,有时会比较拉跨。
另外,虽然Stability AI在模型中安装了一个过滤器,阻挡不适当的请求,但它也不是万能的。
另外,AI模型都无法避免的偏见问题,Reimagine也不能避免,Stability AI目前正在收集用户的反馈,希望能减轻偏见。
网友已玩疯
而网友们当然已经迫不及待地玩上了。
左上角(或最左侧)是原始文件,而其他图片都是受原始文件启发后,「重新想象」的创作。
从分享的作品上来看,效果最为突出的确实是设计:
Stable Diffusion Reimagine可以在不改变整体氛围的情况下,重新设计整个场景。
看得出来,Stable Diffusion Reimagine在手绘作品的处理上,表现得非常出色。
这位网友表示,它对「感觉」理解得相当好,自己很喜欢这种自由发挥的效果。
此外,Stable Diffusion Reimagine对二次元角色拿捏得也不错。
在真实场景中,有网友在尝试了自己的自拍之后大赞称:「我打赌你们绝对猜不到哪张照片是真的。」
然而,小编在尝试一些「名场面」时,结果却是下面这样的……
首先输入《九品芝麻官》的「我全都要」:
然后让Stable Diffusion「重新想象」一下:(这结果多少有些杀马特在里面)
换成「威尔·史密斯在奥斯卡现场怒扇克里斯洛克耳光」试试?
啊,这……
或许是我们的打开方式不对,毕竟,Stability AI的主要目的帮助设计师们只用一张照片就能获得类似的备选方案。
那么,我们就用它们给出的案例来做个测试吧。
注意看,下面是官方的演示:
而下面这个是同一张图的「复现」效果……
显然,Reimagine生成的图片看起来远没有那么逼真,而且比例也很奇怪。
在进行了数次尝试之后,我们仍然没有得到一张看起来完全真实的图像。
对此,有网友在尝试之后也表示,Stable Diffusion Reimagin生成图片的质量跟Midjourney的差距还是很大的。
因为Midjourney可以通过社区生成的大量反馈进行优化,而这一点是Stable Diffusion难以比拟的。
AI画手终于会画手了
而另一强大的AI画手——Midjourney,当然也没闲着。
本周三,Midjourney宣布:我们已经升级到第5版了!
比起之前的版本,V5版的图像质量更高、输出更多样化、有更广泛的风格、支持无缝纹理、有更宽的纵横比、有更好的图像提示,以及更宽的动态范围……
Midjourney V5的效果怎么说呢,AI艺术家们给出的评价是——「太逼真,太完美,以至于令人毛骨悚然。」
「仿佛一个近视眼忽然戴上了眼镜——画面忽然间就变成4k的了。」
网友评价:因为每次都太完美,太惊艳,到最后多巴胺都停止分泌了
可以看出,Midjourney自2022年3月首次面世以来,在图像细节上一直在不停进步。去年8月推出了第3版,11月推出了第4版,今年3月就推出了第5版。
输入这样一个prompt「一个肌肉发达的野蛮人在 CRT 电视机旁手持武器、电影、8K、演播室照明」,v3、v4、v5生成的图像依次如下——
Midjourney v3(左)、v4(中)和 v5(右)
但最惊艳的提升,还是对人手的处理。
nice!
众所周知,Midjourney、Stable Diffusion和DALL-E等模型, 都经过了数百万人类艺术家作品的训练。
为了构建LAION-5B数据集,AI研究者指导的机器人爬取了数十亿个网站,包括DeviantArt、ArtStation、Pinterest、Getty Images等的大型图像库,并收集了数百万张照片。
然而即便如此,AI画手依然没学会画手。
即便是人和场景都已经达到真假难辨的程度,只要放大手部,基本就是一秒破功。
网友们纷纷表示,那些从不露手的「美女自拍」,多半就是AI干的了。
这是为什么呢?
Stability AI的解释是,在AI数据集中,人类的手不如面部显著;手在原始图像中往往很小,很少以大的形式出现。
而佛罗里达大学AI和艺术教授Amelia Winger-Bearskin的解释是AI们并不能真正理解「手」是什么,不理解它在解剖学上与人体有什么关系。
而Wieland发现,Midjourney v5在大多数时候,都能画出5个手指的手,而不是7到10个指头的。
而AI会画手之后,网上出现的任何照片,都真假莫辨了。
如果非要说Midjourney V5有什么缺点,大概就是太过逼真和完美,也就让我们丧失了那种多次尝试后找到最佳结果的快感。
(昨天试了多次终于用文心一言画出完美林黛玉的小编表示,非常赞同)
这就是老虎机效应(near-miss)——就差那么一点儿,才是让我们继续玩下去的动力。
参考资料:
https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/
https://stability.ai/blog/stable-diffusion-reimagine