人工智能图像生成:魔法、艺术和影响

时间:2023-03-29 12:06:30 · 来源:《中国艺术报》
在今年的全国两会上,科技部部长王志刚在两会“部长通道”对媒体表示:“ChatGPT之所以引起关注,在于它作为一个大模型,有效结合了大数据、大算力、强算法……总的来讲,人工智能是大方向、大领域,它的影响绝不仅仅在科技领域本身。”

2022年11月30日,美国OpenAI公司发布的智能对话大模型产品ChatGPT开始风靡全球,仅两个月,活跃用户就超1亿,并引发科技巨头间的争夺。而ChatGPT的对话体验引发人们对AI即人工智能未来能力的重新认识,人们对ChatGPT和以ChatGPT为代表的这一波AI新浪潮能做什么极为关注。如果参照历史,我们会看到每次技术飞跃都会给社会带来巨变,也会带来阵痛。AI的发展,使得我们正站在这样一个节点,未来的社会分工和结构将会发生更大的变化,而身处其中的我们都会被深刻地影响。尤其是在塑造人的精神世界的艺术领域,处在一个即将被剧烈颠覆的前台,文艺从业者自身必须积极改变以适应这样的一个位置。

AI生成图像:在月球上行走


(相关资料图)

AI进军此前被视为“人类独占”的领域——艺术表达。最初AI的渗透是缓慢的,但在这半年多时间可谓逐渐形成了一场抢夺战。2022年9月,杰森·艾伦在科罗拉多州博览会艺术展上提交了一件名为《太空歌剧院》的艺术作品,该作品是使用人工智能工具创作的,获得了数字艺术照片类别比赛第一名。允许提交作品的评委并不知道这是人工智能生成的,但在它获胜并且众所周知它是由AI生成后,所获奖项并没有被评委撤回。为什么?因为之前的规则中没有任何规定提及AI作品不能参赛,真正的反对来自社交媒体和愤怒的艺术家,一些人要求艾伦归还他的奖项并公开道歉。艾伦的回应是:“人工智能是一种工具,就像画笔是一种工具,工具背后还需要一种创造力。”有更多的人欢迎这种对话,科罗拉多州农业部的传播总监表示,很高兴这个拥有150年历史的博览会成为“讨论艺术的一部分”。这个新闻事件在这个历史时刻具有特别重要的意义,意味着AI开始对艺术产生影响。AI作品是否构成艺术?艺术家受到这种新形式的威胁,是否应该接受它?这个新闻事件可能会推动人工智能生成内容(AIGC)作为艺术的一种形式,并帮助人类的思维转变。

AI图像生成技术的工作原理是训练两个神经网络:一个生成新图像的生成器网络,一个试图区分真假图像的鉴别器网络。通过这些网络之间的竞争和协作过程,AI可以生成在风格和内容上与它们接受训练的图像相似的新图像,通过文本的输入,使用计算机算法来创建图像。这种通过文本生成图像的方式与传统的图像生成技术之间的主要区别之一是所需的人类参与程度,传统技术通常需要大量的手动输入和用户的专业知识来创建和完善图像,而AI图像生成几乎不需要人工干预。

用通俗的比喻解释一下AI图像生成的工作原理:程序首先会设计两个角色——一个为生成器,一个为鉴别器。打个比方,有一个瓷器店,瓷器店里做瓷器的小伙子叫小张,我们把他叫生成器,瓷器店除了老板,还有一个伙计是负责鉴定的叫老李,我们把他比作鉴别器。有一天老板接了一个订单,一个客人说要订一批仿同治年间的青花瓷瓶,大概高50厘米。既然是仿品,就得是一模一样的。随后老板就把伙计小张叫来了,让小张去后场制作,然后又吩咐老李,让他盯紧,出来的东西一定要和同治年间的花瓶一样,要符合客人的规定。这个叫小张的伙计就开始做了,其实他之前也没做过,也不懂,因为是老板布置的任务,必须做。鉴定师老李很聪明,跑了图书馆、博物馆、大学,去查资料,然后搞清楚了,积累了1000件青花瓷瓶相关的资料,知道了青花瓷瓶应该做成什么样的。小张做出来了第一个,老李说这个不对,给我砸了重来。他给小张提了很多意见,应该如何如何,小张按照他的要求再去做第二个。第二个做好后,老李也没正眼看一下,说还是不行,也给否定掉了,同时也提了很多建议。在这个过程中,小张在不断地积累经验,两人经过了几百次的交流、磋商,这么一来一回,终于有一天,小张带着花瓶再来给老李看,老李一看是这么回事了,说这个可以了,然后拿给老板看,老板说行,我们可以卖了。最后交货时客户相当满意,跟同治年间的青花瓷瓶几乎是一样的,可以以假乱真了,这个过程就完成了。在这个过程中,我们讲的鉴定器,就是老李,老李有1000件的资料,我们叫作数据量。如果他有100000件资料的时候,积累的经验、鉴定水平要比1000件时的鉴定水平高得多,也就是说鉴定器是建立在数据量基础上的。同样小张也有一个积累的过程,两个人相互训练,随着训练加深,生成器在生成逼真图像方面逐渐变强,而辨别器在辨别真伪上逐渐变强。当辨别器无法区分真实图片和伪造图片时,训练过程达到平衡。这一套操作系统就叫“生成对抗网络”。

AI生成图像:在喝水的大象

相比于AI图像生成的原理,我们更关注AI的应用。早些时候,我对一些AI图像生成平台进行了测试,图像生成从摄影、绘画、创意、设计这四种方面进行,从陌生到熟练,在得到了大量的图像和数据后,我们来分析一下它们的表现。

在摄影方面,在我给出具体的描述性文本后,AI图像生成器就可以生成多个高质量的图像,输出的质量取决于我输入的文本,文本越具体越细致,图像的逼真度越高,而这个过程仅仅需要十几秒的时间。生成的摄影图片,按摄影的内容分类:纪实摄影、风光摄影、动物摄影、植物摄影、人像摄影、工业摄影、静物摄影、运动摄影等等,它们可与相机拍摄的照片相媲美,细节、纹理、画面结构、色彩高度逼真,非常有说服力,如果不注明是AI生成的,基本无法区分。

绘画是一项对天赋有所要求、需要日积月累练习才能习得的技艺,AI图像生成可以被简化成一种与机器进行图文交互的“盲盒游戏”。所需要做的,就是用文本输入自己想象中的作品的关键词,快则十几秒,AI就能拿出一幅幅不同风格和流派的作品。今天AI制造出来的“画”已经达到很惊人的程度,在我看来已经很接近人类绘画的水平,而AI绘画的速度,是人类望尘莫及的。

AI在建筑外观设计、空间设计、室内装饰设计、平面设计、服装设计等领域,同样有着不俗的表现,可以根据文本的定义生成大量风格和质量一致、比较复杂的图像,未来一定会成为设计师的强大工具,并简化设计师的工作流程。当然,前提条件是设计师必须熟练使用复杂、规范的文本。

而在创意方面,只要有足够的想象力和灵感,运用合理的文本描述, AI就能解放双手,生成那些突破现实逻辑的“有趣”回答,图像独特而新颖,可以带来意想不到的惊喜。

AI生成图像:偶得湖山趣不知城市喧

AI的图像生成,是基于人的参与,包括人的创作力、想象力、创作动机和对最终效果的预设等等,在图像视觉领域,它的能力已超出了我们的预判。目前,AI图像生成仍然存在很多局限性,主要表现在:其一,因为数据容量和传输的问题,目前AI生成图像的精度不高,远远达不到目前主流数码相机和大尺幅打印输出的像素要求。其二,AI算法是通过分析大型数据集来学习,高质量的、应有尽有的数据集目前尚不可能,尤其在摄影环境中,高质量图像可能更难以获得,所以AI生成的图像往往会有很大偏差。比如,数据集只包含某一种族人群的图像,那么生成的图像也会反映这种偏差,就可能会延续诸如有害的种族偏见和刻板印象等。其三,AI通过人工输入文本来创建图像,文本描述的准确性、详细性直接导致图像生成的精准,艺术家需要大量的文本训练。对一些相对简单的文本,目前AI图像生成器还不是很精确,在一些意料之外的情况下,程序可能无法充分执行。其四,在专业较强的领域无法保证准确率。其五,AI算法生成结果具有不确定性,尤其是对一些细节把控不足,这对于创作有着清晰愿景的艺术家来说,可能会令人沮丧。其六,因为AI生成的图像是基于预先存在的数据集和学习模式,虽然AI可以生成独特的图像,但这些图像缺乏真正的原创性,如果被过度使用,可能导致风格同质化以及个性的丧失。此外,AI难以修改生成的图像,并且缺乏具有影响力的情感深度。更为突出的问题是,AI图像生成过程中,学习、参考和借鉴了大量网络上已有的图像,而这些图像都是有版权的。AI图像生成器在学习和借鉴前,并没有得到这些图像版权所有人的允许。因此,不能排除潜在的侵犯知识产权的可能性,无论是否有意。

人类采集信息的目的是为了输出决策,而输出的决策跟我们的目标是有关的,还与我们的价值观有关。人类整体有一些共性,但每个人都有自己非常独特的部分,对事物的认知是来自于各自人生过去的经验,这里一定会包含某种价值体系,而AI是很难产生真正的价值体系的,所以它只能是我们人类使用的工具。当AI来临的时候,因为它很强大,我们的第一反应往往是害怕,所以首先思考的是怎么能不被它取代,或者不被它毁灭。但事实上,当人类拥有了如此强大的工具时,可以使人类的文明迈上怎样的新台阶,哪些工作能得到优化和辅助,其实对这种方向的问题更要有所思考,而不仅仅是思考有关生存的问题。AI和人脑的一个根本区别在于,它只能从过往获取“组合式”答案,是对人类社会知识的整理,是在现有知识的基础上进行二次加工的产物,并不能突破人类认知的边界去创造内容。虽然说智能机器人能作“画”,但它还离不开人发布的指令,所以,完全离开人,AI还是不能完全独立制作出图像来的。

随着AI技术的快速提升,AI图像生成会改变我们创建和消费视觉内容的方式,它很快也会成为我们的助手,而将人工智能融入创作过程需要艺术家角色的积极转变,艺术家必须学会与AI算法协同工作,充分利用人类创造力和AI生成的结果的优势。

(作者系江苏省摄协新文艺群体工作委员会秘书长)

本文图片均由本文作者蒋澍制作并提供

推荐