投稿问答最小化  关闭

万维书刊APP下载

卷积神经网络:如何用AI鉴定名画?

2022/4/6 14:05:46  阅读:576 发布者:chichi77

这周三,卓克老师在得到课程《科技参考2》里介绍了计算机科学家用AI算法鉴定达·芬奇的《救世主》,判断这幅名画是不是真的出自达·芬奇之手,我将文章分享给大家,希望能有所启发。

以下内容来自得到App年度日更课程《卓克·科技参考2》:075 | 卷积神经网络:如何用AI鉴定名画?

1

《救世主》到底是谁画的?

迄今为止,交易价格最高的画作是 2017 11 15 日在佳士得拍卖行拍卖的达·芬奇的《救世主》。

这幅画创作于 1490 - 1519 年之间。当时的拍卖价格是 4.5 亿美元。据说,现在正摆在沙特王储的超级油轮上。

16 世纪中叶,在法王路易十二的委托下,达·芬奇创作了这幅画。后来,继承给了英国国王查理一世的妻子玛利亚,这幅画也就从法国漂洋到了英国。然后,又继承给英王詹姆斯二世。但詹姆斯二世在位期间,发生了光荣革命,被夺去了王位。

据说,这幅画又落到了詹姆斯二世的情妇凯瑟琳(Catherine Sedley)手里。然后,凯瑟琳又把画传给了自己的儿子。

18 世纪中期以后,就再也没有过这幅画的公开消息,也没有人见过这幅画了。等它再次出现是 19 世纪末了,中间断掉了 150多年。而且,再次出现的时候,说法也变了,说这不是达·芬奇本人的作品,而是他的学生贝尔纳尔迪诺(Bernardino Luini)画的。

而到了二十世纪五十年代,说法又变了,认为这幅画是达·芬奇另外一个学生乔瓦尼(Giovanni Boltraffio)画的。直到 2011 年,这幅画在伦敦国家美术馆展出,标签作者又改回了最初的说法——达·芬奇。

那么,这幅画的作者到底是谁?为什么作者会改来改去呢?

首先,和这幅画的身世复杂有关。比如另一幅名画《蒙娜丽莎》就简单多了,从画完后达·芬奇就一直带着。他去世后,这幅画就被卖给了法国国王佛朗索瓦一世,1518 年搬进了卢浮宫。

此后,除了失窃了 2 年多外,剩下 500 年就一直收藏在卢浮宫里。而《救世主》这幅画,至少有 150 年不知所踪,然后突然出现,自然会引起更多的质疑。

比如耶稣左手托着的那个水晶球,就是很多专家认为肯定不是达·芬奇原创的证据。

画中的水晶球是非常透明的,而且水晶球后面耶稣衣服的纹理清晰可见。关键是这些纹理从肩部一直延续到腹部,哪怕经过水晶球透射的区域,纹理竟然也是连贯的。我们知道,水晶球对光线的折射和反射会大幅扭曲背后的影像,怎么可能有如此连贯的纹理呢?

如果你还是不信水晶球对光线折射后的真实效果,我也放了一张真实水晶球对前后景象的扭曲效果图放在下方。你可以对比看一下。

你可能会说,这就是达·芬奇示意一下而已,画得不符合现实也很正常。但达·芬奇可不是一般人,而是一个对物理学多个领域都有深入研究的杂家,尤其是对光影的研究,更是大量体现在他的作品里。所以,这样一个不符合光学折射规律的水晶球,是不可能出自达·芬奇之手的。

正是一些画家和艺术研究者仔细比对了作品的风格后,才出现了之后的说法:这幅画曾经严重受损,并且有过大量修复,很可能出自达·芬奇的几个学生之手。

但是最近,一群计算机科学家、知识产权律师和艺术史学家,用 AI 对这幅画做了鉴定,最终得到的结果是,没有托水晶球的那只手和黑色的背景不是出自达·芬奇,而剩下的部分是达·芬奇画的。

这个结论和当前艺术史研究的主流结论吻合,他们能做到这一点是靠一种今天已经很流行的算法——卷积神经网络

2

AI算法怎么判断画作风格?

在此之前,这个算法可以给图像分类,比如识别猫和狗、或者识别出肿瘤,但在画作上,让 AI 从画家惯用的风格和手法入手去识别,之前还没有获得过很好的结果。

之所以没有很好的结果,主要是由两个特殊问题导致的:

第一个问题是,可用作训练的数量太少了。

我们知道,AI 做的图像识别,今天已经可以轻松分辨出烫了头的金发模特和一只狮子狗的区别,但那很可能是用几万张狗和几万张人的照片训练出来的。还比如,识别一个路口的照片里哪个东西是红绿灯的任务,也能靠巨量的训练数据完成的。

可是,到了一幅画是不是画家亲手所为这个问题上,难度就上来了。尤其是那些世界名画的画家,他们存世的不同作品,顶天也就一百多张,大多数人存世的画作不多。比如说,达·芬奇的就只有十几幅,离训练所需的量相差太远。

这组研究者是这样解决这个关键问题的:

因为人工智能面对的任务是寻找画作风格,而不是具体的物品,于是风格这个东西,可是不能按“幅”或者“个”为单位来计数的,而是用一种比较模糊的计数方法。

有时候,在一幅画的某个区域就能体现出这位画家的风格了。这个区域可能是人物的手指,也可能是衣服上色调的风格。于是,一幅画里本身就会有 N 处风格显露的点。这个 N 可能是几十或者几百,但这也还是不够。

不过,风格这个东西有意思的地方就是,它在某一个合理的缩放范围里,都能体现出来。什么意思呢?

我们就用一个人写字的笔迹特征来举例吧。你熟悉你同桌的字,他的字用高清摄像头以 10000 × 10000 像素的高分辨率拍下来,你看到后一定能认出来。如果缩小到 1000 × 1000 像素,你也照样能一眼认出来,甚至缩到 100 × 100 像素,你也一样可以认出来。而缩放的变化,就能凭空生出很多训练素材了。

好,现在训练素材不成问题了。

第二个问题是,画风可不一定在整幅画的所有像素上都能表现出来,甚至一幅画 1/3 - 1/2 的区域都是谈不上有风格的。这时候怎么办呢?

比如这幅《救世主》,耶稣身后的背景都是黑色的,虽然不排除有些画家对看上去单调的背景也做过精心处理,仔细看还是特点鲜明的,但一般来说,这种细腻的风格只体现在油墨块的堆叠上。

想要捕捉这些信息,那就不是一张 JPEG 的能解决的,甚至需要用 3D 立体的高清照片还原作品才可以。一旦原画只是正面拍照,而且还是生成了尺寸缩小的图,那这些油墨使用上的风格信息就不存在了。

这时候,图像中 1/3 的区域近乎于纯黑,也就是近乎于没有风格,用这样的训练 AI,反而会大幅干扰判断的准确性,因为 AI 很可能会把没有信息当作画家的风格。

所以,第二个问题就是怎么处理这些无信息的部分。

研究者利用了一个叫作“图像熵”(image entropy)的概念:把图像分成小块,计算每块的熵值,比如那些全黑色的背景部分的一块,求图像熵后就是一个比较小的值;而耶稣手部的区域,就是一个比较大的值。然后,再设置一个门槛,只选熵值最大的前 5% 的图块,只把这些部分当作训练内容。

这样一来,就把两个问题都解决了。这里使用的 AI 叫作“卷积神经网络”。

3

神经网络和卷积神经网络有什么区别?

想了解什么是卷积神经网络,我们得先说说什么是神经网络。

神经网络,就是模拟人脑神经元连接的方式,那些分成小块的训练素材就好比是我们眼睛看到的东西,然后设置若干神经元,对每块素材的输入做处理。而这些神经元,就对应我们的大脑皮层。

设置多少神经元呢?比如说 1万个。但这只是第一层的 1 万个神经元,还需要多设置几层,比如说 5 层,每层 1 万个,总共 5 万个。它们的任务就是学会识别一种风格。

工作起来是这样的:

每进来一个输入,都会流进第一层那 1 万个神经元中的每一个,而这1 万个神经元中的每一个还和下一层的 1 万个神经元都有连接。5 层的神经元都是这样连接的,这个连接数量就可想而知了。

前后两层之间就是 1 万 × 1 = 1 亿个连接。然后,我们希望输出的结果是一个确定的值。如果这个值高到一定程度,就代表符合某位画家的风格。

于是你会想,神经元这么挨个连接上以后输出,就能做这么先进的事情了?能分辨画家的风格了?

不是的。还需要把这几亿条连接设置好特定参数才可以。这些参数,对应人脑的神经元连接,就是“连接强度”的意思;对应 AI 里面,就是“权重”的意思。

总之,当这几亿条连接中,神经元之间的权重设置的足够合理的时候,输出就能判断某个小画块是不是符合达·芬奇的风格。

那这些最重要的连接参数又是从哪里来呢?就是从训练素材里来的。既然是训练,我们就能告诉这个神经网络某次加工处理后的结果是不是正确,正确的话,相关连接的强度就会比上一次增强一些。

多次训练后,能做出正确判断的连接参数就慢慢涌现了出来。这个过程,大致就是神经网络工作的原理。

而卷积神经网络又是怎么卷的呢?

其实,这又是一个复杂的话题,你可以粗糙的理解成:在全连接神经网络中耗费的算力太高了,而卷积操作后,计算量大幅下降,并且判断能力依旧很出色。最后,这组科学家只用了 100 幅做训练,52 幅做测试,就得到了很理想的结果。

然后,拿这个卷积神经网络来分析《救世主》,得到的结论是,黑色背景和抬起的右手不是达·芬奇本人画的,其他部分出自达·芬奇之手。这也符合巴黎美术馆的专家们经过多年考证的结果。

他们也用这个 AI 分析了另外一幅争议依旧的作品——《戴金盔的男子》。这幅画自从 1984 年一次调查真伪的讨论中,作者就被认定不再是伦勃朗了。不过,经过 AI 的分析,还是认为它是非常标准的伦勃朗的作品。

如有侵权,请联系本站删除!

  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com