卷积神经网络：如何用AI鉴定名画？

2022/4/6 14:05:46　阅读：643　发布者：chichi77

这周三，卓克老师在得到课程《科技参考2》里介绍了计算机科学家用AI算法鉴定达·芬奇的《救世主》，判断这幅名画是不是真的出自达·芬奇之手，我将文章分享给大家，希望能有所启发。

以下内容来自得到App年度日更课程《卓克·科技参考2》：075 | 卷积神经网络：如何用AI鉴定名画？

《救世主》到底是谁画的？

迄今为止，交易价格最高的画作是 2017 年 11 月 15 日在佳士得拍卖行拍卖的达·芬奇的《救世主》。

这幅画创作于 1490 - 1519 年之间。当时的拍卖价格是 4.5 亿美元。据说，现在正摆在沙特王储的超级油轮上。

16 世纪中叶，在法王路易十二的委托下，达·芬奇创作了这幅画。后来，继承给了英国国王查理一世的妻子玛利亚，这幅画也就从法国漂洋到了英国。然后，又继承给英王詹姆斯二世。但詹姆斯二世在位期间，发生了光荣革命，被夺去了王位。

据说，这幅画又落到了詹姆斯二世的情妇凯瑟琳（Catherine Sedley）手里。然后，凯瑟琳又把画传给了自己的儿子。

在 18 世纪中期以后，就再也没有过这幅画的公开消息，也没有人见过这幅画了。等它再次出现是 19 世纪末了，中间断掉了 150多年。而且，再次出现的时候，说法也变了，说这不是达·芬奇本人的作品，而是他的学生贝尔纳尔迪诺（Bernardino Luini）画的。

而到了二十世纪五十年代，说法又变了，认为这幅画是达·芬奇另外一个学生乔瓦尼（Giovanni Boltraffio）画的。直到 2011 年，这幅画在伦敦国家美术馆展出，标签作者又改回了最初的说法——达·芬奇。

那么，这幅画的作者到底是谁？为什么作者会改来改去呢？

首先，和这幅画的身世复杂有关。比如另一幅名画《蒙娜丽莎》就简单多了，从画完后达·芬奇就一直带着。他去世后，这幅画就被卖给了法国国王佛朗索瓦一世，1518 年搬进了卢浮宫。

此后，除了失窃了 2 年多外，剩下 500 年就一直收藏在卢浮宫里。而《救世主》这幅画，至少有 150 年不知所踪，然后突然出现，自然会引起更多的质疑。

比如耶稣左手托着的那个水晶球，就是很多专家认为肯定不是达·芬奇原创的证据。

画中的水晶球是非常透明的，而且水晶球后面耶稣衣服的纹理清晰可见。关键是这些纹理从肩部一直延续到腹部，哪怕经过水晶球透射的区域，纹理竟然也是连贯的。我们知道，水晶球对光线的折射和反射会大幅扭曲背后的影像，怎么可能有如此连贯的纹理呢？

如果你还是不信水晶球对光线折射后的真实效果，我也放了一张真实水晶球对前后景象的扭曲效果图放在下方。你可以对比看一下。

你可能会说，这就是达·芬奇示意一下而已，画得不符合现实也很正常。但达·芬奇可不是一般人，而是一个对物理学多个领域都有深入研究的杂家，尤其是对光影的研究，更是大量体现在他的作品里。所以，这样一个不符合光学折射规律的水晶球，是不可能出自达·芬奇之手的。

正是一些画家和艺术研究者仔细比对了作品的风格后，才出现了之后的说法：这幅画曾经严重受损，并且有过大量修复，很可能出自达·芬奇的几个学生之手。

但是最近，一群计算机科学家、知识产权律师和艺术史学家，用 AI 对这幅画做了鉴定，最终得到的结果是，没有托水晶球的那只手和黑色的背景不是出自达·芬奇，而剩下的部分是达·芬奇画的。

这个结论和当前艺术史研究的主流结论吻合，他们能做到这一点是靠一种今天已经很流行的算法——卷积神经网络

AI算法怎么判断画作风格？

在此之前，这个算法可以给图像分类，比如识别猫和狗、或者识别出肿瘤，但在画作上，让 AI 从画家惯用的风格和手法入手去识别，之前还没有获得过很好的结果。

之所以没有很好的结果，主要是由两个特殊问题导致的：

第一个问题是，可用作训练的数量太少了。

我们知道，AI 做的图像识别，今天已经可以轻松分辨出烫了头的金发模特和一只狮子狗的区别，但那很可能是用几万张狗和几万张人的照片训练出来的。还比如，识别一个路口的照片里哪个东西是红绿灯的任务，也能靠巨量的训练数据完成的。

可是，到了一幅画是不是画家亲手所为这个问题上，难度就上来了。尤其是那些世界名画的画家，他们存世的不同作品，顶天也就一百多张，大多数人存世的画作不多。比如说，达·芬奇的就只有十几幅，离训练所需的量相差太远。

这组研究者是这样解决这个关键问题的：

因为人工智能面对的任务是寻找画作风格，而不是具体的物品，于是风格这个东西，可是不能按“幅”或者“个”为单位来计数的，而是用一种比较模糊的计数方法。

有时候，在一幅画的某个区域就能体现出这位画家的风格了。这个区域可能是人物的手指，也可能是衣服上色调的风格。于是，一幅画里本身就会有 N 处风格显露的点。这个 N 可能是几十或者几百，但这也还是不够。

不过，风格这个东西有意思的地方就是，它在某一个合理的缩放范围里，都能体现出来。什么意思呢？

我们就用一个人写字的笔迹特征来举例吧。你熟悉你同桌的字，他的字用高清摄像头以 10000 × 10000 像素的高分辨率拍下来，你看到后一定能认出来。如果缩小到 1000 × 1000 像素，你也照样能一眼认出来，甚至缩到 100 × 100 像素，你也一样可以认出来。而缩放的变化，就能凭空生出很多训练素材了。

好，现在训练素材不成问题了。

第二个问题是，画风可不一定在整幅画的所有像素上都能表现出来，甚至一幅画 1/3 - 1/2 的区域都是谈不上有风格的。这时候怎么办呢？

比如这幅《救世主》，耶稣身后的背景都是黑色的，虽然不排除有些画家对看上去单调的背景也做过精心处理，仔细看还是特点鲜明的，但一般来说，这种细腻的风格只体现在油墨块的堆叠上。

想要捕捉这些信息，那就不是一张 JPEG 的能解决的,甚至需要用 3D 立体的高清照片还原作品才可以。一旦原画只是正面拍照，而且还是生成了尺寸缩小的图，那这些油墨使用上的风格信息就不存在了。

这时候，图像中 1/3 的区域近乎于纯黑，也就是近乎于没有风格，用这样的训练 AI，反而会大幅干扰判断的准确性，因为 AI 很可能会把没有信息当作画家的风格。

所以，第二个问题就是怎么处理这些无信息的部分。

研究者利用了一个叫作“图像熵”（image entropy）的概念：把图像分成小块，计算每块的熵值，比如那些全黑色的背景部分的一块，求图像熵后就是一个比较小的值；而耶稣手部的区域，就是一个比较大的值。然后，再设置一个门槛，只选熵值最大的前 5% 的图块，只把这些部分当作训练内容。

这样一来，就把两个问题都解决了。这里使用的 AI 叫作“卷积神经网络”。

神经网络和卷积神经网络有什么区别？

想了解什么是卷积神经网络，我们得先说说什么是神经网络。

神经网络，就是模拟人脑神经元连接的方式，那些分成小块的训练素材就好比是我们眼睛看到的东西，然后设置若干神经元，对每块素材的输入做处理。而这些神经元，就对应我们的大脑皮层。

设置多少神经元呢？比如说 1万个。但这只是第一层的 1 万个神经元，还需要多设置几层，比如说 5 层，每层 1 万个，总共 5 万个。它们的任务就是学会识别一种风格。

工作起来是这样的：

每进来一个输入，都会流进第一层那 1 万个神经元中的每一个，而这1 万个神经元中的每一个还和下一层的 1 万个神经元都有连接。5 层的神经元都是这样连接的，这个连接数量就可想而知了。

前后两层之间就是 1 万 × 1 万 = 1 亿个连接。然后，我们希望输出的结果是一个确定的值。如果这个值高到一定程度，就代表符合某位画家的风格。

于是你会想，神经元这么挨个连接上以后输出，就能做这么先进的事情了？能分辨画家的风格了？

不是的。还需要把这几亿条连接设置好特定参数才可以。这些参数，对应人脑的神经元连接，就是“连接强度”的意思；对应 AI 里面，就是“权重”的意思。

总之，当这几亿条连接中，神经元之间的权重设置的足够合理的时候，输出就能判断某个小画块是不是符合达·芬奇的风格。

那这些最重要的连接参数又是从哪里来呢？就是从训练素材里来的。既然是训练，我们就能告诉这个神经网络某次加工处理后的结果是不是正确，正确的话，相关连接的强度就会比上一次增强一些。

多次训练后，能做出正确判断的连接参数就慢慢涌现了出来。这个过程，大致就是神经网络工作的原理。

而卷积神经网络又是怎么卷的呢？

其实，这又是一个复杂的话题，你可以粗糙的理解成：在全连接神经网络中耗费的算力太高了，而卷积操作后，计算量大幅下降，并且判断能力依旧很出色。最后，这组科学家只用了 100 幅做训练，52 幅做测试，就得到了很理想的结果。

然后，拿这个卷积神经网络来分析《救世主》，得到的结论是，黑色背景和抬起的右手不是达·芬奇本人画的，其他部分出自达·芬奇之手。这也符合巴黎美术馆的专家们经过多年考证的结果。

他们也用这个 AI 分析了另外一幅争议依旧的作品——《戴金盔的男子》。这幅画自从 1984 年一次调查真伪的讨论中，作者就被认定不再是伦勃朗了。不过，经过 AI 的分析，还是认为它是非常标准的伦勃朗的作品。

如有侵权，请联系本站删除！

上一篇： 两款国产新冠mRNA疫苗获批开展临床试验 | 科研圈日报
下一篇： 最新Nature综述：植物与微生物互作：从群落构建到植物健康

投稿问答最小化 关闭

卷积神经网络：如何用AI鉴定名画？

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

卷积神经网络：如何用AI鉴定名画？

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭