马赛克在AI面前可能不安全了，新技术让厚码文字被还原-技术圈

12月14日，据媒体报道，一个名为Depix的项目引发热议。Depix能够解码被打上马赛克的文字，但只适用于使用线性方框滤波器创建的像素化图像。

除了Depix，谷歌的超强像素递归方案、杜克大学的AI算法PULSE，也能将面目模糊的人像变得清晰可辨。

该技术会让那些草草打马就以为能够隐藏机密信息的人捏把汗。

据悉，该技术开发者初衷并非窃取信息，而是为了提醒人们注重信息安全。

最近一位名为Sipke Mellema的程序员便开发了这样一款工具。他说，一些公司在内部文档中经常会使用像素化的方式显示密码，但没有工具可以从这样的图像中恢复密码，因此便创建了一个。

我们先来看下效果图：

其中，第一行是被像素化后的密码序列，被狠狠地打了一层马赛克，看不出一点原始痕迹。

第二行是经过AI还原后的密码，可以看到密码序列基本被还原了，而且准确度很高，只有稍加推理就能得到第三行的原始密码。

那么，这个“不可思议”的AI还原技术是如何实现的？

我们知道，马赛克是图像像素化处理的一种手段，它通过将影像特定区域的色阶细节劣化并打乱色块，达到一种模糊图像的效果。

像素化在许多领域被用于模糊图像信息，其中线性盒滤波器（ Linear Box Filter）是一种较为普遍的处理算法。盒子滤波也称为方框滤波，它采用一个像素框，用该框中所有像素的平均值覆盖像素。

像这样，表情图像被分为四个色块，每个色块被色块平均值所覆盖，最终形成了像素化表情，由于原始信息丢失，因此不能直接反转滤波器。

Mellema正是利用了盒子滤波器，提出了AI还原算法-Depix。

线性盒滤波器是一种确定性算法，对相同的值执行像素化通常会产生同样的像素块（Block），那么反之，使用相同位置的块对相同文本执行像素化，是否也会得到同样的块值？

Mellema尝试通过像素化文本来找出匹配的模式，结果发现确实如此。

具体来说，Mellema把每个块或块组合看作一个子问题。该算法要求在相同背景上，具备相同的文本大小和颜色，因此他没有选择创建潜在字符的查找表，因为现代文本编辑器可以添加色调、饱和度和亮度，也就是说存在海量潜在字符。

在处理字符方面，Mellema使用待处理字符的德布鲁因序列（De Bruijn sequence），将其粘贴到相同的编辑器中，然后截图。该截图可用作相似块的查找图像，例如：

德布鲁因序列包括待处理字符的所有双字符组合，这一点很重要，因为一些块会重叠两个字符。

要找出合适的匹配需要搜索图像中具备相同像素配置的块。在测试中，Depix 算法无法找到字符“o”，因为在搜索图像中，搜索块还包含下一个字母“d”，但在原始图像中这里有个空格。

显然，在创建字符的德布鲁因序列时，如果加上空格会带来同样的问题，即算法无法找到后续字母恰当的块。有空格又有字母的图像需要更长的搜索时间，但结果也更好。

对于大多数像素化图像而言，Depix可以找到块的单个匹配结果。它先假设这些块是正确的，然后将周围多个匹配块进行比较，使其与像素化图像中的几何距离相同，并假设这些匹配也是正确的。

在正确的块没有更多几何匹配后，Depix 直接输出所有正确的块。对于多匹配块，Depix 将输出所有匹配的平均值。虽然 Depix 的输出并不完美，但已经算不错了。

下图展示了包含随机字符的测试图像的去像素化结果，大部分字符被正确读取：

最后需要说明的是，Mellema开发这个AI项目并不是为了窃取信息，而是利用ECB和明文攻击（Known-Plaintext Attacks）的模式，提高信息保护技术。在他看来，不知道如何破坏当前的保护模式，是信息安全中的常见陷阱。

网友评论：

研究的初衷是为了提醒人们保护隐私？？？确定不是方便坏人窥探人们的隐私吗

本科毕设就做的类似课题，图像去雾，图像增强，图像复原

这是基于大量人脸数据算出来的吧，反正我是不相信已丢失的细节能被还原

知道了打双重马赛克

这个需要大量的训练集没

为啥研究这个？

能不能研究点正常的？

所以一般马赛克我都马两次以上…以前总觉得有软件可以还原…居然现在才问世？

不是有有图案的马赛克嘛

对啊，平涂也可以。没有透明度的话不可能还原

想不出自己有什么东西需要打马赛克

动作片中的你自己的脸

重复马多次，完全马上以后，截图再上传。

你让跑腿的给你传话你还想让跑腿的不知道你传话的内容？

美图秀秀消除笔了解一下

以后看有码的片是不是

你不对劲

马赛克改算法就行了，不再是覆盖，而是删除填充