受果蝇启发的哈希算法!用“生物学上合理的”突触可塑性规则生成哈...-技术圈

新智元报道

来源：VB

编辑：王汐，元子

【新智元导读】FlyHash是一种受果蝇嗅觉电路启发的算法，已证明该算法可生成哈希码，性能优于经典算法。不幸的是，由于FlyHash使用随机投影，因此无法从数据中学习。为了克服这一限制，研究人员开发了BioHash，该技术应用“本地”和“生物学上可行的”突触可塑性规则来产生哈希码。「新智元急聘主笔、编辑、运营经理、客户经理，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

听说过FlyHash吗?这个算法的灵感来自于果蝇的嗅觉回路，它可以产生哈希码——物体的数字表示——其性能优于经典算法。不幸的是，由于FlyHash使用随机投影，它无法从数据中学习。

为了克服这一限制，普林斯顿大学、圣地亚哥大学、IBM Research和MIT-IBM Watson AI实验室的研究人员开发了BioHash，它应用“局部”和“生物学上合理的”突触可塑性规则来生成hash码。他们说，它比之前发布的各种哈希方法的基准测试都要好，而且它可以生成对相似度搜索有用的二进制表示。

正如研究人员在一份预先印刷的论文中详细解释他们的工作，这种被称为扩展表征的现象在神经生物学中几乎无处不在。在此上下文中，“扩展”是指将高维输入数据映射到甚至更高维的辅助表示。例如，在上面提到的果蝇嗅觉系统中，大约有50个神经元将它们的活动发送到大约2500个叫做Kenyon的细胞中，实现了大约50倍的扩展。

从计算的角度来看，扩展可以增加AI模型的内存存储容量。正是基于这种动机，该团队设计了散列算法BioHash，可用于相似度搜索。

在相似度搜索中，给定一个查询、一个相似度度量和一个包含任意数量项的数据库，目标是从数据库中检索与查询最相似的项的排序列表。当数据是高维的(例如图像或文档)，而数据库很大(以百万或数十亿计的条目为单位)，这在计算上是一个具有挑战性的问题。但是，近似解通常是可以接受的，包括一种称为位置敏感哈希(LHS)的哈希方案，其中每个数据库条目都用二进制表示进行编码，并检索密切相关的条目。

FlyHash利用LHS, BioHash也是如此。但重要的是，BioHash速度更快，可扩展性更强。

研究人员在MNIST和CIFAR-10上对Biohash进行了培训和测试。MNIST是一组包含7万张灰度图像的手写数字，其中10类数字从“0”到“9”不等，CIFAR-10是一个包含6万张来自10类数字(如“car”、“bird”)的数据集。他们说，BioHash在速度方面表现出了最好的检索性能，远远超过了其他方法，而BioHash的改进版本——BioConvHash——由于加入了专门构建的过滤器，性能甚至更好。

该团队断言，这提供了证据，说明扩展表示之所以在生物中普遍存在，是因为它们执行LHS。换句话说，他们把相似的刺激聚在一起，把不同的刺激分开。“我们的工作为以下提议提供了证据:LHS可能是稀疏膨胀电路利用的基本计算原理……Biohash以数据驱动的方式产生稀疏的高维哈希码，并以神经生物学上可行的方式学习突触。”

事实证明，神经生物学和机器学习领域是密切相关的。谷歌母公司Alphabet旗下的DeepMind本月早些时候发表了一篇论文，研究大脑是否以概率分布(一种提供不同结果发生概率的数学函数)而非单一平均值来代表未来可能的奖励。谷歌和马克斯·普朗克神经生物学研究所的科学家最近展示了一种递归神经网络——一种经常用于手写和语音识别的机器学习算法——它可以映射大脑的神经元。

参考链接：

https://venturebeat.com/2020/01/21/ibms-biologically-inspired-ai-generates-hash-codes-faster-than-classical-approaches/