数据科学|数据科学中的信息理论方法-技术圈

自1948年引入信息论以来，信息论已被证明在分析与压缩、存储和传输数据有关的问题方面起着重要作用。例如，信息论允许分析数据通信和压缩的基本限制，并在几十年的实际通信系统设计中发挥了作用。近年来，在使用信息理论方法解决数据压缩、数据通信和网络之外的问题方面出现了复兴，例如压缩感知、数据获取、数据分析、机器学习、图挖掘、社区检测、隐私和公平。在这本书中，我们探索了信号处理、机器学习、学习理论和统计的接口上的一系列广泛的问题，其中源自信息论的工具和方法可以提供类似的好处。几十年来，信息论在这一界面上的作用确实得到了承认。一个突出的例子是在1980年代使用互信息、度量熵和容量等信息理论量来建立估计的极大极小率。在这里，我们打算探索这个界面的现代应用，这些应用正在塑造21世纪的数据科学。

当然，标准信息理论工具与信号处理或数据分析方法之间有一些显著的差异。从整体上说，信息论倾向于关注渐近极限，使用大的块长度，并假设数据是由有限的比特数表示，并通过一个噪声信道观看。标准结果不关心复杂性，而是更多地关注通过可实现性和反向结果表征的基本限制。另一方面，一些信号处理技术，如采样理论，专注于离散时间表示，但不一定假设数据是量化的或系统中有噪声。信号处理通常关注的是最优的具体方法，即达到开发的极限，并具有有限的复杂性。因此，很自然地将这些工具结合起来，以解决更广泛的问题和分析，包括量化、噪声、有限样本和复杂性分析。

这本书的目的是为新兴的数据科学问题的信息理论方法的最近的应用提供一个综述。本书的潜在读者可能是信息理论、信号处理、机器学习、统计学、应用数学、计算机科学或相关研究领域的研究人员，或寻求了解信息理论和数据科学并在此界面上找出开放问题的研究生。本卷的特殊设计确保它可以作为研究人员和学生的教科书的最先进的参考。

这本书包含了16个不同的章节，由世界范围内公认的领先专家撰写，涵盖了信号处理、数据科学和信息论界面上的各种各样的主题 。本书以信息理论的介绍作为其余章节的背景开始，也设置了贯穿全书使用的符号。接下来的章节被分为四类: 数据获取(第2-4章)，数据表示和分析(第5-9章)，信息论和机器学习(第10和11章)，以及信息论、统计和压缩(第12-15章)。最后一章，第16章，通过对范诺不等式在一系列数据科学问题中的调研，将本书的几个主题联系起来。章节是独立的，涵盖了各自主题的最新研究结果，并且可以彼此独立地处理。