2022 年 5 篇与降维方法的有关的论文推荐-技术圈

来源：Deephub Imba
本文约2000字，建议阅读4分钟
本文介绍了今年5篇关于降维方法的论文。

1、Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope

Paul May, Hossein Moradi Rekabdarkolaee

降维是分析高维数据的重要工具。Spatial Predictor Envelope是一种回归的降维方法，它假设预测变量的某些线性组合对回归产生的影响很小。与传统的最大似然和最小二乘估计相比，该方法可以显著提高效率和预测准确性。虽然目前的工作已经针对独立数据开发和研究了预测包络，但还没有出现将预测包络适应于空间数据的工作。这篇论文提出了spatial predictor envelope (SPE) ，并且导出了 SPE 的最大似然估计，以及给定某些假设的估计的渐近分布，表明 SPE 估计在渐近上比原始空间模型的估计更有效。还通过一些模拟研究分析说明了所提出模型的有效性。

2、Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra

Konstantin T. Matchev, Katia Matcheva, Alexander Roman

Transit spectroscopy是解码系外行星大气化学成分的有力工具。这篇论文专注于分析来自外行星的光谱数据的无监督技术，并展示了以下方法：

清理和验证数据；
基于汇总统计（位置和可变性的估计）的初始探索性数据分析；
探索和量化数据中现有的相关性；
预处理和线性变换数据到它的主要成分；
降维和流形学习；
聚类和异常检测；
数据的可视化和解释。

为了说明所提出的无监督方法，论文使用了一个著名的合成传输光谱公共基准数据集。表明光谱数据中存在高度相关性，需要适当的低维表示。论文探索了许多不同的降维技术，并在汇总统计、主成分等方面确定了几种合适的选择。在主成分基础上发现了有趣的结构，即与底层大气的不同化学体系相对应的明确定义的分支。这些分支可以成功地通过K-means聚类算法在完全无监督的方式进行复原。论文建议对光谱数据的前三个主要成分进行三维表示，这样可以揭示数据中的现有结构，并快速表征行星的化学级别。

3、Statistical Treatment, Fourier and Modal Decomposition

Miguel Alfonso Mendez

这是VKI 讲座系列“Fundamentals and Recent Advances in Particle Image Velocimetry and Lagrangian Particle Tracking”中“Statistical Treatment, Fourier and Modal Decomposition”的讲义。该课程于 2021 年 11 月 15 日至 11 月 18 日在 von Karman流体动力学研究所举行。本次讲座提供了通过图像测速获取的数据处理的导览。这个讲义并不是对该领域的详尽描述，但它本身就一门完整的课程，并且提供一个可以动手实际操作的指引。从基本的统计处理开始，简要回顾频率和模态分析，并以更高级的研究主题结束，例如多尺度模态分解和非线性降维。所涵盖的材料有望推动新手进入该主题，同时保持经验丰富的从业者的兴趣。与本讲座相关的所有代码都在 github 上公开了。

4、SLISEMAP: Explainable Dimensionality Reduction

Anton Björklund, Jarmo Mäkelä, Kai Puolamäki

现有的黑盒监督学习模型的解释方法通常是通过构建局部模型来解释模型对于特定数据项的行为。虽然可以进行全局解释，但对于复杂模型的解释的保真度较低。以前关于可解释模型的研究大多集中在分类问题上，对回归的关注较少。论文提出了一种新的流形可视化方法SLISEMAP，该方法可以同时为所有数据项找到局部解释，并构建模型空间的二维可视化，将同一模型解释的数据项进行投影。作者还提供了该方法的开源实现（PyTorch）。SLISEMAP既适用于分类模型也适用于回归模型。将SLISEMAP方法与最流行的降维方法和一些局部解释方法进行了比较。论文中提供了问题的数学推导，并表明SLISEMAP提供了快速而稳定的可视化，可用于解释和理解黑盒回归和分类模型。

5、A comprehensive survey on computational learning methods for analysis of gene expression data in genomics

Nikita Bhandari, Rahee Walambe, Ketan Kotecha, Satyajeet Khare

包括机器学习在内的计算分析方法在基因组学和医学领域具有重大影响。微阵列技术和 RNA 测序等高通量基因表达分析方法会产生大量数据。传统上都是使用统计的方法进行基因表达数据的比较分析。但是对特征基因或样本观察的分类和发现进行更复杂的分析就需要复杂的计算方法。在这篇综述中，作者整理了了用于分析表达微阵列数据的各种统计和计算工具。尽管这些方法是在表达微阵列数据的背景下讨论的，但它们也可用于分析 RNA 测序或定量蛋白质组学数据集。论文中具体讨论了缺失值（基因表达）插补、特征基因缩放、选择和提取特征以进行降维和表达数据的学习和分析的方法。在论文的最后最后，详细描述了学习和分析方法，包括类比较、类预测和类发现以及它们的评估参数。这篇综述描述了微阵列基因表达数据的生成过程以及上述技术的优点和局限性，通过论文正i的这些列表，读者可以根据数据类型和预期结果选择合适的方法。

引用：

Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope https://arxiv.org/pdf/2201.01919.pdf
Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra https://arxiv.org/pdf/2201.02696.pdf
Statistical Treatment, Fourier and Modal Decomposition https://arxiv.org/pdf/2201.03847.pdf
SLISEMAP: Explainable Dimensionality Reduction https://arxiv.org/pdf/2201.04455.pdf
A comprehensive survey on computational learning methods for analysis of gene expression data in genomics https://arxiv.org/pdf/2202.02958.pdf

编辑：王菁

校对：林亦霖