UMAP降维算法
Uniform Manifold Approximation and Projection (UMAP)是一种降维技术,可用于类似于 t-SNE 的可视化,也可用于一般的非线性降维。该算法建立在对数据的三个假设之上。
- 数据均匀分布在黎曼流形上;
- 黎曼度量是局部常数(或可以近似);
- 流形是局部连接的。
根据这些假设,可以对具有模糊拓扑结构的流形进行建模。嵌入是通过搜索具有最接近的可能等效模糊拓扑结构的数据的低维投影来找到的。
此软件包现在也提供对 densMAP 的支持。densMAP 算法增强了 UMAP,除了数据的拓扑结构外,还保留了局部密度信息。
UMAP依赖于 scikit-learn,因此也依赖于 scikit-learn 的依赖关系,如 numpy 和 scipy。由于性能原因,UMAP 增加了对 numba 的要求。原始版本使用 Cython,但 Numba 的代码清晰度、简单性和性能的提高使得这一转变成为必要。
评论