tsv-utils大型表格数据的命令行工具
tsv-utils (TSV Utilities) 由 eBay 开源,是一组用于操作大型表格数据文件的命令行工具,适用于机器学习、数据挖掘和类似环境中的数字及文本数据,支持过滤、抽样、统计计算等操作。tsv-utils 在使用大数据集的时候尤其有优势,它比起提供类似功能的其他工具,有着更快的速度(对比数据可查阅 2018 Comparative Benchmarks Update)。
tsv-utils 的工作方式类似于传统的 unix 命令行工具(如cut
、 sort
和 grep
),每个工具都是一个独立的可执行文件。这些工具包括:
- tsv-sample - 取样输入行或随机排序,包含许多抽样方法。
- tsv-join - 使用字段作为键连接多个文件中的行。
- tsv-uniq - 使用字段作为键筛选出重复行。
- tsv-pretty - 输出对齐的 TSV 数据,以便在命令行上查看。
- csv2tsv - 将 CSV 文件转码成 TSV。
- number-lines - 给输入行编号。
- ……
评论