【开放书】《命令行数据科学指南(第二版)》

数据派THU

共 701字,需浏览 2分钟

 · 2021-12-17

来源:专知

本文附论文,建议阅读5分钟

这篇经过彻底修改的指南演示了命令行的灵活性如何帮助您成为更高效和高效的数据科学家。



这篇经过彻底修改的指南演示了命令行的灵活性如何帮助您成为更高效和高效的数据科学家。您将学习如何组合小型但功能强大的命令行工具来快速获取、清理、探索和建模您的数据。首先,作者Jeroen Janssens提供了一个Docker映像,其中包含超过100个Unix强大工具——无论您是在Windows、macOS还是Linux上工作都很有用。

您将很快发现为什么命令行是一种敏捷的、可伸缩的和可扩展的技术。即使您习惯于使用Python或R处理数据,您也将了解如何通过利用命令行的强大功能来极大地改进数据科学工作流。本书是数据科学家、分析师、工程师、系统管理员和研究人员的理想读物。

  • 从网站、API、数据库和电子表格中获取数据
  • 对文本、CSV、HTML、XML和JSON文件执行擦洗操作
  • 研究数据,计算描述性统计数据,并创建可视化
  • 管理您的数据科学工作流
  • 从一行程序和现有的Python或R代码创建您自己的工具
  • 并行和分发数据密集型管道
  • 用降维、回归和分类算法建模数据
  • 利用Python、Jupyter、R、RStudio和Apache Spark中的命令行
https://datascienceatthecommandline.com/2e/index.html


浏览 21
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报