独家 | 数据科学家对可复用Python代码的实用管理方法(附链接)
作者:Matthew Mayo, KDnuggets
翻译:殷之涵
校对:欧阳锦
本文约3000字,建议阅读5分钟
本文为大家介绍了四种关于复用Python代码的管理方法,以提高代码的效率及可读性等。
https://stackoverflow.com/questions/1883980/find-the-nth-occurrence-of-substring-in-a-string)。
def find_nth(haystack, needle, n):start = haystack.find(needle)while start >= 0 and n > 1:start = haystack.find(needle, start+len(needle))n -= 1return start
from textproc import find_nthsegment = line[:find_nth(line, ',', 4)].strip()
import pandas as pd# Read CSV file into dataframecsv_file = 'data.csv'df = pd.read_csv(csv_file)# Iterate over df, creating numbered list entriesi = 1for index, row in df.iterrows():entry = '<b>' + str(i) + \'. <a href="' + \row['url'] + \'">' + \row['title'] + \'</a> + \'\n\n<blockquote>\n' + \row['description'] + \'\n</blockquote>\n'i += 1print(entry)
AutoKey
https://github.com/autokey/autokey
import sys, requestsimport numpy as npimport pandas as pdimport textheroimport scattertext as stimport spacyfrom spacy.lang.en.stop_words import STOP_WORDSfrom datasets import load_metric, list_metricsfrom transformers import pipelinefrom fastapi import FastAPI
译者简介
殷之涵(Jane),研究生毕业于康奈尔大学生物统计与数据科学专业,本科毕业于普渡大学精算与应用统计专业。目前在腾讯担任数据科学家,主要负责腾讯视频用户增长&市场营销数据科学方面的工作;此前在京东任数据分析师一年半,负责通过指标体系搭建、统计分析、数据挖掘和机器学习建模来驱动决策、制定并落地亿级用户的精细化运营策略。对数据科学充满兴趣和热情,希望通过多年勤恳深耕成长为真正的领域专家。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织


