使用Python正则表达式提取字幕
IT共享之家
共 1690字,需浏览 4分钟
· 2022-07-10
回复“资源”即可获赠Python学习资料
大家好,我是皮皮。
一、前言
前几天在Python铂金交流群粉丝【有点意思】问了一道正则表达式
处理的问题,如下图所示。
原始数据,如下所示:
他自己想要的效果,如下图:
二、实现过程
这里【月神】其实在上图中已经给了一个思路了,后来【瑜亮老师】也给了一个思路,如下图所示:
后来粉丝自己也在其他群得到了一个解答,如下图所示:
代码,如下所示:
序号列表 = [x for x in 字幕文件 if not re.search('[^0-9\n]',x)]
序号列表 = [x for x in 序号列表 if x!='\n']
后来【瑜亮老师】提出一个疑问,明明是要字幕中的文字,为啥提出来的需求是取数字?粉丝自己也说了自己的理由。
这里给出几行示例数据,如下所示:
1
00:00:00,256 --> 00:00:01,024
呵呵呵。
2
00:00:02,048 --> 00:00:02,560
哎呀,我这。
3
00:00:02,816 --> 00:00:03,584
得远一点。
4
00:00:06,400 --> 00:00:09,216
你往里再坐一点。
??
5
00:00:09,984 --> 00:00:10,496
好。
6
00:00:12,288 --> 00:00:13,056
呵呵呵。
7
00:00:13,312 --> 00:00:15,104
好。
后来【瑜亮老师】给了一份代码,如下所示:
import re
data="""1
00:00:00,256 --> 00:00:01,024
呵呵呵。
2
00:00:02,048 --> 00:00:02,560
哎呀,我这。
3
00:00:02,816 --> 00:00:03,584
得远一点。
4
00:00:06,400 --> 00:00:09,216
你往里再坐一点。
??
5
00:00:09,984 --> 00:00:10,496
好。
6
00:00:12,288 --> 00:00:13,056
呵呵呵。
7
00:00:13,312 --> 00:00:15,104
好。"""
res=re.findall(",\d{3}\n(.*?)\n\n", data, re.S)
print(res)
运行之后,结果如下所示:
完美地解决了粉丝的问题。
三、总结
大家好,我是皮皮。这篇文章主要盘点了一道正则表达式处理数据的问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【有点意思】提问,感谢【月神】、【瑜亮老师】等人给出的思路和代码解析,感谢群友们一起参与学习交流。
小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。
------------------- End -------------------
往期精彩文章推荐:
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
评论
Python列表知识应知应会
点击上方“Go语言进阶学习”,进行关注回复“Go语言”即可获赠从入门到进阶共10本电子书今日鸡汤只在此山中,云深不知处。一、前言 在Python程序开发中,列表(List)经常会使用。假设一个班里有50个学生现需要统计每一个学生的总成绩情况,如果不使用列
Go语言进阶学习
0
Python 字符串应该用双引号还是单引号?
转载来源:洪尔摩斯PyCharm升级至 2023.2版本后,经常弹出来一个提示问我要不要试一下Black formatter。试了一下,这个Black formatter 很有个性,特别喜欢换行。我的一个文件用PyCharm自带的代码整理器整理完之后是500行左右,然后再用Black整理就变成600
菜鸟学Python
0
Langchain使用 | 模型、提示和解析器、存储
零、LangChain介绍为各种不同基础模型提供统一接口- 帮助管理提示的框架- 一套中心化接口,用于处理长期记忆(参见Memory)、外部数据(参见Indexes)、其他 LLM(参见Chains)以及 LLM 无法处理的任务的其他代理(例如,计算或搜索)。总的来说,有六大核心模块:Models:
Python之王
0
delorean,一个超级实用的 Python 库!
作者通常周更,为了不错过更新,请点击上方“Python碎片”,“星标”公众号大家好,今天为大家分享一个超级实用的 Python 库 - delorean。Github地址:https://github.com/myusuf3/delorean/时间在计算机科学和软件开发中是一个至关重要的概念。Pyt
Python 碎片
0
五一Python抢票神器来了
还在为五一回家抢不到火车票发愁吗?今天介绍一个Python抢票神器,希望对你有帮助。Py12306是一个流行的开源项目,旨在帮助用户更便捷地查询和预订中国铁路12306网站上的火车票。以下是使用Py12306的基本步骤和一些注意事项:安装与环境准备安装Python: 确保你的系统中安装了Python
Python小二
1
PyPy为什么能让Python比C还快?一文了解内在机制
我的小册:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。来源:机器之心「如果想让代码运行得更快,您应该使用 PyPy。」—— Python 之父 Guido van Rossum对于研究人员来说,迅速把想法代码化并查看其是否行得通至关重要。Pyth
菜鸟学Python
0
Stability AI开放Stable Diffusion 3 API,在线免费使用
「Stability AI」宣布开放其最新文本到图像生成模型「Stable Diffusion 3」的API接口,供开发者和企业使用。该模型采用创新的多模态扩散转换器架构,在字体、细节还原、提示理解等方面表现优异,评测结果超越了业内其他顶尖系统。与DALL-E 3和Midjourney v6等最先进
IQ前端
0
CleverCSV,一个神奇的 python 库!
我的小册:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。来源丨网络介绍CleverCSV 是一个基于 Python 的库,旨在提供比标准库 csv 更智能和灵活的方法来处理 CSV 文件。该库使用机器学习算法来探测 CSV 文件的正确拨号结构,从而
菜鸟学Python
0