使用Python正则表达式提取字幕-技术圈

点击上方“Python共享之家”，进行关注

回复“资源”即可获赠Python学习资料

今

日

鸡

汤

客去波平槛，蝉休露满枝。

大家好，我是皮皮。

一、前言

前几天在Python铂金交流群粉丝【有点意思】问了一道正则表达式处理的问题，如下图所示。

原始数据，如下所示：

他自己想要的效果，如下图：

二、实现过程

这里【月神】其实在上图中已经给了一个思路了，后来【瑜亮老师】也给了一个思路，如下图所示：

后来粉丝自己也在其他群得到了一个解答，如下图所示：

代码，如下所示：

序号列表 = [x for x in 字幕文件 if not re.search('[^0-9\n]',x)]
序号列表 = [x for x in 序号列表 if x!='\n']

后来【瑜亮老师】提出一个疑问，明明是要字幕中的文字，为啥提出来的需求是取数字？粉丝自己也说了自己的理由。

这里给出几行示例数据，如下所示：

1
00:00:00,256 --> 00:00:01,024
呵呵呵。

2
00:00:02,048 --> 00:00:02,560
哎呀，我这。

3
00:00:02,816 --> 00:00:03,584
得远一点。

4
00:00:06,400 --> 00:00:09,216
你往里再坐一点。
？？

5
00:00:09,984 --> 00:00:10,496
好。

6
00:00:12,288 --> 00:00:13,056
呵呵呵。

7
00:00:13,312 --> 00:00:15,104
好。

后来【瑜亮老师】给了一份代码，如下所示：

import re
data="""1
00:00:00,256 --> 00:00:01,024
呵呵呵。

2
00:00:02,048 --> 00:00:02,560
哎呀，我这。

3
00:00:02,816 --> 00:00:03,584
得远一点。

4
00:00:06,400 --> 00:00:09,216
你往里再坐一点。
？？

5
00:00:09,984 --> 00:00:10,496
好。

6
00:00:12,288 --> 00:00:13,056
呵呵呵。

7
00:00:13,312 --> 00:00:15,104
好。"""
res=re.findall(",\d{3}\n(.*?)\n\n", data, re.S)
print(res)