别再说概念了!直接告诉我这些常用正则表达式是怎么写出来的行不行?

共 7125字,需浏览 15分钟

 ·

2022-04-14 16:19

点击上方 前端Q,关注公众号

回复加群,加入前端Q技术交流群


作为一名程序员,不会写正则表达式总感觉少了点什么,不要求你能把正则玩出花来,但最起码要对常用的正则表达式手到擒来,刚毕业的我对于正则也是一头雾水,不过学会它也就一篇教程的事情[1]

本文我不会再浪费带宽把正则的规则再次重复一遍,而是从实际入手,直接告诉你为什么这么写

16进制颜色

按照规则来

  1. # 开头
  2. 后面紧跟着6个字符或者3个字符作为结尾,这些字符可以是 a-f 的小写字母、A-F的大写字母、数字

第一句,可以写成 /^#/;第二句,[a-fA-F0-9] 表示任意的 a-fA-F0-963的个数可以用 {6}{3}进行表示,那么3个字符就是 [a-fA-F0-9]{3},6个字符就是 [a-fA-F0-9]{6},这两个都有可能,用一个或(|)符号来连接:([a-fA-F0-9]{6}|[a-fA-F0-9]{3}),最后结尾可以用个 $

所有合到一起就是 /^#([a-fA-F0-9]{6}|[a-fA-F0-9]{3})$/

链接

目标是匹配出协议、域名、端口号portpathsearch

  1. 协议

合法的协议有 httphttps,还有一个是自适应协议,即不明确加协议,跟当前页面的协议保持一致,所以以下都是合法的:http://toutiao.comhttps://toutiao.com//toutiao.com。这三个协议组成的链接共同点是肯定有 // 字符串,在 //的前面可能是 https: 也可能是 http: 也可以没有任何字符串 先按照 https:// 这种写规则:^https:\/\/,其中的 s 字符可能有也可能没有,所以使用 ? 修饰:^https?:\/\/,又因为 https?:可能没有,所以这个字符串也用 ?修饰:^(https?:)?\/\/

  1. 域名

域名的前面可能是 //,从 //往后面匹配,只要没有代表 :port、代表 search?、代表 path/,那么就都属于域名:[^?:/]+

  1. 端口号 port

端口号肯定以 : 开头,后面跟着的只要是数字就都属于 port:\d+,由于不一定有端口号,所以用 ? 修饰:(:\d+)?

  1. path

肯定以 / 开头,只要不遇到代表 search?,那么就都属于 path\/[^?]*,由于可能没有 path,所以用 ? 修饰:(\/[^?]*)? 5. search 肯定以 ? 开头,后面所有的字符都属于 search(不考虑 hash 路由):\?(.*),由于可能没有 search,所以用 ? 修饰:(\?.*)?

最后把上面所有规则合起来就是提取链接的完整正则了,考虑到需要精确提取所需要的部分,所以会对所需要提取的部分加上小括号,结果为:/^((https?):)?\/\/([^?:/]+)(:(\d+))?(\/[^?]*)?(\?(.*))?/

邮箱

以前在知乎上看到过一段邮箱正则,号称是最符合标准的正则表达式,那条正则的体积好像有几十KB吧,总之很长,现在找不到了,这里只关注常用的邮箱格式,规则:名称允许汉字、字母、数字,下划线,中划线,域名可以有数字、字母、下划线、中划线组成

汉字的范围是 [\u4e00-\u9fa5],字母的范围是 [a-zA-Z],数字的范围是 [0-9],合起来组成邮箱的名称 ^[A-Za-z0-9-_\u4e00-\u9fa5]+

域名是 [a-zA-Z0-9_-]+,域名后缀可以是多级域名 (\.[a-zA-Z0-9_-]+)+

上面组合起来就是 ^[A-Za-z0-9-_\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$

手机号

手机号的号段可能是会增加的,所以在实际场景中不建议限制得太死了

本正则按照以下规则编写:

  1. 11位数字,以数字 1 开头,即 ^1
  2. 接下来的数字如果是 3,那么 3后面可以跟一个任意数字,即 3\d;如果是 4,那么 4后面可以跟一个5-9之间的数字,即 4[5-9];如果是 5,那么 5后面可以跟一个0-35-9之间的数字,即 5[0-35-9];如果是 6,那么 6后面可以跟 2567 其中一个数字,即 6[2567];如果是 7,那么 7后面可以跟一个0-8之间的数字,即 7[0-8];如果是 8,那么 8后面可以跟一个任意数字,即 8\d;如果是 9,那么 9后面可以跟一个0-35-9之间的数字,即 9[0-35-9]
  3. 最后 8位可以是任意数字

上述三步合起来就是 /^1(3\d|4[5-9]|5[0-35-9]|6[2567]|7[0-8]|8\d|9[0-35-9])\d{8}$/

数字/货币金额

  1. 支持负数

负号用 -负号,且必须在第一位,即 ^-,再加个 ? 用于表示这个负号可以有也可以没有,即 ^-? 2. 支持千分位分隔(没有也没关系) 如果有千分位,则千分位的后面必然跟着三位数字(否则这个千分号就不应该加了),千分位前面最少一位、最多三位数字,那么可以写成 \d{1,3},\d{3},再精简下,千分位前面的数字其实可以不用限制,因为只要超过三位肯定就有千分位,就会被 \d{3}捕获,所以 \d{1,3} 换成 \d+就行了,因为符合千分位的可以有多个也可能没有,所以写成 \d+(,\d{3})* 3. 如果有小数,则小数点后最多两位 小数点就是 \.,后面跟着最多两位数字 \d{1,2},可能有小数也可能没有,所以整体需要再加个 ? 符号,即 (\.\d{1,2})?

最终规则 /^-?\d+(,\d{3})*(\.\d{1,2})?$/

身份证号

这里只看 2代身份证,18位数字 最后一位是校验位,可能为数字或字符X

  1. 第一位数字在 [1-9] 闭区间内,后面紧跟着5位任意数字,写成 ^[1-9]\d{5}

  2. 再紧跟着的四位数字代表年份(YYYY),因为目前有身份证的人最早是19世纪最晚21世纪,所以这四个数字中的前两位只看是 181920,即 (18|19|20),后两位则可以是任意数字,即 \d{2}

  3. 再紧跟着两位数字是月(MM),月份只可能是 [1-12]闭区间,所以可以写成 (01|02|03|04|05|06|07|08|09|10|11|12),前九位的开头都是 0,第二位是 [1-9] 内的数字,所以简化成 (0[1-9]|10|11|12)

  4. 再紧跟着两位数字是日(DD),范围是 [01-31],可以将这31个数字罗列出来,当然也可以精简下,看成是 [00-09][10-29][30-31]的组合,即 (0[1-9]|[1-2]\d|30|31)

  5. 再紧跟着三位数字是顺序码,即 \d{3}

  6. 最后一位是校验码,可以是数字也可以是 X,即 [\dX]

最终规则 /^[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|10|11|12)(0[1-9]|[1-2]\d|30|31)\d{3}[\dX]$/

密码校验

最少6位,包括至少1个大写字母,1个小写字母,1个数字,1个特殊字符

对于 至少1个大写字母 这条规则,这个大写字母的位置是不固定的,只要有就行,如果只有这一条规则的话,正则可以写成 ^\S*[A-Z]+\S*$\S 匹配任意非空白字符,这个规则即代表大写字母的前面、后面可以跟着任意个(包括0个)非空白字符

但除此之外还需要满足最少1个小写字母,1个数字,1个特殊字符,最少6位,你可以将这几条规则都单独写出正则,然后目标字符串跟这5条正则一一匹配,只要全部能匹配上就是对的,写成 js 代码就是:

function match(s: string{
  return /^\S*[A-Z]+\S*$/.test(s)
    && /^\S*[a-z]+\S*$/.test(s)
    && /^\S*[0-9]+\S*$/.test(s)
    && /^\S*[!@#$%^&*?]+\S*$/.test(s)
    && /^\S*\S{6,}\S*$/.test(s)
}
复制代码

如果就想在一条正则里实现这些校验呢,也是可以的,需要借助 零宽度正预测先行断言(?=exp)),代表 匹配exp前面的位置

有了这个东西,就可以把上面5条规则写到一起去了:/^\S*(?=\S{6,})(?=\S*\d)(?=\S*[A-Z])(?=\S*[a-z])(?=\S*[!@#$%^&*?])\S*$/

这条正则前面后面的 \S* 还是之前的意思不变,中间是提取了5条规则的个性部分,然后通过 ?= 放在一起了,把规则里所有的 ?=去掉行不行?不行,因为如果去掉的话,首先就有顺序上的冲突了,例如上面的规则,如果把所有的 ?=去掉,就代表着 数字必须在大写字母前面,大写字母必须在小写字母前面,特殊字母必须在小写字母前面(除此之外整个正则也是有问题的)

你可以认为 ?= 在匹配的时候会忽略掉其他的 ?=,只关心自己的前面能不能匹配成功,有多个 ?=,则这多个 ?= 都是只关心自己,忽略其他,但整条正则最后的结果是所有 ?= 匹配结果的并集,计算逻辑和上面的 js 是差不多的

提取 HTML 标签数据

要提取的标签字符串类似于 <div class="header-box" name="header">

只是正则话无法完成,需要借助 js

首先,把标签的属性提取出来

这段标签包含标签开始符号、tag、属性字符串、标签结束符号

开始符号是 <,标签名紧跟着开始符号,且只要没遇到空白符就都是标签名,所以连起来就是 <\w+\s*

在开始符号+标签名,和 结束符号的中间,都是属性,结束符号是 >,所以只要没遇到结束符号 >,就认为是属性字符串,用到了反向选择 [^>]*\s*>,合起来就是 /<\w+\s*[^>]*\s*>/,为了能捕获属性字符串,加个小括号,即 /<\w+\s*([^>]*)\s*>/

const str = `<div class="header-box" name="header">`
const mt = str.match(/<\w+\s*([^>]*)\s*>/)
// properties 即 属性字符串,即 class="header-box" name="header"
const properties = mt[1]
复制代码

取到了 class="header-box" name="header" 之后,再对其进行处理,观察规律,每个属性的键值对之间肯定存在空白符,不过却不能通过空白符来直接分割,因为属性值是可以存在空白符的,例如 class="a b"

由于可能是自闭合标签,自闭合标签的最后有没有 / 都是合法的,例如 <hr>hr />都是合法的,所以需要兼容下:/<\w+\s*([^>]*)\s*\/?>/

但属性名是可以确定的,它可能是 = 左边不包括空白符的内容,再次用到反向选择,从左往右匹配,反向选择既不是=也不是不是空白符的内容,即 [^\s=]+

虽然不确定属性值是否包含空白符,但有个是确定的,即属性值必然被引号包围,所以直接取 = 右侧所有引号的内容即可,=".*?"

不过还有个问题,引号不仅可以是单引号还可以是双引号,即 =".*?"='.*?' 都行,如果第一个引号是双引号开头那么对应的第二个引号也必然是双引号,反义单引号亦然,这里需要用到捕获的规则了 =(["']).*?\1\1的意思是这块匹配的内容跟第一捕获组一样,第一捕获组也就是 ["'],如果第一捕获组匹配的是双引号,那么 \1 就代表双引号,否则就代表单引号

至此整个正则为 [^\s=]+=(["']).*?\1

不过还有个问题,属性是可以没有属性值的,例如 <input type="checkbox" checked />,这里 checked 就是可以不写属性值的,所以再兼容下:/[^\s=]+(=(["']).*?\2)?/,又因为希望捕捉属性和属性值,所以给属性和属性值加个小括号:/([^\s=]+)(=(["'])(.*?)\3)?/

上面的代表就可以继续写了

const str = `<div class="header-box" name="header">`
const mt = str.match(/<\w+\s*([^>]*)\s*>/)
// properties 即 属性字符串,即 class="header-box" name="header"
const properties = mt[1]
const mt1 = properties.match(/([^\s=]+)(=(["'])(.*?)\3)?/g)
const obj = {}
if (mt1) {
  mt1.forEach(p => {
    const kv = p.trim().split('=')
    obj[kv[0].trim()] = kv[1].trim().slice(1-1)
  })
}
// obj => { class: 'header-box', name: 'header' }
复制代码

小结

学会正则的最接途径就是勤加练习,平时遇到可以用正则解决的问题,就尝试着正则解决,或许你一开始写不出来,但可以去网上看看别人是怎么写的,再自己独立写一遍,写得多了自然就会了,没什么诀窍,无非就是对正则规则的熟练掌握罢了

最后

字节跳动-直播变现与千川部门招聘啦!

不低于 10hc(骗人是小狗),北京、上海、杭州都可以,而且是 急招,就差一个程序员了的那种

经验不限,接受实习

之前投过字节其他部门没过的也没关系(面试没过不一定代表能力不行,也可能是眼缘不够),可以继续面我这个部门(万一就看对眼了呢,毕竟我们部门真的缺人),有兴趣的可将简历发我邮箱 kother\@foxmail.com[2] ,所有发我简历的人,保证全程跟进并反馈面试进度,有问必答(在不违反公司规章制度的前提下),杜绝简历一投石沉大海的糟糕体验

救救孩子,快来把我的需求分点走吧!

团队介绍 直播变现与千川,负责优化字节跳动中国区流量的直播广告以及短视频电商广告,负责巨量千川的平台建设、算法优化、广告产品和运营策略的落地。首要目标是:借由字节强大的算法工程能力,发挥直播体裁和电商闭环的天然优势,进一步提升中国区商业化收入。生活服务业务依托于抖音,抖音极速版等平台,致力于促进用户与本地服务的连接;过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下的好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,希望下一个参与服务百万商家,影响亿级消费者,引领营销革命的就是你!

团队优势

  1. 技术:以业务为最终导向,即使作为研发角色,也能够接触一线客户,通过技术方案解决客户问题,技术方案涉及广告投放系统中召回、粗排、精排、出价、排序等多个环节,能够深入全面地理解广告变现系统的各个环节的内部原理。
  2. 成长:字节电商GMV仍然在高速提升,在满足购买需求时,短视频和直播体裁具备颠覆性的优势,业务成长空间非常大。
  3. 机遇:字节电商的购买体验更加多元,包含:商品、视频、直播流、达人、粉丝关系、直播互动等等,相比传统货架式电商,scope更大,个人的发展机会更多。


关于本文

来自:清夜

https://juejin.cn/post/7073360739410378760


往期推荐


秒啊!答好这5个问题,就入门Docker了
(字节/华为/美团)前端面经记录冷冷清清的金三银四
实现图片本地化 ServiceWorker + IndexedDB

最后


  • 欢迎加我微信,拉你进技术群,长期交流学习...

  • 欢迎关注「前端Q」,认真学前端,做个专业的技术人...

点个在看支持我吧
浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报