430,剑指 Offer-动态规划求正则表达式匹配

苦逼的码农

共 1804字,需浏览 4分钟

 ·

2020-08-17 19:44


问题描述



请实现一个函数用来匹配包含'. '和'*'的正则表达式。模式中的字符'.'表示任意一个字符,而'*'表示它前面的字符可以出现任意次(含0次)。在本题中,匹配是指字符串的所有字符匹配整个模式。


例如,字符串"aaa"与模式"a.a"和"ab*ac*a"匹配,但与"aa.a"和"ab*a"均不匹配。


示例 1:

输入:

s = "aa"

p = "a"


输出: false

解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:

s = "aa"

p = "a*"


输出: true

解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。

示例 3:

s = "ab"

p = ".*"


输出: true

解释: ".*" 表示可匹配零个或多个('*')任意字符('.')。

示例 4:

输入:

s = "aab"

p = "c*a*b"


输出: true

解释: 因为 '*' 表示零个或多个,这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。

示例 5:

输入:

s = "mississippi"

p = "mis*is*p*."


输出: false

  • s 可能为空,且只包含从 a-z 的小写字母。

  • p 可能为空,且只包含从 a-z 的小写字母以及字符 . 和 *,无连续的 '*'。


动态规划求解



这题是剑指offer的第19题,难度是困难。我们也可以看下之前写的一道和这题非常类似的一道题395,动态规划解通配符匹配问题,今天这题和第395题有一点不同的是,第395题的“*”可以匹配任意字符串,而这题的“*”表示他前面的字符可以出现任意次(包含0次)。


我们先定义一个二维数组dp,其中dp[i][j]表示的是p的前j个字符和s的前i个字符匹配的结果


一,边界条件

我们默认dp[0][0]=true;也就是p的前0个字符和s的前0个字符是可以匹配的。因为字符“*”表示的是匹配他前面的字符0次或者多次,如果p的字符类似于“a*b*c”,那么字符“*”是可以消去前面的一个字符的。我们就以字符"a*b*c"为例来画个图看一下

所以边界条件的代码如下

 1public boolean isMatch(String s, String p) {
2    if (s == null || p == null)
3        return false;
4    int m = s.length();
5    int n = p.length();
6    boolean[][] dp = new boolean[m + 1][n+1];
7    dp[0][0] = true;
8    for (int i = 0; i < n; i++) {
9        //如果p的第i+1个字符也就是p.charAt(i)是"*"的话,
10        //那么他就可以把p的第i个字符给消掉(也就是匹配0次)。
11        //我们只需要判断p的第i-1个字符和s的前0个字符是否匹
12        //配即可。比如p是"a*b*",如果要判断p的第4个字符
13        //"*"和s的前0个字符是否匹配,因为字符"*"可以消去
14        //前面的任意字符,只需要判断p的"a*"和s的前0个字
15        //符是否匹配即可
16        if (p.charAt(i) == '*' && dp[0][i - 1]) {
17            dp[0][i + 1] = true;
18        }
19    }
20    ……
21}


边界条件我们已经找到了,下面再来看一下递推公式。


二,递推公式

1,如果p的第j+1个字符和s的第i+1个字符相同,或者p的第j+1个字符是“.”("."可以匹配任意字符),我们只需要判断p的前j个字符和s的前i个字符是否匹配,这个还好理解,我们画个图看一下

p的第3个字符"."是可以和s的第3个字符"f"匹配成功的,我们只需要判断p的前2个字符和s的前2个字符是否匹配成功即可。

代码如下

 if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {        dp[i + 1][j + 1] = dp[i][j]; }


2,如果p的第j+1个字符和s的第i+1个字符不能匹配,并且p的第j+1个字符是"*",那么就要分两种情况

(1)p的第j个字符和s的第i+1个字符不能匹配,

比如:s="abc",p="abcd*"

我们就让p的第j个和第j+1个字符同时消失,也就是让"d*"消失,只需要判断p的前j-1个字符和s的前i+1个字符是否匹配即可。

也就是下面这样

代码如下

if (p.charAt(j) == '*') {    if (p.charAt(j - 1) != s.charAt(i) && p.charAt(j - 1) != '.') {        dp[i + 1][j + 1] = dp[i + 1][j - 1];    }}


(2)p的第j个字符和s的第i+1个字符匹配成功,有3种情况

  • 类似于s="abc",p="abcc*";   我们就让*匹配0个,把p的"c*"砍掉,判断s="abc"和p="abc"是否匹配

dp[i+1][j+1] = dp[i+1][j-1]
  • 类似于s="abc",p="abc*";   我们就让*匹配1个,把p的字符"*"砍掉,判断s="abc"和p="abc"是否匹配

dp[i+1][j+1] = dp[i+1][j]
  • 类似于s="abcc"(或者s="abccc",s="abcccc"……),p="abc*";  我们就让*匹配多个,把s的最后一个字符"c"砍掉,判断s="abc"(或者s="abcc",s="abccc"……)和p="abc*"是否匹配

dp[i+1][j+1] = dp[i][j+1]

前面两个的递推公式很好理解,关键是第3个为什么要这样写。其实我们可以这样想,把"c*"看做是一个整体,比如"abccc"的最后一个字符"c"和p的倒数第二个字符匹配成功,因为"c*"可以匹配多个,我们就把"abccc"砍掉一个字符"c",然后判断"abcc"和"abc*"是否匹配。


上面三个递推公式只要有一个为true,就表示能够匹配成功


我们来看下完整的递推公式

1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2    dp[i + 1][j+1] = dp[i][j];
3else if (p.charAt(j) == '*') {
4    if (p.charAt(j - 1) != s.charAt(i) && p.charAt(j - 1) != '.') {
5        dp[i + 1] [j+1]= dp[i + 1][j-1];
6    } else {
7        dp[i + 1][j+1] = (dp[i + 1][j] || dp[i][j+1]|| dp[i + 1][j-1]);
8    }
9}

其实上面代码有个重复的地方就是当p的第j+1个字符是"*"的时候,里面的两种判断方式都会有一个匹配0个的判断,我们可以把它提取出来,像下面这样

 1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2    dp[i + 1][j+1] = dp[i][j];
3else if (p.charAt(j) == '*') {
4    //递归公式
5    if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
6        dp[i + 1][j+1] = dp[i + 1] [j]|| dp[i][j+1];
7    }
8    dp[i + 1] [j+1]|= dp[i + 1][j-1];
9}
10

实际上匹配1个和匹配多个也可以合并,代码如下

1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2    dp[i + 1][j + 1] = dp[i][j];
3} else if (p.charAt(j) == '*') {
4    //递归公式
5    if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
6        dp[i + 1][j + 1] = dp[i][j + 1];
7    }
8    dp[i + 1][j + 1] |= dp[i + 1][j - 1];
9}

边界条件和递推公式都有了,我们再来看下完整代码

 1public boolean isMatch(String s, String p) {
2    if (s == null || p == null)
3        return false;
4    int m = s.length();
5    int n = p.length();
6    boolean[][] dp = new boolean[m + 1][n + 1];
7    dp[0][0] = true;
8    for (int i = 0; i < n; i++) {
9        //如果p的第i+1个字符也就是p.charAt(i)是"*"的话,
10        //那么他就可以把p的第i个字符给消掉(也就是匹配0次)。
11        //我们只需要判断p的第i-1个字符和s的前0个字符是否匹
12        //配即可。比如p是"a*b*",如果要判断p的第4个字符
13        //"*"和s的前0个字符是否匹配,因为字符"*"可以消去
14        //前面的任意字符,只需要判断p的"a*"和s的前0个字
15        //符是否匹配即可
16        if (p.charAt(i) == '*' && dp[0][i - 1]) {
17            dp[0][i + 1] = true;
18        }
19    }
20    for (int i = 0; i < m; i++) {
21        for (int j = 0; j < n; j++) {
22            if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
23                dp[i + 1][j + 1] = dp[i][j];
24            } else if (p.charAt(j) == '*') {
25                //递归公式
26                if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
27                    dp[i + 1][j + 1] = dp[i][j + 1];
28                }
29                dp[i + 1][j + 1] |= dp[i + 1][j - 1];
30            }
31        }
32    }
33    return dp[m][n];
34}

如果觉得代码有点长,还可以看个更简洁的写法,不过原理都一样

 1public boolean isMatch(String s, String p) {
2    int m = s.length(), n = p.length();
3    boolean[][] dp = new boolean[m + 1][n + 1];
4    dp[0][0] = true;
5    for (int i = 0; i <= mi++)
6        for (int j = 1; j <= n; j++)
7            if (p.charAt(j - 1) == '*')
8                dp[i][j] = dp[i][j - 2] || (i >
 0 && (s.charAt(i - 1) == p.charAt(j - 2) || p.charAt(j - 2) == '.') && dp[i - 1][j]);
9            else
10                dp[i][j] = i > 0 && dp[i - 1][j - 1] && (s.charAt(i - 1) == p.charAt(j - 1) || p.charAt(j - 1) == '.');
11    return dp[m][n];
12}


递归求解



先来定义一个函数,他表示的是s的首字符和p的首字符是否匹配。

1//比较s的首字符和p的首字符是否匹配
2private boolean comp(String s, String p) {
3    return s.charAt(0) == p.charAt(0) || p.charAt(0) == '.';
4}

如果要判断字符串s和p是否匹配,我们来看一下递归函数的大致框架

 1public boolean isMatch(String s, String p) {
2    if (p.length() == 0) {
3        return s.length() == 0;
4    }
5    if (p.length() > 1 && p.charAt(1) == '*') {
6        // p的第二个字符是 '*'
7        ……
8    } else {
9        // p的第二个字符不是 '*'
10        ……
11    }
12}

因为字符"*"不能单独存在,他需要和他前面的字符搭配使用,成为一个组合。

1,当p的第二个字符不是"*"的时候,那么p的第一个字符就可以单独和s的第一个字符进行比较。

2,如果p的第二个字符是"*",那么p的第二个字符和第一个字符必须成为一个组合来进行匹配,也就类收于"a*"。下面会分为两种情况

  • 字符"*"匹配0次,让字符"*"和他前面的那个字符同时消失,然后判断字符串s和p.substring(2)是否匹配。

  • 字符"*"匹配1次或多次,让字符串s砍掉首字符,然后继续和字符串p匹配。

搞懂了上面的过程,代码就比较简单了,来看下完整代码

 1public boolean isMatch(String s, String p) {
2    if (p.length() == 0) {
3        return s.length() == 0;
4    }
5    if (p.length() > 1 && p.charAt(1) == '*') {
6        // p的第二个字符是 '*'
7        //1,字符"*"把前面的字符消掉,也就是匹配0次
8        //2,字符"*"匹配1次或多次
9        return isMatch(s, p.substring(2)) || (s.length() > 0 && comp(s, p)) && isMatch(s.substring(1), p);
10    } else {
11        // p的第二个字符不是 '*',判断首字符是否相同,如果相同再从第二位继续比较
12        return s.length() > 0 && comp(s, p) && (isMatch(s.substring(1), p.substring(1)));
13    }
14}
15
16//比较s的首字符和p的首字符是否匹配
17private boolean comp(String s, String p) {
18    return s.charAt(0) == p.charAt(0) || p.charAt(0) == '.';
19}


总结



这题被标注为hard,确实是有一定的难度,使用动态规划应该是最容易理解的,关键难点是上面递推公式的推导


读者福利
《程序员内功修炼》第二版强势来袭,汇总了高质量的算法、计算机基础文章并且每一篇文章,要嘛是漫画讲解,要嘛是对话讲解,一步步引导,要嘛是图形并茂,例如讲解树的文章

例如漫画文章

例如讲解算法思想的文章

等等,如果你想学习算法,学习计算机基础,那么我决定这份 PDF,一定会让你有所帮助。当然,如果一是一位有那么点迷茫的在校生,相信我的个人经历,可以给你打一份鸡血,让你更好着去寻找自己的目标。

文章整体目录

如何获取

很简单,在我的微信公众号 帅地玩编程 回复 程序员内功修炼 即可获取《程序员内功修炼》第一版和第二版的 PDF。

浏览 43
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报