430,剑指 Offer-动态规划求正则表达式匹配
问题描述
请实现一个函数用来匹配包含'. '和'*'的正则表达式。模式中的字符'.'表示任意一个字符,而'*'表示它前面的字符可以出现任意次(含0次)。在本题中,匹配是指字符串的所有字符匹配整个模式。
例如,字符串"aaa"与模式"a.a"和"ab*ac*a"匹配,但与"aa.a"和"ab*a"均不匹配。
示例 1:
输入:
s = "aa"
p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。
示例 2:
输入:
s = "aa"
p = "a*"
输出: true
解释: 因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。
示例 3:
s = "ab"
p = ".*"
输出: true
解释: ".*" 表示可匹配零个或多个('*')任意字符('.')。
示例 4:
输入:
s = "aab"
p = "c*a*b"
输出: true
解释: 因为 '*' 表示零个或多个,这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。
示例 5:
输入:
s = "mississippi"
p = "mis*is*p*."
输出: false
s 可能为空,且只包含从 a-z 的小写字母。
p 可能为空,且只包含从 a-z 的小写字母以及字符 . 和 *,无连续的 '*'。
动态规划求解
这题是剑指offer的第19题,难度是困难。我们也可以看下之前写的一道和这题非常类似的一道题395,动态规划解通配符匹配问题,今天这题和第395题有一点不同的是,第395题的“*”可以匹配任意字符串,而这题的“*”表示他前面的字符可以出现任意次(包含0次)。
我们先定义一个二维数组dp,其中dp[i][j]表示的是p的前j个字符和s的前i个字符匹配的结果。
一,边界条件
我们默认dp[0][0]=true;也就是p的前0个字符和s的前0个字符是可以匹配的。因为字符“*”表示的是匹配他前面的字符0次或者多次,如果p的字符类似于“a*b*c”,那么字符“*”是可以消去前面的一个字符的。我们就以字符"a*b*c"为例来画个图看一下
所以边界条件的代码如下
1public boolean isMatch(String s, String p) {
2 if (s == null || p == null)
3 return false;
4 int m = s.length();
5 int n = p.length();
6 boolean[][] dp = new boolean[m + 1][n+1];
7 dp[0][0] = true;
8 for (int i = 0; i < n; i++) {
9 //如果p的第i+1个字符也就是p.charAt(i)是"*"的话,
10 //那么他就可以把p的第i个字符给消掉(也就是匹配0次)。
11 //我们只需要判断p的第i-1个字符和s的前0个字符是否匹
12 //配即可。比如p是"a*b*",如果要判断p的第4个字符
13 //"*"和s的前0个字符是否匹配,因为字符"*"可以消去
14 //前面的任意字符,只需要判断p的"a*"和s的前0个字
15 //符是否匹配即可
16 if (p.charAt(i) == '*' && dp[0][i - 1]) {
17 dp[0][i + 1] = true;
18 }
19 }
20 ……
21}
边界条件我们已经找到了,下面再来看一下递推公式。
二,递推公式
1,如果p的第j+1个字符和s的第i+1个字符相同,或者p的第j+1个字符是“.”("."可以匹配任意字符),我们只需要判断p的前j个字符和s的前i个字符是否匹配,这个还好理解,我们画个图看一下
p的第3个字符"."是可以和s的第3个字符"f"匹配成功的,我们只需要判断p的前2个字符和s的前2个字符是否匹配成功即可。
代码如下
if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
dp[i + 1][j + 1] = dp[i][j];
}
2,如果p的第j+1个字符和s的第i+1个字符不能匹配,并且p的第j+1个字符是"*",那么就要分两种情况
(1)p的第j个字符和s的第i+1个字符不能匹配,
比如:s="abc",p="abcd*"
我们就让p的第j个和第j+1个字符同时消失,也就是让"d*"消失,只需要判断p的前j-1个字符和s的前i+1个字符是否匹配即可。
也就是下面这样
代码如下
if (p.charAt(j) == '*') {
if (p.charAt(j - 1) != s.charAt(i) && p.charAt(j - 1) != '.') {
dp[i + 1][j + 1] = dp[i + 1][j - 1];
}
}
(2)p的第j个字符和s的第i+1个字符匹配成功,有3种情况
类似于s="abc",p="abcc*"; 我们就让*匹配0个,把p的"c*"砍掉,判断s="abc"和p="abc"是否匹配
dp[i+1][j+1] = dp[i+1][j-1]
类似于s="abc",p="abc*"; 我们就让*匹配1个,把p的字符"*"砍掉,判断s="abc"和p="abc"是否匹配
dp[i+1][j+1] = dp[i+1][j]
类似于s="abcc"(或者s="abccc",s="abcccc"……),p="abc*"; 我们就让*匹配多个,把s的最后一个字符"c"砍掉,判断s="abc"(或者s="abcc",s="abccc"……)和p="abc*"是否匹配
dp[i+1][j+1] = dp[i][j+1]
前面两个的递推公式很好理解,关键是第3个为什么要这样写。其实我们可以这样想,把"c*"看做是一个整体,比如"abccc"的最后一个字符"c"和p的倒数第二个字符匹配成功,因为"c*"可以匹配多个,我们就把"abccc"砍掉一个字符"c",然后再判断"abcc"和"abc*"是否匹配。
上面三个递推公式只要有一个为true,就表示能够匹配成功
我们来看下完整的递推公式
1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2 dp[i + 1][j+1] = dp[i][j];
3} else if (p.charAt(j) == '*') {
4 if (p.charAt(j - 1) != s.charAt(i) && p.charAt(j - 1) != '.') {
5 dp[i + 1] [j+1]= dp[i + 1][j-1];
6 } else {
7 dp[i + 1][j+1] = (dp[i + 1][j] || dp[i][j+1]|| dp[i + 1][j-1]);
8 }
9}
其实上面代码有个重复的地方就是当p的第j+1个字符是"*"的时候,里面的两种判断方式都会有一个匹配0个的判断,我们可以把它提取出来,像下面这样
1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2 dp[i + 1][j+1] = dp[i][j];
3} else if (p.charAt(j) == '*') {
4 //递归公式
5 if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
6 dp[i + 1][j+1] = dp[i + 1] [j]|| dp[i][j+1];
7 }
8 dp[i + 1] [j+1]|= dp[i + 1][j-1];
9}
10
实际上匹配1个和匹配多个也可以合并,代码如下
1if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
2 dp[i + 1][j + 1] = dp[i][j];
3} else if (p.charAt(j) == '*') {
4 //递归公式
5 if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
6 dp[i + 1][j + 1] = dp[i][j + 1];
7 }
8 dp[i + 1][j + 1] |= dp[i + 1][j - 1];
9}
边界条件和递推公式都有了,我们再来看下完整代码
1public boolean isMatch(String s, String p) {
2 if (s == null || p == null)
3 return false;
4 int m = s.length();
5 int n = p.length();
6 boolean[][] dp = new boolean[m + 1][n + 1];
7 dp[0][0] = true;
8 for (int i = 0; i < n; i++) {
9 //如果p的第i+1个字符也就是p.charAt(i)是"*"的话,
10 //那么他就可以把p的第i个字符给消掉(也就是匹配0次)。
11 //我们只需要判断p的第i-1个字符和s的前0个字符是否匹
12 //配即可。比如p是"a*b*",如果要判断p的第4个字符
13 //"*"和s的前0个字符是否匹配,因为字符"*"可以消去
14 //前面的任意字符,只需要判断p的"a*"和s的前0个字
15 //符是否匹配即可
16 if (p.charAt(i) == '*' && dp[0][i - 1]) {
17 dp[0][i + 1] = true;
18 }
19 }
20 for (int i = 0; i < m; i++) {
21 for (int j = 0; j < n; j++) {
22 if (p.charAt(j) == s.charAt(i) || p.charAt(j) == '.') {
23 dp[i + 1][j + 1] = dp[i][j];
24 } else if (p.charAt(j) == '*') {
25 //递归公式
26 if (p.charAt(j - 1) == s.charAt(i) || p.charAt(j - 1) == '.') {
27 dp[i + 1][j + 1] = dp[i][j + 1];
28 }
29 dp[i + 1][j + 1] |= dp[i + 1][j - 1];
30 }
31 }
32 }
33 return dp[m][n];
34}
如果觉得代码有点长,还可以看个更简洁的写法,不过原理都一样
1public boolean isMatch(String s, String p) {
2 int m = s.length(), n = p.length();
3 boolean[][] dp = new boolean[m + 1][n + 1];
4 dp[0][0] = true;
5 for (int i = 0; i <= m; i++)
6 for (int j = 1; j <= n; j++)
7 if (p.charAt(j - 1) == '*')
8 dp[i][j] = dp[i][j - 2] || (i > 0 && (s.charAt(i - 1) == p.charAt(j - 2) || p.charAt(j - 2) == '.') && dp[i - 1][j]);
9 else
10 dp[i][j] = i > 0 && dp[i - 1][j - 1] && (s.charAt(i - 1) == p.charAt(j - 1) || p.charAt(j - 1) == '.');
11 return dp[m][n];
12}
递归求解
先来定义一个函数,他表示的是s的首字符和p的首字符是否匹配。
1//比较s的首字符和p的首字符是否匹配
2private boolean comp(String s, String p) {
3 return s.charAt(0) == p.charAt(0) || p.charAt(0) == '.';
4}
如果要判断字符串s和p是否匹配,我们来看一下递归函数的大致框架
1public boolean isMatch(String s, String p) {
2 if (p.length() == 0) {
3 return s.length() == 0;
4 }
5 if (p.length() > 1 && p.charAt(1) == '*') {
6 // p的第二个字符是 '*'
7 ……
8 } else {
9 // p的第二个字符不是 '*'
10 ……
11 }
12}
因为字符"*"不能单独存在,他需要和他前面的字符搭配使用,成为一个组合。
1,当p的第二个字符不是"*"的时候,那么p的第一个字符就可以单独和s的第一个字符进行比较。
2,如果p的第二个字符是"*",那么p的第二个字符和第一个字符必须成为一个组合来进行匹配,也就类收于"a*"。下面会分为两种情况
字符"*"匹配0次,让字符"*"和他前面的那个字符同时消失,然后判断字符串s和p.substring(2)是否匹配。
字符"*"匹配1次或多次,让字符串s砍掉首字符,然后继续和字符串p匹配。
搞懂了上面的过程,代码就比较简单了,来看下完整代码
1public boolean isMatch(String s, String p) {
2 if (p.length() == 0) {
3 return s.length() == 0;
4 }
5 if (p.length() > 1 && p.charAt(1) == '*') {
6 // p的第二个字符是 '*'
7 //1,字符"*"把前面的字符消掉,也就是匹配0次
8 //2,字符"*"匹配1次或多次
9 return isMatch(s, p.substring(2)) || (s.length() > 0 && comp(s, p)) && isMatch(s.substring(1), p);
10 } else {
11 // p的第二个字符不是 '*',判断首字符是否相同,如果相同再从第二位继续比较
12 return s.length() > 0 && comp(s, p) && (isMatch(s.substring(1), p.substring(1)));
13 }
14}
15
16//比较s的首字符和p的首字符是否匹配
17private boolean comp(String s, String p) {
18 return s.charAt(0) == p.charAt(0) || p.charAt(0) == '.';
19}
总结
这题被标注为hard,确实是有一定的难度,使用动态规划应该是最容易理解的,关键难点是上面递推公式的推导
例如漫画文章
例如讲解算法思想的文章
等等,如果你想学习算法,学习计算机基础,那么我决定这份 PDF,一定会让你有所帮助。当然,如果一是一位有那么点迷茫的在校生,相信我的个人经历,可以给你打一份鸡血,让你更好着去寻找自己的目标。
文章整体目录
如何获取
很简单,在我的微信公众号 帅地玩编程 回复 程序员内功修炼 即可获取《程序员内功修炼》第一版和第二版的 PDF。