NLP入门干货:手把手教你3种中文规则分词方法
导读:本文将讲解中文自然语言处理的第一项核心技术——中文分词技术,它是中文自然语言处理非常关键和核心的部分。
作者:杜振东 涂铭
来源:大数据DT(ID:hzdashuju)
介绍中文分词的概念与分类; 介绍常见的规则分词方法。
从左向右取待切分汉语句的m个字符作为匹配字段,m为机器词典中最长词条的字符数。 查找机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。
class MM(object):
def __init__(self):
self.window_size = 3
def cut(self,text):
result=[]
index=0
text_length = len(text)
dic = ['研究','研究生','生命','起源']
while text_length > index:
for size in range(self.window_size+index,index,-1):#4,0,-1
piece = text[index:size]
if piece in dic:
index = size-1
break
index = index + 1
result.append(piece)
return result
text = '研究生命的起源'
tokenizer = MM()
print(tokenizer.cut(text))
['研究生', '命', '的', '起源']
class RMM(object):
def __init__(self):
self.window_size = 3
def cut(self, text):
result = []
index = len(text)
dic = ['研究', '研究生', '生命', '命', '的', '起源']
while index > 0:
for size in range(index-self.window_size ,index):
piece = text[size:index]
if piece in dic:
index = size + 1
break
index = index - 1
result.append(piece)
result.reverse()
return result
text = '研究生命的起源'
tokenizer = RMM()
print(tokenizer.cut(text))
['研究', '生命', '的', '起源']
如果正反向分词结果词数不同,则取分词数量较少的那个结果(上例:“南京市/江/大桥”的分词数量为3,而“南京市/长江大桥”的分词数量为2,所以返回分词数量为2的结果)。 如果分词结果词数相同,则:
分词结果相同,就说明没有歧义,可返回任意一个结果。 分词结果不同,返回其中单字较少的那个。比如前文示例代码中,正向最大匹配返回的结果为“['研究生', '命', '的', '起源']”,其中单字个数为2个;而逆向最大匹配返回的结果为“['研究', '生命', '的', '起源']”,其中单字个数为1。所以返回的是逆向最大匹配的结果。
#统计单字成词的个数
def count_singlechar(word_list):
return sum(1 for word in word_list if len(word) == 1)
def bidirectional_segment(text):
mm = MM()
rmm = RMM()
f = mm.cut(text)
b = rmm.cut(text)
if (len(f) < len(b)):
return f
elif (len(f) > len(b)):
return b
else:
if (count_singlechar(f) >= count_singlechar(b)):
return b
else:
return f
print(bidirectional_segment('研究生命的起源'))
['研究', '生命', '的', '起源']
不断维护词典是非常烦琐的,新词总是层出不穷,人工维护费时费力; 随着词典中条目数的增加,执行效率变得越来越低; 无法解决歧义问题。
关于作者:杜振东,国家标准委人工智能技术专家和AIIA(中国人工智能产业发展联盟)技术专家。拥有8年机器学习与文本挖掘相关技术经验,6年中文自然语言处理相关项目实战经验,擅长PyTorch、TensorFlow等主流深度学习框架,擅长运用NLP前沿技术解决真实项目的难题。
涂铭,数据架构师和人工智能技术专家,曾就职于阿里,现就职于腾讯。对大数据、自然语言处理、图像识别、Python、Java等相关技术有深入的研究,积累了丰富的实践经验。
评论