什么是 Unicode文本标准化?
最近遇到unicodedata
模块,才知道它的一个应用。某些字符能够用多个合法的编码表示,这就会导致一些问题。
如一个字符ñ
既可以使用\u00f1
,也可以使用n\u0303
表示,如下所示:
In [2]: '\u00f1'
Out[2]: 'ñ'
In [3]: 'n\u0303' # 注意前面有个字符n
Out[3]: 'ñ'
原因是第一种表示\u00f1
为整体表示法,第二种n\u0303
为组合表示法,是n
和字符~
的组合字符。
很显然,在需要比较字符串的程序中,使用像上面字符的多种表示法会产生问题,如下所示:
In [4]: s1='\u00f1'
In [5]: s2='n\u0303'
In [6]: s1==s2
Out[6]: False
我们期望上面的字符ñ
在两种表示下是相等的,这就需要使用unicodedata
模块,将这些字符标准化:
s1='\u00f1'
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2
Out[25]: True
normalize()
第一个参数指定字符串标准化的方式。NFC表示字符应该是整体组成,还有其他标准化方法如NFD
,上面的字符n
和 \u0303
的组合n\u0303
,就是NFD表示法。
埃格斯特朗符号 Å
,在NFC中总是被代换成在视觉上相同的U+00C5(Å –在上方带环的A)。在NFD中,则会换成由U+0041(A) 和U+030A(°)这两个字符所组成的序列。
标准化对于任何需要以一致的方式处理Unicode文本的程序,正规化是很重要,因为它影响了比较、搜索和排序的意义。
以上就是这个话题的基本总结,欢迎点赞支持。
评论