Chardet通用字符编码检测器

联合创作 · 2023-09-30 15:27

Chardet 是一款通用字符编码检测器。


支持



  • ASCII、UTF-8、UTF-16(2种变体)、UTF-32(4种变体)


  • Big5、GB2312、EUC-TW、HZ-GB-2312、ISO-2022-CN(繁体中文和简体中文)


  • EUC-JP、SHIFT_JIS、CP932、ISO-2022-JP(日语)


  • EUC-KR、ISO-2022-KR(韩语)


  • KOI8-R、MacCyrillic、IBM855、IBM866、ISO-8859-5、windows-1251(斯拉夫语)


  • ISO-8859-5、windows-1251(保加利亚文)


  • ISO-8859-1、windows-1252(西欧语言)


  • ISO-8859-7、windows-1253(希腊语)


  • ISO-8859-8、windows-1255(希伯来语)


  • TIS-620(泰语)



注意: ISO-8859-2 和 windows-1250 (Hungarian)  检测器模型有待重新训练,暂时还不可用。


要求 Python 2.6 及以上版本


安装


PyPI :



pip install chardet
浏览 18
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报