利用Python快速提取字体子集

Python大数据分析

共 1652字,需浏览 4分钟

 · 2023-08-02

添加微信号 " CNFeffery "加入技术交流群

本文完整示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/PythonPracticalSkills

大家好我是费老师,这是我的系列文章「Python实用秘技」的第16期,本系列立足于笔者日常工作中使用Python积累的心得体会,每一期为大家带来一个几分钟内就可学会的简单小技巧。

作为系列第16期,我们即将学习的是:快速提取字体子集。

f7b7de27dc0491d33fbf2fbd903c0546.webp

在我们日常进行数据可视化、web应用开发等场景中,经常会用到一些特殊的非系统自带字体,尤其是中文字体,由于包含的字符数量众多,因此体积一般都比较大,这在进行数据可视化读取字体文件,或是网页应用中通过网络加载字体文件时,就会带来更多的耗时。

而我们完全可以针对字体文件运用“按需引入”的思想,从原始的体积较大的全量字体文件中,根据我们实际使用到的文字范围,进行子集的提取,从而大幅度提升效率。

我们可以利用Python中的fonttools库来快捷实现此项需求,它由谷歌开源,自带了若干实用的字体处理相关命令行工具,使用pip install fonttools安装完成后,我们只需要按照下列格式执行命令行工具pyftsubset即可:

      
      pyftsubset 原始字体文件路径 --text=需要保留的字符 --output-file=输出子集字体文件路径

而当我们需要进行保留的字符众多时,则可以通过书写Python脚本的方式,批量拼接命令行进行模拟执行:

      
      import os
import re

# 读入目标文本内容
with open('./将进酒.txt', encoding='utf-8'as t:
    source_content = t.read()
    
# 模拟执行pyftsubset命令生成字体子集
os.system(
    'pyftsubset 钟齐志莽行书.ttf --text={} --output-file=钟齐志莽行书mini.ttf'.format(
        # 去除空白字符后去重
        ''.join(set(re.sub('\s''', source_content)))
    )
)

通过上面的示例代码,我们从本地原体积为4698kb的字体文件中,提取出大小仅有76kb的目标子集字体文件:

88d3cdc539db792bc3d98d37a3894c97.webp

在此基础上,我们就可以在项目中「大幅度」优化外部字体的使用效率😉,譬如下面的示例dash应用(相关源码及文件已上传至文章开头仓库):

2bb34aa8151bf8eff8a4af7997be23c3.webp

本期分享结束,咱们下回见~👋

e017070ee717d78339e5af33d41bdb62.webp

加入知识星球 【我们谈论数据科学】

600+ 小伙伴一起学习!








·  推荐阅读  ·

dill:Python中增强版的pickle

边玩游戏边学Git?这个开源网站我爱了

在Python中将markdown转换为漂亮的网页



浏览 13
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报