超级嵌入式系统“性能/时间”工具箱
共 18713字,需浏览 38分钟
·
2021-11-09 15:33
没有y
【开篇就白给?】
精确测量系统性能
精确测量函数执行时间
精确测量中断响应延迟
提供精确到us级的阻塞或非阻塞的延时服务
改善伪随机数的随机数特性
提供系统时间戳
……
使用了SysTick却不会占用SysTick;
或者说提供以上功能的同时,用户的原有的SysTick应用(比如RTOS调度器或是普通的应用延时)丝毫不会受到影响;
再直白点说:以上功能都是白送的,每个Cortex-M处理器都能立即享有,且不受到芯片型号的影响,
你是不是要直呼:“真就白给?”
是的!作为一个在Github上开源的C语言模块,它真就白给!
【请张嘴……啊~】
在确认了开原许可Apache 2.0的条款后,一路Next,直到单击Finish,完成整个安装过程:
一般来说,部署会非常顺利,但如果出现了安装错误,比如下面这种:
则很可能是您所使用的MDK版本太低导致的——是时候更新下MDK啦。关注【裸机思维】公众号后发送关键字"MDK",即可获得最新的MDK网盘链接。
当我们想在任何已有工程中部署perf_counter时,只需要单击MDK工具栏上如下图所示的图标:
打开RTE配置窗口:
我们会注意到,在列表的末端出现了一个Utilities条目,依次展开后勾选Performance下的perf_counter——默认情况下系统会自动选择以库的形式来实现模块的部署——这也是我吐血推荐的方式,因为它省去了不必要的编译麻烦。
单击OK按钮后,我们会发现Utilities已经被加入到了工程管理器中,而perf_counter.lib也已经成功的部署到了目标工程中:
看过我往期文章《【教程】如何用GCC“零汇编”白嫖MDK》的小伙伴一定知道,MDK也可以使用GCC作为编译器。perf_counter也将这种情况考虑在内——当用户实际使用的是GCC时,对应的 libperf_counter_gcc.a(而不是arm compiler 5或arm compielr 6下的perf_counter.lib)会被加入到工程中。
GCC环境下使用perf_counter略微有一些注意事项,由于在文章《【教程】如何用GCC“零汇编”白嫖MDK》的末尾已经有过非常详尽的介绍,这里就不再赘述了。
【一键终结甜咸之争?】
“……往往要親眼看着黃酒從罎子裏舀出,看過壺子底裏有水沒有,又親看將壺子放在熱水裏,然後放心……” https://zh.m.wikisource.org/zh/%E5%AD%94%E4%B9%99%E5%B7%B1
此时,相关的perf_counter.c和systick_wrapper_ual.s会取代原本的库文件加入到编译中:
当然,使用Source方式来编译也是有代价的,即perf_counter的源代码对CMSIS有依赖——当你的工程中并未在RTE配置界面中勾选CMSIS-CORE,就会出现类似下图所示的黄色警告信息:“Additional software components required”。
此时,你可以简单的单击Resolve按钮来解决问题——你会发现,所谓的解决方案就是RTE自动把Source模式依赖的CMSIS-CORE帮你勾选上了而已:
如果你对此并无异议,则问题圆满解决;如果你的系统中存在别的版本的CMSIS(比如很多正点原子、野火、以及CubeMX生成的工程都很可能会携带不经由RTE配置界面来管理的CMSIS),则很有可能出现CMSIS版本冲突——而关于冲突的解决方案,则稍微复杂一些——你可以参考我的文章《CMSIS玩家的“阴间成就”指南》来实现某种取舍……又或者……
【一键更新的……嵌入式软件模块?】
如果Pack-Installer真的从github上发现了更新,就会以黄色Update的图标来告知我们:
此时,单击Update按钮,即可安装最新版本:
那么,如何才能鼓励博主多多更新、加入更多更好的功能呢?
当然还是要靠有能力科学上网的小伙伴多多Star呀!
【库的初始化和注意事项】
#include "perf_counter.h"
需要注意的是,通过RTE方式部署的perf_counter并不会在工程管理器中引入 perf_counter.h 以供用户查看。想要查看perf_counter.h查找可用API的小伙伴,可以“简单的”在上述代码行上单击右键,从弹出菜单中选择“Open document 'perf_counter'” 来实现对头文件的访问。
extern uint32_t SystemCoreClock;
void main(void)
{
system_clock_update(); //! 更新CPU工作频率
SystemCoreClock = 72000000ul //! 假设更新后的系统频率是 72MHz
...
}
一般来说,你的芯片工程如果本身都是基于较新的CMSIS框架而创建的,你的启动文件中已经为你定义好了全局变量 SystemCoreClock——当然,凡事都有例外,如果你在编译的时候报告找不到变量 SystemCoreClock 或者说“Undefined symbol __SystemCoreClock” 之类的,你自己定义一下就好了,比如:
uint32_t SystemCoreClock;
void main(void)
{
system_clock_update(); //! 更新CPU工作频率
SystemCoreClock = 72000000ul //! 假设更新后的系统频率是 72MHz
...
}
在这以后,我们需要对 perf_counter 库进行初始化。这里分两种情况:
1、用户自己的应用里完全没有使用SysTick。此时,在编译时,我们多半会看到类似如下的错误提示:
Error: L6218E: Undefined symbol $Super$$SysTick_Handler (referred from systick_wrapper_ual.o).
对于这种情况,我们需要在任意的C文件中添加一个SysTick中断处理程序:
#include "perf_counter.h"
...
__attribute__((used)) //!< 避免下面的处理程序被编译器优化掉
void SysTick_Handler(void)
{
}
然后我们在 main() 函数里初始化 perf_counter 服务:
#include <stdbool.h>
...
void main(void)
{
system_clock_update(); //! 更新CPU工作频率
SystemCoreClock = 72000000ul //! 假设更新后的系统频率是 72MHz
init_cycle_counter(false);
...
}
需要特别注意的是:由于用户并没有自己初始化 SysTick,因此我们需要将这一情况告知 perf_counter 库——由它来完成对 SysTick 的初始化——这里传递 false 给函数 init_cycle_counter() 就是这个功能。如果由perf_counter 库自己来初始化SysTick,它会为了自己功能更可靠将 SysTick的溢出值(LOAD寄存器)设置为最大值(0x00FFFFFF)。
2、用户自己的应用里使用了SysTick,拥有自己的初始化过程。对于这种情况,我们需要确保一件事情:即,SysTick的CTRL寄存器的 BIT2(SysTick_CTRL_CLKSOURCE_Msk)是否被置位了——如果其值是1,说明SysTick使用了跟CPU一样的工作频率,那么SysTick的测量结果就是CPU的周期数;如果其值是0,说明SysTick使用了来自于别处的时钟源,这个时钟源具体频率是多少就只能看芯片手册了(比如STM32就喜欢将系统频率做 1/8 分频后提供给SysTick作为时钟源),此时SysTick测量出来的结果就不是CPU的周期数。
在确保了 CTRL 寄存器的 BIT2 被正确置位,并且SysTick中断被使能(置位 BIT1,SysTick_CTRL_TICKINT_Msk )后,我们可以简单的通过 init_cycle_counter() 函数告诉perf_counter模块:SysTick 被用户占用了——这里传递 true 就实现这一功能。
#
...
void main(void)
{
system_clock_update(); //! 更新CPU工作频率
SystemCoreClock = 72000000ul //! 假设更新后的系统频率是 72MHz
init_cycle_counter(true);
...
}
下图的工程配置中,没有勾选 "Short enums/wchar"
你一定会看到这样的编译错误:
.\Out\example.axf: Error: L6242E: Cannot link object perf_counter.o as its attributes are incompatible with the image attributes.
... wchart-16 clashes with wchart-32.
... packed-enum clashes with enum_is_int.
既然知道了原因,解决方法就很简单,要么在工程配置中勾选上这一选项;要么使用源代码编译的模式。
【时间类服务】
extern void delay_us(int32_t iUs);
实际上,由于函数调用的开销,delay_us在时间判断上会存在一个“不积累”的误差——根据优化等级的不同,其具体CPU周期数存在差异,如果我们以Library方式进行部署时,这一误差大约在+/-25个CPU周期左右——这一信息实际上告诉我们:
在使用Library的情况下,当你的CPU频率超过50MHz时,delay_us() 可以提供最小<1us的延时误差;
当你的系统频率不满足上述条件时,以系统频率 12MHz为参考,则可以认为delay_us误差为不积累的 +/- 2us。
具体评估方法,请参考我往期的文章《【实时性迷思】CPU究竟跑的有多快?》,这里就不做赘述。
perf_counter提供了API函数get_system_ticks(),用于方便用户获取自 SysTick启动以来系统已经经历过的总周期数,其函数原型如下:
__attribute__((nothrow))
extern int64_t get_system_ticks(void);
可以看到,其返回值是一个 64位的有符号整数,即便抛开符号位,也基本可以确信:无论芯片频率如何,在人类灭绝之前,不会发生溢出问题。
# get_system_ms() \
(get_system_ticks() / (SystemCoreClock / 1000ul))
# get_system_us() \
(get_system_ticks() / (SystemCoreClock / 1000000ul))
机构控制的延时;
电路的时序控制;
通信协议的超时处理;
……
这里的核心思想是:
在延时的开始时刻,通过 get_system_ticks() 的衍生方法 get_system_ms() 来获取当前的系统时间戳;
计算目标时刻的系统时间戳并保存在状态机类中(保存在 iTargetTime里);
在随后的状态中以非阻塞的方式轮询 get_system_ms() 以检查约定的时间是否已经到来。
下面的状态图展示了如何在执行某些动作(或者子状态机)的同时,进行超时判断:
这里值得注意的细节是:
在延时的开始时刻,通过 get_system_ticks() 的衍生方法 get_system_ms() 来获取当前的系统时间戳;
计算目标时刻的系统时间戳并保存在状态机类中(保存在 iTargetTime里);
在读取字符失败时,通过对比当前的系统时间戳来判断是否超时。
几乎所有的C语言教程都在介绍过随机数的发生,比如:
#include <stdio.h>
#include <stdlib.h>
int main (void)
{
int i, n;
time_t t;
n = 5;
/* Intializes random number generator */
srand((unsigned) time(&t));
/* Print 5 random numbers from 0 to 49 */
for( i = 0 ; i < n ; i++ ) {
printf("%d\n", rand() % 50);
}
return(0);
}
srand((unsigned)get_system_ticks());
【嵌入式C语言扩展】
//! 执行 紧随其后的printf语句时,暂时性的屏蔽全局中断
__IRQ_SAFE printf("hellow world!");
//! 执行花括号内的代码时,暂时性的屏蔽全局中断
__IRQ_SAFE {
...
}
//! 想提前结束时,可以用continue;
__IRQ_SAFE {
...
if (某些条件) {
//! 我们需要提前结束
continue;
}
//! 条件性跳过的操作
...
}
__IRQ_SAFE在使用时,有以下注意事项:
它只能用于函数内部,不可以用来修饰函数或者变量;
它支持嵌套
有些小伙伴在进行软件开发时,可能会因为这样或者那样的原因,需要能够稳定可靠的检测出当前所使用的编译器,比如 Arm Compiler 5、Arm Compiler 6、GCC等等。
perf_counter 提供了一系列统一格式的宏,有效的解决了上述问题。它们是:
__IS_COMPILER_ARM_COMPILER_5__
__IS_COMPILER_ARM_COMPILER_6__
__IS_COMPILER_GCC__
__IS_COMPILER_LLVM__
__IS_COMPILER_IAR__
这些宏仅会在检测到对应编译器时被定义。一个典型的用法如下:
#if defined(__IS_COMPILER_IAR__)
__attribute__((constructor))
#else
__attribute__((constructor(255)))
#endif
void __perf_counter_init(void)
{
init_cycle_counter(true);
}
这里,__attribute__((constructor)) 的作用在于告诉编译器“请在执行main函数前执行被它修饰的函数”。这是一个GCC扩展,为大部分编译器广泛接受和支持,但由于IAR的在语法上并不支持存在多个函数时排队用的序号,因此需要与其它编译器区别处理。
# TPASTE(a,b) a##b
但这里其实存在一些问题,这类问题在我的文章《【为宏正名】本应写入教科书的“世界设定”》中有详细讲解,这里就不再赘述。单纯从功能上来讲,TPASTE只能完成2个名称的“粘合”,如果是多个呢?如果要粘合的名称数量不去定呢?perf_counter就提供了这样一个解决方案 CONNECT(),并具有以下优势:
黏合的数量可以是变化的
最大支持黏合9个片断
比如,我们想生成一个安全的临时名称,则可以试着将代码所在行号__LINE__、下划线以及用户指定的后缀黏合在一起:
#define __SAFE_NAME(__NAME) \
CONNECT(__,__LINE__,_,__NAME)
比如,下面的代码:
# measure_time(...) \
({ \
int64_t __SAFE_NAME(StartTime) = get_system_ticks();\
__VA_ARGS__; \
get_system_ticks() - __SAFE_NAME(StartTime); \
})
int32_t iCycleUsed =
measure_time(
printf("Hello world!\r\n");
);
假设measure_time所在的行号为123,则实际对应的代码为:
int32_t iCycleUsed =
({
get_system_ticks(); =
__VA_ARGS__;
get_system_ticks() - __123_StartTime;
});
该代码的作用是测量 measure_time()的圆括号内的代码块所用时间,并作为表达式的值返回。这里用到了GCC的一个被称为“Statements and Declarations in Expressions”的语法扩展,感兴趣的小伙伴可以参考下面的链接:
static volatile int16_t s_iADCBuffer[ADC_BUFFER_SIZE];
int16_t get_average_voltage(void)
{
int32_t nTotal = 0;
for (int32_t n = 0; n < ADC_BUFFER_SIZE; n++) {
n += s_iADCBuffer[n];
}
return nTotal / ADC_BUFFER_SIZE;
}
在这个简单的例子中,for循环的作用就是枚举数组 s_iADCBuffer 中的每一个元素。很多高级语言(甚至是Linux内核代码),都引入了专门的 foreach 关键字来实现这样的数据枚举功能,perf_counter也不能免俗,其语法为:
foreach (<数组元素的类型>,<数组名称>) {
...
}
static volatile int16_t s_iADCBuffer[ADC_BUFFER_SIZE];
int16_t get_average_voltage(void)
{
int32_t nTotal = 0;
foreach (volatile int16_t, s_iADCBuffer) {
nTotal += *_;
}
return nTotal / ADC_BUFFER_SIZE;
}
static volatile int16_t s_iADCBuffer[ADC_BUFFER_SIZE];
int16_t get_average_voltage(void)
{
int32_t nTotal = 0;
foreach (volatile int16_t, s_iADCBuffer, piItem) {
nTotal += *piItem;
}
return nTotal / ADC_BUFFER_SIZE;
}
foreach (<数组元素的类型>,<数组名称>,<枚举元素名称>) {
...
}
换句话说,用户可以通过第三个参数指定枚举元素的变量名称了,是不是一下就清晰了很多?
【如何测量代码片断占用了多少CPU资源】
perf_counter 提供了一个非常简单的运算符:__cycleof__()。假设我们要测量的代码片断如下:
...
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
...
...
__cycleof__("my algorithm") {
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
}
...
有的小伙伴很快会说,我的系统并不允许我调用printf,那我还可以使用 __cycleof__() 么?当然了!就继续以上述代码为例子:
int32_t nCycleUsed = 0;
...
__cycleof__("my algorithm", {
nCycleUsed = _;
}) {
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
}
...
测量了用户函数 my_algorithm_step_xxx() 所使用的周期数:
测量的结果被转存到了一个叫做 nCycleUsed 的变量中;
__cycleof__() 将不会调用 printf() 进行任何内容输出。
首先,为了方便大家观察,我们先忽略圆括号内的部分:
...
__cycleof__(...) {
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
}
...
接下来,我们专门来看__cycleof__() 圆括号中的部分:
int32_t nCycleUsed = 0;
...
__cycleof__("my algorithm", {
nCycleUsed = _;
})
{
...
}
...
"my algorithm"
{nCycleUsed = _;}
你可以写任意数量的代码
你可以调用函数
你可以定义变量(当然这里定义变量肯定就是局部变量了)
但我们一般要做的事情其实是通过__cycleof__() 所定义的一个局部变量"_"来获取测量结果——这也是下面代码的本意:
nCycleUsed = _;
int32_t nCycleUsed = 0;
...
__cycleof__("my algorithm", {
nCycleUsed = _;
}) {
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
}
printf("Cycle Used %d", _);
int32_t nCycleUsed = 0;
...
__cycleof__("my algorithm", {
nCycleUsed = _;
printf("Cycle Used %d", _);
}) {
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
}
则会看到你心怡的输出结果:
int32_t nCycleUsed = 0;
...
do {
int64_t _ = get_system_ticks();
{
my_algorithm_step_a();
my_algorithm_step_b();
...
my_algorithm_step_c();
}
_ = get_system_ticks() - _;
//! 我们添加的代码
nCycleUsed = _;
printf("Cycle Used %d", _);
} while(0);
起核心作用的是一个叫做 get_system_ticks() 的函数。实际上它返回的是从复位后 SysTick被使能至今所经历的 CPU 周期数——由于它是int64_t 的类型,因此不用担心超过 SysTick 24位计数器的量程,也不用担心人类历史范围内会发生溢出的可能。 知道这一点后,聪明的小伙伴就可以自己整活儿了。
由于 "_" 是一个局部变量,因此可以判断 __cycleof__() 是支持嵌套的。
需要特别说明的是,get_system_tick() 函数自己也是有CPU时钟开销的,所以如果要获得较为精确的结果,推荐通过下面的方法来获取校准值:
static int64_t s_lPerfCalib;
void calib_perf_counter(void) {
int64_t lTemp = get_system_tick();
s_lPerfCalib = get_system_tick() - lTemp;
}
int64_t get_perf_counter_calib(void)
{
return s_lPerfCalib;
}
int32_t nCycles = 0;
start_cycle_counter(); //!< 开始总计时
...
nCycles = stop_cycle_counter(); //!< 第一次获取从开始以来的时间
...
nCycles = stop_cycle_counter(); //!< 第二次获取从开始以来的时间
...
nCycles = stop_cycle_counter(); //!< 第三次获取从开始以来的时间
...
值得强调的是虽然 start_cycle_counter() 和 stop_cycle_counter() 有 start 和 stop 的字样,但这只有逻辑上的意义而并不会真正的干扰 SysTick 的功能(也就是不会开启或者关闭 SysTick)。这也是这个库敢于声称自己不会影响用户已有的 SysTick 功能的原因。
【说在后面的话】
如果你喜欢我的思维、觉得我的文章对你有所启发,
请务必 “点赞、收藏、转发” 三连,这对我很重要!谢谢!
欢迎订阅 裸机思维