在 C 中,字符串的长度由字符串末尾的 0 字节标记。因此,要确定字符串的长度,必须扫描它,寻找 0 字节。最近的 ARM 处理器具有强大的指令集 (SVE),非常适合此类问题。它允许您一次加载大型寄存器并进行宽比较(一次比较多个字节)。
然而,我们不想读取太多数据。如果您读取超出字符串的范围,您可能会访问另一个内存页面并触发分段错误。这可能会使您的程序崩溃。
值得庆幸的是,SVE 附带了一条加载指令,该指令只会在“第一个活动元素”上出错:只要您加载的第一个元素有效,就不会出错。
考虑到这一点,计算 C 字符串长度的简单算法如下:
- 加载寄存器。
- 将其中的每个字节与 0 进行比较。
- 如果有任何比较匹配,则定位匹配并返回相应的长度。
- 如果不是,增加寄存器大小(由 svcntb() 给定),然后重复。
使用内在函数,代码如下所示……
size_t sve_strlen ( const char * s ) { size_t len = 0 ; 而(真) { svuint8_t 输入= svldff1_u8 ( svptrue_b8 ( ) , ( const uint8_t * ) s + len ) ; svbool_t matches = svcmpeq_n_u8 ( svptrue_b8 ( ) ,输入, 0 ) ; 如果( svptest_any ( svptrue_b8 ( ) ,匹配) ) { 返回len + svlastb_u8 ( svbrka_z (匹配,匹配) , svindex_u8 ( 0 , 1 ) ) ; } len + = svcntb ( ) ; } }
在汇编中,代码如下所示……
主循环: ldff1b { z0 . b } , p0 / z , [ x10 , x8 ] 添加 x8 , x8 , x9 cmpeq p1 。 b , p0 / z , z0 。乙, # 0 湾。当量。主循环
我不讨论我的函数的细节,但它隐含地假设底层寄存器大小不大于 256。我建议在实际系统中使用此函数之前添加一个检查 svcntb() 是否不大于 256。
在方法论上很难针对系统的 strlen 函数进行基准测试。然而,我们可以测量为相当大的字符串退役的指令数,作为相对速度的指示。在 graviton 3 系统(亚马逊)上使用 GCC 11,我得到以下指标:
系统的strlen | 每字节 0.23 条指令 |
SVE | 每字节 0.15 条指令 |
虽然我现在不提倡采用 SVE 来替代 strlen,但考虑到我在几分钟内就完成了我的实施,这种潜力很有趣。
图片来源:感谢 Denis Yaroshevskiy邀请我查看非故障负载。
更新:事实证明,strlen 是 ARM 在介绍 SVE 的幻灯片中使用的示例之一。乍一看,他们的实现看起来像我的,但更复杂。
原文: https://lemire.me/blog/2022/12/19/implementing-strlen-using-sve/