重写 C++ 标准库的价值？

众所周知，标准库中的算法容器是普通人很难手写超越的，因为这归功于 C++ 的模板、编译时计算特性，它拥有零成本抽象能力，也就是说无论使用模板机制做多少层抽象，最后生成的代码和手写 C 代码一样高效，这就是为何 C++ 相对于 C 来说拥有易用的接口，并且不会导致性能损失。

但本文章的主题不在于模板编程，而在于探讨重写标准库的价值。在这之前需要声明下，C++ 标准中自定义了标准库的接口，以及每个接口的时间复杂度，具体实现由各大编译器厂商提供。此外替换标准库的一些容器，即便接口不完全一致，也符合本文讨论的范畴。

以链表为例，Linux C 语言的经典做法是：

struct list_head {
    struct list_head *next, *prev;
};

struct io_buffer {
    struct list_head list;
    __u64 addr;
    __u32 len;
    __u16 bid;
};

对链表的操作则是由各种宏实现：

#define list_entry(ptr, type, member) container_of(ptr, type, member)
#define list_for_each_entry(pos, head, member)               \
    for (pos = list_first_entry(head, typeof(*pos), member); \
        !list_entry_is_head(pos, head, member);              \
        pos = list_next_entry(pos, member))

而 C++ 标准库中的链表方式则是这样：

struct io_buffer {
    __u64 addr;
    __u32 len;
    __u16 bid;
};
std::list<io_buffer> ls;

这两种方式的区别在哪？唯一区别在于 io_buffer 元素本身是否携带了链表的指针信息，Linux 方式则内嵌 list_head 于元素中，C++ 标准容器的指针信息在哪？

C++ 标准容器的链表指针信息则是由 std::list 维护，也就是说只有在元素被插入到链表的时候，将发生一次内存分配，这包含了额外的链表指针信息 + 元素本身的内存，然后将元素的内容通过拷贝、移动构造到分配出来的节点。

也就是说同样是链表，对于插入操作，C++ 标准容器多了 一次内存分配 + 一次移动、拷贝构造的开销，其中性能的关键在于那次 内存分配动作 。而 C 语言由于 元素本身 携带了链表节点信息，插入动作只是指针的调整。

有人指出使用 std::list<io_buffer *>，性能就和 Linux C 的链表差不多了。但这只能省移动、拷贝构造开销，省不了额外指针节点的内存分配，关键在于内存分配操作。

这并不是 C++ 的问题，这是两种不同的思路： 侵入式 与 非侵入式 链表。侵入式即要求用户定义元素时额外定义链表的节点信息，而非侵入式（C++ 标准库）则没有这个要求，那么就需要额外分配外挂的信息。

我尝试用 C++ 实现了侵入式链表方案，通过性能测试可以得到如下数据（ARM）：

ns/op	op/s	err%	ins/op	benchmark
253.62	3,942,909.94	22.9%	247.25	`std::forward_list push_front`
208.03	4,806,889.46	3.7%	249.08	`std::forward_list push_back`
2.03	492,790,574.13	0.0%	5.00	`SList PushFront`
5.46	183,296,000.00	0.0%	7.00	`List PushBack`

std::list 和 std::forward_list 插入一个节点需要 200 到 250ns，而侵入式链表插入一个节点只需要 2 到 5 ns，关键在于动态内存分配比较耗时。在内核中大量依赖链表、树结构，这体现了侵入式方案的优越性。

侵入式方案相对于非侵入式方案在于接口的 易用性，这是牺牲易用性换取性能的优势的一个例子。

C++ 设计与标准库也未必全是侵入式的，例如智能指针便提供了两种方案，当用户类继承自 enable_share_from_this 时，该类就是侵入式智能指针，引用计数和类融为一体，能够将裸指针提升至智能指针；而用户不继承该类时，则是非侵入式智能指针，构造它需要为引用计数块额外分配一次内存（除非用户使用 make_shared 构造，节省引用计数块的额外内存分配），由于引用计数块和用户类内存分离，也就不允许裸指针到智能指针的转换。

C++ 的虚表设计也是侵入式的，如果用户需要表现运行时多态性，则需要继承并实现虚接口，这样虚表和用户类便融为一体。在 C++17 时标准库则引入 std::visit 和 std::variant，通过它也能实现运行时多态，并且由元编程技术生成虚表，换句话说虚表是外挂用户类的，调用时生成的虚表信息可以直接使用调用栈内存，也就无需额外为虚表分配内存，性能上也不会有什么损失。那它们的区别就在于使用上了，前者对类扩展开放，对行为扩展封闭；后者对类扩展封闭，对行为扩展开放。

在链表数据结构中我们看到了侵入式方案性能上的优越性，那么对于一些树结构，有没有性能优势呢？笔者花了两天时间手撸 红黑树 后，经过测试发现性能略逊于标准库的std::set，插入一个节点侵入式红黑树需要 250ns，而 std::set 只需要 200ns，删除略快些，12ns vs 55ns（x86-64）。

是不是笔者实现的太挫了？经过一番搜索，C++ 的侵入式容器库中实现了 set 只有 Boost.Intrusive 一家，于是尝试使用它做性能测试，得到如下性能测试数据（macOS）：

ns/op	op/s	err%	total	benchmark
170.48	5,865,909.42	8.6%	1.79	`std::multiset insert`
94.64	10,566,395.80	34.7%	0.98	`std::multiset erase`
240.30	4,161,400.76	6.8%	2.41	`intrusive::multiset insert`
17.44	57,345,039.37	1.8%	0.21	`intrusive::multiset erase`

看来 Boost.Intrusive 的实现比我的还挫啊。因此对于树而言，侵入式方案没有有优势，这时候建议使用 std::set 即可，因为很难超越它的实现了。

难怪笔者阅读数个调度器的实现（例如 Executors）都只实现了侵入式链表，而没有实现侵入式树，看来大佬们已经知道了这个事实，而且 Boost.Intrusive 谈及性能时，也只提链表。C++ 社区其他的侵入式库都没有提供侵入式红黑树的实现。

然而链表在应用开发中很少用，除了调度器场景中会需要，他们大多数的情况下可以被更全能的 vector 替代，因为 push 数据时无需频繁地分配内存，而链表每次插入数据都需要分配一次内存，这也是为何 std::queue 和 std::stack 默认用 std::deque 容器实现，也是出于 内存分配频率 的考虑。

而 vector 重写的价值不大，因为他们已经在大多数情况下表现够优秀，如果非要重写，那么可以参考一些常用的思路，例如 SmallVector，在只有几个元素的时候仅使用调用栈的内存，一旦元素过多可以便使用堆内存，即便 LLVM/Clang 等项目重写了标准库，但仍然普遍使用 std 标准库，只有那极少数性能关键的地方使用。

C++ 标准明确定义了各种数据结构操作的时间复杂度，因此对这些操作的重写价值不大。综上所述，频繁的内存分配 操作是性能杀手，因此很多重写标准库的方案都是想法设法避免频繁的内存分配动作，有时候重写 allocator 的价值可能远比重写整个数据结构要大得多。

在嵌入式场景中内存通常是确定的，它们避免动态内存分配，标准库实现要求异常安全，这会给二进制文件带来一定的大小开销，这时候考虑重写标准库是值得的。

Rust 有本书专门教你怎么写链表，最终的结论就是尽量不要用链表而是用 Vec，有这精力都能把其他数据结构和算法吃透了：

but all of these cases are super rare for anyone writing a Rust program. 99% of the time you should just use a Vec (array stack), and 99% of the other 1% of the time you should be using a VecDeque (array deque). These are blatantly superior data structures for most workloads due to less frequent allocation, lower memory overhead, true random access, and cache locality.

那么，最后重写标准库的价值留给读者判断。

参考资料：