最近和几个搞高性能计算的朋友聊天，发现大家对RDMA（Remote Direct Memory Access）都有个共识：它能绕过CPU直接访问内存，牛逼得不行。但仔细一想，这话其实只说对了一半。

严格来说，RDMA只是在数据通路上绕过了CPU，控制通路该走CPU还得走CPU。

这个区别听起来像是在抠字眼，但实际上关系到你对整个RDMA架构的理解。今天咱们就掰开了揉碎了，把这事儿说清楚。

先搞清楚什么是数据通路和控制通路

在网络通信里，有两条路特别重要：

数据通路（Data Path）：就是真正传输用户数据的路径。比如你要传个100MB的文件，这文件的内容就走数据通路。

控制通路（Control Path）：负责管理和协调的路径。建立连接、错误处理、流量控制这些"管理员"工作都走这条路。

打个比方，数据通路就像高速公路，车流（数据）在上面跑；控制通路就像交通指挥中心，负责调度、监控、处理突发状况。

传统网络通信：CPU当牛做马

在没有RDMA的年代，不管是数据还是控制，全都得CPU亲自上阵：

数据发送：CPU把数据从用户空间拷贝到内核空间，再拷贝到网卡缓冲区
数据接收：CPU把数据从网卡拷贝到内核空间，再拷贝到用户空间
协议处理：TCP/IP协议栈的各种处理，全是CPU在干活
中断处理：每次网络事件都要CPU放下手头工作去处理

这样搞的结果就是，CPU忙得要死，大量时间花在数据搬运上，真正的计算任务反而没时间干。

RDMA的革命：数据通路的解放

RDMA的核心创新就是把数据通路从CPU手里解放出来：

数据通路的旁路机制

在RDMA的数据通路上：

零拷贝：数据直接在用户空间内存和远程内存之间传输，不经过内核
内核旁路：网卡直接访问用户空间内存，不需要系统调用
CPU卸载：数据传输过程中CPU可以去干别的事情

这就是为什么大家说RDMA能"绕过CPU"的原因。数据真的是直接从一个机器的内存飞到另一个机器的内存，中间的CPU连眼皮都不用抬一下。

但是！控制通路还得CPU管着

这里就是很多人容易搞混的地方了。虽然数据传输不用CPU操心，但RDMA的控制和管理工作还是得CPU来干：

CPU在控制通路上的职责

具体来说：

连接管理：建立RDMA连接的时候，还是要CPU参与协商、认证这些步骤。你总不能让两张网卡自己聊天决定怎么连接吧？
队列操作：虽然数据传输不用CPU，但Work Queue的创建、销毁，Queue Pair的管理，这些还得CPU来搞定。
错误处理：网络传输出错了咋办？重传？断开重连？这些决策还得CPU的大脑来做。
内存注册：要用RDMA传输数据，得先把内存区域注册给网卡，告诉它哪些地方可以访问。这个注册过程需要CPU参与。
完成处理：数据传输完成后，虽然可以通过轮询避免中断，但处理完成事件、回调用户程序，这些还是要CPU干。

举个实际的例子

假设你要用RDMA从机器A往机器B传输1GB数据：

控制通路的CPU参与：

 1. CPU在机器A上执行：注册1GB内存区域
 2. CPU参与建立：A和B之间的RDMA连接
 3. CPU创建并提交：Work Request到发送队列
 4. CPU设置：传输参数和目标地址

数据通路的CPU旁路：

 5. RDMA网卡直接读取：机器A的1GB内存数据
 6. 网卡之间直接传输：1GB数据流
 7. 机器B的网卡直接写入：目标内存位置
 8. 传输完成：网卡更新完成队列

后续的CPU参与：

 9. CPU轮询或接收：完成通知
 10. CPU执行：用户回调函数
 11. 如有错误，CPU处理：错误恢复逻辑

你看，整个过程中，真正的数据搬运（步骤5-8）确实绕过了CPU，但前期准备和后期处理还是需要CPU参与。

为什么要这样设计？

有人可能会问，为啥不把控制通路也交给硬件处理？

安全考虑：连接管理、权限检查这些涉及安全的操作，还是得有CPU这个"大脑"来把关。让硬件自己决定谁能访问哪块内存，那不是要出大事？
灵活性需求：错误处理、流量控制的策略可能需要根据应用场景调整，硬件固化的逻辑没法满足所有需求。
复杂度平衡：如果把所有控制逻辑都做到硬件里，网卡会变得异常复杂和昂贵，得不偿失。
兼容性考虑：控制逻辑在软件里实现，升级和修改都比较容易，硬件一旦做出来就很难改了。

这种设计的影响

理解了数据通路和控制通路的区别，你就能更好地优化RDMA应用：

性能优化方面：

数据传输密集的应用受益最大，因为大块数据传输真的绕过了CPU
控制操作密集的应用（比如大量小消息）可能看不到太大提升
连接建立的开销还是存在，适合长连接场景

程序设计方面：

可以用异步模式：CPU提交传输请求后就去干别的事情
批量操作很重要：减少控制通路的交互次数
错误处理不能忽视：虽然数据传输很可靠，但还是要处理异常情况

文末

RDMA确实是个革命性的技术，但它的"绕过CPU"并不是100%的。准确地说：

数据通路：真正做到了旁路CPU，数据直接在内存间传输
控制通路：还是需要CPU参与管理和协调

这种设计是性能、安全性、复杂度之间的平衡。理解这个区别，你才能更好地发挥RDMA的优势，避开它的局限性。

下次再有人说RDMA完全绕过了CPU，你就可以友好地科普一下："兄弟，那只是数据通路，控制通路CPU还是要管的。"然后看着他们一脸"学到了"的表情，心里偷着乐就行了。

#ai# #头条创作挑战赛# #算力# #人工智能# #rdma# #无损网络#

醋醋百科网

Good Luck To You!

RDMA的"半路出家":为什么说它只是部分绕过了CPU?

先搞清楚什么是数据通路和控制通路

传统网络通信：CPU当牛做马

RDMA的革命：数据通路的解放

但是！控制通路还得CPU管着

举个实际的例子

为什么要这样设计？

这种设计的影响

文末

醋醋百科网

Good Luck To You!

RDMA的&quot;半路出家&quot;:为什么说它只是部分绕过了CPU?

先搞清楚什么是数据通路和控制通路

传统网络通信：CPU当牛做马

RDMA的革命：数据通路的解放

但是！控制通路还得CPU管着

举个实际的例子

为什么要这样设计？

这种设计的影响

文末

RDMA的"半路出家":为什么说它只是部分绕过了CPU?