2025年10月18日

GMI Cloud Cluster Engine 发布全新版

GMI Cloud Cluster Engine 全新升级，正式上线 CE-BMaaS 服务。未来两个月内，还将有两大版本上线，敬请期待！

我们很高兴地宣布，GMI Cloud Cluster Engine 全新版本上线，欢迎大家使用！

2025年10月18日

榨干GPU性能，中兴Mariana(马里亚纳)突破显存壁垒

当大语言模型（LLM）走向千行百业，推理效率与显存成本的矛盾日益尖锐。

2025年10月18日

阿里云瑶池再创新，AI顾问让数据管理像“聊天”一样简单

技术的进步永无止境，继创下TPC-C性能&性价比双冠之后，阿里云PolarDB云原生数据库再度实现关键突破。9月24日杭州云栖大会上，阿里云宣布推出全球首款基于CXL（Compute Express Link）2.0 Switch技术的PolarDB数据库专用服务器。

2025年10月18日

RDMA的"半路出家":为什么说它只是部分绕过了CPU?

最近和几个搞高性能计算的朋友聊天，发现大家对RDMA（Remote Direct Memory Access）都有个共识：它能绕过CPU直接访问内存，牛逼得不行。但仔细一想，这话其实只说对了一半。

2025年10月18日

阿里云国际站GPU:我如何让阿里云GPU服务器的算力利用率更高?

TG：@yunlaoda360

随着人工智能与高性能计算需求的爆发式增长，GPU服务器已成为科研、深度学习、渲染计算等场景的核心基础设施。阿里云国际站凭借其领先的GPU实例家族和全栈优化能力，为用户提供了一站式的高性能计算解决方案。本文将深入探讨如何最大化提升阿里云GPU服务器的算力利用率，让每一分计算资源都创造更大价值。

2025年10月18日

全球首个，阿里云这款产品让数据库进入“内存自由”时代

大象新闻记者李莉张迪驰

9月25日，大象新闻记者从2025云栖大会上获悉，阿里云正式推出全球首款基于CXL(Compute Express Link)2.0 Switch技术的PolarDB数据库专用服务器。

据悉，该产品在原有RDMA网络的基础上，PolarDB引入CXL高速互连技术，通过基于CXL的分布式内存池解决方案，实现和本地一样低延迟、高带宽的远程内存访问。延迟可低至百纳秒级，带宽吞吐达到数TB/s，让内存资源“池化可共享、按需可调度”。

凭借这一全球首创技术，PolarDB在SIGMOD 2025学术顶会上再度斩获工业赛道“最佳论文奖”。通过创新的云原生架构、软硬件结合的方式，PolarDB成功攻克了长期制约数据库弹性与性能的“最后一公里”难题，标志着云原生数据库正式迈入“计算-内存-存储”全解耦的新阶段。

2025年10月18日

RDMA压测踩坑记:为什么你的网卡跑不满?

最近在做RDMA网络压测的时候，遇到了一个特别头疼的问题：不管是发小包还是大包，网卡利用率就是上不去，明明是100Gbps的网卡，实际跑出来的速率连一半都不到。相信很多搞高性能网络的兄弟都遇到过类似的问题，今天就来聊聊这里面的门道。

先说结论：RDMA不是万能药

2025年10月18日

阿里云发布第四代神龙架构，首次搭载大规模弹性RDMA加速网络

10月20日，2021云栖大会上，阿里云宣布推出第四代神龙架构。阿里云方面介绍，这是飞天云操作系统新一代虚拟化技术，首次搭载全球唯一的大规模弹性RDMA加速网络，网络延迟整体降低80%以上。

相比传统TCP协议，RDMA能大幅降低网络通信延迟。阿里云采用的设计思路是软硬一体化，将弹性RMDA的加速能力融入公共云，此外，第四代神龙还大幅提升了基础带宽、块存储、IOPS等核心性能。

2025年10月18日

CPU和CPU，是如何通信的?_cpu通过什么与内存进行数据的交换

公众号记得加星标，第一时间看推送不会错过。

来源：内容来自知乎@马队之声。

由于人工智能的火热，在一个系统中集成CPU和GPU已经成为了常态。那么CPU和GPU之间是如何通信的？我们来看一下以下科普。

名词解释：

NVMe SSD： Non-Volatile Memory Express，即非易失性内存主机控制器接口规范 NVMe 是一种存储协议，基于该协议的SSD固态硬盘，能大幅提升读写性能。

2025年10月18日

网络大提速，RDMA，IB，iWrap_网络提升器下载

本章第一节介绍的存储设备方面的创新解决了CPU访问存储设备的性能问题。但在实际的业务当中，数据的传输除了在节点内部的CPU与存储设备间外，节点之间也存在数据传输的需求。本节我们就介绍在网络传输方面是如何提速的。

在介绍新的网络技术之前，我们看看传统网络是如何传输数据的，比如我们常见的以太网。当节点0向节点1发送数据时，其整个数据处理的流程如下图所示，可以看到其过程还是比较复杂的。

在节点0，应用程序首先需要将其缓冲区中的数据通过系统调用的方式拷贝到操作系统内核TCP/IP协议栈当中，内核进一步将数据拷贝到网卡中。节点0的网卡将数据发出后，节点1的网卡会收到数据，然后数据首先从网卡拷贝到内核的TCP/IP协议栈，然后再从内核拷贝到应用程序缓冲区。可以看到，在整个数据的传输过程中存在多次数据拷贝的过程，这将极大的增加数据传输的延时。

醋醋百科网

Good Luck To You!

GMI Cloud Cluster Engine 发布全新版

榨干GPU性能，中兴Mariana(马里亚纳)突破显存壁垒

阿里云瑶池再创新，AI顾问让数据管理像“聊天”一样简单

RDMA的"半路出家":为什么说它只是部分绕过了CPU?

阿里云国际站GPU:我如何让阿里云GPU服务器的算力利用率更高?

全球首个，阿里云这款产品让数据库进入“内存自由”时代

RDMA压测踩坑记:为什么你的网卡跑不满?

先说结论：RDMA不是万能药

阿里云发布第四代神龙架构，首次搭载大规模弹性RDMA加速网络

CPU和CPU，是如何通信的?_cpu通过什么与内存进行数据的交换

网络大提速，RDMA，IB，iWrap_网络提升器下载