Introduction¶
(1) vRAN的发展趋势与优势
运营商正在采用虚拟化无线接入网(vRAN),使用部署在边缘数据中心商用服务器上的软件来代替传统的专用硬件
图中展示了当今典型的vRAN部署模式,即: 静态分配边缘数据中心里的vRAN服务器来处理特定 RU 的数据

(2) 当前vRAN面临的 Resilience 缺陷
- 蜂窝网络作为关键基础设施需要极高的可用性,但今天的vRAN缺乏对快速故障转移或零停机升级的支持
- vRAN服务器崩溃会导致超过5秒的严重用户停机时间
- 而日常的计划内升级也必须依赖预先规划的停机维护窗口,这严重影响了网络服务的连续性
(3) 实现vRAN弹性的两大主要挑战
-
严格的实时延迟要求:
- vRAN必须在极短的传输时间间隔(TTI,5G中为500微秒)内完成任务
- 而现有的虚拟机或容器迁移技术会导致数百毫秒的网络中断
-
软件的“黑盒”特性:
- 生产级vRAN软件通常极其复杂且闭源,由不同供应商独立开发(如物理层PHY和L2层)
- 使得通过修改源代码来实现传统状态复制机制变得极不现实
(4) Slingshot系统的提出与核心洞察
本文提出了Slingshot系统,专注于为vRAN中性能最关键、延迟最敏感的物理层(PHY)透明地提供弹性,且无需修改现有vRAN软硬件
核心洞察:
Slingshot将弹性事件引起的短暂计算或I/O中断(例如丢失前一个TTI的状态或丢包)视为类似于常规的无线信号衰减。通过利用蜂窝网络自身对不良信号质量的天然包容能力,实现了轻量级且无状态的"PHY迁移"
三大关键技术创新(中间件设计):
为了透明地实现PHY迁移,Slingshot设计了两种新的中间件(shim layers):
- 基于可编程交换机的前传中间件(in-switch fronthaul middlebox):
- 位于RU和PHY之间,在不增加延迟和CPU开销的情况下管理高带宽前传流量,并实现流量迁移
- 实时的交换机内故障检测:
- 利用实时数据包流作为天然“心跳”,在TTI级别内快速检测PHY故障
- Orion软件中间件:
- 位于L2和PHY之间,负责以低开销维护热备用的辅助PHY,并通过管理L2-PHY协议消息来发起迁移
(5) 系统评估结果预览
- 在最先进的5G vRAN测试平台上使用商用软件进行的实验表明,Slingshot处理PHY故障转移时不会对视频会议造成任何中断(传统无Slingshot情况下中断长达6.2秒)
- UDP连接恢复几乎是即时的,TCP连接中断时间在110毫秒以内,同时该系统还实现了零停机时间的PHY计划内升级