近十年网络系统顶会上的仿真器¶
笔者聚焦网络系统仿真的研究, 一般来说分成两个大类:
- 偏系统: 比如 ATC22 的 Phantom
- 偏网络 (尤其关注Mobile Network): 比如 NSDI25 的 CellReplay
笔者在 SIGCOMM、NSDI、ATC 等会议上, 简单统计了近十年网络系统领域的优秀的仿真器, 见下.
系统方向 (通用网络仿真infra)¶
(1) [ATC 22] Phantom: Co-opting Linux Processes for High-Performance Network Simulation
链接: https://www.usenix.org/conference/atc22/presentation/jansen
(2) [SIGCOMM 22] SimBricks: End-to-End Network System Evaluation with Modular Simulation
链接: https://dl.acm.org/doi/10.1145/3544216.3544253
(3) [SIGCOMM 21] MimicNet: Fast Performance Estimates for Data Center Networks with Machine Learning
链接: https://dl.acm.org/doi/10.1145/3452296.3472926
(4) [SOSP 17] CrystalNet: Faithfully Emulating Large Production Networks
链接: https://dl.acm.org/doi/10.1145/3132747.3132759
(5) [ATC 15] Mahimahi: Accurate Record-and-Replay for HTTP
链接: https://www.usenix.org/system/files/conference/atc15/atc15-paper-netravali.pdf
(6) [NSDI 22] PowerTCP: Pushing the Performance Limits of Datacenter Networks
链接: https://www.usenix.org/conference/nsdi22/presentation/addanki
(7) [SIGCOMM 22] ABM: Active Buffer Management in Datacenters
链接: https://dl.acm.org/doi/10.1145/3544216.3544252
(8) [CCR 21] Distrinet: A Mininet Implementation for the Cloud
链接: https://dl.acm.org/doi/10.1145/3457175.3457177
(9) [NetSoft 18] Containernet 2.0: A Rapid Prototyping Platform for Hybrid Service Function Chains
链接: https://ieeexplore.ieee.org/document/8459905
(10) [NSDI 23] Parsimon: Scalable Tail Latency Estimation for Data Center Networks
链接: https://www.usenix.org/conference/nsdi23/presentation/zhao-kevin
(11) [CoNEXT 25] SplitSim: Large-Scale Simulations for Evaluating Network Systems Research
链接: https://dl.acm.org/doi/10.1145/3768999
(12) [HotNets 10] Mininet: A Network in a Laptop - Rapid Prototyping for Software-Defined Networks
链接: https://dl.acm.org/doi/10.1145/1868447.1868466
网络方向 (Mobile/Cellular/LEO)¶
(1) [NSDI 25] CellReplay: Towards Accurate Record-and-Replay for Cellular Networks
链接: https://www.usenix.org/conference/nsdi25/presentation/sentosa
(2) [NSDI 23] StarryNet: Empowering Researchers to Evaluate Futuristic Integrated Space and Terrestrial Networks
链接: https://www.usenix.org/conference/nsdi23/presentation/lai-zeqi
(3) [APNet 24] OpenSN: An Open Source Library for Emulating LEO Satellite Networks
链接: https://conferences.sigcomm.org/events/apnet2024/papers/OpenSNAnOpenSourceLibraryforEmulatingLEOSatelliteNetworks.pdf
(4) [IMC 20] Exploring the "Internet from Space" with Hypatia
链接: https://dl.acm.org/doi/10.1145/3419394.3423635
(5) [arXiv 24] xeoverse: Real-Time Simulation Framework for LEO Satellite Networks
链接: https://arxiv.org/abs/2406.11366
(6) [IEEE Access 21] Scalable Real-Time Emulation of 5G Networks with Simu5G
链接: https://ieeexplore.ieee.org/document/9591605
(7) [NSDI 23] DChannel: Accelerating Mobile Applications with Parallel High-bandwidth and Low-latency Channels
链接: https://www.usenix.org/conference/nsdi23/presentation/sentosa
(8) [ICNP 20] StarPerf: Characterizing Network Performance for Emerging Mega-Constellations
链接: https://ieeexplore.ieee.org/document/9259357
(9) [INFOCOM 23] StarCure: Achieving Resilient and Performance-Guaranteed Routing in Space-Terrestrial Integrated Networks
链接: https://ieeexplore.ieee.org/document/10229104
(10) [NSDI 22] cISP: A Speed-of-Light Internet Service Provider
链接: https://www.usenix.org/conference/nsdi22/presentation/bhattacherjee
(11) [APNet 25] APSimAI: Rethinking Dynamic Networks and Heterogeneous Computing with Automatic Parallelization
链接: https://arxiv.org/pdf/2506.02787
(12) [IEEE Access 21] ns-3-leo: Evaluation Tool for Satellite Swarm Communication Protocols
链接: https://ieeexplore.ieee.org/document/9693958
无线/移动仿真细分¶
Record-and-Replay / 网络仿真工具
(1) [CCR 21] NemFi: Record-and-Replay to Emulate WiFi
链接: https://dl.acm.org/doi/10.1145/3477482.3477484
(2) [MobiCom 16] MobileInsight: Extracting and Analyzing Cellular Network Information on Smartphones
链接: https://dl.acm.org/doi/10.1145/2973750.2973751
(3) [MobiCom 21] Experience: A Five-Year Retrospective of MobileInsight
链接: https://dl.acm.org/doi/epdf/10.1145/3447993.3448138
(4) [CCR 14] OpenAirInterface: A Flexible Platform for 5G Research
链接: https://dl.acm.org/doi/10.1145/2677046.2677053
无线实时通信与低延迟
(1) [SIGCOMM 22] Zhuge: Achieving Consistent Low Latency for Wireless Real-Time Communications with the Shortest Control Loop
链接: https://dl.acm.org/doi/10.1145/3544216.3544225
(2) [NSDI 23] AFR: Enabling High Quality Real-Time Communications with Adaptive Frame-Rate
链接: https://www.usenix.org/conference/nsdi23/presentation/meng
(3) [NSDI 24] Hairpin: Rethinking Packet Loss Recovery in Edge-based Interactive Video Streaming
链接: https://www.usenix.org/conference/nsdi24/presentation/meng
(4) [NSDI 13] Sprout: Stochastic Forecasts Achieve High Throughput and Low Delay over Cellular Networks
链接: https://www.usenix.org/conference/nsdi13/technical-sessions/presentation/winstein
(5) [SIGCOMM 20] PBE-CC: Congestion Control via Endpoint-Centric, Physical-Layer Bandwidth Measurements
链接: https://dl.acm.org/doi/10.1145/3387514.3405880
(6) [NSDI 20] ABC: A Simple Explicit Congestion Controller for Wireless Networks
链接: https://www.usenix.org/conference/nsdi20/presentation/goyal
整理与评价¶
| 论文 | 核心 | 推荐系数 | 亮点与评价 |
|---|---|---|---|
| Phantom | 高性能混合多进程网络模拟架构, 同时保留了高兼容性与隔离性 | 5 | 超级好文章! 任务关联度高 (1) 摒弃了低效的 ptrace 机制 (2) 融合 LD_PRELOAD 加 seccomp 的双重系统调用拦截策略 + 基于共享文件映射的零拷贝数据传输机制 (3) 消除了IPC和ContextSwitch的性能瓶颈 |
| Simbricks | "拼图"为虚拟的E2E Testbed | 5 | 超级好文章! 任务关联度高 (1) “拼图类”文章的写作手法/design套路 (2) 积累 simu/emu 对比对象 |
| MimicNet | 通过"小部分全真", 其他部分使用ML做pkt-level模拟 | 4 | 任务关联度中等, 更聚焦: 如何给 pkt-level simu 做"加速" 核心: 一小部分进行 pkt-level 仿真, 其他部分采用 ML 模拟 |
| CrystalNet | 运行在公有云上的"高保真"网络仿真器 | 4 | 后面做DTCLab-Platform值得参考 公有云运行, PhyNet中间层, VXLAN跨公有云/互联网传输, 网络边界的模拟 |
| Mahimahi | HTTP录制与重放框架 | 4 | 任务关联度低, 更聚焦: HTTP流量重放 创新: 单机多实例并发运行, 基于NetSpace建立隔离性 扩展性: 4个Shell之间可以嵌套组合 |
| PowerTCP | 综合2D指标来更新拥塞窗口 | 4 | 任务关联度低, 纯CC工作 创新: 1D指标以偏概全, 2D才ok 聪明处: 利用In-band Network Telemetry获取更精确信息, 超级白盒路径 |
| ABM | BM应该与AQM相结合 | 4 | 任务关联度低, 纯CC工作 呼吁: 将BM与AQM合并 学习点: 把CC根据 BM/AQM/EndHostCC 分成三类 |
| Distrinet | Mininet分布式扩展版 | 5 | 任务关联度高 核心: (1) 用 LXC 代替 Networkspaces 当 node (2) 用 VXLAN 代替 veth 表示虚拟链路 (3) "并发"初始化节点而非"顺序" (4) 使用 SSH 连接远程容器 |
| Containernet 2.0 | CNet for NFV 的扩展 | 1 | 没啥新意, 纯产品说明书. 积累 CNet/mininet-fork |
| Parsimon | 在稳态DCN中, 基于排队论的分解思想加速ns-3 simu | 2 | 任务关联度极低, 场景太limited, 感觉这文章很难有落地空间 核心: 将复杂的全网模拟分解为许多独立的、并行的"单链路模拟", 然后通过统计方法将结果聚合 |
| SplitSim | 使用"局部仿真"+"并行组件"优化SimBricks | 3 | 任务关联度高, 文章创新不强, 纯扩展 核心: Mixed-Fidelity Simulations + 将单一的瓶颈模拟器拆分为多个并行进程 |
| Mininet | 基于Linux Networkspace的轻量级NetEmu | 5 | 好文章! 任务关联度高 (1) VM模拟node太重了, 使用 networkspace 替代 (2) 实现中的 veth 值得积累 (3) 与OVS交互, 为SDN实验铺垫 |
| CellReplay | "轻/重插值+自动化调参"解决蜂窝网络动态负载高保真仿真问题 | 5 | 任务关联度极高, 文章肯定要拿来引用了! 核心: mahimahi无法准确反映蜂窝网络在不同负载下的性能变化, 误差很大, 影响很严重 创新: 基于负载的双重录制与插值重放, 自动化参数校准 学习点: 写作手法 + 插值设计 + 调参的原则/idea |
| StarryNet | 基于 docker 的 LEO Emu, 开山神作 | 5 | 任务关联度极高, 引用了 亮点: 设计就不说了, 很熟悉; 重点提及了 PHY 的 limitations, DTCLABv1 可以引用 注意: 学习本文的写作 |
| OpenSN-APNet | 优化 StarryNet 的 LEO Emu | 3 | 任务关联度适中 创新点基本没啥, 值得学习的是: 使用 etcd 代替 SSH Sender/Recv 使得信息同步效率显著提高 |
| OpenSN-TPDS | 期刊扩展: eBPF Links + 协程池并行 | 4 | 任务关联度较高 相较于APNet的版本, 多了几个点, 讲的更具体了些, 技术实现层面值得积累: (1) 用XDP(eXpress Data Path)上的eBPF程序替代传统的Linux Bridge虚拟设备来实现帧转发,分为机内和跨机两种场景 (2) 明确提及 mininet / starrynet / opensn 三种调度模式, opensn优秀在采用 coroutine pool, 以 batch模式并行 |
| Hypatia | 基于 ns-3 的 LEO Simu, 领域开山之作 | 4 | 过于熟悉, 不看了 |
| xeoverse | 号称超过 starrynet 和 hypatia 的基于 Mininet 的 NetEmu | 0 | 伪的离谱, 纯sb论文, 直接跳过, 看看 LEOCraft 怎么喷它的 传送门 |
| Simu5G | 5G Emulator: 实体UE承载真实被测流量, 背景UE仅有bgd traffic gen等必要模型 | 4 | 任务关联度高 motivation: 进行 RT 仿真的前提是, 模拟事件的处理速度必须快于真实时间. 这就要求对网络实体降低计算开销 Methodology: 在一般的系统工作中, 解决性能瓶颈的方式有很多, 常见的一种是 parallelization / distribution, 但这些适合"密处理, 低交互"的系统; 本文采用 "局部真" + "全局简" 的 Scaling Model 方式来降低整体的计算开销 |
| DChannel | eMBB与URLLC并行传输 | 5 | 任务关联度中, 文章不错, 大道至简 moti&idea: eMBB带宽大但延迟高, URLLC延迟低但带宽小, 在IP层做pkt-level调度, 两条路并行传输, 端侧加Proxy做reordering 积累: eMBB/URLLC/mMTC, cellular双设备实测避干扰, UE周期性唤醒 |
| StarPerf | 基于STK的卫星网络模拟器, 重在网络性能分析 | 4 | 任务关联度高 很熟, 主要学习本文写作方式! |
| StarCure | LEO抗损/故障应对的路由方式 | 2 | 任务关联度低 聪明点: (1) 构建稳定拓扑TSM, 将拓扑变化变成逻辑拓扑上的流量变化 (2) 混合路由: 可预测使用预计算, 突发使用快速重路由 |
| cISP | "掀桌子"的旷世新框架: 用mmWave代替光纤, 搭建近光速的WAN | 3 | 任务关联度为 0 过于超前, 笔者暂时还没能看清其是否有落地机会 or 其仅仅是纸上谈兵的理论分析 |
| APSimAI | LLM分布式训练框架确定最佳并行配置 | 1 | 任务关联度为0 创新: “多边”设计 + 先拆分再重组算子寻最优 + 并行化的分支定界算法 没咋看. 这个领域比较陌生, 与笔者关注的内容八杆子打不着边 |
| ns-3-leo | 基于 ns-3 的 LEO Simu | 2 | 过于古早, 没啥看点, 可以学一下 "模拟器做实验对本领域有何作用" 的写作方法 |
| 论文 | 核心 | 推荐系数 | 亮点与评价 |
|---|---|---|---|
| NemFi | 针对 WiFi 的基于 Trace 的模拟器 | 3 | Mahimahi是HTTP流量重放, Sprout是Cellular流量重放, 而 NemFi是WiFi流量重放 WiFi与前两者不同点是: WiFi基于竞争的共享介质 + WiFi队列小且PHY速率时变 做法: 单向饱和链路 + 速率控制/加权轮询 + 帧聚合机制实现 |
| MobileInsight | |||
| MobileIns 5Years | |||
| OpenAirInterface | |||
| Zhuge | |||
| AFR | |||
| Hairpin | |||
| Sprout | 从"反应式拥塞控制"转变为"预测性流量控制"的Cellular E2E Protocol | 5 | 好论文, 算是Replay的开山之作, kw确实是神 核心: 用数据包到达时间作为拥塞信号, pkt-arrival符合泊松过程, 接收端贝叶斯推断, 发送端根据预测结果实时调整发送窗口 其他亮点: 给出 Cellsim, 提出 Record and Replay 做法 |
| PBE-CC | |||
| ABC |