跳转至

Region-based Content Enhancement for Efficient Video Analytics at the Edge

核心背景与挑战

  • 边缘视频分析通常受限于老旧的摄像头硬件和有限的上行带宽,导致视频质量受损,进而严重影响下游分析任务的准确率
  • 引入超分辨率等“内容增强”模型可以有效提升准确率,但这类模型的计算成本极其高昂
    • 直接对所有视频帧进行增强会导致极高的延迟,甚至会与分析任务抢占计算资源
  • 现有的“选择性增强”方案(仅增强部分帧然后复用结果)虽然能一定程度上提升吞吐量,但在机器视觉分析任务中会导致显著的准确率下降

作者的关键发现

  • 在一帧图像中,真正有助于提升分析准确率的区域(被称为 Eregion)通常只占很小的比例,在超过 75% 的测试帧中,其占据的面积不到 25%
  • 增强模型(DNN)的时间开销与其输入尺寸呈强正相关关系,只要减小输入图像的尺寸,就能有效降低增强延迟

RegenHance 三大核心组件

  1. 基于宏块 (MB) 的区域重要性预测:

    • 为了避免在识别重要区域时耗费过多时间,系统将视频编码中的“宏块”作为最小粒度
    • 并训练了一个超轻量级的图像分割模型来快速预测原始帧中宏块的重要性
    • 同时,结合 1/Area 算子在时间维度上复用连续帧的重要性预测结果,进一步提升效率
  2. 区域感知增强器:

    • 由于筛选出的高价值宏块在画面上是稀疏且不规则分布的,而 DNN 只能接受矩形输入,系统设计了一个二维装箱 (Bin Packing) 算法
    • 该算法能够跨数据流优先选择重要性最高的区域,并将这些不规则区域“拼接”成密集的张量矩阵,再送入增强模型以最大化吞吐量
  3. 基于配置文件的执行规划器:

    • 为了解决边缘设备资源紧张的问题,规划器会在离线阶段分析设备的硬件预算以及各项任务的特性,并通过动态规划来决定解码、预测、增强和分析等各个在线组件的最佳资源分配与 Batch size
    • 从而在满足延迟目标的前提下最大化端到端吞吐量

跟笔者研究领域关联不大, 如果做 OEC 的话倒是可以看看~