最近，yolo之父Joseph Redmon退出CV界以表达抗议，拒绝AI算法用于军事和隐私窥探。计算机视觉这把双刃剑已经日益深入到我们的生活，虽说大神已经退圈，但我们的研究还是要继续。为了实现一套CPU独立可运行的高效人体跟踪方案，尽量降低程序的时间复杂度和空间复杂度，可应用在资源有限的嵌入式设备中，我测试了多种主流的开源算法，今天与大家一起分享。整个方案主要分为两大部分，目标检测+目标跟踪：
为了实现高效的人体跟踪，我测试了这些开源CV算法

一、目标检测

说到目标检测，大家脑海里可能浮现很多检测的方法。在以前，大家可能是通过传统的图像处理，手工提取特征描述子，利用滑动窗+SVM的方案来实现检测。比如在2006年，就有人通过HOG+SVM的方法实现了行人检测。随着计算机算力的逐步提高，2012年CNN在ImageNet大赛中一鸣惊人，以高出第二名近10%的成绩将深度学习推向热潮。卷积神经网络在分类器上取得显著成效，人们很快将其应用在了目标检测当中，于是乎就有了RCNN、Fast-RCNN、Faster-RCNN三兄弟。
为了实现高效的人体跟踪，我测试了这些开源CV算法

图1 ALexNet网络结构

为了实现高效的人体跟踪，我测试了这些开源CV算法

图2 RCNN算法流程

2016年，yolo算法提出了一种新的单阶段检测方案，后面逐步优化，出现了v2,v3的版本。单阶段的方法省去了生成候选区域的（RPN）的步骤，所以其速度相较于二阶段的算法来说有很大的优势，但是其对于小物体的检测效果较差。从图3我们可以看出，yolo v3的速度是优于其他网络结构的。
为了实现高效的人体跟踪，我测试了这些开源CV算法

图3 Yolo算法性能对比

我使用的就是这个单阶段的yolo算法。在不使用GPU的情况下，为了提高检测帧率，人们逐渐把网络结构进行裁剪，在牺牲少量精度的代价下提升速度。最终我采用的是yolo-lite的模型，经过实验，在笔记本中，其运行帧率能达到10fps。以下是几种yolo模型的性能对比：

模型	运行环境	Fps
Yolov3	GPU	11
Yolov2	GPU	23
Yolov2-tiny	GPU	>30
Yolo-lite	GPU	>30
Yolo-lite	CPU	10

（笔记本配置：CPU: i7-6700HQ GPU:GTX960M）

二、目标跟踪

在检测帧率达不到实时性或者检测性能不稳定的情况下，我们经常会使用目标跟踪的方法来弥补前者的缺陷。在目标跟踪这个赛道上，OTB50和OTB100是各种tracker必跑的数据库，我测试了在这个数据集中表现较好、速度较快的几种目标跟踪算法。

压缩跟踪（CT）

这是一种简单高效的基于压缩感知的跟踪算法，作者使用非常稀疏的测量矩阵从多尺度图像的特征空间中提取特征、建立模型，然后使用相同的稀疏测量矩阵对前景和背景进行压缩，最后利用朴素贝叶斯分类器将跟踪任务表示为一个二分类任务。算法的流程图如下：

为了实现高效的人体跟踪，我测试了这些开源CV算法

图4 CT算法流程

这个算法运行速度非常快，平均帧率能在100fps以上,对于一些形态变换不大的物体，其跟踪效果较好，但对于一些运动较为复杂的情况，这个算法还不具备鲁棒性。由于不具备尺度适应性，如果目标尺度变小后，容易学习到一些背景信息，导致跟踪失败。
为了实现高效的人体跟踪，我测试了这些开源CV算法

CT跟踪效果

Pysot

这是一个由商汤科技开源的一款基于深度学习的目标跟踪库。他实现了目前SOTA的多个单目标跟踪算法，该项目是用Python编写，基于PyTorch深度学习框架。其中总共包含了多种目标跟踪算法，同时也提供了多种backbone，我测试了其中siamrpn_r50模型的效果，其跟踪的效果很稳定，并且具有很强的鲁棒性，但是这种基于深度学习的算法比较依赖于算力，在显卡内存2GB的笔记本上运行帧率只有7.4左右。
为了实现高效的人体跟踪，我测试了这些开源CV算法