在推进“互联网+教育”战略和深化教学改革的背景下,构建智慧教室成为学校创新教学环境、提升教学质量的关键举措。随着微课、MOOC等移动学习方式的兴起,将现代教育技术融入日常教学中,推动教学改革已成为教育界的热点话题。
传统的录播方式已无法满足人们对于高质量教学资源的需求。智慧教室具备智能高效的录制功能,可以根据不同的需求生成对应的教学文件。基于图像识别技术的录播系统不仅成为优秀的教学成果展示平台,还进一步推动了移动学习模式的发展。
自动录播系统主要包括跟踪定位系统、音视频信号采集与处理系统、录播主控系统三个子系统。录播系统能够完整记录教学过程,并根据授课时间自动生成教学录像。多路原始文件的保留模式使得编辑更加便捷。录播系统不仅可以以直播形式提供教学,还可以在网上重复播放。
跟踪技术是录播系统的核心技术之一,主要功能是在课堂中对教师和学生进行跟踪。画面质量直接影响受众的学习体验,而图像跟踪的准确性和实时性是关键因素。当前主要的跟踪技术包括:
红外线感应跟踪:通过在师生身上放置红外信号源,根据接收到的红外信号进行目标跟踪定位和摄像机拍摄方位调整。这种方式需要辅助设备,操作复杂,适用范围有限。
超声波定位技术:类似于红外感应技术,但使用超声波作为信号源,安装位置从人身上移到黑板、桌椅上。虽然操作简单、技术成熟,但无法确定拍摄对象的高度,精度也难以保障。
空间网格定位技术:将教室空间划分为多个矩形网格,通过计算师生的三维坐标实现追踪。这是一种先进的技术,但高昂的安装成本和高要求的安装性能限制了其广泛应用。
图像识别技术:图像识别技术能够根据师生在画面中的差异自动识别并进行动态跟踪。无需专门的信号装置,多素材输入也使得计算与优化更加精准。这是众多跟踪技术中最有效的方式之一。
基于图像识别技术的智慧教室系统主要由物理空间、交互空间、资源空间以及数据一体化组成。
录播系统产生的录播资源是智慧教室系统资源空间建设的主要来源之一。
图像跟踪定位模块:图像跟踪模块由四个子模块构成,它们相互合作,共同完成教室内师生的检测与跟踪。该模块根据图像差异匹配相应的控制策略驱动系统内的摄像机进行智能跟踪定位并对师生运动轨迹进行识别分析,从而实现对授课场景的特写、镜头切换等相关录制。在不同场景下,能实现多目标的追踪及镜头切换。
音源抓取与后期处理模块:音质的好坏决定了整体录播质量。录播系统中的音频数字信号处理能够有效处理噪声问题,达到优化扩音的效果。教室中的多个拾音器采集音频信号传到主控系统进行声音去分化处理,从而提高录制视频的音质。
录播主控模块:录播系统的核心模块是录播主控模块,其余模块皆为其服务。录播主机集数据采集、录播平台软件、数据处理于一体,系统集成度高,并能实现系统的小型化,便于操作。录播主控模块还能实现视频影音的智能导播、智能直播、摄像机的智能控制等功能。
视频录像时需要根据画面效果进行画面切换及人物特写,这意味着控制中心要清晰地知道画面切换的控制策略,并根据相应的输入对多个视频输入源进行数据切换。根据教学过程的特征以及可能出现的场景,给出了如图4所示的画面切换控制策略。
录播系统表现出的智能化主要依靠其目标跟踪策略,通过图像对三维空间建模并计算师生的三维空间坐标,从而实现定位及跟踪。由于师生在教室中的活动空间较大,因此根据他们的运动特性分别制定跟踪策略。
学生跟踪策略:在一般教学活动中,学生通常只会在回答问题时站立。他们大体上只会呈现纵向位移,因此只需在视频相邻帧画面中判断学生座位图像区域的图像轮廓是否发生明显变化。
教师跟踪策略:在教学过程中,教师占据主导位置,因此在授课过程中教师的移动更加随意,但大多数时候总是围绕在讲台周围。简化模型下,检测教师在讲台水平空间的位置信息和轮廓高度信息,根据这些信息调整摄像头实现定位跟踪。
基于图像识别的运动目标定位跟踪算法能够在课堂人数众多且背景复杂的情况下对视频流数据中的目标进行精确识别与跟踪。该算法将获取的视频流帧序列进行精细划分,并在帧序列处理中引入背景帧差目标检测算法以及特征识别目标跟踪算法。算法整体流程图如图5所示。
运动目标检测算法基于图像分割技术,通过剔除图像帧序列的固定背景检测出运动物体。然而检测的准确性受到光线变化、摄像机抖动、背景改变等因素的影响,这也直接影响了对后续目标的跟踪和行为分析的准确性。
算法比对:目标检测算法根据背景的差异划分成静态背景和动态背景两类。智慧教室录播系统中使用的摄像机在整个录播过程中相对固定,因此根据这一特性在教室目标检测算法中采用静态背景。基于静态背景的目标检测算法主要有三种,如表1所示。
改进背景帧差目标检测算法:智慧教室录播系统中有多个视频流数据采集点,也为同一目标提供不同的背景差比对,从而提高检测精度。建立一个符合要求的背景模型能在一定程度上减小光线、抖动等因素带来的干扰。采用高斯背景建模,由于智慧教室背景的特性,高斯背景建模采用混合高斯模型来对样品进行建模。高斯背景建模根据图像理论,连续视频帧序列的每个像素点在基础噪声的影响下,像素点的灰度值变化呈现出高斯分布。当特定帧之间像素差小于阈值时,则认为像素无明显变化即为背景;否则为目标运动区域,系统模型参数也应随着目标运动进行更新。
目标跟踪算法的核心理念是要保证检测出来目标在后续的跟踪过程中不丢失。因此运动目标检测更加注重标记的识别分析,不再需要高精度分析定位来区分目标。
算法比对:运动目标的跟踪是通过连续图像帧快速找到预先标记好的目标,其核心不是差别分析,而是采用高效且具有辨识度的标记方法使得在后续的追踪中标记能够清晰可见。目前的动态跟踪算法大致分为四类,如表2所示。
HOG+朴素贝叶斯目标跟踪算法:智慧教室拥有多个角度的视频数据输入源,这使得特征点的选择更加精细。HOG+朴素贝叶斯目标跟踪算法最重要的步骤是对视频帧数据中被跟踪目标的特征提取以及匹配。该方法框图如图7所示。
特征提取:特征提取需要提取被跟踪目标的特征点,该特征点能在整个视频帧图像中保持稳定不变。特征提取是目标跟踪中最重要的一步,需要抓住本质的特征点才能有效地提高特征辨识度。特征往往不能局限于一种,多元特征的提取才能更好地提高算法精确度。在提取特征点时,为了获得最大的特征信息量,采取方向梯度直方图(HOG)。HOG特征主要由被跟踪目标局部区域梯度方向的直方图组成,将图像局部的梯度统计特征拼接起来作为总特征,并通过边缘密度分布和目标表象进行跟踪定位。将HOG特征识别算法作为样本输入,通过倍增权值进行更新筛选,并设计分类器采集图像的HOG特征。
特征匹配:特征匹配是以特征点为基础,通过相应帧图像特征点比对,从而达到特征点之间的最佳匹配并在此基础上完成对运动目标的跟踪。为了提高算法的性能进而达到最佳匹配,采用基于朴素贝叶斯分类器的特征匹配来输出目标位置并不断更新分类器参数。
本文采用的目标检测算法充分发挥了帧差法与背景差分法这两种算法的优势。为了验证其在目标检测上的实际效果,通过三个算法的性能比对来分析其性能上的差异。
采用智慧教室录制的一段10分钟的高清教学视频。高分辨率的图像确保了更加精细的比对,从而避免了图像像素对实验的影响。视频中包含老师讲课画面、学生起立回答问题画面以及板书特写画面等。将此视频作为样本输入,通过算法判断运动目标出现的总帧数以及运动目标的大小。通过测定运动目标出现总帧数与预先测定的准确帧数比对,得到目标检测算法的准确性,其结果如表3所示。
通过表3可以看出,帧差法在检测速度上的优越性较大但精度较低,而背景差分法虽然检测速度较慢但精度较高。背景帧差法结合了两者的优势,在保证检测速度的同时也达到了90%左右的准确率,并且一定程度上克服了空洞问题。
根据智慧教室的特点采用HOG+朴素贝叶斯跟踪算法,为了验证此跟踪算法的实际效果,本文同样地比对三个跟踪算法的性能。其结果如表4所示。
将本文算法与基于灰度标识、基于角点标识算法进行比对,通过检测连续时间内有效动作跟踪帧与运动帧总数的比值得到跟踪的正确率。从表4中可以看出,本文算法的准确率高于90%,其跟踪的准确性相较于其他两种更具优势。
为了验证运动目标定位跟踪算法的可行性,同样选取教室摄像头录制的10分钟教学视频进行实验。实验结果图如表5所示。
从表5中可以看出系统定位跟踪的准确率超过了90%,基本能满足现场要求。对比教师跟踪与学生跟踪的准确率,可以发现教师跟踪的准确率较低,这是因为学生跟踪场景更简单单一。
基于图像处理的智慧教室录播系统是一套集音视频处理、主控人机交互以及多媒体软硬件配置为一体的协同运行系统。该系统通过研究师生在教学过程中的运动,进行实时的跟踪定位及镜头切换。该系统具有以下优势: