随着物联网、电子商务、视频网站、安全城市视频监控、微博、微信等应用的快速发展,全球的数据信息呈现爆炸性增长。据统计,2012年全球电脑用户平均每天产生超过200亿GB的数据。沃尔玛每小时处理的客户交易超过100万次;亚马逊每天产生600万份订单;推特每天发布超过5000万条消息;Facebook的照片数量达到400亿张;YouTube网站用户每分钟上传50小时的视频;谷歌每天处理的搜索请求超过30亿次;安装了20万个高清摄像头的安全城市每天至少产生1PB的视频数据。这些结构化、非结构化以及半结构化的海量数据统称为“大数据”。
大数据指的是无法在一定时间内通过传统数据库软件工具抓取、管理和处理的数据集合。大数据技术旨在以经济高效的方式快速采集、发现和分析大量、多样化的数据,从中提取有价值的信息。大数据与云计算相结合,成为IT领域新一代的技术与架构。
行业普遍认为,云计算的核心在于业务模式,本质在于数据处理技术。数据被视为一种资产,云计算为数据资产提供了存储和访问的场所和渠道。如何挖掘数据资产,使其服务于商业运营、企业决策乃至公共安全,是大数据的核心议题,也是云计算发展的必然趋势。
目前,通过用户行为分析实现精准营销是大数据的一种典型且成功应用。然而,大数据在各个行业,尤其是公共服务领域,具有广阔的应用前景,包括安全、气候、医疗甚至军事等领域。
Hadoop作为大数据技术的核心,具备分布式存储架构(HDFS)和分布式计算框架(Map-Reduce)。Hadoop架构非常适合一次写入多次读取、高效计算和海量数据的存储及分析计算。高清网络视频监控恰好符合这些特点,视频资源通过网络分布存储(在不同节点),视频数据一旦写入,很少需要修改,但需要多次读取(如录像回放),并有高效计算的需求(如视频实时分析及二次分析等)。
结合视频监控的特点,引入Hadoop架构,可以解决许多当前视频监控系统存在的问题,当然也会带来一些新的挑战。
Hadoop平台的HDFS架构使得算法能够在多个节点上并行处理,从而提高视频分析的速度。HDFS系统将海量视频数据分布存储在集群的所有数据节点中。在客户端提交任务后,Hadoop根据“移动计算比移动数据更经济”的原则,将任务分配给集群中的各个DataNode节点的TaskTracker。每个TaskTracker运行自己的任务,调用本地DataNode上的视频进行处理。由于Hadoop利用了集群的能力,大大加快了海量视频的处理速度。
视频转码(Video Transcoding)是指将已压缩编码的视频流转换为另一种格式、分辨率或帧率的视频流,以适应不同的网络带宽、终端处理能力和用户需求。视频转码技术主要应用于视频广播转码、媒体网管、多媒体会议、医疗影像和视频监控等领域。转码本质上是一个先解码后编码的过程,因此转换前后的码流可以遵循相同的视频编码标准,也可以不遵循。视频转码过程需要大量的计算资源,因此适合使用Hadoop这样的分布式存储及计算架构来实施。
Hadoop作为一个重量级的分布式开源框架已经在大数据处理领域发挥了重要作用。企业希望通过Hadoop来规划未来数据处理的蓝图。从EMC、Oracle到微软,几乎所有高科技公司都宣布了自己的以Hadoop为基础的大数据战略。安防行业的领军企业也开始在“雪亮工程”和城市智能交通管理等方面部署大数据技术。