随着城市化进程不断加速,我国的人口和资源迅速向城市集中,城市化比例已经超过50%,成为世界上城市人口最多的国家。尽管城市化显著提升了生活质量,但也带来了复杂的社会环境,包括空间结构复杂、人口密度大、活动频繁、社会关系错综复杂、交通拥堵严重以及安全事故频发等问题。这些问题已经成为城市发展的一大障碍,给城市管理及公共安全带来了巨大挑战。
解决这些挑战的关键在于,管理者需要对城市中的复杂事件具备全面、及时且精准的理解,包括涉及的对象、行为、时间和地点等因素。然而,由于这些因素具有高度的动态性,现有的信息技术难以实时捕捉和感知这些变化,从而导致决策不够准确及时,服务也不够便捷高效。这已成为制约城市健康和可持续发展的主要瓶颈。
为应对这一挑战,“城市计算”应运而生。在大数据时代,多样化和群体化的信息感知方式使得城市环境下的信息空间、物理世界和人类社会逐渐融合,形成了一个具有闭环反馈机制的整体,即“信息—物理—社会”三元空间。这种融合系统是一个高度复杂且动态变化的体系,涉及到信息的获取、处理、传输、分析、理解和反馈等多个环节。
城市计算是一门跨学科领域,旨在通过对城市中大量异构数据的整合、分析和挖掘,实现三元空间的智能融合,为现代城市中的复杂事件提供高效的感知、分析和决策支持。早在2000年,IBM公司就提出了“智慧地球”的概念,随后城市数字化和智能化的相关理论和技术受到了国际学术界的广泛重视。《科学》杂志在2012年发表的文章强调了城市智能化的重要性,并指出,要实现城市或家庭的智能化,关键在于建立一个统一的智能化支持环境,将各类信息无缝整合在一起,形成有机整体。
近年来,城市计算在中国也受到广泛关注,并得到了政府的大力支持。国家在“十二五”科技规划中提出了城镇化、工业化和信息化三化融合的战略,并着重发展新一代信息技术、现代服务业和智慧城市等技术,以促进城市的可持续发展。此外,《国家中长期科学和技术发展规划纲要(2006-2020年)》中也特别提到了城市基础数据获取与更新技术、城市多元数据整合与挖掘技术、城市多维建模与模拟技术、城市动态监测与应用关键技术以及城市应急和联动服务关键技术等重点研究方向。
当前,我国的城市计算仍然面临一些挑战。首先是城市数据之间缺乏精确的时空耦合,数据来源多样且复杂,内容混杂,甚至存在矛盾之处。其次是缺乏对城市数据的智能分析,城市数据以多模态方式存在,时空跨度大,内容关联缺失,全局信息稀疏。第三,城市活动具有高度动态性,数据时效性不足,管理者难以及时作出决策。最后,城市情境关联式的决策支持不足,城市环境下的事件对象具有不可预测性,需要计算模型具备较强的现场适应能力。
为了应对这些挑战,我们可以利用日益强大的计算能力和大数据时代的跨学科融合,建立统一的表达方式,例如三维时空模型,以实现城市计算所需的数据基础。通过可视化分析和增强现实技术,可以将城市数据与现实场景无缝融合,辅助完成推理决策,从而实现人机智能的有机结合。
首先,我们需要构建城市场景的三维时空表达。城市中的非结构化信息需要依赖于三维空间信息,即城市对象与场景的三维时空模型。随着影像传感技术的发展,城市三维空间已经进入了空、天、地一体化的形式。激光测量技术的快速发展使得利用车载或机载激光雷达结合传统视觉技术能够快速获取城市空间信息,并进行大规模城市场景的三维建模。美国政府资助了许多科研项目,如加州大学伯克利分校的“大规模城市场景快速三维建模”和麻省理工学院的“城市扫描”项目。工业界如谷歌和苹果等公司也推出了基于互联网的三维地图及应用平台。国内企业如腾讯和百度也在积极研发类似的平台。随着移动设备的普及和传感器的小型化,业界已经开始考虑如何结合大数据和众包技术来构建智能城市,如使用来自互联网的300万张照片数据对罗马进行三维重建。在德国海德堡大学的“开放式建筑模型”项目中,用户通过在线平台标注位置并上传建筑的三维模型,逐步构建整个城市的建筑模型。
其次,我们需要对城市多模态数据进行语义计算与融合。尽管城市三维场景为计算模型提供了融合非结构信息的基础,但信息空间中的多模态数据仍存在语义融合的问题。为了完整描述城市对象及其互动关系,需要对多模态信息进行有效的关联和语义融合。
城市数据的语义计算与融合包括城市对象的三维空间定位、属性提取、属性关联分析等内容。现有的研究主要基于单一模态或低维度数据进行城市公共设施、地标建筑、绿地区域和商业区的定位,例如利用全球卫星导航系统和图像处理技术的城市交通导航定位。对于城市对象属性信息的提取,目前主要集中在单一模态数据上,属性信息相对简单,例如从航空或遥感图像中提取建筑物的形状、纹理或光谱特征。近年来兴起的细粒度物体识别为城市对象的精确标注提供了研究基础。在城市对象属性之间的关联方面,跨数据属性的迁移学习逐渐引起了人们的兴趣,典型例子包括文本分析中的词、词袋、主题模型等概念在图像和视频分析中的应用,如视觉词、视觉词袋、视觉主题模型等,这些方法大大推动了图像和视频中物体、场景分类和识别的研究。然而,目前的迁移学习通常只考虑两个属性之间的知识迁移,源空间和目标空间的数据属性较为单一,基于多种不同属性的协同学习理论和方法有待进一步完善。
多模态数据的语义计算与融合面临的主要挑战在于数据的跨时空关联、海量异构、属性特征不易提取等特性。可以充分利用人类视觉认知机理,将基于感知神经元的多尺度编码机理模型与多模态数据的分析理解相结合,并借鉴迁移学习的思想方法,将人类视听觉感知认知的原理推广到一般多模态数据上。针对影像数据分散度高、关联性差、局部冗余的特点,可以应用多摄像头影像数据的目标检测和跟踪方法,建立群体目标间的跨时空协同关联,探索跨时空影像对象之间的互动特点,特别是在复杂环境中的群体效应和突发事件下的认知规律。针对城市大数据的海量冗余、异构多源、动态变化的特点,可以应用多层次数据约简与非线性降维算法进行简化。此外,关键词提取、显著区域检测、几何测量、运动分析、物体识别等手段也有助于提取城市对象的属性特征。