大数据是一种无形的资源,在2020年,全球产生了大约59ZB的数据,并且这一数字预计在2024年达到149ZB。大数据指的是在短时间内无法通过传统软件工具捕捉、管理和处理的数据集合,需要新的处理模式来增强决策力、洞察力和流程优化能力。尽管大数据的定义尚未统一,但其主要特征包括数据量巨大、多样性、高速生成、高价值和真实性。
科学大数据与普通大数据有所不同,它揭示了自然科学和社会科学之间的复杂关系。科学大数据通常包含自然现象或科研过程的高度相关性和多维度数据属性。大数据的特性之一是高复杂性,定义其边界并不容易;另一特性是高不确定性,因为科学大数据来源于对自然过程的获取,具有很高的不确定性;此外,大数据还具有高价值。
大数据技术涵盖多个方面,包括数据接入、存储、分析挖掘、共享交换和展示等。这些技术在不断发展和完善。
“数字地球”是一种能够嵌入海量地理数据的多分辨率、真实地球的三维表示。地球大数据是第四范式(即数据密集型范式)的典型例子,这种范式是在实验科学、归纳总结和计算机模拟之后出现的第四种科学研究范式。
地球大数据作为大数据的一种特殊类型,在数据量、多样性、高速生成和真实性方面具有独特特点。数据量巨大,包括PB级别的遥感影像数据、实时传感器观测数据、地理位置相关的社交媒体数据和大量的志愿者地理信息数据等。数据多样性体现在不同类型的数据,如地图数据、图像数据、带有地理标签的文本数据、结构化和非结构化数据、栅格数据和矢量数据等,这些数据需要更高效的模型、结构、索引和管理策略。数据生成速度和处理速度要与之匹配,以满足实时需求。由于许多地理空间大数据的来源未经验证,其准确性存在差异,这要求对数据质量和分析结果的质量进行评估。
地球大数据处理涉及数据收集、质量评估、建模和结构化、可视化和分析、数据挖掘和知识发现等环节。
接下来介绍遥感大数据。遥感大数据是以海量遥感数据集为主,结合其他多种来源的辅助数据,运用大数据理念和技术手段,从海量遥感数据集中提取行业价值信息的理论、方法、技术和实践的统称。随着遥感卫星、导航卫星、地球物理卫星和各种观测仪器的增多,来自太空的地球大数据正在成为大数据研究的主要领域。它表现出大数据的科学特征,如海量数据、多种来源、异构性、多时间性、多种规模和非稳定性。地球大数据涉及到地球观测技术、通信技术和计算机技术,为地球科学研究提供了新的机会,促进了地球科学的深入发展,并有助于取得重要发现。
遥感大数据的发展涵盖了数据获取、数据管理、数据分析和数据应用等多个方面。遥感大数据的来源包括卫星、无人机等多种载体,数据类型包括光学、影像等多种形式,数据覆盖范围包括全谱段、全天域等。遥感大数据的特点包括大容量、多样性、高效性、难以识别和高价值等,同时具备高维度、多尺度和非稳定性等内部特征。遥感大数据的复杂性包括数据复杂性、计算复杂性和系统复杂性等。
遥感大数据带来的挑战包括对不同空间尺度地理目标进行多层次分析,例如对生态中山体滑坡的研究。不同分析方法、多时相方法、高频率观测、背景知识、专业知识缺乏等因素都会带来挑战。针对这些挑战,正在探索不同的解决方案。
未来遥感大数据的发展方向包括多类不确定性的建模、多源遥感信息的融合、机器学习方法的应用、遥感大数据分析和可视化的统一架构、基于知识驱动的定量遥感的大数据挖掘等方面。
总结起来,遥感大数据面临的最大挑战是如何利用大数据发掘出全新的知识,从而更好地服务于用户。