关系型数据库自上世纪70年代由IBM研究员埃德加·科德博士提出以来,经过几十年的发展,已成为企业数据的主要存储方式。然而,由于互联网的迅猛发展,数据量激增,非关系型数据库逐渐兴起,特别是在需要低延迟和高并发处理的不同类型数据结构方面。这类非关系型数据库包括键值数据库、列存储数据库、文档型数据库和图数据库。
最近,36Kr接触到了一家专注于图数据库技术的公司——创邻科技,该公司成立于2016年8月。创邻科技的核心技术是自主研发的图数据库,该数据库具有强大的信息叠加能力和实时数据读写能力,能够提供银行级别的事务一致性支持。此外,创邻科技还开发了一个名为“创邻天机”的认知计算平台,该平台集成了图存储、查询运算和数据挖掘等功能,提供了基于关系的算法和分析工具。
为什么选择图数据库呢?传统的关系型数据库基于表结构和结构化查询处理数据,适合二维数据记录,但在处理数据维度增加或关联复杂的情况下,传统数据库所需的计算资源难以优化,且耗时较高。因此,侧重于数据复杂关联性的图数据库应运而生。图数据库由大量节点和边组成,可以对节点和边添加属性信息,实现对数据的结构化表达。例如,在社交网络中,用户作为节点,好友关系和访问记录作为边,节点的属性记录用户信息,边则包含时间、关系等信息,从而实现快速的多度关系查找,比关系型数据库效率高出数千倍。
创邻科技创始人兼CEO张晨博士告诉36Kr,回国后他发现国内搜索引擎尚无图数据库的相关信息。近年来兴起的知识图谱虽然更强调知识内容,但也是图数据库的一种应用场景。目前,国内图数据库的应用还处于起步和验证阶段,主要应用领域包括反欺诈、问答系统和基于地理位置的资源调度等。
在金融领域,图数据库对于识别团伙作案和黑产起到了重要作用。目前,创邻科技正与多家银行合作进行概念验证测试,以验证图数据库的效果。在已部署的实时信用审核系统中,创邻天机计算平台能够在数百个并发读写请求下,亚秒级完成基于20多亿节点和边的大型用户图谱的数十项深度图特征变量和数百个机器学习变量的运算,实现了实时审批。
创邻科技能够帮助企业客户从海量数据中提取人、事、物、地点、机构和账户等多重信息,构建关联关系图谱,并通过多台机器分布式高效地进行大规模图数据分析。用户无需掌握编程技能,只需通过可视化界面即可轻松部署算法、构建模型,并实时查看计算结果,从而挖掘隐藏的数据关联并监控数据异常。这一认知计算平台简化了图分析过程,使专业人员能够更加专注于业务逻辑。
张晨博士介绍,创邻科技的图数据库具有无限横向扩展能力,能够处理千亿节点的大规模图结构,并在分布式集群环境下实现强一致性的事务处理。其数据关联查询性能较当前国际同类技术快数十倍,比传统关系型数据库快数千倍。为了简化数据科学工作,创邻科技在图数据库可视化展示方面也申请了自己的专利。
目前,创邻科技提供的服务模式包括公有云部署和按调用次数计费,推广过程中整合了百度云的渠道资源。但企业客户交付周期较长,未来还需在不同场景下进行更多验证和标准化工作。
张晨博士表示,信息技术的发展将推动未来复杂信息网络的紧密连接,其中包括人、地址、电话、智能音箱和汽车等信息网络的参与者。从长远来看,图数据库能够聚合信息,形成规模效应,帮助所有参与者实现信息价值的挖掘。这种信息网络本质上是复杂的图结构。
张晨博士是加拿大滑铁卢大学计算机科学博士,曾在麦吉尔大学担任博士后研究,本科毕业于浙江大学竺可桢学院。他在分布式并行系统研究领域有着丰富的经验,曾在美国运通公司从事金融风险管理领域的数据科学研究。创邻科技的创始团队成员均来自浙江大学及海外知名学府,公司高度重视自主知识产权的核心技术研发,包括分布式系统、数据库和复杂网络算法等。
创邻科技是“中国留学人员回国创业启动支持计划”2017年的五个重点项目之一,于2017年7月获得了BV百度风投的千万级天使轮融资,并计划在今年启动新一轮融资。
(感谢36Kr作者郑铟对本文的贡献)
我是持衡,36氪超人学院学员,关注科技、机器人等领域,相信软件定义世界的价值。如需进一步交流,请加微信xc__bb(注意有两个下划线),注明姓名/公司/来意。