大量资本涌入,图数据库要火?
校对 | 中国软件网 陈杨
---
早在上个世纪九十年代,数据储存意识就已经深入企业内部。随着市场环境变化及企业自身发展,绝大部分企业完成数据储存建设的同时,对数据存储的功能需求也在不断地增加演进。
而随着数据驱动决策越来越深入人心,企业对把数据转换为资产越来越关注。于是在数据资产化的道路上,各类产品、技术、解决方案层出不穷。
所以数据资产化到底在资产化什么?就像人力资源、资金资源、空气水一样,数据能够为企业带来怎样的价值。事实上,数据资产化就是要推动数据辅助企业精进业务:通过理性有效的数据分析推动企业进行高效决策。
2021年开年,图数据库新锐TigerGraph宣布完成1.05亿美元C轮融资,成为迄今为止行业中最大单笔融资。资本的涌入,让图数据库再以新的势头进入大众视野,越来越多的舆论认为图数据库大火,甚至成为未来的趋势。但,事实果真如此吗?
图数据库“亮”在哪
图数据库,以图结构进行语义查询,使用顶点、边与属性来表示和存储数据的数据库。换句话说,图数据库即基于图模型,对数据进行存储、操作和访问,与关系型数据库中的联机事务处理(Online Transactional Processing,OLTP)数据库类似,支持事务、可持久化等。
从概念上来看,图数据库并没甚值得称道的地方。而从图数据库的实践案例中来看,其到底有何优势值得一火,一目了然。
在金融行业中,信用借贷一直是数据被给予厚望的场景。要降低借贷门槛,又要减少用户违约、失联等风险,这需要大量的用户数据,来支撑借贷方掌握用户的风险值,这种工作的频度甚至达到日级。在这个过程中,数据量实时不断增加、计算能力压力增大,随之而来的是耗时耗力中伴随的风险值增加,提升风控效率一直是急需解决的事项。
图数据库为其带来的改变是:首先,帮助借贷方构建用户之间的图关联。从用户顶点出发,根据各种属性(如账号、交易、资金、地址、手机号等)之间的关系进行连接,进而找到显性或隐性的用户社会关系,通过实时不断的连接从而更精准地计算出用户的风险值。
其次,在图数据库平台上,基于对数百亿节点数万亿边的大图进行操作,识别与失联用户相关度最高的顶点,例如经常出现的快递寄送点、寄送用户等属性,通过自动化修复失联数据,进而提升人工效率,挽回损失。
在能源行业,电力运维是一种非常智能的场景,发电厂、铁塔、变电站、用电设备等节点构成的物理网络,对于图数据库具有天然的亲和力。在运行过程中,随着节点不断增加、需求响应负荷大规模发展,电网各业务部门之间迫切需要打破数据孤岛,实现“全网”状态实时感知,敏捷响应,随需迭代等智能电网能力。
图数据库在做的是,首先将电力网络中实体和关系映射为图,通过自动化的关联,从而节省电流检查作业/全网状态评估作业的时间,实时储存数据并接入新的联系。
其次,在电力运维预案中,图数据库在提升庞大节点管理和关联分析上发挥了高性能的优势。以供电设备节点为顶点,通过演练来分析其节点关闭带来的影响,从而合力规划设备调整并提前预警。
图数据库架构 来源于星环科技官网
从这两个典型案例中不难看到,图数据库所表现出来的优势主要有两大点:
一、极具敏捷性、高拓展性。图数据库能够自动化建立节点关联,实时完成数据拓展联系补充,从而支持图计算在海量数据关系运算中,处理大数据关联分析的分析计算;
二、高效查询功能。用图数据库支持大视图下的快速导入和高效查询、快速完成百亿级数据导入实现毫秒级查询响应。
02
大宏图 小规模
2019 年,Gartner在数据与分析峰会上首次将图数据库列为 2019 年十大数据和分析趋势之一,并预计到 2022 年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长,2020 年保守估计为 80 亿美元。Gartner认为市场尚处于蓝海,竞争却遍布全球。
在现实中的情况却是,图数据库已经具备了比较成熟的产品及实践案例,但截止目前,图数据库的应用范围仍然较小。例如,在国内图数据库主要被应用在金融风控、推荐、社交、故障运维、销售等场景,而用户也多集中在大型金融方、电商、社交服务商等。不难看出,图数据库的应用是非常具有针对性的、高门槛的。
在国内,图数据库行业起步略晚,市场也尚未形成规模。据中国软件网记者不完全统计,目前国内出现频率较高的图数据库产品主要有一下11种,这些产品的厂商们主要有互联网厂商、大数据公司以及原生图数据库公司:
中国软件网整理
通过观察可以发现,从产品功能层面,可以将图数据库产品大致划分为三大类:偏查询类(联机事务图)、偏分析引擎类、偏图计算引擎(离线图分析)。例如,杭州欧若数网科技Nebula Graph,支持多种后端存储、计算下推、Space 支持多租户物理隔离、属性查询等;星环科技Transwarp StellarDB,面向属性图(Property Graph)的综合性分布式图数据库,能够支撑千亿边规模的超大图,为业务人员提供存储、查询和分析图的能力;腾讯云数图TGDB(Tencent Graph Database)通过支持PageRank、社群发现、相似度计算、模糊子图匹配等社群发现算法进而实现高性能图计算。
从技术层面来看,分布式图数据库成为主流。例如,蚂蚁金服的分布式图数据库GeaBase、字节跳动的分布式图数据库ByteGraph等,分布式扩展、分布式架构容灾方案等设计,从多个方面确保图数据库储存、查询、分析、计算高性能运转。
蚂蚁金服GeaBase风控场景 来源于蚂蚁金服官网
从存储方式上看,目前图数据库产品多采用连接第三方存储而非原存储方式,并不断优化性能。例如,百度安全HugeGraph图数据库,支持与Hadoop、Spark、HBase、ES等大数据系统集成以及多种Bulk Load操作,从而实现海量数据快速插入等。
从商用化上来看,原生图数据库公司实践表现不错。例如,费马科技助力京东金融强化风控等级、助力搜狗提升百倍搜索精度、助力国家电网设备节点关联分析;平安银行签约Ultipa Graph等。
03
下得功夫,方能成事
综上,高扩展性、灵活性、敏捷性等特征与优势,使得图数据库当前尽管处在“幼苗”期,但其发展壮大的路径是有迹可循的。那么,图数据库大火的机遇在哪?
建立原生数据库,同时要支撑灵活部署与迁移。在图数据库关键的高可拓展性能中,需要其建立自身能够用于处理高度连接数据的查询与存储数据库,以支持数据激增中创建、读取、更新或删除 (CRUD) 等实时动态变化需求,从根本上改变数据的存储、处理的速度、安全性和成本,提升敏捷性。同样与之相对应的是,在数据存储的过程中,图数据库也要解决多种数据库类型的关联问题,从而满足数据调度、迁移。
持续高性能运转,支撑复杂分析功能。支持更高遍历的复杂分析、查询执行,以亚秒级响应能力为目标。与此同时,加深图数据库深度应用,推动更多复杂分析能力集成。
优化便捷应用。在面向技术开发人员中,零代码开发方式将为图数据库带来更多竞争优势;面向企业用户,图数据库急需优化用户自定义索引和查询语言,降低操作门槛。
随着海量数据关联性越发强烈和复杂,图数据库的优势将会愈发凸显。此外,与其他“类型” 的数据相比,图数据库的融合性也将是其招牌。但不得不重视的是,图数据库要大规模应用,根本的还是产品技术本身急需突破。
加入活动社群请添加微信
赵满 18519353155