国产数据库乱象(文末送书)

Python客栈

共 3909字,需浏览 8分钟

 ·

2022-07-23 13:32


其实这篇文章是我周末开始写的,写这篇文章的这个周末,我的很多时候都是在思考一个数据库国产化替代的建设方案,翻阅了大量的资料。今年正好是我参加工作后的第31个年头,工作的最初十年,我写了十年代码,从汇编、COBOL到C语言,写了几十万行代码;随后的十几年,我一直在帮助用户用好数据库,也在帮助Oracle推广RAC技术;2015年开始,我一边继续从事数据库优化的工作,一边在帮助客户如何从Oracle迁移到成本更低的数据库系统上。所以对国产数据库我一直有一种十分特殊的情感,这是一种爱恨交织的情感。所以今天最后用“乱象”这个题目的时候,还是有些犹豫的,在国产数据库发展如火如荼的时候,泼这盆冷水合适不合适。

根据工信部数据库发展白皮书2021的描述,截止2021年6月底,光是国产关系型数据库厂商就已经高达81家,估计马上要发布的2022版里突破100家甚至150家都是很有可能的。相对于十多年前的寥寥数家,这些年国产数据库产业的发展确实是十分迅猛,用野蛮生长来描述也不为过。这些新兴的国产数据库厂商里,也不乏具有相当强大基因,投资巨大,真正认真在做数据库产业的企业,不过大洪水下肯定也会泥沙俱下。原本就起步较晚,人才储备、资金投入都不太足够的国产数据库产业,再被割裂为这么多的细小单位,每个独立个体的真实能力就很值得怀疑了。无论是CPU,服务器,操作系统,中间件这些IT基础设施,投身于IT基础设施中的王冠的企业没想到有这么多,这不知道是中国数据库之幸还是中国数据库的灾难。

上周五我在一个沙龙上分享了一些关于基于业务场景的国产数据库选型的演讲,并不是开门见山的去讨论业务场景和数据库选型,而是从对国产数据库厂商的分析开始的。这些分析都是基于工信部的产业发展白皮书的内容。


从成立年限上看,我们的国产数据库企业还很年轻,不过成立20年以上的企业还是有十四家,只不过这些企业的这20年并不好过,以数据库产品销售为主业根本生存不下去。因此虽然有20年的历史,实际上真正的历史恐怕要打些折扣的。


只看历史可能还无法直接感受到差距,而从从业人数上看,就可以看到国产数据库产业碎片化的恶果了。超过60%的数据库厂商不足100人,而超过500人的企业不足10%。对于想摘取IT基础设施王冠的中国数据库企业,最大的企业的规模可能还不如某个哪怕二三流的国外数据库厂商的一个小研发部门的规模。如果把人员再细化为管理、研发、产品、市场、销售、后勤等部门,恐怕研发人员就更是少的可怜了。据说目前国内最大的数据库厂商的研发人员不足500人,这就是中国数据库企业的现状。


如果我们再来看看技术层面的东西,从专利数量上看,90%的数据库企业的数据库领域的专利数少于100件,所有的关系型数据库厂商的专利数加在一起不足4000件,而截止2020年,Oracle公司一家企业的专利数就超过1万4千件。

在技术基础薄弱,人才匮乏的情况下,为什么一下子能涌现出如此多的数据库企业和产品呢?从国产数据库的技术来源分析上我们就可以看出一些端倪了。


上面这个图表是我们根据收集到的资料自己做的,不一定十分准确,不过可以大体反映出国产数据库的技术来源。大多数是来自于开源项目。因此才会出现大量的规模较小的数据库企业。使用开源技术来发展自己的数据库产业并不是一件坏事,实际上我还是比较赞成的。充分利用开源技术能够加速国产数据库产业的发展,缩短与国外头部企业的差距。不过利用开源技术不等于完全依靠开源技术,而是应该在开源技术基础上进行大量的自主创新,加入自己的技术。比如国内有很多利用PG开源代码的数据库产品,有哪家公司对PG的源码的理解程度,对PG社区的贡献能够达到俄罗斯POSTGRESQLPRO的水平呢?可喜的是,在这种乱象后面我们已经看到了一些数据库厂商开始了自主化的创新,在开源代码的基础上已经走得很远了,我想再有几年的积累,一定会突破开源技术上的某些瓶颈,走出自己的自主化道路。

数据库的代码自主化率一直是个迷,如果看工信部的代码自主化测试报告,那么绝大多数号称国产自研的数据库产品都能够拿出很高自主化率的报告来,而且动不动都是95%以上的。我曾经测试过一个号称代码自主化率超过95%的数据库产品,其SQL引擎是完全“兼容”MYSQL的,存储引擎用的不是INNODB。有一次一不小心我把一个不太常用的MYSQL原生态的参数调整了一下,没想到,SQL引擎的工作模式居然按照参数的要求调整了。如果仅仅为了保持MYSQL语法的兼容性的自主化代码,连这种细微之处都模仿的如此完美,那也太牛了吧。

虽然国产数据库的专利很少,不过这不影响国产数据库弯道超车,如果不能把Oracle拉出来吊打一番都不好意思说自己是国产数据库。而真实的应用场景下却反映出来我们的国产数据库在CBO和SQL引擎方面与Oracle差距甚大。我也曾经和一些数据库研发人员做过深度交流,他们也承认,要在数据库上缩短与Oracle的差距是十分困难的。无论在人才积累、资金投入和实际应用案例的反馈等方面都存在巨大的差距。特别是第三点,导致Oracle可以不断从生产环境中发现优化器的问题加以改进,而我们甚至都不知道优化器改进的目标,更不要谈从架构上去规划优化器的发展路线了。

虽然我们的国产数据库还无法解决用户迫切需要的SQL引擎和优化器的提升,不过并不妨碍我们在其他一些领域上进行创新。在各种宣传资料上,HTAP已经成为了国产数据库的标配功能,不过我想一些国产数据库厂商自己都没几个人真正的懂得什么是HTAP。他们号称的所谓HTAP大多数只是一个OLTP数据库上具有一定的批处理能力而已。OLAP的计算场景和OLTP是完全不同的,OLTP要求资源均衡分配,每次执行的延时稳定并且尽可能段。而OLAP要求的是小并发下的大型甚至巨型计算,利用并行执行充分利用服务器的资源,尽可能把CPU/内存/IO的能力都充分压榨出来,完成复杂的计算,大吞吐量的数据输入和输出。一个连资源隔离都做不好的数据库产品,如何支持HTAP中两种会互相伤害的计算场景呢?我见识过的大多数号称完美解决HTAP问题的数据库产品,实际上都不真正具备可实用的混合负载能力。仅仅是在某些测试环境可以表现出一些能力而已。

虽然如此,也并不能阻止HTAP成为很多企业招标中的参数指标,我不知道是采购单位是真正需要这种计算能力,还是仅仅以此来党同伐异的噱头呢?

最后一个乱象是评价体系的乱象,每年都会出台各种所谓的国产数据库排行榜,不过这种排行榜似乎有点排排坐吃果果的感觉,第一名和第二十名的评分不超过5分,前几天我看到一个榜单,第一名和第十名的分差只有1分多。如果我是一个企业的IT主管,会有一个感觉,这个榜上的产品,随便选都不会有多大的差别吧。墨天轮有个国产数据库流行度排名,是模仿DBENGINE的,算是目前比较全的常态化榜单了。不过墨天轮上的关于数据库的介绍资料仅仅也就是各个数据库厂商提供的宣传资料,并无相对客观的第三方评价。所有的评价体系和排行榜都是当好好先生的,这很不利用国产数据库的发展。

国产数据库现在迎来了最好的发展机遇,我们已经看到了芯片,服务器、安全等领域都在这个机遇到来时显现出了勃勃生机。而在我相对熟悉的数据库领域,我看到的只是一种表面的繁荣,并没有看到一种良性的发展趋势,希望这种局面很快会有所改观,希望国产数据库产业能够异军突起。

Python客栈联合北京大学出版社送书啦~~

01


人工智能技术基础

推荐理由:

一本书打好技术基础,轻松玩转人工智能无限制。人工智能有很多应用的使用平台,但很多平台需要注册才可以使用,本书中涉及的技术源码中有模块的支持文件,无限制,无须注册,使用起来很方便。全方位。针对人工智能主要的发展领域:应答机器人、图像识别、物体识别、语音识别、视频识别等层面都有原理的解释和应用的扩展,让读者能全方位开启对人工智能技术的认识。


02



人工智能原理与实践


推荐理由:

涵盖人工智能和数据科学各个重要体系,通过算法中最重要的理论推导和精华分析+六大典型AI和数据科学应用场景,深入浅出地讲解和展示机器学习应用的具体流程

全面:涵盖人工智能和数据科学各个重要体系经典:世界名校AI专业深造,国际大行实战经验系统:重要理论和公式层层推导,阐述深入浅出实战:六大典型AI和数据科学应用场景,透彻分析和代码实现


03


Kerberos域网络安全从入门到精通


推荐理由: 

详细分析kerberos域网络安全漏洞,有针对性介绍攻防对抗方,维护kerberos域网络安全,保证企业网络安全稳定运行。本书详细介绍所有域网络相关漏洞,并给出攻防对抗方法,让安全从业人员“知己知彼,百战百胜”。

2.国内首本成体系的kerberos域网络安全教程,填补域网络安全书籍空白。域网络安全非常重要,但是市场上关于域网络安全的图书都是国外引进,并不完全适应我国企业需求,本书则从国内企业的实际需求出发,介绍符合实际的攻防对抗方案,更有参考价值。



赠书规则:


活动截止时我们将从本文的留言中选出5位幸运粉丝赠送书籍~

注意哦,每人每月仅限一本书籍~


活动截止时间:2022年7月25日16:00整

兑奖截止时间:2022年7月26日16:00整

往期推荐
1用Python读写Word文档入门
2、Python 任务自动化工具 tox 教程.
3、漫画 | 重磅!七国集团决定制裁Go语言!
4、曾经的国民软件被华为踢出市场,小米也行动了
5、黑吃黑?男子破解赌博网站漏洞,每月“薅羊毛”10多万元
点击关注公众号,阅读更多精彩内容
浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报