2021年最值得期待的科技股是如何“与虎谋皮”的?
2月1日,大数据公司Databricks宣布完成10亿美元的融资,公司估值达到280亿美元。与2019年10月完成的F轮融资相比,飙升了近5倍。
依靠开源软件起家的软件公司,商业化过程中,都不可避免地会与云服务商有利益纠葛。但这家由Apache Spark初始成员创立的大数据公司,在这轮融资中,却出乎意料地赢得了全球最大的三家云服务商亚马逊云服务、谷歌云、微软,以及SaaS巨头Salesforce等的投资。
“与虎谋皮”的背后是怎样的需求匹配?Databricks手中究竟有几张王牌?
01
与云服务商“共舞”的两种道路
在典型的开源商业模式下,软件免费,厂商会收取支持和服务费用,如典型的“红帽模式”。在本地部署的软件世界里,这种模式或许可行,但到了新的云计算世界,就很难找到自己的位置。
通常来说,依靠开源软件发展的软件公司,会面临着两条截然不同的发展道路。
一条就是修改许可协议,然后依靠许可协议,走上与云服务商的合作发展之路。
1月15日,全球著名的大数据搜索与实时处理公司Elastic公司CEO Shay Banon就突然发文宣布:开源软件Elasticsearch和Kibana的其中一项开源许可协议将发生变更。
Elastic声称,此次许可协议变更对大部分免费使用默认发行版的社区用户没有影响,主要限制的是云服务提供商。
这并不是Elastic第一次更改开源许可协议。早在2018年,Elastic就曾更改过一次开源许可协议。
同样,在开源领域,早在2018年,数据库软件MongDB、Redis Lab、图数据库Neo4j等,就修改过相关的开源许可协议,试图改变其在数据库商业化方面面临被云服务商“吸血”的困境。
随后,MongoDB与阿里云、腾讯云达成合作协议,走上共赢之路。而与AWS等云服务商的合作在破局。目前,还很难说谁是赢家。
同时可以看到,近些年来,云服务提供商一直在使用开源产品,修改其代码,并开发托管(收费)服务解决方案版本。然而,修改后的代码将无法作为开源代码加以访问。而且,云服务商的商业行为也妨碍了开源软件公司商业化。
在开源许可下,如何实现盈利,实现更健康的发展,则成为开源软件公司面临的最大挑战。
另一路发展路径则是与云服务商合作,放长线,钓大鱼。
公有云在欧美国家已经成为主流。如果无法击败云服务商,那就加入他们。
首先成功的是数据仓库软件SnowFlake。它将自己变成了数据云服务商,并成为云服务商的用户,通过提供PaaS平台和SaaS服务,扩大云服务商和自己的收益。
刚刚提到的Databricks更是如此。Databricks的CEO Ali Ghodsi曾经表示,公司是依靠开源软件发展,但却有意识地将Databricks的业务模式与典型的开源商业模式区分开来。
Databricks CEO Ali Ghodsi
这种策略的一个很好的例子就是Databricks与Microsoft Azure合作。Databricks用户可以直接通过其Azure帐户购买其产品。本质上,Azure已成为Databricks产品的分销商,以增加双方的收入。
Azure也获得了通过每个新的Azure上Databricks群集出售更多计算基础结构和存储的好处。当然,此模型的挑战是要有足够的杠杆作用来协商公平的收益分享协议。
当然,Databricks不与微软合作,也拥有庞大且忠诚的开发人员社区,因此它具有与云服务商进行谈判的实力。
02
投资Databricks,云服务商看重什么?
2020年,云服务商们曾错过了收割数据仓库服务商SnowFlake IPO红利的机会。
2020年9月,云原生的数据仓库提供商SnowFlakeIPO时,市值达到330亿美元,此后不断攀升,一度超过1000亿美元。但是云服务商却没有抓住这一投资机会。
因此,当Databricks融资时,几大云服务商集体出动,就不足为怪了。
另外,由于云原生将成为新一代数据架构的主流标准,因此公有云所提供的对象存储、弹性计算、按需使用等特性在架构设计时需要重新设计。除了公有云厂商的标配服务外,如 SnowFlake、Databricks 等跨云平台的第三方服务提供商自然也受到用户和资本市场的追捧。
目前,大数据云服务Databricks正在寻求直接在美国上市,它被投行认为是2021年最值得期待的科技股公开发行之一。华尔街的投资人估计, Databricks上市时,其市值可能会达到350亿美元,甚至可能高达500亿美元。
Databricks公司创建于2013年创立,专注于机器学习、流数据处理、数据湖和SQL分析。2020年Databricks年经常性收入(ARR)将达到4.25亿美元,比2019年同期增长了75%。
Databricks之所以脱颖而出,并成为大数据领域的一面旗帜,源于其四张王牌。
首先,Databricks最大的成功源于它帮助公司实施Apache Spark版本。这是大数据技术Hadoop技术的替代方案,用于存储客户大量不同类型的数据。Spark是2009年在伯克利开发一个大数据开源项目。目前,Spark已经取代Hadoop MapReduce成为大数据默认的计算引擎。
“成立Databricks的目的是继续加速Spark的改进,增加程序的功能、稳定性和对开源社区的贡献。另一方面是将其放在易于使用的软件包中,那就是Databricks云服务。”Databricks的CEO Ali Ghodsi 曾经表示。
Databricks提供了一个基于Spark的云托管平台,使客户可以在一个环境中实施其整个大数据方案——从数据提取、数据转换、交互式处理,到数据产品。它使用机器学习、图形处理以及构建和运行数据产品,提供交互式可视化,释放数据价值。
Databricks Cloud先进的群集管理功能,使企业能够在几秒钟内启动,并调整大小和拆除群集。最重要的是,它丰富的工具集使企业可以交互式查询和可视化数据并构建交互式仪表板。
Spark之于Databricks,就像Hadoop之于 Cloudera,或者NoSQL数据库之于MongoDB。Spark确实是Databricks公司规划的关键部分,但也只是多元化SaaS产品的一个组成部分。
其次, DataBricks迄今为止所做的最大的创新应该是 Delta Lake,有超过 80%的用户在使用它。它是 Databricks 最有价值的项目,尽管它没有Spark那么有名。而且DataBricks选择了将Delta Lake开源,从而解决数据仓库与数据湖的融合问题。
第三张王牌是Koalas。它将Pandas社区的数据科学创新带给了Spark用户。Koalas可以让数据科学家在笔记本电脑上使用Pandas编程,然后调用几个API就可以将工作负载部署到大型的分布式Spark集群上。
最后一张王牌是MLFlow。它为数据科学家构建、测试和部署机器学习模型这个复杂的过程提供标准化的工具。MLFlow的下载量以每月80万的速度增长,而且比 Spark 有更多的贡献者。而且Databricks将MLflow项目捐赠给Linux基金会,并正式成为一个开源项目。两年前,开源一来,该平台每月下载超过200 万次。
03
“共舞”中如何保持自我?
然而,Databricks也将迎来新的问题。
比如公共云提供商AWS、Microsoft Azure等都提供Apache Spark开源软件的托管版本,所以难免不会优先推广自己的产品,而这势必会与Databricks的核心产品Spark云服务展开竞争。
如何应对这种局面呢?Ghodsi表示,并不会把这些云服务商视为竞争对手,因为它们的客户也需要技术服务支持。
同样,SaaS租赁模式还为 Databricks 的资产提供了适当的保护。Databricks的核心知识产权并不存在于它所赞助的开源软件项目中。事实上,Databricks 最有价值的知识产权存在于用来监控和管理云端软件的工具和技术,它们不会像经典的开源模式那么容易被泄露。
Ghodsi 说:“在云端,用户租赁Databricks的服务,我们负责保证安全性、可靠性和可用性,负责监控,确保服务保持运行状态,并保持最新,让用户高枕无忧。”
“我们每天需要在AWS上启动一百万个虚拟机,确保正常运行,这也就是用户付费的原因。”
Databricks使用开源工具如Kubernetes为各种数据工程、数据分析和机器学习负载提供伸缩能力,还开发了专有软件来保证云服务的可用性。
为了满足用户大数据应用新需求,把数据仓库和数据湖融合的技术正在进行。当Synapse 将数据仓库和数据湖服务捆绑在一起时,Databricks推出了数据湖/数据仓库融合Lakehouse“湖屋”。
数据仓库保存定义良好的结构化历史数据,以便运行快速、重复的分析查询,通常使用 SQL,常用于核心业务报告。
数据湖包含来自多个数据源的结构化和非结构化数据。数据治理可能很弱,重复或冲突的数据可能很常见。数据科学团队通常使用数据湖执行探索性分析,包括数据发现和可视化,以及机器学习模型培训。
"数据湖屋",融合数据湖/数据仓库平台,其数据湖平台Delta Lake也非常适合数据仓库工作负载。结合其机器学习功能,包括Spark MLlib和MLflow,Databrick将自己视为一个全面的分析和AI平台。
Ali Ghodsi 透露了公司的终极目标:构建世界上第一个企业 AI 平台,Databricks手里握着几张王牌。
在企业计算领域,未来会选出一两个AI 平台作为标杆,就像之前出现的数据库、ERP、CRM、HR 软件等标杆企业一样。但目前还没有出现AI平台标杆企业,尽管一些玩家如AWS、微软和 Salesforce等已经跃跃欲试。