书名：《架构师》2021年3月
作者名：InfoQ中文站
本章字数：4字
更新时间：2021-12-27 11:35:28

热点 | Hot

估值飙升至280亿美元！大数据独角兽公司Databricks再获10亿美元融资

作者蔡芳芳

美国时间 2021年2月1日上午，由Apache Spark初始成员创立的大数据初创公司Databricks 宣布已完成10亿美元G轮融资。据悉，本轮融资由富兰克林·邓普顿（Franklin Templeton）领投，Fidelity、AWS、Alphabet（谷歌母公司）的Capital G、Salesforce Ventures和早前参与过投资的微软等多家投资方跟投。新一轮融资过后，Databricks最新估值达到280亿美元，与2019年10月份完成F轮融资时的估值62亿美元相比，飙升近五倍。

据了解，这笔资金将用于加速Databricks的创新，并帮助公司继续扩大规模和支持Lakehouse的快速采用。

公有云在欧美国家已经成为主流，即使在数据架构最保守的金融业也是如此。美国信用卡行业巨擘Capital One Bank在2020年冬天完全关闭了所有的数据中心，全线进入公有云。无独有偶，美国国防部100亿美金的JEDI项目也在九月正式确认选择微软的云服务。

在公有云的大背景下，云原生成为了新一代数据架构的主流标准。公有云所提供的对象存储、弹性计算、按需使用等特性在架构设计的考虑中需要重新设计。除了公有云厂商的标配服务外，如SnowFlake、Databricks等跨云平台的第三方服务提供商自然也受到用户和资本市场的追捧。

富兰克林·邓普顿（Franklin Templeton）高级副总裁、研究分析师兼投资组合经理Jonathan Curtis表示：“我们很高兴能与Databricks一起进入令人印象深刻的旅程的下一个阶段。我们已经亲眼看到他们帮助企业利用数据更好地了解客户、实现业务流程并最终建立起基于数据的竞争优势的能力。我们相信Databricks未来将建立明确的领导地位并拥有广阔的增长机会。”

微软公司云与人工智能执行副总裁Scott Guthrie则表示：“ Azure Databricks一直是一个令人印象深刻的解决方案，它为我们的客户带来了开放、灵活和可扩展的数据和AI方面的最新能力。这次投资再次强调了这一愿景：我们会与Databricks共同为客户简化数据和AI。我们将共同努力，继续推进Azure Databricks、跨Azure数据服务无缝集成工作，以在Azure上实现云规模分析和AI能力。”

据外媒报道，华尔街对Databricks在2021年正式IPO抱有非常高的期待。一位知情人士表示：“当Databricks上市时，其市值可能会达到350亿美元，甚至可能高达500亿美元。”

作为参考，云原生的数据仓库提供商SnowFlake在2020年9月正式IPO时筹资33.6亿美元、市值达到330亿美元，此后市值更一度攀升至超过一千亿美元，远远高于其IPO前进行最后一轮融资时的估值124亿美元。

此前，Databricks的首席执行官Ali Ghodsi曾在2019年初表示，公司可能会在未来两年左右考虑IPO ，若按此时间推算，正好就是2021年。

据彭博社 2020年10月报道，Databricks还处于IPO规划的早期阶段，公司正在与投资机构沟通，但尚未选定任何一家股票承销商。

Databricks是否会在今年内正式登陆纳斯达克，值得期待。

Databricks发展历程：从Spark到企业AI平台

Databricks成立于2013年，公司创始人都曾经是Apache Spark背后的功臣，包括Matei Zaharia（在加州大学伯克利分校AMPLab学习时开发出了Spark），还有其他来自AMPLab或伯克利计算机学院的同僚们，如Ion Stoica、Reynold Xin、Andy Konwinski和Arsalan Tavakoli-Shiraji。

Spark之于Databricks，就像Hadoop之于Cloudera，或者NoSQL数据库之于MongoDB。Spark确实是Databricks公司规划的关键部分，但也只是他们多元化SaaS产品的一个组成元素。

在一次采访中，Ali Ghodsi透露了公司的终极目标：构建世界上第一个企业AI平台。

“每个人都在想谁会成为第一家推出企业AI平台的上市公司？它又将如何帮助企业将AI集成到他们现有的软件系统和解决方案中？每一个软件系统——我是说所有现有的软件系统——在未来十年都将变得更加智能。他们要么在软件系统中加入AI能力，要么被市场淘汰，或者被其他拥有AI能力的公司打败”。

“我们已经看到了Uber颠覆了出租车行业，Airbnb震动了旅馆行业，亚马逊把零售商店打得落花流水，这些事情都已经发生了。他们都使用了AI技术。那么其他世界5000强公司呢？他们有自己的软件系统，积累了几十年的客户，手里掌握着巨大的数据集。他们可以利用这些数据为自己的软件系统构建AI能力吗？我想，他们当中有一部分会的，如果这样做，他们就可以继续生存下去，还有一部分不这么做的将被具备AI能力的新公司取代。那么，他们会使用怎样的AI平台？在目前看来，这个问题还没有答案……因此，我认为平台公司是时候亮相了，让平台公司为这些软件公司构建AI平台，帮助他们把AI能力集成到他们的解决方案中”。

在企业计算领域，行业可能会选出一两个或者两三个AI平台作为标杆，就像之前将关系型数据库作为第一代企业软件（ERP、CRM、金融软件、HR软件，等等）的支撑一样。但目前还没有出现标杆企业AI平台，尽管有一些玩家（AWS、微软和Salesforce）已经跃跃欲试。在Ghodsi看来，Databricks手里握着几张王牌，即便它不一定会成为标杆。

“基于开源的创新是关键。我们有四个项目，除了大家熟知的Spark，迄今为止我们所做的最大的创新应该是Delta Lake，我们有超过80%的用户在使用它。从价值方面来看，它是Databricks最有价值的项目，尽管它没有Spark那么有名”。

MLFlow是Databricks的另一张王牌，它为数据科学家构建、测试和部署机器学习模型这个复杂的过程提供了标准化。Ghodsi透露，MLFlow的下载量以每月80万的速度增长，而且比Spark有更多的贡献者。

Databricks的第四张王牌是Koalas，它将Pandas社区的数据科学创新带给了Spark用户。Ghodsi说，Koalas可以让数据科学家在笔记本电脑上使用Pandas编程，然后调用几个API就可以将工作负载部署到大型的分布式Spark集群上。

进击的SaaS业务模式

除了软件产品本身，Ghodsi认为Databricks的业务模式具备一个关键的优势。Ghodsi有意识地将Databricks的业务模式与典型的开源商业模式区分开来。在典型的开源商业模式下，软件免费，厂商收取支持和服务费用。Ghodsi把它叫作红帽模式，这种模式在预置（on-prem）软件世界里或许可行，但在新的云计算世界可能找不到自己的位置。

Ghodsi说：“我们的业务模式跟其他的不一样，我们是云端托管的SaaS服务。在云端托管开源项目并把它们租给用户，这是一种更好的业务模式。这种模式的客户流失率更低，客户会更开心，利润增长更快”。

SaaS租赁模式还为Databricks的资产（也就是知识产权）提供了保护。Databricks的核心知识产权并不存在于它所赞助的软件项目中，因为这些软件项目是公开的。事实上，Databricks最有价值的知识产权存在于它用来监控和管理云端软件的工具和技术中，它们不会像经典的开源模式那么容易被泄露。

Ghodsi说：“到了云端，很多东西都会变得不一样。在云端，用户租赁Databricks的服务，我们负责保证安全性、可靠性和可用性。我们负责监控这些东西，确保它们保持运行状态。我们确保在有新版本出现时它们也能保持最新。我们负责所有的一切，而租用我们服务的公司可以高枕无忧”。

Databricks使用开源软件（如Kubernetes）为各种数据工程、数据分析和机器学习负载提供伸缩能力，还开发了专有软件来保证云服务的可用性。

Ghodsi说：“保持服务运行是很困难的一件事情，而大规模运行则更难。我们每天需要在AWS上启动一百万个虚拟机，这件事本身就很难，而确保它们正常运行、监控它们、保证它们的安全性和可靠性，也很难。这也就是为什么用户需要付钱给我们”。

Uber、Airbnb和亚马逊已经投入数亿美元用于构建自己的数据工程和AI系统，这让它们在各自的市场中占有一席之地。现在，Ghodsi想要帮助其他企业构建自己的AI能力，或者至少是尝试一下。

他说：“关键在于我们不希望用户操心太多东西，我们会为他们操办一切，包括安装、管理和升级软件系统。我们希望用户可以把精力放在解决AI问题和业务问题上……我不明白为什么一家想研发慢性肝病药物的公司要去关心Kubernetes以及如何管理和配置Kubernetes集群。这些事情应该在幕后进行，而这些也就是我们要做的”。

本周热推：

《架构师》2023年3月《AI前线》2018年10月刊《架构师》2022年5月信睿周报·第1辑（第1-6期）信睿周报·第19辑（第109-114辑）