我有个朋友在硅谷一家AI创业公司做技术负责人,去年他们进行了一次技术选型,差点把我笑死。他们原本用着Snowflake,数据分析师天天抱怨查询慢,CTO一拍桌子说换个数据库吧。结果他们评估了一圈,最终选了Databricks。为什么?因为Databricks的CEO阿里·戈迪西(Ali Ghodsi)在发布会上说:“我们不是数据库公司,我们是一个数据智能平台。”这句话听起来像在打太极,但仔细想想,恰恰击中了现代数据架构的痛点——你需要的不是另一个数据库,而是一个能让你在数据湖上随意折腾的引擎。

Databricks的根基是Apache Spark,这个开源项目当年由UC伯克利的实验室孵化,目标是解决大数据处理的性能问题。但你千万别以为Databricks只是给Spark套了个壳。它的核心竞争力在于叫“Delta Lake”的存储层。简单来说,Delta Lake 把传统数据库的 ACID 事务特性搬到了数据湖上。过去用 Spark 写 ETL 作业,写到一半机器挂了,数据可能就处于半残废状态。现在有了 Delta Lake,你能像操作关系型数据库一样保证数据一致性,而且它支持 schema 演化——你加字段、改类型,系统会自动处理,不用再写一堆 alter table 脚本。这听起来很基础,但在实际生产中,这种特性能让数据工程师的头发少掉一半。
Databricks 真正让人上头的,是它把机器学习和数据工程揉在了一起。很多公司数据团队和分析团队是分开的,数据工程师建好数据管道,分析师跑 SQL 出报表,算法工程师再自己找数据训练模型。这三个环节经常互相甩锅:数据工程师说分析师的 SQL 写得烂,分析师说算法工程师的数据质量差,算法工程师说数据团队给的数据太脏。Databricks 的 “Lakehouse” 架构想解决这个问题——把数据湖、数据仓库、机器学习平台塞进同一个统一环境。你可以在同一个 Notebook 里先做数据清洗,然后训练模型,再把模型部署成 API。这就像把厨房、餐厅和客厅打通了,做饭、吃饭、聊天都在一个空间里,效率自然更高。
但这套东西也不是没有代价。Databricks 的定价策略让不少人肉疼。它按计算资源的使用量收费,而且对 Spark 集群的配置要求不低。一个中型公司的月账单动辄几万美金,如果你的数据工程师不懂优化 Spark 作业的并行度,那钱简直是烧给风控部门的。有个做电商的朋友说,他们上 Databricks 的第一季度,账单比预期高了 40%,CTO 差点被财务骂哭。后来他们专门招了个 Spark 调优专家,才把成本压下来。所以,Databricks 不是给所有公司准备的——如果团队里没有几个懂分布式计算的人,最好先掂量掂量自己的钱包。
不过 Databricks 的生态确实在快速膨胀。它去年收购了 MLflow,这个开源项目现在成了业界管理机器学习生命周期的标配。你训练模型时记录的参数、指标、模型版本,MLflow 都能自动帮你追踪。更狠的是,Databricks 还整合了 Unity Catalog,一个统一的数据治理服务。以前想给某个数据表加权限,需要在 Hive Metastore、AWS Glue、Azure Purview 等系统里来回折腾。现在 Unity Catalog 让你在一个地方搞定所有数据资产的权限、血缘和元数据管理。这种“全家桶”式的打法,有点像当年的 Oracle——它不跟你争论哪个数据库性能好,而是直接告诉你:“别选了,用我的,所有问题我一个系统解决。”
当然,Databricks 的野心不止于此。它最近推出的 “Databricks SQL” 功能,直接对标 Snowflake 的数据仓库业务。你可以在 Databricks 环境下用标准 SQL 做 BI 报表,而且性能调优得相当不错——他们自己写了个 Photon 引擎,用 C++ 重写了 Spark 的执行层,让 SQL 查询速度提升了 5 到 10 倍。这招很聪明:一边用机器学习场景吸引数据科学家,一边用 SQL 兼容性把传统分析师也拉进来。我认识一个银行的 BI 主管,他们原本用 Teradata,去年测试了 Databricks SQL 后,果断把一部分报表迁移过去。他说:“虽然迁移过程有点痛苦,但以后做数据科学项目就不用来回导数据了。”
但有个细节很多人忽略了:Databricks 的开放性其实是把双刃剑。它基于开源技术,理论上可以轻松把数据迁出去,不会像 Snowflake 那样形成强锁定。但正因为如此,它的盈利模式更依赖服务黏性。比如你用了 Delta Sharing 协议,能跨组织安全共享数据;用了 MLflow,模型管理就离不开它。这些功能本身不贵,但一旦习惯了,就很难离开。就像你习惯了微信支付,虽然支付宝也能用,但懒得再装一个 App。Databricks 的创始人显然深谙此道——他们不靠锁死数据赚钱,而是靠锁死工作流赚钱。
回到开头朋友的故事。他们用了 Databricks 跑了一年,最终结论是:这玩意适合数据量大、计算复杂、团队有能力折腾的场景。但如果你是中小公司,数据量只有几 TB,业务以 SQL 查询为主,传统的关系型数据库或 Snowflake 可能更省心。Databricks 有点像瑞士军刀——功能多到能拆自行车,但你要真用它削苹果,还不如一把水果刀顺手。所以,别被 “数据智能平台” 这种高大上的概念吓住,选工具之前,先问问自己:我的团队是屠龙勇士,还是只想切个菜?


