开源出发，也能干到 6 亿美金

开场0:00

Koji杨远骋0:00

当时有一个很霸气的标题叫做我们没有对手。

星爵0:04

这里面更加多的是那种有耐心地去打磨产品，然后每一天、每一年的这种复利去，去叠加。所以的话，向量这种数据类型在过去的五六年里面，随着这个 AI 的这个兴起的话，就迎来了大的爆发。

Koji杨远骋0:19

本周石子路口的嘉宾星爵是向量数据库 Zilliz 的创始人和 CEO。我第一次听说 Zilliz 呢，是在 2023 年的英伟达 GTC 大会上，当时黄仁勋点名推荐了这家公司，让我印象深刻，因为这也是一家中国人创办的公司。那真正让我对星爵产生好奇的其实是两个月前硅星人的一篇访谈，当时有一个很霸气的标题叫做我们没有对手。那我看到这个标

题心想，哇，这谁啊，如此的嚣张。因为在商业的世界里面，如此断言式的宣言真的很少见。那我想一定是这位创始人他有极强的信念感，或者他们的产品有什么样的独到的优势，才让他做出这样的宣言。因此，在我对 Zilliz，在对星爵有了更多的了解之后呢，我发现这确实是一家蛮有实力，同时呢也很有故事的公司。呃，

所以今天我们邀请到了星爵，也感谢他来到我们在上海发起的这座 AI Hacker House，我们一起在线下录制了这一期播客。那这也是石子路口第一次尝试录视频播客。啊，我们的视频播客随后会发布在我的小红书、B 站视频号。按照石子路口的惯例呢，我们会先和星爵来一场快问快答。你的毕业院校。

星爵1:36

华中科技大学。

Koji杨远骋1:37

哇，华中科大的人才好多呀。呃，Zilliz 创业几年了？

星爵1:42

到现在为止八年。

Koji杨远骋1:43

哇哦，那在创业前你做过些什么？

星爵1:46

做过一件事情，数据库工程师。

Koji杨远骋1:48

你的 MBTI 和星座。

星爵1:50

呃 ENTP，呃，星座是天蝎。

Koji杨远骋1:53

OK，呃，可以一句话介绍一下公司和产品吗？

星爵1:56

我们是一家 AI 时代的数据基础设施的公司。

Koji杨远骋1:59

嗯。

星爵2:00

呃，我们是要打造一个在 AI 时代里面为非结构化数据构建的数据平台。

Koji杨远骋2:05

然后你们现在的收入和利润方面怎么样？

星爵2:07

具体的数字我这里就不提了。呃，但是在过去的十二个月里面的话，我们的营收增长了三点三倍。

Koji杨远骋2:16

哦，哇，十二个月增长三点三倍。呃，目前团队的规模。

星爵2:20

目前团队的规模我们大概全球有一百三十个人左右。

Koji杨远骋2:25

对，像刚才一开始提到啊，就是英伟达的创始人黄仁勋在 GTC 2023 年大会上直接提到了 Zilliz，有一种点名推荐的意思。就当时这个高光时刻发生的时候，你的心情是什么？

GTC时刻2:25

星爵2:39

我第一个感觉就是说，这其实更多的是向量数据库这个品类的一个高光时刻。

Koji杨远骋2:45

嗯。

星爵2:45

呃，其实你想我们当时在，呃，2018 年的时候就开始做向量数据库的时候，那个时候的话，向量数据库这个赛道，呃，是完完全全大家不熟悉的。呃，其实我们自己也会有一点这种疑问，呃，到底，呃，这个场景在什么地方，用户在什么地方，呃，到底它以后能不能成为一个广大市场前景的一个产品，市场到底有多大？所

以我觉得当时的话，2023 年那个 moment 的话，更多的就是说把向量数据库推到了这个整个全球科技的前台。

Koji杨远骋3:20

嗯。

星爵3:20

大家都认识到，就是说做 AI，呃，尤其做现在的那个 GenAI 的话，一定需要一个向量数据库。

Koji杨远骋3:26

所以对你来说，那确实是一个命运转折点一样的时刻吗？

星爵3:30

坦白来讲不是命运转折点。

Koji杨远骋3:31

嗯。

星爵3:31

因为做 infrastructure 这一个赛道来说的话，呃，其实它是比较苦的一个赛道。

Koji杨远骋3:36

嗯。

星爵3:36

它就比如说 AI 的一些这种新的一些算法去创新，可能来说的话，一个 Aha moment，灵光一闪，一个算法的改进跟创新可以让你突破一个性能的瓶颈，呃，准确性的一个瓶颈，对不对？但是像这种做数据库这样的基础软件。

Koji杨远骋3:55

嗯。

星爵3:55

呃，其实我们觉得就是说不太可能，就是说有那种，呃，好像今天发生了一件，呃，特别好的一个灵光一闪，然后的话，呃，我们就可以超越竞争对手了，我们就可以赢得更多的客户了。这里面更加多的是那种有耐心地去打磨产品，然后每一天、每一年的这种复利去，去叠加。

Koji杨远骋4:16

回到当时 GTC 2023，黄仁勋在台上点名你们那一刻，就从那个时候到现在，其实整个这个生成式 AI 发生了非常翻天覆地的进步和变化。

星爵4:27

嗯。

Koji杨远骋4:28

那当时有哪些事情到今天仍然没有变，有哪些事情到今天又发生了很大的改变？

星爵4:33

我觉得中间来讲的话，呃，没有改变的是这个 AI 的这个创新一直在加速。

Koji杨远骋4:40

嗯。

星爵4:40

随着 AI 的这个加速来说的话，其实对于这个向量数据库，呃，对于数据的需，需求的话也一直在增加。但是在这个过程中来说的话，我也看到，呃，在这里面是有一些小的一些波折。对，其实比如说在 2023 年里面的话，曾经的话，大家都认为就是说那 GenAI 出来以后，GenAI 会马上有一个爆发性的一个增长，对不对？然后其实我们

看到的就是说，的确在 2023 年的话，呃，有很多的公司都拿到了投资，有很多人都离职出来创业。

Koji杨远骋5:11

嗯。

星爵5:11

但是其实到 2024 年的十月份、十一月份左右的话，就我们看到第一批投的一些很多的一些 AI 的一些创业公司产品其实没有找到真正的 PMF，面比较同质化，就轮不到第二批投资了。

Koji杨远骋5:25

嗯。

星爵5:25

所以很多公司就集中性的那个倒闭了。

Koji杨远骋5:28

呃，因为我们的这个，呃，因为十字路口的用户里面不是所有人都是技术背景，我们有很多这个用户，他都是产品经理或者是投资人，可不可以请你给大家先科普一下向量数据库，再介绍一下 Zilliz 和 Milvus 这两个公司和产品。

向量数据库5:44

星爵5:44

嗯，好。其实我可以先讲一下什么是数 - 数据库。本质上就是说你有更多的数据，然后的话你需要找一个，一个，一个方法，一个系统把它存起来，然后以后可以用。早在几千年前，呃，我们人类的主要的信息的这个交流，主要是用这个记载是用文字，对不对？一个，一个记载用文字。那个时候来说的话，就是说你数

，你数据多的话，你要把数据管起来的话，呃，就是图，就是图 - 图书馆。然后到了 IT 时代，所有的数据都把它数字化了，这时候的话就是出，出现了我们说的上一代的这种结构化的数据库，其中为代表的是这种关系型的数据库，广泛于应用什么金融啊、ERP 啊，电商啊这些领域，对不对？然后到了这个 AI 这个领，领域里

后的话，我们现在要用这个计算机去理解这一些，这种对我们人来说很自然的一些，一些沟，沟通的一些信息，比如说我们的语言，呃，我们的那个图片。

Koji杨远骋6:38

嗯。

星爵6:38

呃，我们的一些，呃，一些视频。在传统的意义上来说的话，它计算机是比较难去，去识别的。这个时候来说的话，就有了这种深度学习的模型。

Koji杨远骋6:47

嗯。

星爵6:47

深度学习模型的话，会把这些数据把它变成一个这种 embedding 的一个向量，呃，就是叫做特征向量。呃，然后所以的话，特征向量这个，这种数据类型，在过去的那个五六年里面，随着这个 AI 的这个兴起的话，就迎来了个大的爆发。

Koji杨远骋7:03

嗯。

星爵7:03

有了这么多的一些特征向量，广大的 AI 开发的人就要有一个系统把这些数据把它存起来。

Koji杨远骋7:08

嗯。

星爵7:09

所以这个时候的话，向量数据库就应运而生的。所以本质上来说的话，数据库系统，呃，就是说去储存一些大规模的数据的一些系统，传统上面我们有图书馆，对，我们，我们那个四五十年前我们发明了关系型数据库，去存这种数，数，这种字符。而到了这种 AI 的时代来说的话，我们用向量数据库去保存这些图片、视

频、呃，文本，然后让我们能够用一种自然语言的方式，用一种语义的方式去高效地去检索，呃，这些图片、视频这样的非结构化数据。

Koji杨远骋7:43

呃，所以向量数据库其实是早于生成式 AI 的，它并不是只在生成式 AI 这个场景有作用的，对吧？

星爵7:50

对。

Koji杨远骋7:50

因为你创业八年前，那个时候你是看到了向量数据库怎样的一个前景了。

星爵7:55

对，其实，呃，其实向量这个概念它是在生成式 AI 的这一波革命里面把我们推到了风口浪尖，呃，因为它变得更加重要了。对，但是其实早在，呃，七八年前，向量数据库就已经在很多的 AI 领域被用起来了。这个向量这一个基本的数据类型的话，它并不是说，呃，这种大语言模型所独有的，它本质上是这种神经网络所

独有的。神经网络之间，还有神经网络内部，还有神经网络跟外部的数据交互的时候，它用的这个基本的数据的交换的格式跟单位就是这个特征向量，就这个 embedding。所以其实在早在 2018 年开始，呃，我们其实也服务了很多的这种上一代的 AI 公司。

Koji杨远骋8:45

嗯。

星爵8:45

对，那个时候的话，可能大家是这种卷积神经网络，呃，是 RNN，对不对？

Koji杨远骋8:51

从生成式 AI，呃，到现在，比如说我们说过去三年的时间，然后向量数据库这个领域有发生非常大的一些变化吗？

星爵9:00

第一个数据量变得更大了。第二个来说的话，就是我们看到的应用场景越来越多了。

Koji杨远骋9:07

嗯。

星爵9:07

呃，数据量的变化，其实我们看到就是说它在五六年前的话，可能谈到这种几千万的数据，上亿的这种数据就比较大了。

Koji杨远骋9:15

嗯。

星爵9:15

现在已经向这个百亿甚至千亿。然后第二说从应用场景方面来讲的话，呃，也看到了更多的应用这种场景。现在除了这种跟大语言模型、知识库、RAG 的应用场景，同时的话，呃，也看到了说在不只是说在模型这个推理这个阶段，可能在模型的训练这个阶段做数据的清洗啊，呃，是，呃，然后包括说在自动驾驶这个，呃，

这个领域里面来说的话，呃，要处理各种这种多模态的数据，包括这种，呃，从那个雷达，从那个摄像头掌握的各，各种的数据的这种清洗，也会需要用到向量数据库。然后在，在这种电，电商里面做推荐，呃，做风控，呃，做欺，做欺，欺诈检测等等。然后还有一种在 AI 医药里面，可能说我们要看到，就是说去分析

一个这种，呃，蛋白质的三维结构，分析一个这种基因的这种序列，现在的话有更多更多的算法，用向量的方法，啊，把这些数据把它转化为一个特征向量，再用向量去做一些新药的这种研发，这种做基因的一些筛选。随着这个应用，就是随着这个，呃，数据量的增大，也随着这个应用场景的增多，其实我们也看到了

第三个趋势，就是说现在向量数据库的那个成本，呃，降低成本也成为了一个大家迫切的一个需求。

未来方向10:32

Koji杨远骋10:32

所以接下来你们非常重要的 milestone 是什么？是要去支持更大的规模，还是要去把成本降得更低，还是别的什么？

星爵10:40

我们有两个方向的一个考虑。

Koji杨远骋10:43

嗯。

星爵10:43

一个方向就是说我们是要帮更多的用户去解决更大的这种数据的这种场景。

Koji杨远骋10:50

嗯。

星爵10:51

对，所以，呃，在过去的几年里面，我们其实看到的更多的是数据库在线的这种服务。我们现在看到这个，呃，数据量增大以后，所以也出现了很多离线的这种场景，这也是我们现在正在做的一个很重要的事情，就是说从一个单一的向量数据库系统，我们觉得要变成一个向量数据库跟那个 vector lake，呃，跟，就跟一个基于这

种非结构化数据的数据库结合的一个产品。所以的话，向量数据库来说的话，它，它还会继续去承载这样的，呃，在线的一些服务。

Koji杨远骋11:23

嗯。

星爵11:23

呃，这些服务来说，它对性能延时比较敏感。

Koji杨远骋11:26

嗯。

星爵11:26

它对准确度要求也很高，对不对？然后来说的话，另外说你在有很多很多的数据的情况下，就使得说你对每一个数据做一个实时的一个查询的话，这个就可能就第一个很挑战，第二个说你的收益比就不那么高了。

Koji杨远骋11:42

嗯。

星爵11:42

这时候就是说，呃，就会变成一个对于海量的数据做一些离线的一些分析。它并不需要每一天，呃，或者说是每，每一分钟去跑一个这种任务，它可能说是以天为单位，呃，甚至以周为单位，以月，月为单位去跑，但是它要跑全量的数据，而全量的数据可能就不是说是几亿，那个几十亿了，可能是几百亿，几千亿。

Koji杨远骋12:04

对。哎，其实我也有一个好奇啊，刚才你提到这三年一个很大的变化是大家的数据规模越来越大，那现在你见到的最大数据规模的这样的一个公司或一个产品，它是什么呀？它为什么需要那么大的数据规模？

星爵12:17

我们有一个客户是全球最大的 IT 公司之一，它要做的一个产品，就是说要用向量数据库去检索互联网上的所有的信息。

Koji杨远骋12:28

嗯哼。

星爵12:29

它现在就是说要做这个互联网规模的语义查询，它要把互联网上面的每一个网页把它都变成一个向量。

Koji杨远骋12:37

它做这个的原因是什么？它是提供什么样的服务给大家呀？

星爵12:42

就是说提，就提供最终的话，比如说 AI 的搜索。

Koji杨远骋12:46

哦。

星爵12:47

对，AI 的搜索。

Koji杨远骋12:47

它是比如说 like，like 博察或者类似这样的做，或者 Bing 之前也做过这样的 search API。

星爵12:53

对对对，就现在我们基本上每一个这种大语言模型这个查询，它都会有 online 的这个搜索这个过程。如果你要达到一个最好的一个精确的程，程度，idea 的话，你是希望能够检索互联网上所有的信息。

Koji杨远骋13:06

OK。

星爵13:07

对。

Koji杨远骋13:08

哦，所以这样的客户对于数据的量的要求几乎是无限的。

星爵13:13

对，对。并且这里还有一个点，就是说这个数据的产生我们还在增加，像 AI 的搜索跟 RAG，它其实用的技术其实差不多。

Koji杨远骋13:23

嗯。

星爵13:23

对，它本质上来说的话，RAG 可能就是说是一个有的一个，一个，一个知识库。

Koji杨远骋13:28

对。

星爵13:29

对，AI 的搜索的话，可能更多的是把在线的这些公有的这个信息，啊，把它，把它变成一个公有的一个，把互联网变成一个公有的一个知识库，对。然后其实这两者来说的话，它用的基，技术的底座已经是类似的，譬如说像 AI 的搜索来说，它主要就是说它是数据量特，特别特别的大，但是对于知识库来讲来说的话，它的

可能单个的库，它的数据量没那么大，但是它的话，可能一个企业它可能要服务，呃，一万个客户，十万个客户，甚至一百万家客户，每个客户都有一个比较小的一个知识库。

Koji杨远骋14:06

嗯。

星爵14:06

譬如说每一个，呃，客户，如果说他有一万条的那个知识在他的本地的知识库，如果有一万家客户的话，这就是 -

Koji杨远骋14:16

一个亿。

星爵14:16

对，一个亿。如果说是你有，你如果有十万的话，就是十个亿，对不对？

Koji杨远骋14:21

是。

星爵14:21

在这里面说的话，提出的更多的要求来说的话，呃，可能就不是数据规模，因为单个的库不大，但是需要你在那个数据管理这个层面，能够把这个一万个客户，十万个客户中间能够做隔离，能够保持他们的数据的独立性，数据的安全性。

Koji杨远骋14:38

之前我看到一篇文章哈，就贵圈人的报导，然后文章的标题就是《我们没有对手》。

竞争与对手14:38

星爵14:43

嗯。

Koji杨远骋14:44

然后当时你提出这句话的时候是一个什么样的场景啊？因为就是我稍微做了一些研究，发现其实好像也并不是没有对手，啊，这里面还是有不少的竞争在的，可不可以稍微讲一下背景和当时当你说没有对手的时候是指在什么时间段，或者有没有一些限定语？

星爵15:03

第一层含义呢，是我们曾经没有对手，就是曾经来说，在这个赛道里面的话，是真的没有一个友商，这是一片荒漠。当时我们在一八年做向量数据库的时候，全球没有这个概念，当时来说的话，当时真的挺难的，对，就走在一个，就走在一个无人区里面，如果一直没有竞争对手，证明大概率的话，你走错一条路了，对

不对？

Koji杨远骋15:28

是啊。

星爵15:28

你这条路，对，可能就错了。对，呃，所以的话，在过去几年里面，我们看到更多的这个友商能够进入这个赛道，看到了这个向量，向量数据库成为大家追逐的一个热点。

Koji杨远骋15:40

嗯。

星爵15:40

呃，其实我们心里面是很喜悦的。

Koji杨远骋15:42

我自己理解啊，就这个竞争其实，呃，还是比较激烈的。我稍微梳理了一下，我觉得它来自四个方面。啊，第一个是，就是比如说以 Pi Com 为代表，在商业策略上和你们选择不一样，你们是开源路线，他们是闭源，然后他们现在估值七点五亿美金，那你怎么看？

星爵16:01

我们两，两家公司的话应该是咬得很紧的。

Koji杨远骋16:04

嗯。

星爵16:04

像刚才你提到他们的估值是七点五亿美金，我们是六亿美金。我们最大的一个区分点就是说是开源跟闭源。让我在做一次，我还是会做一家开源的公司。对，因为我对开源是有一个很好的一个信念的，因为开源的话，呃，本质上来说的话，可以促进，呃，这个知识的传播，技术的交流，也可以反过来能够促进你的技术

以更快的方法去迭代，对。所以 -

Koji杨远骋16:30

所以今天你们和 Pi Com 最大的竞争优势你认为是来自开源吗？

星爵16:35

我觉得开源肯定是我们最大最大的一个长久的一个优势。如果说具体比产品跟技术来讲的话，呃，我们的产品的话，比 Pi Com 在性，在性能这个层，那个层面来说的话，是有一个三，三到五倍的一个领先的优势的。但是我并不想认为就是去讲我们的跟它的竞争的差异点是在我们三倍、五，五倍的技术的一个领先的优势。

Koji杨远骋17:01

嗯。

星爵17:01

因为我觉得就是说技术的领先优势，最终来讲来说的话，呃，技术都会平权，对不对？但是所以我觉得就是说，呃，虽然说我们现在技术产品领先一个身位，但是这个身位的这个来源的话是来自于我们开源跟开放。

Koji杨远骋17:14

嗯。

星爵17:14

因为我们有了开源开放，所以我们能够在全球能够有更多的这个开发者用起来，有更多的开发者，他们又能够帮我们反馈更多的一些需求，让我们去迭代我们的产品。所以在之后的竞争中的话，我觉得其实不取决于说你现在在什么位置，只有开源跟开放，然后我们能够有更多的开发者，能够拿到更多的企业的这种需求

，去让我们更快地去迭代我们的产品，让我们有一个更清晰的一个 roadmap，以后少走弯路，少犯错误。这可能是我觉得跟其他的闭源公司去做一个对比的时候，我们的一个底气。

Koji杨远骋17:51

呃，待会我们可以再多聊一聊开源闭源这个路线的选择，包括开源它到底意味着什么样的这个优势，和它的商业的机会到底要怎么去给它这个实现出来。好，我们再回到竞争角度，一个是说开源与闭源路线的选择，然后你们和这个 Pi Com 咬得很紧，然后大家两条路线好像都在各自的领域也都有一些收获。我其实也看到有

另外一些同样在开源赛道的你们的竞品友商，比如说 Qdrant，比如说 FASS，呃，还有一家叫 Viviat。

星爵18:22

嗯。

Koji杨远骋18:22

那，呃，从你的角度看，他们有带来一些冲击，或者有蚕食掉一些你们的市场吗？

星爵18:29

首先，呃，我这里要，呃，指，指出一下，呃，Face，呃，的确是在那个向量，向量这个检索方面的话很，很有名的一个项目，我们 Zilliz 公司的话是四个项目，除了 Facebook 之外呃，最大的参与者跟贡献者。

Koji杨远骋18:46

OK。

星爵18:46

所以的话就是说，呃，Faiss 来说的话，其实就是它有一点像一个这种算法集，它是这种向量检索的一套这种算法集。呃，所以的话，我们的开源的 Milvus 其实是大量地去跟 Faiss 去合，去合作，呃，我们也大量地使用了那个 Faiss 做我们的算法的一个底座，做我们开源算，算法的一个底座。然后的话，的确我们也看到像，像有更多的一

些开源项目出来，可能大家都会有自己的一个，一个这种切入点。对于我们的 Mi，Milvus 来说，第一个来说的话，它的性能是特别特别好的，第二个来说它的可扩展性是特别特别好的。

Koji杨远骋19:24

嗯。

星爵19:24

对第三个来说的话，其实跟第一点跟第二点是比较相关，就是说我们 Milvus 项目的整体的这个 TCO 是最优的。

Koji杨远骋19:32

嗯。

星爵19:32

这个 TCO 就既包含了，呃，我们说的用户前期要使用的你的机器跟硬件的投入的这个成本。

Koji杨远骋19:39

嗯。

星爵19:39

所以一个数据库你的性能越好，那么意味着你需要的硬件设备可能会，会，就会比较少。呃，然后第二个来说的话，是你整体的这个开发的这个成本。而 Milvus 来说的话，是在过去的，呃，七八年里面，我们跟全球的 AI 的生，生，生态的各种框架，呃，各种大语言模型都做了一个很好的一个整合。

Koji杨远骋20:00

嗯。

星爵20:00

所以的话就是使用户的话，他的那个开，那个开发会更方便。

Koji杨远骋20:04

嗯。

星爵20:05

并且我们也支，支持了更多的这种数据类型，呃，支持了更多的这种数据的查，那个查询的方式。对，所以你看到今天的 Milvus 已经不简单，只做一个向量数据的这个近邻的搜索了，其实它可以做这种基于标量的过滤。

Koji杨远骋20:22

嗯。

星爵20:22

呃，可以基于标量跟向量的混，那个混合查询。对，可以做数据的聚类，可以做分类，呃，可以做 reranking。对，所以的话，我们这边的话，呃，让，呃，降低了所，那个开，开发者的使用这个，这个成本。

Koji杨远骋20:37

嗯。

星爵20:38

第三点来说的话，呃，也是我们一直在做的，就是说，呃，我们在降低我们用户的这个维护的这个成本。对，所以在它生产上线以后，它运维，呃，的用，我们提供整套的这种用，那个运维的这种工具链，包括数据的可视化，呃，包括，呃，跟这种传统的这些运，运维啊、数据采集系统的整合，跟它的数据的权，权限

管理系统的打通，呃，跟它内部的企业的这个，比如说它的那个 access control 的这种系统的权，权限系统去打通。

Koji杨远骋21:13

嗯。

星爵21:13

对，使它整体后面的运维跟维护的成本也，也会比较低。

Koji杨远骋21:18

然后第三个，第四方面的竞争哈，我理解其实还是来自于，比如说传统的数据库，像 MongoDB。

星爵21:23

嗯。

Koji杨远骋21:23

它有可能也会加向量数据库。像 PostgresQL 它可能也会加。然后另一方面，不管是，呃，LangChain 还是 LlamaIndex，它们也可能会把向量数据库整合成它们整个这个生态系统当中的一个部分。

星爵21:39

对。

Koji杨远骋21:39

那在这个里面，好像一个独立的这个向量数据库的，呃，项目或公司或产品，它会不会有一天被人吞掉呢？你会有这种担心吗？

星爵21:47

其实你刚才提的是两个问题，我一个一个去回答一下。

Koji杨远骋21:51

嗯。

星爵21:51

呃，第一个呢，就是说对于传统的数据库加上一个向量数据库，其实这是一个临时的过渡的方案，就是在它数据量比较小，呃，场景比较单一的时候，它是可以用的。对，等它的场景比较关键了，数据量比较大了，他们是会迁移到一个专用的向量数据库系统之上去。

Koji杨远骋22:09

嗯。

星爵22:09

所以这里面举一个类比来说的话，呃，这个在传统的数据库里面加上一个向量的搜索的一个模块，呃，就有点像在新，新能源汽车里面这种增程式的汽车。

Koji杨远骋22:22

OK。

星爵22:22

在燃油车里面加一个电池。呃，我觉得这是一个过渡的方案，它永远不能跟一个原生的方案去比较的话。第二个来说的话，就是说你刚才说的一些开发的一个框架。

Koji杨远骋22:32

对。

星爵22:32

比如说像，呃，像 LangChain 啊，像 LlamaIndex。呃，这一块来说呢，我觉得从天然上面，从第一天开始的话，大家就是在一个不同层次的一个产品，呃，不存在说竞争的。我们的态度就是说，呃，并不存在说一个开发框架会把一个数据库系统把它，把它包住，甚至说取代一个数据库系统。而我的判断就是说以后在 AI 这个生态里面，开发

者框架会进一步地细分。对，可能，呃，除了现在有名的框架里，会出现更多更多细分的这种框架。如果说我们看到像过去几年里面的，例如说我们在一个 web 的一个开发框架里面，一般会说的有应用层。

Koji杨远骋23:11

嗯。

星爵23:12

包括我刚才讲的这个框架都是属于应用层的这种，这种框架，对，然后后面还有个 middleware，有个中间件层，然后最下面才是说是那个数据库跟操作系统这个层面。其实我们跟 LangChain，跟那个 LlamaIndex 的话，都是这种战略合作的伙伴。

Koji杨远骋23:27

OK。

星爵23:27

我们也经常跟他们的生态去，去合作。

Koji杨远骋23:29

刚才提到的各种各样的竞争对手里面，有哪一个是你最担心的？

星爵23:33

与其去关注竞争对手做了什么事情，呃，不如说关注我们自己。最担心的就是说我们能不能以更快的速度去创新。

Koji杨远骋23:43

因为说到开源，其实我俩在录这一期播客之前，正好吃午饭的时候，然后另外一位朋友我们一块在吃，他说他最近见到 Reino Shin，就 Databricks 的 cofounder，然后他问 Reino Shin 说，如果可以重新选择，你一开始还会开源吗？然后 Reino Shin 告诉他，可以重新选择，我不要再做开源，我上来就要做闭源。那想问问你，你怎么看呀？就是如果可以重新选择，

开源策略23:43

Koji杨远骋24:06

你还是会一开始做 Zilliz 的时候就做开源吗？

星爵24:09

如果要我重新选择，我还是会选开源。对，如果没有开源，就没有 Databricks。他们曾经是通过开源的这个社区影响力，让他们能够成功地融资，能够让他们拿到了第一批的这种用户。对，然后，呃，时至今日的话，我觉得，呃，在那个 Databricks 跟 Snowflake 的竞争层面来看的话，因为有更多的开发者在用它的这个系统，呃，它的生态位的这种

定位，它其实以后可能会有比 Snowflake 更大的成长的空间。

Koji杨远骋24:43

所以你会认为开源对于 Databricks，对于 Zilliz 来讲是一个捷径吗？还是它是一个呃，不得不做的选择，你可能没有第二条路。

星爵24:54

首先这肯定不是个捷径。开源其实要你付更多的耐心。开源可以是你中间的一个护城河，你是要掌握开发者的心智，

Koji杨远骋25:03

嗯。

星爵25:03

对不对？你希望很低成本地进入他们的那个工具链，也希望低成本地让他们来学你这个东西。一个开源的产品来说的话，它在 GitHub 上面可以直接把它 download 下来就可以使用，并且来说的话，它可以去看你的实，那个实现的这种细节。

Koji杨远骋25:19

对。

星爵25:19

然后，呃，所以我觉得开源天生就是更加招人喜欢的。

Koji杨远骋25:26

其实像 Reynolds Xin 他提到他为什么能够再来一次，就一定不会选开源的原因是，他认为他们开源虽然做得不错，但是他后来发现为了找 PMF 好像要二次创业一样，再去做一个闭源的产品，所以把创业要跨越的一座大山变成了跨越两次大山。这个你怎么看？

星爵25:45

这正好就是说他今天那个成功，还有他自己商业的壁垒的一个很重要的一个所在，就是他跨越了两座大山，你跨过去很不容易，你的竞，竞争对手要跨过去可能也很不容易。就我跟 Reynolds 也聊过，他们的话其实也创造性地那个摸，摸索出了一个新型的一个开源的商业模式。像我们知道，像传统的开源的商业模式的话，就是

说那个 open core 这种商，商业模式，基本就是说我会做一个开源的一个核心，然后我的商业化产品会加一些这种企业的服务，对不对？但是核心是没有什么区别的。

Koji杨远骋26:21

嗯。

星爵26:21

呃，像这么做的一个好处就是说，你基本上的话只用做一次研发，呃但是你的一个弊端就是说在商业化的时候，你很难回答一个用户的灵，灵魂拷问，你跟开源，你商业化产品跟开源有什么区别？

Koji杨远骋26:35

嗯。

星爵26:35

我为什么一定要付这么多钱买你一个商业化的产品？Databricks 走出了一条，呃完全不同的一个道路，它的模式叫做那个 dual core，它有一个 open source 的 core，然后同时来说它有一个商业化的 core。

Koji杨远骋26:48

嗯。

星爵26:48

商业化的 core 是闭源的。

Koji杨远骋26:50

嗯。

星爵26:51

对，然后它会把商业化的 core 设计成跟那个开源的这个 core，呃是基本上它用户体验、接口，还有产品线上是一模一样的。

Koji杨远骋27:02

OK。

星爵27:02

所以两边是完全兼容的，所以用户可以很好地能够迁移过来。

Koji杨远骋27:07

迁移。

星爵27:07

对，但是来说的话，它的那个商业化的 core 来说的话，呃是完完全全是重写的，重新设计，重新去写的，它的商业化的执行引擎，呃就是用 C++ 去写的，而它开源的这个执，执行引擎的话是用 Java 去写的。

Koji杨远骋27:21

所以它要完全两套人马写两套东西。

星爵27:24

所以最，最重要的的话，它就要保证我的商业化的 core，从设计，从功能，从性能各方面来说的话，是比开源的这个 core 是要领先一个身位的。

Koji杨远骋27:34

OK。

星爵27:34

对，所以这样的就解决了用户说我为什么要为你的商业化产品付钱。

Koji杨远骋27:40

嗯。

星爵27:40

你告诉他就是说我提供跟你的开源产品一样的用户体验。

Koji杨远骋27:44

嗯。

星爵27:44

你，你今天跑在开源上面，你明天你就可以无缝地迁移到我的闭源上面来。

Koji杨远骋27:49

嗯。

星爵27:49

你的迁移成本基本可以忽略，但是来说的话，你的产品体验更好了，你的性能更好了，你解决了这个差异化的一个，一个问题，那用户可能就要有更好的一个付费的一个动力，一个意愿了。第二，呃，但是他要解决的一个很大的一个挑战，就是说本质上你是在做两个产品，一个开源的产品，面向于开源社区。

Koji杨远骋28:11

嗯。

星爵28:11

呃，另外一个是闭源的产品，面向于商业化。

Koji杨远骋28:14

嗯。

星爵28:14

并且你还要保证你的闭源产品跟开源产品既兼容又要比它好。

Koji杨远骋28:19

嗯。

星爵28:20

对，并且这个好还是一个动态的好。

Koji杨远骋28:22

嗯。

星爵28:23

对，因为你的开源产品也要不断去迭代。

Koji杨远骋28:25

对。

星爵28:25

所以的话你基本上你要维持一个这种，呃，一个这种移动的时间窗口。

Koji杨远骋28:31

嗯。

星爵28:31

就是我这个闭源产品永远比开源产品好十二个月，十八个月。所以这里面来说，对你的这个工程的能力，对你的产品的设计，对你整个的这个组织架构的这个能力的话，有一个很大的一个挑战。

Koji杨远骋28:46

所以你们现在也是选择了这个 dual core 的路径吗？

星爵28:49

对，其实我们当时在一八年、一九年的时候，我们就决定了我们要走一条这种 dual core 的一种模式。挺不容易的，要求你的工程师团队跟你的产品团队要有很强的执行力，要有很强的这个迭代的这个速度。

Koji杨远骋29:06

哎，那你怎么看 Deepseek 的开源对它带去的价值和帮助？

星爵29:11

Deepseek 跟我们这种数据库公司可能不是在同一个维度，它要追求的就是说我如何作为一个后发者能够迅速地占领心智，它用开源也解决了它的用户的获取，跟占领心智，跟占领开发者最宝贵的开发者时间这个目的。一个开发者既然说我安装了 Deepseek，我这个公司安装了 Deepseek，大概率就不会装其他家的那个模型的。所以我觉得它解决这

个占位这样的一个问题。

Koji杨远骋29:39

现在你会认为大家选开源已经不像一开始那样，开源其实是为了能够吸引更多的人、开发者加入我的生态，来帮我把这个产品一起做得更好，这是不是已经有点失去了那样的纯粹的一个开源的理想，而是其实开源更多是为了某种竞争，某种为了某种美誉度，或者为了某种得到更多人的喜爱，从而获得竞争优势。

星爵30:07

我觉得更多的是就是你开源的协作的方式现在也在发生很多的一些变化。像的确开源来说的话，有更多的开发者，能够，能够引入一些外部的开发者，这是一个比较好的。但是来说的话，你引入了太多的这种外部的开发者以后来说的话，其实你的项目的管理，还有项目的方向的这个引导也会出现很多的问题。所以我们

其实现在看到更多的开源公司的背后，呃开源项目后面背后有一个商业化的公司，呃在引领这个社区，在引，引领这个项目，为这个项目做更大的一些贡献。其实开源我觉得最大最大的一点来说的话是，是把你的技术把它展开来，把它，把它透明化，而不是一个黑盒子。很多工程师他倾迷于一个开源项目并不是说我一

定要成为这个项目的贡献者。更多的来说的话，就是说他会觉得我自己有一个成长。第一个是我看到这个项目的时候，我如果觉得这一块的一些架构是怎么做的，我可以自己去看代码，我可以很，很了解你的项目的架构，你的项目到底是怎么去设计的，这个功能去怎么去实 - 实现。所以它需要的时候，它有这样的一个

透，一个透明度。第二个在海外来说的话，他们选择开源项目大概率不是为了说我为了不付钱，他们很多想法就是说我就是要防止我的技术上的这个锁定。如果我用了一个这个完全闭源的项目的话，那我完完全全以后就只能，只能走下去，并且我没有，我没有任何的这个 visibility。一个开源项目来讲的时候的话，我，我至少还

是保留一个退路，来说的话，哪一天如果我不跟这个公司合作了，我可以转向开源社区，我可以自己建一个团队，基于开源项目，呃，自己去做维护跟升级。

Koji杨远骋31:46

嗯，所以现在你们这个开源的项目里面有多少的核心的有价值的代码是真的来自你们团队之外的其他的开发者提供的呀？

星爵31:57

我们现在社区的开发者还有三百多个，这里面只有百分之二十的这个项目的开发者在我们公司，呃，但是他们贡献了百分之八十到九十的代码。对于外面的一些社区的开发者来说的话，他们可能，呃，更多的是去，去改一些 bug，做一些周边的一些工具，一些增强啊，一些整合啊等等。对，呃，我觉得这也是比较符合我们

的这个预，这个预期的。对，因为，呃，对于一个数据库系统来讲来说的话，成为一个核心的开发者的话，呃，它需要很长的一个时间。

创业心得32:30

Koji杨远骋32:30

你如何定义这一段创业的成功啊？你觉得做到什么样的水平，你会觉得这一次满意了。因为其实这已经是第七年、第八年了嘛，其实还是是这个青春当中已经这个投入了非常多时间，可能接下来还要再投入很多时间，那你对它的期待、期许就成功是什么？

星爵32:49

我希望我们其实有幸来说的话，成为全球第一个去探索非结构化数据处理，探索向量数据库的。我希望到我退休的那一天的话，回顾这段旅程的话，我们不只是一个先驱者，我们还是一个集大成者，我们还是一个成功者。

Koji杨远骋33:08

那你有这样的恐惧吗？就是成了先驱，但最后没有成为最后的领先集大成者，摘到最后的果实的人。

星爵33:17

有。因为首，首先的话，你走在一个这种无人的赛道里面来说的话，你作为第一个创新者的话，你就是首先你要面对恐惧感，技术更新迭代的一个长期的一个压力，而这个在 AI 这个时代里面的话，这所有东西又被加速了。基本上任何一个领域里面，你发现就是说做创新者来说的话，你可能要尝试一千种方法。

Koji杨远骋33:40

嗯。

星爵33:40

然后要排除里面的九百九十九种，留下那一种。

Koji杨远骋33:44

嗯。

星爵33:44

能够 work。但是作为一个 follower 的话，它就照着你成功的这个事情再做一次就好了。唯有这种你，你能够长期地去保持你的创新，然后迅速去迭代你的产品，这是你的一个长期的一个竞，一个，一个竞争力。

Koji杨远骋33:58

你，你在公司内部用什么样的方式，不管是管理上，还是文化上，还是其他什么层面的，来保证公司一个七年的公司还可以持续地创新迭代。

星爵34:09

我觉得创新是不能靠管理的。

Koji杨远骋34:12

嗯。

星爵34:12

就一管就死。

Koji杨远骋34:13

嗯。

星爵34:14

对，创，就是，就是如果你要做一个创新的公司，那你就去招这些有创新精神的，呃，愿意去创新的、愿意去快速迭代的一些小伙伴来加入你们，对不对？

Koji杨远骋34:26

诶到现在创业八年了，有什么你特别想对这八年前刚开始做的自己说的话吗？

星爵34:32

我也许会劝八年前自己就不要创业。对，因为创业的确比你想象中要难太多太多了。你，你基本上停不下来，基本上你解决了一个问题，然后第二天就，就有新的问题，然后你解决了一个层次的问题，你就会有新的问题。公司的每一个阶段，呃，每一个发展阶段，每一个轮次，每一个商业化的不同的这种阶段都会有不

同的问题。所以创业这条路来说的话，我会对自己说的话，呃，如果你选了这条路，那希望这个事情是你的一个 lifestyle，是你一辈子想做的事情，要不然的话，你可能会崩溃。

Koji杨远骋35:13

你最接近崩溃的时间是什么时候？

星爵35:16

基本上这种事情可能最坏的情况下，每天会有几次，好的情况下的话，可能至少每一两个星期会有一次。

Koji杨远骋35:26

其实你公司已经做到六亿美金的估值了，这在很多人看来已经是一个很好的成就了，但是你还在如此频繁地陷入崩溃。可不可以讲一个你最近一次感到崩溃的故事？

星爵35:39

想一想。

Koji杨远骋35:40

嗯。

星爵35:41

过去差不多两年的时间里面的话，是，是整个创业里面经历的困难最多的。因为在两年之前来说的话，我们都是做产品，呃，做开源，在做技术，基本上是在自己的一个舒，一个舒适的一个区里面。然后在过去的两年的话，公司第一次做商业化，对于一个像我们这么强工程师背景的团队来讲的话，我们大部分的同学之

前也没接触过商业化，并且我们还要给自己比较高的一个增长。

Koji杨远骋36:07

对。

星爵36:07

对。这个时候其实压力是特别大的。在过去的像，像 2024 年的话，市场发生了一些调整。

Koji杨远骋36:16

嗯。

星爵36:16

对，有一些，呃，这种尖的公司的话，它自个就死掉了。这个东西的话就跟，就跟我们做的好不好没有什么关系。

Koji杨远骋36:23

就你们有一些客户突然就消失了。

星爵36:25

对对对对，曾经是当时是我们那个，我们也是蛮大的一个客户，那个就是也是美国那个 AI 的最头部的公司，然后它马上陷入了一个困境的，所以的话在过去十八个月里面是经历了一波这种回调，前面的十大的客户，呃，流失掉了，然后你还要增长，你要搞更多的客户，既要填他们流失的这个坑，然后还要有更多的客客

户能够维持你这个增长这个趋势，那就真的就是觉得，哎呀，这个就很痛苦。并且整个团队来说的话，因为也是第一，第一次做商业化嘛，然后的话在，呃，在很多的这种组织啊，架构啊，流程也在一边做一边在搭建，呃，基本上就是在一边开飞机，一边还要换引擎，还要做组装。这段时间是相当相当痛，痛苦的。

Koji杨远骋37:17

嗯。那做到现在有一些什么样的心得了吗？就是作为工程师背景的创始人，可能之前也都不需要去面对客户，不需要去做销售，但做到现在你开始有了一些这个技巧也好，方法论也好，这个有可以分享的吗？

星爵37:33

我觉得首先来说的话，你肯定是要找到合适的人，我们可以在招人上面花更多的时间。

Koji杨远骋37:39

嗯。

星爵37:39

对，虽然说我们在招人上面已经花了很多时间，但是我觉得，呃，你永远不要认为你在招人才方面你花了足够多的时间。哦，第二个就是说在商业化也没有什么好恐惧的，我再做一次，我可能一样的会经历这个痛苦的这个阶段。

Koji杨远骋37:56

嗯。

星爵37:56

可能犯的错误不一样，我就坦然接受吧。

Koji杨远骋37:59

嗯。

星爵37:59

呃，更多的来说的话，就是说，呃，在错误中能够迅速地能够恢复过来，能够迅，能够迅速地能够去调整，呃，既调整自己的心态，也调整整个团队的心，心态，让整个团队的士气不要失去。

Koji杨远骋38:14

怎么能够让团队的士气在遭受打击的时候不要低落，这个你有什么办法？

星爵38:20

最终还是打身子，不要重复地犯错误，一定要尽快地从一个错误里面找到经验，能够跳出来。

Koji杨远骋38:26

嗯。

星爵38:26

呃，这是第一个。呃，第二个就是说我们最终的目标就是要少犯错误。现在其实就我们的现在技术啊，产品啊都有领先的优势，我们增长也不错。

Koji杨远骋38:38

嗯。

星爵38:38

呃，这个时候就是说你要，你要有更好的一个战略的一个定力，跟思，跟思考，决定什么东西要做，什么东西不要做，避免犯太大的原，原则性的错误。我们每个人都不完美，我们要，我们要学会跟自己达成一个和解。对，要不然的话，你自己会把自己给击垮。

Koji杨远骋38:59

嗯。

星爵38:59

你自己从内部把自己给击垮了。

Koji杨远骋39:01

嗯。

星爵39:02

对，所以先接受自己的不完美。我看历史上很多的竞争最终不在于你做了什么，可能在一个极度的压力的情况之下的话，你的对手可能比你多犯了两个错误。

Koji杨远骋39:13

现在有什么道理，或者有什么话是你八年前特别相信，但现在已经偷偷地不相信的吗？

星爵39:21

我在创业之前，我绝大部分是一个理想主义者。

Koji杨远骋39:28

嗯。

星爵39:28

对，但是这过去这八年的这个，这个创业啊，慢慢地已经褪去了我作为理想者的这个彩色的这个外衣，现在留下来的更多的是一个这种灰色的这个内衣。

Koji杨远骋39:45

有一个比较明确的就是某一个事情，你想到它会觉得我过去理想主义的自己，彩色的自己。

星爵39:53

嗯。

Koji杨远骋39:53

会那么想，那么做。但现在同样一件事情放在今天穿着灰色内衣的自己可能就不会那么想，不会那么做吗？

星爵40:00

在团队建设跟管理这个层面，可能你觉得就完完全全透明的，无话不说，是个最好的管，一个管理方式。

Koji杨远骋40:08

嗯。

星爵40:08

呃，但现在看来说的话，就是说这个要针对于不同的人。

Koji杨远骋40:12

嗯。

星爵40:12

针对不同的场景，也针对不同的团队的规模，跟不同的阶段。曾经我也觉得就是说一个最好的公司是不需要管理的。

Koji杨远骋40:20

嗯。

星爵40:20

你就不应该有管理，对不对？但是你的团队越来越大以后，你会觉得就是说管理还是需要的。曾经我自己作为理想主义者，会把管理跟那个，跟官僚可能 somehow 会画一个等号，是吧？少一层管理就少一层官僚。

Koji杨远骋40:34

嗯。

星爵40:34

但是现在来看来说的话，就是说管理真的是一门科学。如果回到技术这个层面来讲的话，作为一个工程师来讲的话，呃，你追求自己的内，内心的愉悦感，那肯定是创新永无止境。

Koji杨远骋40:47

嗯。

星爵40:47

我不停地做得更好，对不对？但是从一个商业世界里面来说的话，就是说你，你足够好就可以了，你比对手好，好那么一些，也不要好太多。

Koji杨远骋40:59

嗯。

星爵40:59

就可以了。对，所以，所以从这一点来说的话，就是说，嗯，坦白讲，就是说我，我们也知道，像现在，像，像曾经的话，我们觉得像，呃，像英特尔的话就挤牙膏，对不对？它的创新，它的那个 C，C，那个 CPU 的这个创新在，在迭代，在挤牙膏。现在那个，呃，现在英伟达基本上也是慢慢地挤牙膏，对不对？是吧？呃，但

是我觉得就是说，这两家公司曾经可能都是在这个，在这个硬件芯片里面最成功的一家公司，就是说他们能够把握这个我商业化的节奏跟技术创新的节奏，我在这个时间节点我足够好，我领先于这个，这个所有竞争对手就，就可以了。但是我个人觉得，就是说在技术这个世界里面来说的话，应该还是要多一点这种理想

主义的。虽然说我现在慢慢的话，那个，那个理想主义的外衣已经所剩无几了，对，可能剩那少点了，但是我个人感觉就是说你是从哪一边出发的还是很重要的。呃，因为几年前我是从一个纯粹理想主义出发的，就基本上，呃，除了追求技术的卓越，呃，其他东西都，都不去想。

Koji杨远骋42:09

嗯。

星爵42:09

这也，但是这个反过来来说的话，到今天为止的话，也是，也是我们公司现在赖以成功的一个根本。所以我们现在有更好的技术，有更好的一个产品。

Koji杨远骋42:18

嗯。

星爵42:18

对，虽然说我们现在的话要把整个公司，呃，打磨得更加那种商业化，更加 bu，那个 business savvy。当这个彩色的理想主义的都慢慢地褪去的时候，当这个灰色的这个现实主义，对不对？会左右你更越来越多的决定的时候，你还是会在自己的心，内心的深处，呃，在你公司的某一个角落，会保留下一片那种小小的一个天空。

Koji杨远骋42:46

嗯。

星爵42:46

还是彩色的。

Koji杨远骋42:47

嗯。

星爵42:47

还是浪漫的。

Koji杨远骋42:48

嗯。

星爵42:49

还是有情怀的。

投资看法42:49

Koji杨远骋42:49

在整个这个 AI infra，从大模型到 infra 到数据库，就整个我们大的这个很泛的领域来说，你目前最看好哪些公司？如果你自己要不管买股票还是一级市场投资，你会投哪些公司？

星爵43:04

整个 AI 赛道里面，我觉得像亚，像亚马逊的云平台肯定有更好的一个增长，因为 AI 现在到了一个临界点来说的话，最终的话是一个能源跟基建能力的一个比拼了。

Koji杨远骋43:17

嗯。

星爵43:17

对，所以的话这个里面说的话，像这些大的巨头来说的话，它有，它有，它有资源嘛，所以 AI 这一波我觉得判断的话，对这种公有云的发展是有利的，公有云可能会越来越重要，接下来建的这种大规模的数据中心的话，都是会成为云，云的基座设施的一部分，这是一块。然后另外一块来说的话，大模型肯定是底座，这

个就不用说了，这个大模型公司肯定是那个尤其是头部的几家。另外一个来说的话，我觉得就是说现在已经出，出现了一些比较好的 AI 的应用的一些公司，对，这些应用的一些公司来讲来说，像我自己用的比较多的 AI 的工具的话，就一个是 ChatGPT。

Koji杨远骋43:57

嗯。

星爵43:57

一个是那个 DeepSeek。

Koji杨远骋43:59

嗯。

星爵43:59

呃，第三个就是 Kerser。我发现用 Kerser 其实管理自己的个人知识库，然后用它去写文章都是很好的一个东西。

Koji杨远骋44:06

嗯。

星爵44:06

我现在基本上在写东西，我就不用 Word 了，我用 Kerser 来写。

Koji杨远骋44:09

好，今天谢谢星爵的时间，啊，就是十字路口录了一些非常硬核的播客，那听到结尾呢，应该大家都是真爱，啊也希望这个 Zilliz 可以继续，呃，有很好的发展，可以继续保持百分之三百的增长率，啊也希望这个星爵有机会可以再来做客十字路口。好，谢谢。

星爵44:26

谢谢。