新闻

向量数据库风起时,闭源「墨奇 AI 数据库」想成为第三种存在

2023-09-27

作者 | 吴思瑾

编辑 | 王与桐

*

AI 大模型时代下,图片、视频、自然语言等多模态的非结构化数据量陡增,而大模型支持的 token 数有限,虽然可以在 RLHF 的配合下具备一定程度的 " 短期记忆 ",但正是因为 " 长期记忆 " 的缺失,导致大模型经常会出现 " 一本正经地胡说八道 " 的情况。

区别于用来处理结构化数据的传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据;它就像一块外接的记忆盘,可供大模型随时调用,以形成 " 长期记忆 "。对大模型应用开发者来说,向量数据库是非常重要的基础设施。

目前,向量数据库大致可分为两种。一种是原生向量数据库产品,比如 Pinecone(累计融资 1.38 亿美元)、Milvus(累计融资 1.13 亿美元)、Weaviate(累计融资 6770 万美元)等,另一种是基于传统数据库增加的插件式向量搜索引擎产品,如 ClickHouse、ElasticSearch、Redis 等许多开源数据库都增加了这类产品。

36 氪近期接触到一家介于两者之间的第三种数据库——墨奇 AI 数据库,它在托管在 AWS 上,可同时支持结构化数据和非结构化数据的存储、查询、搜索、联合分析和处理功能,广泛应用于图像检索、视频分析、自然语言理解等 AI 驱动场景。

之所以成为第三种存在,墨奇 AI 数据库副总裁孟卓飞告诉 36 氪:" 墨奇曾在国内与许多真实用户进行交流,在这个过程中,公司发现在真实的大模型集成应用场景里,向量数据往往会与结构化数据做混合查询,这就决定了其分析查询的性能是非常重要的,也就是说,向量数据库在未来很难会作为一个单独的技术栈存在。"

官方信息显示,墨奇团队在 ClickHouse 的底层架构上结合向量数据特点和任务特性,在分布式、存算分离、检索策略等方面,对其上百万行源代码进行了 30-40% 的修改,同时还集成了自主研发的多尺度树图(multi-scale tree graph,简称 MSTG)向量索引算法,以实现高性能的结构化数据和非结构化数据联合处理能力。

除具备结构化数据和非结构化数据的联合处理能力外,孟卓飞告诉 36 氪墨奇 AI 数据库还有两个特点,一是其关系型数据库的基底,导致天然对 SQL 在数据类型和语法有完全的兼容性,并具备健全的、成熟的关系型数据库的周边生态组建和一些包括数据安全、权限管控、数据备份等在内的完整工具链;二是在同等资源用量上处理同样规模的数据时,墨奇 AI 数据库消耗计算资源的成本是其他向量数据库的 1/5。

 

恒定 500 万数据量每 100 次 QPS 的月成本对比 图源:墨奇 AI 数据库

 

单 QPS(向量数据库服务一个 C 端用户一次查询可能会消耗的计算资源大小)成本一直是影响企业对向量数据库选型的关键要素,也是向量数据库厂商们火拼的重要战场。

依据孟卓飞介绍,墨奇 AI 数据库在性价比上优于插件式的向量数据库和原生向量数据库,而实现这样的结果,主要与墨奇自研的 MSTG 算法有关。

" 该算法在索引构建、数据分片、搜索调度等方面进行了大量底层调整,在支持用户向量搜索的同时,可大大节约内存使用。对于过滤查询,特别是复杂的联合查询,由于墨奇 AI 数据库 AP 类业务的优化和列式存储特点,将比同类方案提升更为显著。"

其实,墨奇并不是向量数据库行业的新人。在 2022 年之前,墨奇就在生物安全识别场景中,基于超大规模向量和图的检索算法创新,实现了超高精度的百亿级指纹底库秒级检索。在这个过程中,公司积累了大量原创的向量索引算法和复杂场景检索技术。后来随着业务的发展,公司开始构建面向向量场景的数据库产品,也在 2022 年通过私有化部署的方式进行市场验证,数据库业务当年收入达到千万级别。

2022 年底,AI 大模型开始爆发,墨奇观察到海外 AI 生态和技术栈正在以非常惊人的速度迭代,为了积极拥抱迅速进化的行业和技术生态,和更加高效地进获取客户反馈并完成产品迭代,墨奇加速推进以闭源 SaaS 的形态走向海外,面向全球市场。

对于选择闭源路线的原因,孟卓飞的说法是,首先,原生向量数据库 Pinecone 的成功已经证明了闭源路线并非完全走不通。截至目前,Pinecone 是目前向量数据库产品中声量最大、用户认知程度最广的产品,且在 2022 年就已经率先实现了数百万美元 ARR。

其次,墨奇认为,开源产品如果想要在海外产生较好的收入,需要产品在性能和功能等方面与竞品之间形成足够强的差异化,否则对中国团队来说出海会非常困难。而墨奇 AI 数据库和竞品相比,价格是对方的 1/5,在某一些功能上,墨奇觉得只有自己能够满足。因此在这种情况下,闭源不再是用户付费的障碍。

即便产品独特的同时兼具性价比,但 " 酒香也怕巷子深 "。如何在海外市场获取种子用户是摆在初入者墨奇面前的首要难题。

从行动来看,墨奇选择了一个讨巧的方式——跟着 Pinecone 的步伐前行吸引和收获用户。

孟卓飞告诉 36 氪,Pinecone 在 LangChain 等大语言模型相关的工具链和社区中做了非常多贡献,已经把市场和用户教育的非常好。因此,有的事情无需重复再做,只需沿着对方的脚印对目标用户群体宣传墨奇 AI 数据库的产品特点即可。

墨奇有计划的在这些社区中贡献对用户有价值的功能和开源代码,同时也会和其他数据库产品一样分享一些共识性的用法。据介绍,这已经成为该公司最主要的获客渠道。

在 2023 年第二季度上线的墨奇 AI 数据库测试版本中,该公司获得了上百个活跃用户,据介绍,其中很大一部分很快在第三季度转为首批付费客户,近半用户来自插件式向量搜索引擎 PG Vector 和 Pinecone 的用户群体;通常情况下,一两次沟通会即可确定是否转化,周期很短,转化率也很高,超过 80%。

对中国公司来说,如何 go to market 是全球化路上要面对的首要挑战,比如招募本土人才,比如运营不同文化和语言的海外社区……但是中国公司也有海外公司难以企及的竞争优势,比如在中国这种超大体量的市场规模、应用场景和丰富的数据的环境中,成长起来的一批优秀工程师,他们是中国公司全球化的底气。

36 氪会持续关注向量数据库领域,如果您也是该领域的创业者、从业者,欢迎来聊。

联系我们
TOP