您对数据库中的向量存储有什么期望?

Vector Poll and Wishes

我们不是读心术者,所以时不时地,我们喜欢进行民意调查。民意调查本质上是定量的,所以提出正确的问题还不够——我们在想出备选答案时需要做一点读心术。

快速开发基于文本的 RAG 应用程序

我们的假设是,RAG 是使用向量数据库进行开发的流行方向,特别是基于文本的 RAG。我们在 MariaDB Vector 方面的会议演讲(例如 在 2024 年 11 月 8 日于意大利南蒂罗尔博尔扎诺举行的第 24 届 SFSCON 会议上)强调了轻松开发 AI 应用程序的价值,这些应用程序能够根据特定文本集合中的知识来回答用户提示,而不是依赖大型语言模型的整体训练数据。这正是您使用 MariaDB Vector 可以做到的。

我们的民意调查或多或少证实了这一假设,30% 的受访者(在“庞大”的 20 位受访者基础中)选择“快速文本 RAG 开发”作为首选答案。

快速响应时间

MariaDB Server 一直以其稳定性、性能和易用性这三大特性而自豪。这意味着:我们认真对待性能。将近一半的受访者—— 45 %——将“快速响应时间”列为首位。因此,令人欣慰的是,即使是 MariaDB Vector 的初始版本在性能方面也表现出色—— Sergei Golubchik 的博文《MariaDB Vector 有多快?》对此有所证明。

集成到标准(非向量)关系型数据库管理系统(RDBMS)中

MariaDB Vector 是标准开源关系型数据库管理系统中的一个功能模块。它不是一个只擅长向量的单能工具。它的目标是提供所需的向量功能,并具有快速响应时间,同时保留 MariaDB Server 提供的所有优点。一个标准数据库拥有我们都熟悉和喜欢的语法,开箱即用的丰富功能,大量的工具,专家团队,以及在同一查询中组合源数据、向量数据和任何关系型数据的功能。

在民意调查的受访者中,20% 将“利用标准 RDBMS”评为他们对向量数据库的首要期望。

不要忘记图像和视频!

老实说,我还没有见过一个使用图像、音频或视频的 MariaDB Vector 应用程序。但没有任何东西阻止 MariaDB Vector 用户创建这样的应用程序。二进制数据也可以像文本一样被向量化并用于最近邻搜索。“快速多模态 RAG 开发”在我们的民意调查中获得了 5% 的响应,所以一定有其他人也有类似的想法。

结论:“我早就告诉过你!”

我从民意调查中得到了预期的结果:一些答案证实了我们的假设,即 MariaDB Foundation 的 LinkedIn 粉丝主要希望能够快速开发基于文本的 RAG 应用程序,并具有快速响应时间。对我们的想法进行粗略的验证仍然非常重要,这让我们知道我们在将 MariaDB Server 打造成存储向量的默认数据库方面正走在正确的轨道上。我们的目标是成为 AI 应用程序中的标准组件。