MariaDB 向量搜索 – 关系数据库中最快的向量搜索

摘要

向量是人工智能模型表示数据语义的关键。现在,搜索向量已成为数据库的一项关键需求,以促进人工智能优先的应用。MariaDB 服务器很快将在一个 LTS 版本中提供向量支持。本次演讲将讨论 MariaDB 向量是什么、它在幕后如何工作,以及可能的用例和未来路线图。

MariaDB Vector 在 MariaDB 服务器中引入了一个新的高级索引接口。此接口允许创建自定义索引策略。向量搜索需要一种特殊的索引类型。

MariaDB 和许多其他向量数据库使用的算法称为分层可导航小世界 (HNSW)。本次演讲将重点介绍 HNSW 的基础、为什么该算法返回近似结果以及影响其性能的因素(调优参数)。

我们还将讨论生成式 AI 模型和嵌入式 AI 模型之间的区别,以及如何使用 MariaDB 作为数据存储构建检索增强生成 (RAG) 应用。

最后,我们将描述当前向量数据库的生态系统及其优缺点。根据提供的信息,您可以更明智地决定是选择专用的向量数据库,还是坚持使用支持向量搜索的传统关系数据库。

小组讨论

让我们讨论 MariaDB Vector 的用例。
您希望构建哪种由 MariaDB Vector 支持的应用?

是问答系统吗?是更快或更好的文本搜索吗?是 RAG 还是仅仅是信息检索?

MariaDB 服务器是否应该抽象掉 ML 流水线的一些复杂性,还是最好将其委托给 MindsDB、LLamaIndex 等中间件平台?

混合搜索对您有多重要?数据预过滤等。

Vicențiu Ciorbaru, MariaDB 基金会

Vicențiu Ciorbaru 常驻罗马尼亚布加勒斯特。他曾在许多领域修复问题,包括查询优化器、身份验证、复制、打包以及平台特定问题,在代码库的许多部分拥有经验。他也是一个快速学习者,能够解决任何出现的问题。他过去的项目包括角色 (Roles)、窗口函数 (Window Functions) 和自定义聚合函数 (Custom Aggregate Functions)。