生成式AI与MariaDB Server

Sea Lion Gen AI

“生成式AI是必须打开的潘多拉魔盒”。当我分享MariaDB基金会将逐步把MariaDB Server打造成AI解决方案平台的计划时,一位资深的行业影响者如此简洁地评论道。这句话结合了机遇与必然性,复杂性与逐步完善的需求。

入场太晚了吗?

我们入场太晚了吗?我不这么认为。我相信现在是恰当的时机。开源在基础研究甚至早期产品开发方面并非先行者。Linux的出现是在操作系统概念早已确立、Unix已成为标准之后。MySQL的出现是在关系型数据库(RDBMS)早已确立、SQL已成为标准之后。 

不,或许甚至还早!

按照这些标准来看,我们甚至可能还早。但用户的需求正变得越来越清晰,并且将向量存储在数据库中的开源实现也正在涌现。Postgres拥有pgvector,这并不令人意外,考虑到Postgres的研究和学术渊源早于MariaDB,甚至早于MySQL。

基于向量的索引

在使MariaDB Server支持AI开发和交付的迭代过程中,第一步将是实现对向量的支持,包括存储向量、建立索引和搜索向量。考虑到我们从MySQL继承的存储引擎架构,这与MariaDB Server在技术上非常契合。考虑到我们鼓励生态系统合作和贡献的开放价值观,这也与MariaDB基金会在文化上非常契合。 

MariaDB Server独有的机会

两者的结合,即技术和文化的契合,为我们带来了意外的机会。虽然技术选择尚未确定,但我在此强调利用MyRocks存储引擎的机会,该引擎正在由Andrew Hutchings在Google Summer of Code参与者的帮助下为MariaDB Server进行更新。向量的使用场景涉及注入大量不常更新的数据,这正是高压缩率能够发挥优势的地方。

我们有几个初步的技术行动项

但请允许我不要把MariaDB Server的生成式AI倡议描绘得比实际更成熟。无论是在技术上还是在治理上,我们都还处于非常早期的阶段。

在技术上,我们已经创建了首批三个Jira任务, 

我们已经成立了指导委员会 

在治理上,上周召开的MariaDB基金会董事会会议4/2023决定为我们的生成式AI倡议成立一个指导委员会,邀请所有感兴趣的赞助商和贡献者加入。

引用会议纪要的内容如下:

将资源投入到生成式AI倡议对MariaDB基金会至关重要。这是生态系统关注的一个重要领域,对推广采用也很重要。围绕这样一个资源密集型任务进行协作是多厂商合作的一个绝佳范例,符合MariaDB的开放价值观。从外部视角看,这使得MariaDB Server比MySQL Server更适合作为生成式AI平台,因为MySQL Server是单厂商控制且不鼓励广泛贡献。

我们的考量是基于自上次董事会会议3/2023(2023年9月6日星期三)以来与我们大多数赞助商的互动。当时,Amazon就建议MariaDB Server通过向量存储引擎为AI提供基础设施,类似于pgvector。

我们有一个核心技术团队

继续引用会议纪要:

由代表MariaDB plc的Sergei Golubchik和代表MariaDB基金会的Vicentiu Ciorbaru组成的核心技术团队现已成立,最初目标是创建一个引擎,能够存储和索引向量,并基于距离/相似性函数(例如欧氏距离,并随着时间扩展到倒排内积和余弦距离)进行搜索。 

初步计划已经达到提出语法建议的程度

VEC_DISTANCE(v1, v2)

贡献者的反响非常热烈

让我觉得时机恰当的原因,是我们从赞助商和贡献者那里得到的压倒性的积极反响。让我再引用一段会议纪要:

除了Amazon,Acronis、阿里巴巴、Automattic、Constructor、IBM、Intel和Microsoft也已表达了参与的兴趣。随着行业兴趣的增长以及将MariaDB Server用作生成式AI平台的潜力,成立一个咨询机构来指导技术进展将是明智之举。MariaDB基金会邀请成员加入MariaDB plc CTO Jonah Harris和MariaDB基金会CEO Kaj Arnö组成的这个团队,共同设定目标并向MariaDB基金会董事会汇报。

愿景:一个事实上的标准

这意味着,一旦这个潘多拉魔盒被适当地打开,我们就可以为创建一个基于MariaDB Server的事实上的AI解决方案部署平台铺平道路,同时为目前使用MySQL Server的用户提供极其简单的迁移路径。

我们欢迎贡献

董事会会议决定成立指导委员会,并欢迎董事会成员加入。将于2023年12月14日星期四欧洲东部时间16:00-17:00举行关于此议题的Zoom演示和讨论。建议所有有意加入指导委员会的董事会成员参加此会议。嘿,这是一项开源倡议:如果您希望加入,请通过foundation@mariadb.org联系我们!