MariaDB 的 AI RAG 黑客松正在进行中

周五我们很高兴能与所有提交了 MariaDB AI RAG 黑客松 构思阶段方案的人士进行单独通话。
构思阶段的截止日期已于上周过去,我们很高兴地分享,在创新赛道和集成赛道中都收到了几个很有前景的提交。创新赛道涉及使用 MariaDB Vector 的应用,例如 RAG;集成赛道则是在现有框架中启用 MariaDB Vector。
参与者从个人贡献者到甚至公司团队都有。一些人已经有一些 AI 经验,一些人是 RAG 的新手。他们共同的一点是,他们把这次黑客松视为尝试和学习新事物的机会。可以说是为了满足他们自己的好奇心——对此我们心怀感激!
受到集成提交的启发,我整理了 MariaDB 自己现有的和潜在的新 Vector 集成框架 列表。你可能已经猜到,其中一些集成提交方案已被包含在该列表中。
在创新方面,人们思考了使用向量搜索的几种用例,包括对 Youtube 内容进行语义搜索、分析海量用户洞察数据以及利用图数据库方法获得更精确的 RAG 结果。
我们非常期待在 5 月 5 日开发阶段结束时看到参与者将开发出什么成果。最佳提交方案将于 5 月 17 日在 赫尔辛基 Python 线下活动上进行演示。
附言:如果你正在思考要用什么来尝试 RAG,我们鼓励尝试的一个大型数据集是来自维基百科和维基数据(Wikidata)的开放数据。维基媒体(Wikimedia)提供 各种数据转储,甚至可以找到预先向量化的维基百科数据集。RAG 的一个重要方面还在于你决定在向量化数据之前如何进行分块(chunkify)。如果你尝试了,请告诉我们你使用了哪些方法!