继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Dify 基于 TiDB 的数据架构重构实践

PingCAP
关注TA
已关注
手记 526
粉丝 61
获赞 88

导读

Dify.AI 作为 GitHub 上排名第二的 LLM 开发平台,凭借 TiDB Cloud Serverless 和 AWS 基础设施的创新架构,为众多 AI 应用开发者打造了一个可扩展的平台,显著提升了开发效率。面对 AI 时代海量数据和多租户管理的挑战,Dify.AI 通过统一数据存储、自动扩缩容及向量检索优化,大幅提升开发效率,基础设施成本降低 80%,运维开销减少 90%。

本文将深入解析 Dify.AI 如何借助 TiDB 打造高效、可扩展的 AI 平台。


Dify.AI 是一款领先的开源大语言模型(LLM)应用开发平台,它通过直观的可视化工作流,让企业无需深厚技术背景即可创建复杂的 AI 应用,正在革新企业构建和部署 AI 应用的方式。

自 2023 年以来,Dify.AI 迅速崛起,成为 GitHub 上第二受欢迎的 LLM 工具,获得了超过 70,000 颗 stars 和 630 多位贡献者的支持。该平台已助力全球数千名开发者,应用范围涵盖聊天机器人、内容生成、复杂文档分析以及 AI 驱动的工作流等领域。

Dify.AI 团队指出:“从接触生成式 AI 到构建可投入生产的应用之间存在着巨大鸿沟。虽然使用 ChatGPT 或复制一个演示项目相对容易,但如何通过 AI 应用创造真正的商业价值仍是巨大挑战,而我们正在努力填补这一缺口。”

挑战:在 AI 开发中管理海量数据集

作为 GenAI 平台供应商,Dify.AI 在数据管理层面主要面临两个挑战。一方面,平台需要同时处理多种数据类型——从传统的关系型数据到向量嵌入,从文档存储到对话历史记录;另一方面, 平台的多租户架构迫使他们需要管理数十万隔离的数据库,每个数据库对应一个开发者独特的数据集

不仅如此,作为一个 SaaS 公司,数据管理的复杂性还影响了他们自身的创新能力和服务客户的效果。“管理不同数据类型的独立数据库不仅复杂,还让我们无法专注于真正重要的事情:构建更好的 AI 应用。”Dify.AI 团队表示。

解决方案:借助 TiDB 统一数据管理

为了应对这些挑战,Dify.AI 重新设计了 GenAI 平台的数据管理层,统一技术栈:

Dify.AI 的数据流、以及基于 TiDB 和云基础设施的统一架构

图 1 Dify.AI 的数据流、以及基于 TiDB 和云基础设施的统一架构

Dify.AI 的平台实现了不同类型数据与处理流程的无缝衔接,借助先进的 AI 技术将原始数据转化为有价值的信息。所有数据均统一存储于 TiDB 的存储层,并依托 AWS 基础设施进行部署,从而提升可扩展性和效率。

这种架构的意义远不止于技术整合。它体现了 Dify.AI 如何将整个数据基础设施整合为一个统一系统,实现从数据采集到 AI 驱动应用的全流程数据管理。该架构分为以下四层:

  • 用户交互层: 从一个简洁易用的界面开始,用户可以输入数据和查询指令与系统交互。用户交互层是吸引用户并确保交互过程顺畅的关键所在。
  • Dify 数据管道:
  • 当用户输入数据后,信息便进入 Dify 数据管道。在此阶段,系统从多种来源(例如文档、表格、列表和图像)收集原始数据,并对其进行分块处理和 Named Entity Recognition 等高级操作。这些步骤为数据生成嵌入向量做好准备,从而使其能够被 AI 应用所使用。
  • Dify 处理引擎则负责协调整个工作流,并整合处理结果,以便根据用户的查询请求生成准确且有意义的答复。

TiDB 统一存储: 作为整个架构的核心,TiDB 提供了统一的存储解决方案,同时支持关系型和非关系型数据,使得开发者能够在一个平台上管理多种数据集,从而简化操作并降低复杂性。具体包括:

  • 事务性数据处理: 高效处理事务性数据和实时数据,确保数据的准确性和及时性。
  • 知识图谱存储: 支持复杂关系型数据的原生存储,助力深度洞察和关联分析。
  • 向量存储: 为 AI 应用中的相似性搜索提供强大的嵌入支持,提升检索效率。
  • 文档存储: 用于存储原始内容,方便对非结构化数据进行快速检索。
  • AWS 基础设施: 系统依托 AWS 基础设施运行,充分利用以下资源:
  • 利用 AWS EC2 提供弹性计算能力,灵活应对不同工作负载的波动。
  • 采用综合存储方案,例如使用 S3 存储海量数据,使用 EBS 提供持久化存储。
  • 与 AWS Bedrock 的深度集成,使 Dify.AI 能够访问多个 LLM 供应商的预训练模型,从而进一步提升其在外部知识服务方面的能力。

Dify.AI 将数十万个数据库整合至单一的 TiDB Cloud

Dify.AI 将数十万个数据库整合至单一的 TiDB Cloud,极大地简化了基础设施架构,显著降低了操作复杂性与维护成本。

这一统一解决方案为平台在数据库层面提供了强大的 AI 功能支持,包括内置的知识库功能以及无缝集成的 RAG 实现,能够自动处理文档,并将内容与向量嵌入统一存储于同一张表中。

开发者仅需通过简单的 SQL 查询即可快速完成原型开发,这种查询方式同时适用于传统数据和向量数据,免去了学习多种查询语言和管理多个系统的繁琐过程。此外,平台的自动扩缩容(Scale-to-zero)功能能够根据实际使用情况自动调整资源,优化成本,同时确保高性能。

张路宇

这一方案最吸引人的地方在于,通过引入 TiDB 带来的这种架构革新,让我们能够在一套系统中同时处理传统数据库操作和 AI 特有的向量相似性搜索,这不仅是基础架构升级,更是一次对平台构建和未来扩展方式的根本性变革。

张路宇

Dify.AI 创始人兼 CEO

技术优势:TiDB 统一智能基础设施

TiDB 的转型带来了三大核心技术优势,彻底改变了 Dify.AI 构建和扩展平台的方式:

统一数据处理

  • 单一数据源: 实现了文档、向量数据、对话历史及传统关系型数据的统一存储。
  • 简化架构: 将多套专用数据库整合为一个统一系统,大幅降低运维复杂性。
  • 提升性能: 优化传统操作与向量操作的查询模式,显著提高数据处理效率。

可扩展的多租户设计

  • 隔离性: 为每位客户提供独立的逻辑空间,同时共享物理资源,确保数据安全与隔离。
  • 资源管理: 根据客户工作负载自动扩缩容(Scale-to-zero)资源,实现灵活调度。
  • 成本效益: 采用按需付费模式,系统能根据实际使用量自动扩展或缩减资源,甚至可以在闲置时完全停止运行,有效优化成本。

集成向量操作

  • 原生向量支持: 内置相似性搜索功能,无需额外插件。
  • 混合查询: 支持传统 SQL 与向量操作的融合查询,简化开发流程。
  • 灵活索引: 自动管理索引,优化性能,提升数据检索效率。

与此同时,Dify.AI 在多个关键指标上取得了显著的可量化提升:

Dify.AI 在多个关键指标上取得了显著的可量化提升

未来展望

此次数据架构的转型升级,使 Dify.AI 能够站在 GenAI 领域创新的最前沿。现在,团队基于 TiDB Serverless 来运行 RAG 工作流,并进一步探索更多高级功能,比如实时知识图谱更新和跨模态查询优化——这些功能基于之前的基础设施是完全无法实现的。TiDB 不仅仅是一个数据库解决方案,它已经成为积极拥抱 AI 生态企业的战略级技术支撑平台。通过将向量搜索、知识图谱和日常运营数据整合到一个统一系统内,彻底解决了过去多个数据库管理带来的高度复杂度,同时确保了系统拥有企业级的稳定性。

Dify.AI 团队表示:“我们与 TiDB 的合作体验非常出色。平台能够在同一个系统中处理多种需求:从知识图谱管理到文档存储,再到对话历史等,这与我们追求简化、强大的 AI 开发平台的愿景高度契合。”

“我们选择 TiDB,不仅是为了应对当前的挑战,更是为了构建一个能够随着我们和客户需求共同演进的基础设施。”

打开App,阅读手记
1人推荐
发表评论
随时随地看视频慕课网APP