最近,有关知识图谱在AI工作流程中的潜力的讨论热度很高。其中很大一部分原因是人们希望以一种便于提取相关信息的方式来组织背景和知识,并结合结构化和非结构化搜索。向量数据库和向量RAG是构建定制AI解决方案中最受欢迎的选择,但仅靠向量RAG对于那些要求高准确性的复杂工作流程和用例来说是不够的。因此,对于能够轻松“连接相关点”的简便方法有很高需求。
知识图谱的概念,就是把相关信息点连接起来,即使对于什么是知识图谱,还没有一个标准或被广泛接受的定义。
不管怎样,对于那些长期从事搜索和数据工作的人来说,知识图谱的重要性是显而易见的,一些最成功的搜索引擎公司一直在以各种形式使用结构化数据。
作为这种情绪的一部分,已经有一些尝试构建一键创建图的模型和平台。经过大量的实验和在实际应用中构建图解决方案的经验,我们并不认为这些系统创建的图足够健壮,可以在玩具示例之外的应用中使用。这些平台令人失望的结果很可能会妨碍图数据结构在您的工作流中的实际应用。因此,我们建议在实际应用中谨慎使用这类平台。
主要原因在于每个人的具体情况和数据需求都不相同。大多数企业的应用场景都非常复杂,需要定制化的方案,这意味着相关的数据结构、检索策略和数据处理方法必须根据具体需求进行定制。
鉴于知识图谱被设计为以向量RAG无法单独实现的方式提供相关性。这需要大量的专家输入、实体解析、数据建模及验证等。我们认为一键生成100%准确的知识图谱在概念上是不可能的。我们会在获得100%准确的一键向量RAG解决方案之前,获得100%准确的一键知识图谱解决方案。
巧合的是,与之无关的是,Neo4J的创始人也最近有类似的看法,关于尝试用大型语言模型自动生成图谱。
专注于绘图/架构规划的服务作为此次观察的一部分,我们将停用我们的自动化三元组生成功能(即从模式生成图的按钮功能)。该功能始终要求并专注于提供用于生成具有特定结构的模式的工作流程,并配有其自身的模式辅助工具。虽然模式生成工具将继续存在,但我们希望特别解决用户对从不完善的模式中完美生成图的期望问题。
我们一直相信“人在回路”的图创建过程,并将图构建步骤拆解,专注于实现人工干预的工作流程。然而,用户仍然期望图构建和模式构建只需几分钟即可完成。相比之下,请参阅这个“案例研究”(点击此处),了解我们如何为客户构建端到端的时间知识图谱系统,在总共25小时的工作中,80%的时间用于模式构建。
我们认为,许多一键式图形解决方案本质上是泡沫软件,遗憾的是,它们更多的是在炒作AI而不是实际业务效果,我们希望能对此做出明确区分。
为什么WhyHow将保持作为帮助进行模块化图的编排、操作处理和检索的平台。对于图的创建,我们将继续帮助初创企业和企业进行本体设计、端到端多代理知识图的设计与实施。
我们已发布了一系列案例研究,展示了我们与客户和设计合作伙伴合作的工作,展示了我们探索性数据分析的过程,以及我们构建的数据结构多样性。您可以在以下链接查看这些案例研究:
- 医疗保健: https://medium.com/enterprise-rag/case-study-turning-doctor-transcripts-into-temporal-medical-record-knowledge-graphs-cf624d4927eb ("基于时间的医疗记录知识图谱")
- 金融: https://medium.com/enterprise-rag/knowledge-graphs-completeness-multi-document-retrieval-benchmark-6304905a0a6c ("多文档检索基准测试")
- 法律: https://medium.com/enterprise-rag/legal-document-rag-multi-graph-multi-agent-recursive-retrieval-through-legal-clauses-c90e073e0052 ("通过法律条款进行递归检索")
注:原文链接格式略有不同,这里保留一致,将“medium.com”前的“中”保留,以符合原文格式。
您还可以继续使用现有的三元组创建包和流程,比如Langchain的LLMGraphTransformer这样的工具,将这些三元组加载到WhyHow平台上操作,我们还有不同的笔记本展示不同三元组创建技术如何在WhyHow平台上运行。