精选
我为什么从数据分析师转而创办自己的AI数据分析公司这张照片来自 Pixabay by AnnaPannaAnna
让我们从正确的地方开始这篇文章,先说明仪表板并没有消亡。当人工智能成为我们理解数据的工具的一部分时,可能会觉得仪表板似乎不再那么重要了。但这其实是个好现象!让我来解释一下为什么。
为什么要用仪表板呢?
当我刚开始职业生涯时,我是一名数据分析师,我真的很喜欢这份工作。我用SQL来处理数据,这些数据通常会被用来制作Excel报表、Tableau仪表板或IBM Cognos的报告。
我主要通过Tableau仪表板来展示信息。随着经验的积累,我的仪表板越来越复杂。在我离开那份工作之前,我为高管团队打造了一个功能丰富的仪表板。每一页都堆满了过滤器,这些过滤器的组合方式如此之多,几乎不可能浏览到每一条数据。我们谈论的是数百万种可能的组合。
尽管有了这些过滤器,人们还是觉得还需要更多的过滤器或某些缺失的信息。最后,大家开始讨论我们需要一个工具来筛选所有选项,找到最好的那个。
我之所以描述这种情况是因为这不是仪表盘的正确使用场景。我犯了一个新手错误,试图通过提供过多的信息来取悦所有人,结果信息量过大,实际上并没有取悦任何人。
据我同事说,我离开后最成功的仪表板似乎是那个最清晰简洁,且为特定目的设计了可操作见解的仪表板。它没有那么复杂的功能或过滤器,这正是团队需要的。
那为什么还要构建仪表板呢?因为在合适的情况或环境下,它们绝对是正确的解决方案。
造出没人想要的东西真的很糟糕。我经历过,这是一堂非常艰难的课,但在我看来,这是分析师的必修课。我们要学会避免建造不该造的东西,这样才能专注于建造真正重要的东西。
数据民主化与信息互动的方式有很多,其中最普及的版本是简单的电子表格(如Excel)。Excel 让每个用户都能把数据变成他们需要的样子,从而彻底改变了数据分析。仅在短短的 11 年间,从 1985 年到 1996 年,Excel 就获得了 3000万用户¹。当时微软在一篇帖子中引用了KPMG的说法,他们解释了他们使用 Excel 的原因,他们说,
“Microsoft Excel 现已成为我们业务的首选的电子表格软件。它是一个既强大又易用的数据分析工具,已成为我们提供高效且优质客户服务的重要工具。”
就人工智能和数据分析而言,我们现在正处于一个类似于Excel出现时的时刻。人工智能仍在不断改进。它有时会产生幻觉。是的,人工智能绝对可以用于数据分析。在正确的背景下使用人工智能进行数据分析绝对是正确的解决方案(此处双关有意为之)。
我构建可靠SQL ETL管道的经验在我离开数据分析师的岗位之前,我去同一家公司面试了数据科学家的职位。面试中,我本该用线性回归来解决一个问题。因为我之前作为数据分析师时因一些SQL错误而感到害怕,我多次确认道:“我们是否可以假设这些数据中没有重复项呢?”面试官不耐烦地说:“别管重复项了,这些数据里没有重复项。”不用说,最终我没拿到那份数据科学家的工作。
我一直在参加面试,不久后加入了一家初创公司担任数据科学家。我喜欢这家初创公司的地方在于他们处理数据转换的方式。这家公司用Python、Jinja和SQL构建了ETL管道;他们有自己的类似于dbt的软件,使一切都更加程序化。我也很高兴从没有版本控制的SQL脚本文件夹过渡到了有版本控制的GitHub代码库(我前雇主也曾试图让分析师使用Bitbucket,但那时还没有实现)。
我真正欣赏的这家初创公司是他们有一个处理重复问题的程序化解决方案!我不再需要反复检查我的代码,确保没有重复出现,而是他们在创建表时使用存储过程来检查输出是否符合正则表达式定义的主键规则。他们还有其他一些方便的功能,比如空值检查和完整性检查。这些功能对于构建稳健的ETL管道来说是必不可少的。
这篇送给所有怀疑AI的人在基于LLM工作流构建解决方案时,了解LLM的局限性以及如何克服这些局限性非常重要。LLM容易产生幻觉,因此你需要RAG来指导LLM的输出。在Basejump AI的解决方案中,我们使用了Agentic RAG——我们的AI会在一个循环中找到适合你的特定查询的正确SQL语句。该SQL语句在输出前可以进行验证,类似于典型的ETL工作流可以使用主键检查,AI的输出也可以进行相同的验证,同时检查表之间的关联,以确保其正确。
创建准确SQL的验证流程
大型语言模型在SQL基准测试如Spider上迅速进步,从最初的53%提升到了超过90%,仅用了3年时间²。创建Spider的团队最近发布了一个更具挑战性的基准测试Spider 2.0³,以应对大型语言模型的进一步提升。另外,还有像BIRD⁴这样的基准测试,不仅确保大型语言模型可以得到正确答案,还要确保答案的高效性。BIRD还引入了更多复杂和杂乱的数据,使大型语言模型必须处理这些数据以提供准确的响应。
尽管 LLMS 正在迅速发展,但它们的能力仍然存在许多限制。尽管已经取得了进展,LLM 的能力仍然存在许多限制。为了实现准确且可信的企业 RAG 实施,以下内容是必要的。
- SQL 查询审核
- 有人工验证的迭代过程
- 由懂 SQL 的人来验证输出
- 增强的语义和元数据层以帮助 LLM 理解上下文
我确信,就像Excel一样,因为它能让数据访问更加民主化,特别是让非技术背景的用户也能方便地访问数据库,我们将看到LLM在分析任务中被迅速采用。
同一句来自KPMG的解释,说明了Excel受欢迎的原因,也会被用来说明为什么大型语言模型(LLMs)是满足分析需求的重要手段。
它既强大又易于使用,已经成为我们为客户高效服务的重要工具。
想了解更多吗?
- 预约 Basejump AI 数据分析平台演示,请访问:https://basejump.ai/demo
- 立即免费试用 Basejump AI,请访问:https://basejump.ai/
- 关注我们在 LinkedIn,请访问:https://www.linkedin.com/company/basejumpai/
- 超过3000万用户使Microsoft Excel成为世界上最流行的电子表格软件 (1996年),Microsoft
- Spider 1.0:耶鲁语义解析和文本到SQL挑战,耶鲁大学
- Spider 2.0:在现实世界的企业文本到SQL工作流中评估语言模型的能力,XLang实验室
- BIRD-SQL:一个用于大规模数据库的文本到SQL的大基准(2024)