照片由 Daniel Janzen 在 Unsplash 拍摄。
这里有一个简单的方法,能在分析数据或验证数据转换过程中帮你节省一些时间。
我之前写过一篇关于在BigQuery中使用LIMIT不会节省成本,因为它不影响处理的数据量,只是返回给你的结果数目的文章。
但还是有些时候我还会用LIMIT。
比如说,我在验证一些数据,并想验证我对数据的一个假设。比如说,如果知道哪怕有几个重复记录存在,就可以说明问题存在,并提供了一个可以调查的实例。
我不需要了解表格中的所有重复项,因此我用LIMIT来获取一个观察结果,以与我的预期相矛盾。
即使用了LIMIT,如果我没有收到任何返回结果,那就意味着查询没有找到任何匹配行,这证实了我的最初假设。
在一个足够大的桌子上,你可以注意到使用 LIMIT
和不使用 LIMIT
对查询执行时间的影响。再说一次,从成本角度来看没有区别,但你的时间也是宝贵的 😁。
附注:但这并不意味着LIMIT对BigQuery的性能完全没有影响。可以查看这篇帖子,了解LIMIT确实会对性能产生影响的实例。
原文发布于https://datawise.dev 2024年6月5日。
觉得有用的话,可以订阅我的 notjustsql.com 网站上的 Analytics 通讯,了解更多。