你可能经常遇到向量搜索,即使你并没有在构建使用它的应用。根据你之前喜欢的内容推荐内容是向量嵌入的一个常见用例,这也是很多媒体消费者的常用功能。然而,你可能没有意识到向量搜索除了在周末晚上推荐新电影外,还能做很多事情。在你进入你的最爱文章的评论区之前,先了解向量搜索如何帮助你判断是否值得花时间看。
日常生活中向量搜索的应用首先,让我们花一点时间来提醒自己,当我们提到向量搜索时,我们具体在谈论什么。向量嵌入是一系列数字,它们捕捉给定数据集的语义和上下文意义,无论是文本、视频、图片还是声音。这是通过在大量人类语言和信息基础上训练的嵌入模型来实现的。当我们提到向量搜索时,我们实际上是在搜索这些向量嵌入以获得相关结果和其他应用。
太好了,我们现在都明白我们要聊什么了,让我们直接切入正题。因为向量表示不仅能帮我们找到下一季想看的烘焙秀,还能做很多其他有用的事情。
基于向量的搜索能够非常有把握地让我们在我们开始阅读之前一瞥内容的质量水平。
实际例子:分析 Dev.to 上的博客评论我们都有过这样的经历,文章评论区变得一团糟。这些评论彼此之间没什么关系,和文章本身的内容也没什么关系,并且充满了各种垃圾评论。不过,有时候评论区也可以是有帮助的。评论区里的讨论通常会超出文章本身的内容继续下去,读者们可以在这里分享自己的知识和看法。我读过许多技术博文,其中评论者提供了更新更好的解决方案,这在我研究如何修复一个bug或如何使用某个库时,为我节省了宝贵的时间。
我们怎么知道一个评论区是属于那种需要避开的情况,还是那种可以看看的情况呢?
将博客文章的评论部分转换为向量表示,并对评论之间的上下文和语义上的相似度进行评分,可以为我们回答那个问题提供更多见解。
不过你在想怎么尝试一下吗?我为你专门做了一个 Chrome 扩展程序!这个扩展程序能让你体验不仅在内容推荐,还能在质量控制等实际应用方面的效果。
虽然该扩展适用于博客评论,但这个想法甚至超出了对博客文章的质量检查范围。欺诈检测怎么样?欧洲最大的银行之一的Revolut正是每天为其信用卡客户提供这种欺诈检测服务。Revolut每天都在为他们的信用卡客户提供这种服务,这正是他们每天做到的。
构建: Chrome插件试试看?这里有个一步一步的指南,教你如何使用这个Chrome插件,看看向量搜索如何评估博客文章中评论的质量,甚至在你滑动页面之前。
需要注意的是,此扩展的使用需要一些技术知识,因为它不是为大规模生产设计的。具体来说,熟悉GitHub和命令行会非常有帮助。你不需要写代码。所有代码都已经为你准备好。
这个插件分为两个部分:插件本身和一个处理数据的后端服务器。为了得到结果,你需要让服务器运行起来,所以让我们一起开始处理这两部分。
搭建后端服务器
在浏览器中访问此 GitHub 仓库,然后将其克隆到你的计算机上。如果你已经安装了 GitHub CLI,你可以在命令行中运行以下命令。
使用以下命令克隆 hummusonrails/comments-spam-analyzer-backend
这个代码库到您的本地机器: gh repo clone hummusonrails/comments-spam-analyzer-backend
点击全屏/退出全屏
一旦你有了这些内容,在终端中进入该目录,将这个示例环境变量文件从 .env.sample
重命名为 .env
。该文件将保存你的 OpenAI 和 Couchbase 的保密凭证,请确保不要在任何公共网站(比如 GitHub)上分享该文件。
- 去 OpenAI 门户获取你的 [OpenAI API 密钥] 并在环境文件中添加它。
- 在 Couchbase Capella(完全托管的数据库即服务(DBaaS)平台)中创建一个新的 [集群] 和 [桶]。Capella 提供了一个永久免费账户,非常适合用于此扩展。将集群和桶名称添加到环境文件中。
- 如果没有连接凭证,现在就获取 Couchbase Capella 的连接凭证,从 UI 创建新凭证。并在环境文件中添加连接凭证。
- 获取你的 [Couchbase Capella 连接字符串] 并在环境文件中添加它。
定义好环境文件后,在命令行中运行 npm install
安装服务器依赖,然后,运行 npm start
命令启动服务器。
你的后端服务器现在已经启动并正在运行,准备开始处理评论数据,将评论转换为向量嵌入,并为你提供质量评分百分比。
如何安装和使用浏览器扩展最后,但绝不是最不重要的,让我们来启动一下浏览器插件。
就像之前一样,首先访问这个GitHub仓库并克隆这个仓库。如果你有GitHub CLI,你也可以在终端里运行以下命令:
请在命令前和后加上代码标记。
克隆名为 'hummusonrails/comments-spam-analyzer' 的仓库
全屏模式 全屏退出
从项目目录中,运行 npm install
安装依赖,接着运行 npm build
构建扩展。现在你的扩展已经准备好,可以添加到你的浏览器中了。
在 Chrome 的浏览器地址栏输入 chrome://extensions,并开启 开发者模式 选项。在开发者模式开启后,点击出现的 加载“未打包” 按钮,然后选择您文件系统中存放该扩展程序的文件夹。
这个扩展可以用于该网站上的任何博客文章https://dev.to/。您只需要做以下几步:只需从网站上打开一篇博客文章,然后在浏览器菜单的扩展程序标签中找到并点击您刚刚安装的“评论质量分析器”扩展即可。
当你第一次运行该扩展时,它会要求你输入后端服务器的 URL。由于你是在本地运行它,请输入http://localhost:3000/,然后点击提交。接下来,你可以点击分析,然后等待几秒钟处理结果。处理完成后,你会看到一个百分比得分,表示该博文评论的质量,评分依据是评论在语义和上下文上的相似度。想法是,评论在语义和上下文上越相似,就越符合主题。
实际应用及其更多领域这个 Chrome 扩展程序只是你能够使用向量搜索实现和构建的众多内容之一!想了解更多并获得灵感,看看如何利用向量搜索构建创新用例?阅读这些文章以了解更多。