继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

BOLD:随心问答你的视频库

一只甜甜圈
关注TA
已关注
手记 249
粉丝 56
获赞 118

本文是参加DEV 与 Mux 联合举办的"全球作品展示"挑战赛的参赛作品

我构建了什么

Bold 能让你的视频库"开口说话"。提出问题,获得答案——不再是需要费力筛选的搜索结果列表,而是直接从你的内容中提取的真实答案,并附有时间戳作为证明。

上传培训视频后,Bold 能够解析其中的实质内容。不仅仅是转录文本(这些往往充满杂音的无用信息),我们提取真正被讲授的知识要点。当用户提问时,系统直接提供答案。点击时间戳即可跳转到对应的精确时刻。
这不再是搜索,而是直接获取答案。

产品介绍视频

BQ02ayiNgCwHkrs01wu4XpoM8QlA8uYn0101

演示地址

https://yo.bold.video (使用 Rob Hope 的 Yo! 播客进行的演示)
https://boldvideo.com (营销网站 - 建设中)

如需体验,可通过评论或直接联系我们获取测试库权限。

项目背景故事

我从事视频基础设施构建已近二十年。最初创建了一个无头视频平台——仅提供编码、托管和分发服务——部分早期客户至今仍在使用这些服务。

几年前,大语言模型发展到足够成熟,我终于能够解决那个长期思考的问题:视频内容难以有效搜索。无法快速浏览,无法使用 Ctrl+F 查找。一旦视频存入资料库,基本上就变成了难以利用的内容。

后来通过 SaaS Academy 进入教练培训领域,经常听到类似的反馈:"我们有数百小时的培训内容,但员工很难找到所需信息。"这些项目在视频制作上投入了大量资源,但内容往往处于闲置状态。

因此,我创建了 Bold 来解决这一问题。我们致力于从每个视频中提取真正的知识要点(即"信号"),而非无关的"噪音",在此基础上进行智能搜索。最终实现从你的资料库中直接获取答案,并附有准确的时间戳证明。

关于 Mux 的一个有趣经历:多年前 Mux 刚起步时,我曾参与该公司的面试,与 Matt 等人进行了交流。虽然最终没有加入,但我却深深欣赏这个平台。自此便一直基于 Mux 进行开发。

技术亮点

转录难题:
大多数工具使用 Whisper 或 YouTube 自动字幕。对于日常内容尚可,但会严重误译专业术语。我们集成 AssemblyAI、Deepgram、Speechmatics、Sonix 和 Rev 等服务,根据具体领域选择最佳方案。同时支持自定义词典,避免将 "Kubernetes" 误转成 "Cooper Netties" 这类错误。

为何"仅搜索转录文本"效果有限:
原始转录文本往往充满杂音,比如"嗯"、"啊"之类的语气词、跑题的内容、重复的语句以及不完整的想法。如果将这些原始数据直接导入向量数据库进行搜索,相当于在噪音中寻找有用信息。虽然能得到结果,但准确性难以保证。

我们采用不同的方法:首先提取结构化理解——实际讲授的知识点、解答的具体问题、真正的信号内容。当用户提问时,系统先判断哪些视频具有相关性,再开始寻找具体答案。这种方式确保用户能够准确找到所需内容,而非被无关信息干扰。

技术栈:
后端:Elixir/Phoenix,大量使用 Oban
数据库:支持多租户的 Postgres
视频:Mux(编码、分发、播放)
搜索:Meilisearch + pgvector
前端:用于定制门户的 Next.js SDK

Mux 的使用(仅限附加奖项类别参与者)

如之前所述,我从早期就是 Mux 的忠实用户。该平台是 Bold 的核心基础设施:

  • 编码与分发: 所有视频都通过 Mux 处理,具备快速编码和可靠的 CDN 分发能力
  • 时间戳定位播放: 当 AI 引用视频来源时,系统使用 Mux 播放 ID 直接深度链接到特定时刻
  • 音频提取: 从 Mux 编码的视频中提取音频用于转录处理
  • 缩略图生成: 利用 Mux 生成的缩略图进行视频导航和引用预览

Mux 属于那种一旦配置完成即可稳定运行的平台,这正是视频基础设施所需要的可靠特性。

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP