手记

CVPR 2024:图像和视频搜索与理解(检索增强生成、多模态、嵌入等)

我们盘点了(CVPR 2024)上顶级的论文,带你深入了解图像和视频检索!

🔥 别错过 CVPR 2024 最值得关注的亮点: 生成AI、基础模型和视频理解! 🔥

⭐️ CVPR 2024 即将到来!我们将分享许多能帮助您提升研究和公司项目的新见解。不要错过与 Tenyks 团队交流的机会——记得把参观我们的展位加入您的 CVPR 2024 日程!

在 CVPR 2024,我们尝试将原始视觉数据转换为可操作的见解,并提供免费试用我们的sandbox。请体验!

本文重点介绍了四个顶级论文,这些论文展示了图像和视频搜索领域的最新进展。这些研究探索了诸如检索增强生成(RAG)、多模态方法和高级检索方法等新技术。

🔥 了解更多关于 Segment Anything Model 2 (SAM 2) 的内容:

  • SAM 2 + GPT-4o — 通过视觉引导进行级联基础模型技术 — 第一部分
1. 用于多模态智能的视觉搜索

*标题:V: 引导视觉搜索功能**

链接 : https://vstar-seal.github.io/

图1. 在这个例子中,VQA LLM 无法立即给出答案,因此开始了 V* 的过程,利用常识和上下文线索寻找所需细节。

要解决的问题是: 当前的多模态语言模型们因为它们依赖于低分辨率的视觉编码器,比如CLIP,在处理高分辨率图像时遇到难题,也无法识别或请求缺失的视觉信息。

创新点:这项工作提出了一种称为V的创新视觉搜索工具,该工具由先进的语言模型引导。V组件被整合进现有的多模态系统,创建了一个新的元架构系统,称为SEAL。通过结合语言理解和高效视觉搜索,SEAL能够更高效地处理高分辨率的复杂图像,并相比现有的多模态系统,更专注于重要的视觉细节。

性能评估:研究人员建立了一个新的基准,称为V Bench,用于评估多模态语言模型(MLLMs)处理高分辨率图像的能力,其中包含丰富且复杂的信息,这些图像中的视觉细节可能不易察觉。V Bench基于SAM数据集中的191张高分辨率图像,平均分辨率达到2246 × 1582。该基准包含两个子任务:

  • 属性辨识:此任务包含115个样本,这些样本要求模型识别图像中对象的某些属性(例如颜色、材质)。
  • 空间关系判断:此任务包含76个样本,这些样本要求模型确定图像中两个对象之间的相对空间关系。

应用领域:V* 可以提升或增强各种需要精确理解视觉细节的各种计算机视觉任务,尤其是在高分辨率和视觉复杂的场景下。例如机器人技术、增强现实和医学成像等产业可以从增强的视觉推理能力中获益匪浅。

基础模型/LLMs/大模型 基于以下: LLaVALISA

链接如下 : https://github.com/penghao-wu/vstar?tab=readme-ov-file

2. 利用LLM作为协调器来提升多模态搜索能力

标题 : 利用大型语言模型进行多模态搜索技术

这篇论文: https://arxiv.org/pdf/2404.15790

图2. 该方法利用视觉变压器提取图像中的视觉特征,具体来说是使用预训练的CLIP模型,并冻结了模型的权重。在投影层之前的这些特征通过Q-Former与学习到的查询进行交叉注意力处理。将Q-Former的输出与修改文本的嵌入结合起来。最后,将所有信息输入到T5模型,这是一个编码器-解码器的大语言模型。

要解决的问题: 多模态搜索涉及使用图像和文本来表达搜索查询。然而,现有系统在处理简单查询时表现不稳定,并且难以理解自然语言文本(即处理文本查询的多样性),这可能模棱两可或包含多余的细节。这使得用户很难找到准确的搜索结果。

新颖性: 该论文提出了两个创新点:(1) 一种结合了语言和视觉基础模型的多模态检索方法,在Fashion 200K数据集上达到了新的性能里程碑;(2) 一个使用大型语言模型(LLMs)的搜索界面,通过对话方式帮助用户,考虑他们的先前搜索并高效地将查询导向合适的搜索系统。

性能评估: 在时尚200K数据集上评估的新方法显示了如下所示的结果:71.4的Recall@10得分和91.6的Recall@50得分,平均性能得分为81.5。这些结果明显优于现有方法的得分。

应用领域:1)医疗专业人员可以使用该系统来查找与特定症状或状况描述相匹配的医学图像,从而帮助进行诊断和治疗计划的制定。2)平台可以利用该系统,通过结合文本描述和图像分析,来检测并过滤掉不适当的内容。

3. 为保护你的数码图像版权而使用RAG(RAG)

标题 : 版权保护中的增强型检索生成

论文 : 来自arXiv的PDF链接 https://arxiv.org/pdf/2403.18920

图3. 两个例子:未使用CPR生成的图像与检索到的图像非常相似,而使用CPR生成的图像则有所不同,但仍准确地捕捉了提示中的核心概念(例如,月球上的宇航员,更加纹理丰富且设计不同的大本钟).[2]

问题:现有的检索增强生成(RAG)技术在图像生成中可能导致部分检索到的样本被复制到模型的输出中,从而增加检索集中个人隐私信息泄露的风险。

新颖性:这项工作提出了一种新方法,名为“复制保护生成带检索(CPR)”,用于RAG。CPR根据一组检索到的图像来调节扩散模型的输出,同时确保生成的输出不会泄露这些图像的独特可识别信息。它通过在推断时结合公共(安全)和私人(用户)分布的扩散评分从公共和私有(用户)分布的混合中采样来实现这一点。

性能评估结果:研究人员使用预先训练的Stable Diffusion模型和来自MSCOCO的私人数据对其复制保护检索(CPR)技术进行了评估。他们使用TIFA指标来衡量文本与图像的对齐程度。结果表明,检索图像改善了对齐情况,而应用CPR进一步增强了对齐,并提供了版权保护。

应用场景:此方法对创意行业特别有用,尤其是在从文本生成图像和视觉内容创作是关键任务的情况下。例如,CPR 可以增强扩散模型中的文本图像对齐,这意味着生成的图像更贴合提供的文本描述。这可以让电子商务平台根据文本提示生成高质量的产品图像,从而更好地展示产品特性。

4. 使用GenAI生成的字幕(而不是图像)来回答有关视频或音频内容的问题

标题 : 通过将问题驱动的图像描述作为提示来提升视觉问答系统的能力

论文: https://arxiv.org/pdf/2404.08589

图4. 一个VQA管道,它利用通用和提议的问题驱动(QD)图像描述作为中间步骤。

要解决的问题: 这项工作旨在解决持续存在的零样本视觉问答(VQA)。零样本VQA需要较强的泛化和推理能力,这对当前的神经网络来说很难。

本文的关键创新点是,本文提出的是在VQA流程中将图像描述作为中间步骤纳入。具体而言,论文研究了使用图像描述而不是直接使用图像,并利用大型语言模型(LLMs)来实现VQA的零样本环境。

性能评测:该论文通过比较通用描述和问题导向描述,评估了零样本图像描述模型在视觉问答(VQA)中的表现,在不同类型的VQA问题上。结果显示,使用问题导向描述在VQA过程中能取得更好的整体表现,超越了现有的顶级模型BLIP-2。

应用案例:两个潜在的应用场景是 1) 在复杂环境中运行的机器人系统可以通过具备强大的视觉问答能力来更有效地理解和推理周围的环境;2) 在教育环境中通过提供对视觉内容(如图表、插图或教育视频)的自然语言解释和回答问题,提高学习体验。

代码 : 链接: https://github.com/ovguyo/captions-in-VQA

🔥 绝不错过CVPR 2024 最值得关注的亮点有: 具身智能、GenAI、基础模型和视频理解!🔥

🔥 了解更多的 Segment Anything Model 2 (SAM 2)

  • SAM 2 + GPT-4o — 利用视觉提示进行级联基础模型 — 第一篇

作者:何塞·加布里埃尔·伊斯拉斯·蒙特罗,德米特里·卡扎诺夫。

如果你想了解更多的关于 Tenyks 的信息,可以去探索 sandbox (沙盒)

0人推荐
随时随地看视频
慕课网APP