使用视觉和声音的高效远程视频检索

人工智能2022-04-14 16:14:55
最佳答案最近,在视频的检索领域取得了显着进展。然而,当前的系统主要是为非常短的视频设计的,而大多数真实世界的视频通常会捕捉复杂的人类动作,

最近,在视频的检索领域取得了显着进展。然而,当前的系统主要是为非常短的视频设计的,而大多数真实世界的视频通常会捕捉复杂的人类动作,这些动作可能会持续几分钟甚至几小时。

arXiv.org 上发表的一篇科学论文提出了一种专注于远程视频的高效视听文本到视频检索系统,从而解决了这一限制。

研究人员注意到,大多数相关的视觉信息可以在几个视频帧中捕获,而时间动态可以在音频流中简洁地编码。因此,所提出的框架不是从长视频中处理许多密集提取的帧,而是对伴随密集音频的稀疏采样视频帧进行操作。

结果表明,与仅远程视频的方法相比,新框架以降低的计算成本导致更好的视频检索结果。

免责声明:本文由用户上传,如有侵权请联系删除!