Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition
现有的视频识别模型使用的是在理想条件下收集的经典视频数据集,但在实际场景下存在复杂的相机拍摄环境,目标分辨率低,光照条件差,视频场景不寻常的多种问题,现有的大多数视频识别模型由于缺乏外部领域知识而不能很好地泛化,应用效果差。
基础模型包含了多样化的语义知识,可以适应低概率泛化,但是利用这些模型的知识进行开放世界视频识别的方法还有待研究。