CanTechLab

Can

arXiv

Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition

现有的视频识别模型使用的是在理想条件下收集的经典视频数据集,但在实际场景下存在复杂的相机拍摄环境,目标分辨率低,光照条件差,视频场景不寻常的多种问题,现有的大多数视频识别模型由于缺乏外部领域知识而不能很好地泛化,应用效果差。 基础模型包含了多样化的语义知识,可以适应低概率泛化,但是利用这些模型的知识进行开放世界视频识别的方法还有待研究。
11
0
0
2024-10-28

FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows

在数据中异常概率密度低,正态和异常数据通常呈现严重的长尾分布,甚至在某些情况下没有异常样本。现实状况使得在实践中很难收集和标注大量的异常数据用于监督学习。无监督异常检测和定位能够用于在无法收集和标记足够的异常数据的情况进行。