CanTechLab

Can

论文分享

DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition With Limited Annotations

多标签图像识别旨在识别图像中存在的多个语义标签,多标签识别 (MLR) 通常处理复杂场景和多样对象的图像,收集多标签注释存在两个问题: 对图像进行完整的语义标签集注释是费力的 特定类别的样本可能难以找到 尽管现有方法能够处理以上两个问题,但没有一种能够同时处理部分或缺失标签实际场景的解决方案。

DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations

多标签图像识别是一项具有挑战性的任务,涉及识别图像中存在的多个对象或属性。传统的图像识别方法主要集中在单标签分类上,即每张图像只与一个类别标签相关联。然而,现实世界中的图像通常包含多个对象或属性,这使得单标签分类在很多应用中(如图像检索、视频分析和推荐系统)变得不足。 多标签识别的挑战因获取完全标注的数据集的难度而加剧,每张图像都需要标注所有相关的类别。这导致了两种主要的场景:部分标签多标签识别,即每张图像只标注了部分标签;以及零样本多标签识别,即在测试时出现了新的类别,而这些类别在训练时没有任何示例。

Robust Contrastive Cross-modal Hashing with Noisy Labels

跨模态哈希(Cross-modal Hashing)是一种用来检索和存储不同模态数据(如图像和文本)的方法,主要优点包括: 存储成本低:二值哈希编码较连续特征更紧凑。 检索效率高:哈希距离计算效率远高于传统方法。 然而,现有的跨模态哈希方法面临以下主要问题: 标签噪声普遍存在:在实际数据中,标注可能因复杂性、人工错误或标签模糊而产生噪声。 依赖高质量标注:大多数方法隐含假设数据标签是准确的,而现实中,生成高质量标注代价高昂且资源有限。 标签噪声的存在会导致模型倾向于过拟合噪声数据,使得检索性能显著下降。

Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

多标签分类是计算机视觉的重要任务,旨在识别图像中所有相关的标签。然而,现有方法通常只能处理训练中可见的标签,而无法应对许多实际应用中存在的“未见”标签。为解决这一问题,多标签零样本学习(ML-ZSL)尝试通过语言模型(如GloVe)进行知识转移,但其只利用了单一模态的信息,忽略了图像-文本对中的丰富语义信息。

Long-Tailed Anomaly Detection with Learnable Class Names

异常检测(AD)在工业制造等领域非常重要,旨在识别有缺陷的图像及其缺陷位置。传统方法在多个图像类别上扩展性较差,并且需要手动定义类别名称,难以应对长尾数据分布。长尾数据分布是实际工业应用中常见的现象,其中部分类别数据样本显著少于其他类别。

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors

异常事件通常是上下文依赖的,并且不经常发生,这使得收集足够代表性的异常事件样本以训练深度学习模型变得困难。 现有的异常点检测方法将异常检测作为离群值检测任务,在推理过程中对正常事件和异常事件分别应用一个经过正常事件训练的正态性模型,将偏离学习模型的事件标记为异常。 自动编码器(AE)模型对非分布数据的样本重建能力较差。由于训练只在正常的样本上进行,因此当出现异常时,预计AE会表现出很高的重建误差。 现有的SOTA方法依赖于昂贵的目标检测方法来提高精度,将处理带宽限制为每个GPU一个视频流,约为20-30 FPS,然而以对象为中心的视频异常探测器的处理成本太高。

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

现有的基于LLM的多模态模型只能在有限的帧中理解短视频,这些模型大多直接将每帧沿时间轴连接的查询嵌入馈送到llm中,llm固有的上下文长度限制和GPU内存消耗限制了可以处理的视频帧的数量,这使得这些模型无法对长视频(>=30 sec)进行理解。 提出Memory-Augmented Large Multimodal Model (MA-LMM)

EasyNet: An Easy Network for 3D Industrial Anomaly Detection

三维异常检测是工业制造领域(IM)一项重要的计算机视觉任务,现有的方法的问题主要体现在: 严重依赖于大型预训练模型(pretrained model),难以在生产线上部署。 由于内存库(memory bank)的过度使用而大大增加了存储开销。 由于性能问题而无法实现实时的推理。 在工业质量检测中产品的深度信息对于异常检测至关重要,但现有的异常检测方法多数基于2D图像的处理,对于一些工业产品来说,仅使用2D图像来进行异常区分是很困难的。

Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition

现有的视频识别模型使用的是在理想条件下收集的经典视频数据集,但在实际场景下存在复杂的相机拍摄环境,目标分辨率低,光照条件差,视频场景不寻常的多种问题,现有的大多数视频识别模型由于缺乏外部领域知识而不能很好地泛化,应用效果差。 基础模型包含了多样化的语义知识,可以适应低概率泛化,但是利用这些模型的知识进行开放世界视频识别的方法还有待研究。
11
0
0
2024-10-28

MSFlow: Multiscale Flow-Based Framework for Unsupervised Anomaly Detection

由于获取不到足够的异常样本用于模型训练,无监督异常检测(UAD)逐渐成为主流的异常检测方法,但这种方法中异常样本和注释的缺失会降低UAD的检测性能。 统计模型(规范化流)适合于以无监督的方式进行异常检测(AD)和定位,统计模型通过将异常数据的分布与正常数据的分布进行对比以进行概率计算,由此可以有效地区分不可预测的异常。