CanTechLab

Can

AAAI

Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

多标签分类是计算机视觉的重要任务,旨在识别图像中所有相关的标签。然而,现有方法通常只能处理训练中可见的标签,而无法应对许多实际应用中存在的“未见”标签。为解决这一问题,多标签零样本学习(ML-ZSL)尝试通过语言模型(如GloVe)进行知识转移,但其只利用了单一模态的信息,忽略了图像-文本对中的丰富语义信息。