CanTechLab

Can

LLM

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

现有的基于LLM的多模态模型只能在有限的帧中理解短视频,这些模型大多直接将每帧沿时间轴连接的查询嵌入馈送到llm中,llm固有的上下文长度限制和GPU内存消耗限制了可以处理的视频帧的数量,这使得这些模型无法对长视频(>=30 sec)进行理解。 提出Memory-Augmented Large Multimodal Model (MA-LMM)

Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models

视频异常检测(Video Anomaly Detection, VAD)在安全监控和自动驾驶等应用中至关重要。然而,现有的VAD方法在检测到异常时很少提供背后的原理,这限制了它们在现实世界部署中获得公众信任的能力。因此需要开发出能够提供推理过程的VAD方法。大语言模型(LLMs)在各种推理任务中表现出色。然而LLMs对异常的理解与特定场景所需的异常定义之间存在不匹配,这使得LLMs在直接执行VAD任务时效果不足。