MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
现有的基于LLM的多模态模型只能在有限的帧中理解短视频,这些模型大多直接将每帧沿时间轴连接的查询嵌入馈送到llm中,llm固有的上下文长度限制和GPU内存消耗限制了可以处理的视频帧的数量,这使得这些模型无法对长视频(>=30 sec)进行理解。 提出Memory-Augmented Large Multimodal Model (MA-LMM)