Can

科技创新赋能高质量发展

LLM

#TPAMI ¹ #NeurIPS ¹ #DDP ⁴ #Knowledge Distillation ¹ #AAAI ¹ #VLP ¹ #AE ² #ACM MM ² #TNNLS ¹ #arXiv ² #LLM ² #ECCV ¹ #DDPM ¹ #压缩/解压 ¹ #iForest ¹ #ICDM ¹ #ViT ¹ #ICCV ¹ #ResNet ¹ #CVPR ⁷ #CNN ¹ #MNIST ¹ #PyTorch ¹ #栈 ³ #剪枝 ¹ #数组 ⁶ #暴力 ² #链表 ⁴ #SSM ¹ #递归 ¹ #链表 ² #模拟 ¹ #滑动窗口 ¹ #STL ¹ #二分查找 ¹ #medium题 ¹¹ #动态规划 ² #哈希表 ⁶ #双指针 ¹³ #easy题 ¹⁹

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

现有的基于LLM的多模态模型只能在有限的帧中理解短视频，这些模型大多直接将每帧沿时间轴连接的查询嵌入馈送到llm中，llm固有的上下文长度限制和GPU内存消耗限制了可以处理的视频帧的数量，这使得这些模型无法对长视频（>=30 sec）进行理解。提出Memory-Augmented Large Multimodal Model (MA-LMM)

人工智能论文分享

CVPR LLM

2024-11-13

Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models

视频异常检测（Video Anomaly Detection, VAD）在安全监控和自动驾驶等应用中至关重要。然而，现有的VAD方法在检测到异常时很少提供背后的原理，这限制了它们在现实世界部署中获得公众信任的能力。因此需要开发出能够提供推理过程的VAD方法。大语言模型（LLMs）在各种推理任务中表现出色。然而LLMs对异常的理解与特定场景所需的异常定义之间存在不匹配，这使得LLMs在直接执行VAD任务时效果不足。

论文分享人工智能异常检测

ECCV LLM

2024-10-09