2026/06/23

燕山大学人工智能学院（软件学院）联合上海交通大学等单位在统一多模态目标跟踪研究中取得新进展

人工智能学院吴培良苏俊斌

【新闻中心讯】近日，燕山大学人工智能学院（软件学院）张世辉教授课题组联合北京航空航天大学、中国科学院大学及上海交通大学合作取得重要研究进展。其成果论文《SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker》被国际计算机视觉领域顶级会议CVPR 2026主会录用，并入选口头报告。苏俊斌同学作为该研究的核心贡献者与组织者，主导方法设计、实验验证、论文撰写与合作推进等工作，彰显了学院在人工智能前沿研究中的创新活力。该论文由苏俊斌、薛紫腾、张世辉、陈坤、胡卫明、张志鹏共同完成，其中张世辉、张志鹏共同担任通讯作者。

被推荐为口头报告的邮件通知

目标跟踪是视觉智能感知的重要环节，其预测的轨迹信息可服务于行为理解、具身交互等下游任务。针对统一多模态跟踪中性能与效率难以兼顾的问题，苏俊斌同学与联合研究团队突破传统“直接融合多模态信息”的思路，提出了“先对齐感知、后融合信息”的新视角。研究围绕模板帧与搜索帧匹配这一核心过程，设计了自适应互引导低秩适配机制，将跨模态对齐建模为多分支平衡问题，简单高效地实现不同模态匹配响应的自适应一致，避免可靠分支被误导的负转移问题。进一步地，针对注意力融合计算开销大的问题，研究提出基于混合专家的高效全局关系建模机制，在降低复杂度的同时保持全局交互能力，为统一多模态目标跟踪提供了兼具精度、效率和扩展性的解决方案。

SEATrack的主框架图

苏俊斌同学于6月3-7日前往美国丹佛线下参会。期间不仅进行了常规的海报展示（Poster），还在主大厅做了口头报告（Oral），获得了宝贵的反馈意见和合作建议。

口头报告的PPT与现场图

此外，苏俊斌同学还通过筛选，受邀参加阿里巴巴顶尖人才计划（阿里星）晚宴。晚宴中，他与Tongyi、Wan等顶级基础模型研究组的研究人员们就多模态大模型、视频生成、世界模型、以及Agent等前沿方向进行了交流探讨。

此次成果的取得，展现了学院持续推进高层次人才培养、加强人工智能领域科研布局的扎实成效。未来，学院将继续深耕人工智能前沿领域，持续引育优秀人才、优化科研布局，鼓励师生勇攀学术高峰。同时不断深化跨校、跨行业交流合作，依托学科优势助推科研创新与技术转化，力争产出更多高水平科研成果，全力推动学院学科建设与科研工作再上新台阶。

2026年谷歌学术出版物综合影响力总榜

（以上图片由人工智能学院提供）

CVPR是计算机视觉领域规模最大、影响力最广的顶级国际学术会议，被中国计算机学会（CCF）列为A类会议，在2026年谷歌学术h5指数排行中仅次于Nature正刊，位列第2。本届CVPR于2026年6月3日至7日在美国科罗拉多州丹佛市科罗拉多会议中心举行，会议共收到16,092篇有效投稿，最终录用4,071篇，录用率仅为25.3%。而口头报告作为冲击Best Paper的必要条件，其选拔更为严苛——仅有141篇被推荐为口头报告，占接收论文的3.4%。（编辑王艳）

下一篇燕山大学马克思主义学院（中共党史党建学院...

燕山大学人工智能学院（软件学院）联合上海交通大学等单位在统一多模态目标跟踪研究中取得新进展

最近更新