【新闻中心讯】近日,燕山大学人工智能学院(软件学院)张世辉教授课题组联合北京航空航天大学、中国科学院大学及上海交通大学合作取得重要研究进展。其成果论文《SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker》被国际计算机视觉领域顶级会议CVPR 2026主会录用,并入选口头报告。苏俊斌同学作为该研究的核心贡献者与组织者,主导方法设计、实验验证、论文撰写与合作推进等工作,彰显了学院在人工智能前沿研究中的创新活力。该论文由苏俊斌、薛紫腾、张世辉、陈坤、胡卫明、张志鹏共同完成,其中张世辉、张志鹏共同担任通讯作者。

被推荐为口头报告的邮件通知
目标跟踪是视觉智能感知的重要环节,其预测的轨迹信息可服务于行为理解、具身交互等下游任务。针对统一多模态跟踪中性能与效率难以兼顾的问题,苏俊斌同学与联合研究团队突破传统“直接融合多模态信息”的思路,提出了“先对齐感知、后融合信息”的新视角。研究围绕模板帧与搜索帧匹配这一核心过程,设计了自适应互引导低秩适配机制,将跨模态对齐建模为多分支平衡问题,简单高效地实现不同模态匹配响应的自适应一致,避免可靠分支被误导的负转移问题。进一步地,针对注意力融合计算开销大的问题,研究提出基于混合专家的高效全局关系建模机制,在降低复杂度的同时保持全局交互能力,为统一多模态目标跟踪提供了兼具精度、效率和扩展性的解决方案。

SEATrack的主框架图
苏俊斌同学于6月3-7日前往美国丹佛线下参会。期间不仅进行了常规的海报展示(Poster),还在主大厅做了口头报告(Oral),获得了宝贵的反馈意见和合作建议。

口头报告的PPT与现场图
此外,苏俊斌同学还通过筛选,受邀参加阿里巴巴顶尖人才计划(阿里星)晚宴。晚宴中,他与Tongyi、Wan等顶级基础模型研究组的研究人员们就多模态大模型、视频生成、世界模型、以及Agent等前沿方向进行了交流探讨。
此次成果的取得,展现了学院持续推进高层次人才培养、加强人工智能领域科研布局的扎实成效。未来,学院将继续深耕人工智能前沿领域,持续引育优秀人才、优化科研布局,鼓励师生勇攀学术高峰。同时不断深化跨校、跨行业交流合作,依托学科优势助推科研创新与技术转化,力争产出更多高水平科研成果,全力推动学院学科建设与科研工作再上新台阶。

2026年谷歌学术出版物综合影响力总榜
(以上图片由人工智能学院提供)
CVPR是计算机视觉领域规模最大、影响力最广的顶级国际学术会议,被中国计算机学会(CCF)列为A类会议,在2026年谷歌学术h5指数排行中仅次于Nature正刊,位列第2。本届CVPR于2026年6月3日至7日在美国科罗拉多州丹佛市科罗拉多会议中心举行,会议共收到16,092篇有效投稿,最终录用4,071篇,录用率仅为25.3%。而口头报告作为冲击Best Paper的必要条件,其选拔更为严苛——仅有141篇被推荐为口头报告,占接收论文的3.4%。(编辑 王艳)