苏州大学团队斩获全球校园人工智能算法精英大赛省级二、三等奖
全球校园人工智能算法精英大赛是由江苏省人工智能学会举办的、面向全球具有正式学籍的全日制高等院校及以上在校学生的算法竞赛。大赛自2019年起已连续举办6届,共吸引来自全球26个国家和地区、1000多所高校的选手参赛,累计参赛队伍2.4万支,参赛学生人数超过3.7万人,受到了全球校园人工智能算法爱好者及业界的广泛关注。首届大赛冠军在第二年毕业后,以百万年薪入职国内头部企业。37000+参赛人数、24000+参赛团队、1000+参赛院校,这场顶尖技术角逐中,苏州大学轨道交通学院本科生团队自主设计针对4D毫米波雷达和单目摄像头的视觉融合算法、网络监督细粒度图像识别算法,凭借优异表现跻身所有参赛队伍前25%,荣获省级二、三等奖。
“通用Transformer架构”到“细粒度专用架构”的适配与增强

面对全国顶尖高校的激烈竞争,团队针对赛题难点——数据清洗、特征提取等方面实现了创新性提升。相较于传统ViT、MetaFormer、DynamicViT等基线模型,本项目的创新点集中在针对FGVC任务的特征增强。提出“局部判别+全局关联”的双分支Token Mixer:局部分支对Patch进行邻域注意力计算(聚焦目标的局部关键区域,如鸟类的爪、花的花瓣),全局分支保持自注意力的全局关联,既避免局部细节丢失,又防止全局语义割裂;同时,跨尺度特征融合解决了单一尺度Patch无法兼顾细节与全局的问题。提出“Token重要性评分+特征强化”的联动机制。 轻量化设计:所有增强模块均为轻量级(无额外大计算量),保证模型在FGVC数据集上的推理速度接近基线模型;同时解耦“特征提取”与“细粒度判别”,在MetaFormer的通用骨架上,通过模块化的特征增强组件(可插拔)实现“通用骨架+专属增强”的解耦设计,既保留MetaFormer的灵活性,又能适配不同数据集,兼顾精度与效率的平衡。在FET-FGVC的基础上,仅增加<5%的参数量,精度提升3%~5%;在单GPU上的推理速度比ViT-Base快15%以上,比双线性CNN快30%以上。
多维度融合创新,在3D目标检测任务中实现精度与效率的平衡
基于两阶段3D检测框架,项目创新性地将体素特征提取与R-CNN两阶段检测架构相结合,兼顾了体素方法的高效性和R-CNN精细调整的高精度。自适应样本分配机制的深度优化:采用ATSS目标分配策略,通过计算锚框与真实框的距离和IoU,动态确定正负样本阈值,解决了传统固定阈值分配导致的样本不平衡问题,提升了训练稳定性和鲁棒性。多维度特征融合与模块化架构:设计了“3D backbone→BEV转换→2D backbone”的特征处理链路;模块化设计支持灵活替换各组件(如VFE、backbone),有效提升了框架的扩展性。 针对3D检测的优化策略集成:结合3D检测任务特性,采用GPU加速的NMS(NMS_GPU)处理3D候选框,提升后处理效率;引入梯度裁剪(GRAD_NORM_CLIP=10),防止训练过程中出现梯度爆炸;使用Adam OneCycle优化器实现学习率动态调度,加速模型收敛。
通过体素化与两阶段检测的结合、自适应样本分配、多维度特征融合等创新,项目在3D目标检测任务中成功实现了精度与效率的平衡。
用算法征服世界,用青春追逐梦想

大赛聚焦“人工智能+”知识体系下的人才能力培养及人工智能核心技术应用,围绕国家产业结构调整和发展战略性新兴产业的人才需求设置六大赛道,全方位考查青年学子的算法创新能力、工程实践能力、创新思维能力和团队协作能力,充分彰显了“智青春·算未来”的大赛主题。团队在谢劼老师的指导下不断优化算法,这正是“用算法征服世界,用青春追逐梦想”的生动诠释——青年科研者聚焦细粒度视觉分类、3D目标检测两大核心视觉任务的痛点,以MetaFormer/OpenPCDet为基础,突破传统算法的局限,用算法创新攻克了视觉感知领域的行业壁垒;而这份突破不仅限于技术层面,更将青年科研者的青春热忱转化为实际落地价值,推动算法从实验室走向产业应用。这既是以青春之志追逐“让AI更精准感知世界”的科研梦想,更是以算法之力攻克行业痛点、推动智能感知领域持续向前,将个人的青春理想融入科技赋能现实的时代浪潮;而“算法征服世界”的底气,正深深扎根于“青春追逐梦想”的热忱与实干之中。