文章总结: 中山大学王焱林团队本科生提出CoSQA⁺,首个面向多选择代码搜索的大规模基准,利用测试驱动智能体自动标注,将准确率提至93.9%,解决现有基准与现实开发场景脱节问题,为训练和评估代码搜索模型提供高质量数据,成果被软件工程顶刊TSE2025接收。 综合评分: 88 文章分类: AI安全,安全工具,技术标准,安全开发,应用安全
王焱林团队 | 中山大学软件工程学院本科生论文被软件工程领域国际顶级期刊TSE 2025接收
信息网络安全杂志
2026年1月2日 17:00 上海
喜
报
近日,在中山大学软件工程学院王焱林老师的指导下,2021级本科生龚敬、2021级本科生吴仰晖和2022级本科生梁琳茜以共同一作身份投稿的学术论文“CoSQA⁺:Enhancing Code Search Evaluation with a Multi-Choice Benchmark and Test-Driven Agents”被软件工程领域的国际顶级期刊IEEE Transactions on Software Engineering (TSE)2025接收。
期刊简介
IEEE Transactions on Software Engineering (TSE),全称为IEEE软件工程汇刊,是软件工程领域的旗舰级学术期刊,由IEEE计算机学会主办。在中国计算机学会(CCF)的国际学术期刊排名中,TSE为软件工程领域的A类顶级期刊,也是该领域公认的国际权威期刊之一。TSE专注于发表软件工程领域具有创新性、深度和实践价值的研究成果,涵盖软件设计、开发、测试、维护、质量保证等多个方向,对推动软件工程学科的理论发展与产业应用具有重要影响力。
成果介绍
语义代码搜索旨在根据自然语言查询检索功能匹配的代码,是提升软件开发效率的关键技术。然而,现有代码搜索基准(如CoSQA、CodeSearchNet)普遍遵循“单一正确代码”的评估范式,这与现实开发场景严重脱节。调查表明,开发者每次查询平均需参考近3个代码示例,且超过60%的查询天然对应多个有效代码片段,突显出对多选择基准的迫切需求。当前构建此类基准面临严峻挑战:依赖人工标注存在可扩展性瓶颈与主观判断误差;而现有基于大语言模型的自动标注方法虽提升了规模,却因缺乏功能验证,难以保证标注的准确性。这些局限性导致现有基准无法有效支撑多选择代码搜索模型的训练与评估。
为应对上述挑战,我们提出了CoSQA⁺——一个专为多选择代码搜索设计的大规模基准,并引入了创新的测试驱动智能体以实现高质量自动标注。我们的解决方案构建于一个全自动流水线之上(如下图所示)。首先从CoSQA和CodeSearchNet收集真实的查询与Python代码,随后通过多模型集成策略为每个查询筛选出Top-20高置信度候选代码,最后用测试驱动智能体对候选代码进行精准标注。测试驱动智能体通过“初步筛选器”快速判定明确案例,对模糊案例则启动“测试程序生成器”创建可执行测试,并由“测试执行器”在隔离环境中运行验证,辅以“错误修复器”解决依赖问题,最后由“最终仲裁器”依据测试结果等信息作出判断。该方法将标注依据从主观的语义理解转变为客观的功能验证,达到了93.9%的标注准确率,从而成功地构建了首个高质量、大规模的多选择代码搜索基准。
指导老师
学院构建以全程导师制为基础的学术育人体系,三位同学在本科阶段加入了学院王焱林老师的课题组,接受全面的科研训练和开展学术研究。
王焱林,助理教授,硕士生导师。2022年7月入选中山大学百人计划,加入软件工程学院。加入中山大学前,于微软亚洲研究院担任主管研究员。2014年至2019年就读于香港大学计算机科学系,师从Bruno Oliveira教授,获得博士学位。2010年至2014年就读于浙江大学,获学士学位。主要研究方向为大模型驱动的智能化软件工程、大模型技术。近5年来在国际会议和期刊共发表30余篇论文,发表于ICSE、ASE、AAAI、ACL、KDD、TKDE、EMSE、EMNLP、CIKM、ICSME等软件工程、人工智能、自然语言处理等领域CCF A/B类顶级会议与期刊。
学生研究体会
龚敬:在大二,我有幸加入王老师的课题组,正式开启了软件工程领域的科研探索之旅。CoSQA⁺相关成果的产出过程,是一场充满挑战与成长的旅程。我曾因传统方法的瓶颈突破困难而迷茫,也因实验数据不理想而沮丧。但每次与导师的深入讨论,都能帮我厘清思路、找到方向。还有其他几位老师,如郑子彬教授、刘名威副教授等,也在关键问题上无私地给予我指导。课题组里的同学,尤其是吴仰晖、梁琳茜这两位共同一作的同学,帮助我在攻坚克难途中越战越勇。这段科研经历不仅提升了我的专业能力和科研素养,更让我明白了坦诚清晰的团队精神和严谨求实的科研精神的重要性。未来,我将继续深耕这一领域,在学术探索的道路上不断前行。
来源:中山大学软件工程学院微信公众号
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《王焱林团队 | 中山大学软件工程学院本科生论文被软件工程领域国际顶级期刊TSE 2025接收》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论