文章总结: PaperBanana是一个由视觉大语言模型和图像生成模型驱动的多智能体协作框架,旨在自动将学术论文中的文本描述转化为高质量、可直接发表的科研插图。该框架通过检索、规划、风格设计、可视化生成和批判性审查五个智能体分工协作,能够生成算法架构图、数据统计图并优化手绘草图,其有效性在基于NeurIPS2025论文构建的PaperBananaBench数据集上得到验证。 综合评分: 85 文章分类: AI安全,安全工具,解决方案
大模型驱动的科研插图生成框架 PaperBanana
原创
Avenger Avenger
威胁棱镜
2026年2月25日 09:04 内蒙古
对于研究人员来说,写论文时最头疼的环节可能往往不是推导公式或跑实验,而是画图。研究人员常常要在绘图软件中耗费数小时对齐文本框、调整箭头、修改配色,占据了研究人员大量的精力。
为了将研究人员从繁琐的“作图劳役”中解放出来,来自北京大学与Google Cloud AI Research 的研究团队设计了PaperBanana。该智能体框架能够将文章中的描述文本,在短短几分钟内自动转化为达到“顶会级别”的高质量学术插图。
PaperBanana是一个由视觉大语言模型和图像生成模型驱动的“虚拟学术插图设计智能体框架”。 它能自动理解你的算法逻辑,并输出一张排版精美、逻辑清晰、可直接用于发表的学术架构图。不仅如此,它还能处理数据统计图表,甚至可以用来优化人类手绘的草图。
多智能体协作
PaperBanana并不是一个端到端的黑盒,它在内部构建了一个分工明确的工作流,一共有五个角色:
(1)Retriever/资料员:在拿到文字描述后,资料员先去由真实顶会优秀插图组成的数据库中寻找灵感,检索那些视觉结构相似的参考图。
(2)Planner/架构师:架构师阅读文本描述,结合资料员找到的参考图,生成一份尽可能详实的视觉描述。把复杂的学术概念拆解为具体的视觉元素,比如哪里该放矩形框,哪里该用虚线连接,数据流向是怎样的。
(3)Stylist/美术指导:在不改变科学内容的前提下,优化配色方案、字体排版、图形形状等细节,确保生成的图片符合顶级学术会议的视觉规范。
(4)Visualizer/绘图员:负责调用强大的图像生成模型,将前述步骤中的设计渲染成高保真的图像。
(5)Critic/严苛的审稿人:像审稿人一样盯着图片找问题,如 “这里的箭头画反了”、“这两个框的文字重叠了”等。发现问题后,它会把修改意见打回给前面的环节。
评估数据集
研究人员构建了一个名为PaperBananaBench的评估数据集,其中包含了从 NeurIPS 2025 的论文中提取的584个复杂图表。
生成示例
担心数据统计图生成错误的,框架还支持生成可执行的Matplotlib代码,确保数据的严谨性。
参考来源
官方网站https://dwzhu-pku.github.io/PaperBanana/论文地址https://arxiv.org/pdf/2601.23265代码与数据集(后续开放)https://github.com/dwzhu-pku/PaperBanana
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:威胁棱镜 Avenger Avenger《大模型驱动的科研插图生成框架 PaperBanana》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论