2026-03-03 06:24:10 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： PaperBanana是一个由视觉大语言模型和图像生成模型驱动的多智能体协作框架，旨在自动将学术论文中的文本描述转化为高质量、可直接发表的科研插图。该框架通过检索、规划、风格设计、可视化生成和批判性审查五个智能体分工协作，能够生成算法架构图、数据统计图并优化手绘草图，其有效性在基于NeurIPS2025论文构建的PaperBananaBench数据集上得到验证。 综合评分： 85 文章分类： AI安全,安全工具,解决方案

cover_image

大模型驱动的科研插图生成框架 PaperBanana

原创

Avenger Avenger

威胁棱镜

2026年2月25日 09:04 内蒙古

对于研究人员来说，写论文时最头疼的环节可能往往不是推导公式或跑实验，而是画图。研究人员常常要在绘图软件中耗费数小时对齐文本框、调整箭头、修改配色，占据了研究人员大量的精力。

为了将研究人员从繁琐的“作图劳役”中解放出来，来自北京大学与Google Cloud AI Research 的研究团队设计了PaperBanana。该智能体框架能够将文章中的描述文本，在短短几分钟内自动转化为达到“顶会级别”的高质量学术插图。

PaperBanana是一个由视觉大语言模型和图像生成模型驱动的“虚拟学术插图设计智能体框架”。它能自动理解你的算法逻辑，并输出一张排版精美、逻辑清晰、可直接用于发表的学术架构图。不仅如此，它还能处理数据统计图表，甚至可以用来优化人类手绘的草图。

多智能体协作

PaperBanana并不是一个端到端的黑盒，它在内部构建了一个分工明确的工作流，一共有五个角色：

（1）Retriever/资料员：在拿到文字描述后，资料员先去由真实顶会优秀插图组成的数据库中寻找灵感，检索那些视觉结构相似的参考图。

（2）Planner/架构师：架构师阅读文本描述，结合资料员找到的参考图，生成一份尽可能详实的视觉描述。把复杂的学术概念拆解为具体的视觉元素，比如哪里该放矩形框，哪里该用虚线连接，数据流向是怎样的。

（3）Stylist/美术指导：在不改变科学内容的前提下，优化配色方案、字体排版、图形形状等细节，确保生成的图片符合顶级学术会议的视觉规范。

（4）Visualizer/绘图员：负责调用强大的图像生成模型，将前述步骤中的设计渲染成高保真的图像。

（5）Critic/严苛的审稿人：像审稿人一样盯着图片找问题，如 “这里的箭头画反了”、“这两个框的文字重叠了”等。发现问题后，它会把修改意见打回给前面的环节。

评估数据集

研究人员构建了一个名为PaperBananaBench的评估数据集，其中包含了从 NeurIPS 2025 的论文中提取的584个复杂图表。

生成示例

担心数据统计图生成错误的，框架还支持生成可执行的Matplotlib代码，确保数据的严谨性。

参考来源

官方网站https://dwzhu-pku.github.io/PaperBanana/论文地址https://arxiv.org/pdf/2601.23265代码与数据集（后续开放）https://github.com/dwzhu-pku/PaperBanana

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：威胁棱镜 Avenger Avenger《大模型驱动的科研插图生成框架 PaperBanana》