2026-06-24 05:34:02 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： PixelRAG是由StarTrail团队开源的一种基于视觉的网页检索新范式，通过直接对网页进行截图并由视觉语言模型从像素中读取内容，避免了传统HTML解析导致的信息丢失问题。该系统已在Wikipedia全站3000万+截图上验证，准确率比文本RAG基线提升18.1%，并提供了ClaudeCode插件实现开箱即用的AI读屏功能。文档详细介绍了技术架构、性能对比和快速上手方法，适用于需要高保真保留页面视觉信息的场景。 综合评分： 87 文章分类： 安全工具,WEB安全,技术标准,AI安全,解决方案

cover_image

PixelRAG：基于视觉的网页检索新范式，绕过HTML解析直接读屏

原创

Red Hunter Red Hunter

黑白之道

2026年6月23日 08:40 韩国

在小说阅读器读本章

去阅读

导语：传统Web RAG在HTML解析阶段最高可丢失页面40%以上信息，表格、图表、布局全部被压平。PixelRAG用截图表索引替代文本切块，由视觉语言模型直接”看”页面，Wikipedia 3000万截图测试中准确率超文本RAG基线18.1%，且已发布Claude Code插件让AI直接读屏。

一、项目概述

PixelRAG是由StarTrail团队开源的视觉检索系统，核心思路极为直接：不对网页做HTML解析，直接截图，由视觉语言模型从像素中读取答案。

GitHub：github.com/StarTrail-org/PixelRAG 协议：Apache-2.0（100%开源）

核心特性

跳过解析丢失：传统HTML转文本解析器可丢失页面40%以上信息，PixelRAG直接索引用户实际看到的页面
视觉索引规模：已构建Wikipedia全站3000万+截图的视觉索引
精度提升显著：在纯文本QA测试中，超最强文本RAG基线18.1%
Claude Code插件：一个脚本安装，无需MCP服务器，无需后端，直接让Claude”看见”任意URL
索引即像素：更强的视觉模型可直接提升精度，无需重新构建索引

二、技术架构

PixelRAG的索引管线分为三个阶段：

第一步：渲染 将每个文档（网页、PDF、图片）渲染为图像瓦片（image tiles）

第二步：嵌入 使用Qwen3-VL-Embedding（基于截图表 LoRA微调）进行向量化

第三步：检索 构建FAISS向量索引，提供搜索API

整个流程无需HTML解析器参与，索引的是”人眼看到的页面”，检索结果由视觉语言模型直接从像素中读取答案。

三、Claude Code插件

对于AI辅助开发场景，PixelRAG提供了一个开箱即用的Claude Code插件：

给Claude截图任意URL，直接读取渲染后的页面内容
支持实时网页、arXiv论文、本地网站
一个安装脚本，无MCP依赖，无后端服务

这意味着AI不再依赖DOM抓取，而是”看到”和你一样的页面。

四、性能对比

| 方案 | 索引方式 | 解析丢失率 | Wikipedia QA精度 | | — | — | — | — | | 文本RAG | HTML→文本→切块 | 最高40%+ | 基线 | | PixelRAG | 页面截图→像素 | 接近0 | +18.1% |

表格、图表、复杂布局信息在文本解析中被压平或丢弃，而PixelRAG完整保留了视觉信息。

五、快速上手

# 克隆仓库
git&nbsp;clone&nbsp;https://github.com/StarTrail-org/PixelRAG.git
cd&nbsp;PixelRAG

# 安装依赖
pip install -r requirements.txt

# 构建视觉索引（以网页为例）
python -m pixelrag index --url&nbsp;"https://example.com"

# 检索
python -m pixelrag search --query&nbsp;"你想知道的问题"

Claude Code插件安装：

bash install_claude_plugin.sh

六、适用场景

文档问答系统：需要保留表格、图表、布局信息的知识库
AI辅助开发：让AI直接”看到”页面而非抓取DOM
视觉内容检索：图片、PDF、扫描件等非结构化视觉内容
对比解析器效果：同一页面用不同解析器精度差异分析

七、总结

PixelRAG用”所见即所得”的思路重新定义了Web RAG：索引人眼看到的页面，由视觉模型读答案。3000万Wikipedia截图验证了可行性，Claude Code插件降低了落地门槛。对于需要高保真度保留页面信息的场景，这是一个值得关注的开源方向。

👇 点击阅读原文，访问我的网站

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：黑白之道 Red Hunter Red Hunter《PixelRAG：基于视觉的网页检索新范式，绕过HTML解析直接读屏》