文章总结: 这篇文章详细记录了Ragflow知识库的解析过程,作者通过一个9.2Mtxt文档的解析日志,展示了从任务接收到知识图谱完成的10个完整步骤,包括解析、关键词生成、问题生成、嵌入索引、实体提取等环节,整个过程耗时约50分钟,为使用Ragflow的用户提供了详细的解析过程参考。 综合评分: 88 文章分类: AI安全,数据安全,安全工具

Ragflow知识库的解析过程
原创
MicroPest
MicroPest
2025年3月21日 23:42 安徽
Ragflow对知识库导入内容的解析过程十分的漫长,曾多少次都在不断地反复和怀疑中渡过,没有一个教程对它的解析过程进行详细说明,让我十分地郁闷和不解,难道这都不是个问题了,还是只有我这个小白把它当成了个问题。不管哪样,我觉得应该写出来分享给大家,在这个过程中遭遇了什么,高手略过,仅是个记录。
下图这是ragflow的知识库解析记录,当达成这个成功经过了漫长的等待,中途中断了好多次,也不知道怎样才是正确的。这里截取了它的日志记录来了解下它的解析过程,也让我们在此过程中可以放心大胆地等待下去。

一个9.2M的txt文档,经过了长达22:17-23:08,大约50分钟才完成了解析工作。硬件条件:单GPU,笔记本完成的。
一、日志记录下的解析过程
1、任务接收:
22:17:21 Task has been received.
22:17:21:任务已被接收。
2、解析过程:
22:17:29 Page(1~100000001): Start to parse.
22:17:29:开始解析页面(1~100000001)。
22:17:31 Page(1~100000001): Finish parsing.
22:17:31:解析完成。
3、关键词生成:
22:20:33 Page(1~100000001): Start to generate keywords for every chunk …
22:20:33:开始为每个分块生成关键词。
22:23:36 Page(1~100000001): Keywords generation 271 chunks completed in 183.08s
22:23:36:关键词生成完成,271个分块在183.08秒内完成。
4、问题生成:
22:23:36:开始为每个分块生成问题。
22:23:36 Page(1~100000001): Start to generate questions for every chunk …
22:25:45 Page(1~100000001): Question generation 271 chunks completed in 129.05s
22:25:45:问题生成完成,271个分块在129.05秒内完成。
22:25:45 Page(1~100000001): Generate 271 chunks
5、嵌入和索引:
22:25:52:嵌入分块(7.16秒)。
22:25:52 Page(1~100000001): Embedding chunks (7.16s)
22:26:18:索引完成(25.38秒),任务完成(536.45秒)。
22:26:18 Page(1~100000001): Indexing done (25.38s). Task done (536.45s)
6、实体提取:
从23:06:45到23:08:21,系统逐步提取每个分块的实体和关系。每个分块的实体提取完成后,记录了节点数、边数和标记数。
23:06:45 Entities extraction of chunk 246 247/271 done, 0 nodes, 0 edges, 16871 tokens.
。。。。。。
23:08:21 Entities extraction of chunk 270 271/271 done, 1 nodes, 0 edges, 4952 tokens.
23:08:21:实体和关系提取完成,总共提取了1个节点,0条边,4225286个标记,耗时2516.01秒。
23:08:21 Entities and relationships extraction done, 1 nodes, 0 edges, 4225286 tokens, 2516.01s.
7、实体和关系合并:
23:08:21:实体合并完成,耗时0.37秒。
23:08:21 Entities merging done, 0.37s.
23:08:22:关系合并完成,耗时0.10秒。
23:08:22 Relationships merging done, 0.10s.
8、子图生成和合并:
23:08:22:为文档生成子图,耗时2516.79秒。
23:08:22 generated subgraph for doc 315f8042065f11f0945f92ce2e96dbb2 in 2516.79 seconds.
23:08:25:将子图合并到全局图,耗时3.03秒。
23:08:25 merging subgraph for doc 315f8042065f11f0945f92ce2e96dbb2 into the global graph done in 3.03 seconds.
9、图解析和Pagerank更新:
23:08:25:识别0个候选对。
23:08:25 Identified 0 candidate pairs
23:08:25:解决0个候选对,0个被选择合并。
23:08:25 Resolved 0 candidate pairs, 0 of them are selected to merge.
23:08:25:图解析移除了0个节点。
23:08:25 Graph resolution removed 0 nodes.
23:08:26:图解析更新了Pagerank。
23:08:26 Graph resolution updated pagerank.
23:08:28:图解析完成,耗时3.22秒。
23:08:28 Graph resolution done in 3.22s.
10、知识图谱完成:
23:08:28:文档的知识图谱处理完成,耗时2524.39秒。
23:08:28 GraphRAG for doc 315f8042065f11f0945f92ce2e96dbb2 done in 2524.39 seconds.
23:08:28 Knowledge Graph done (2524.44s)
上面可以看出,ragflow在解析文档时经过了10个过程,应该非常地清晰明了。
二、ragflow的解析知识库过程
回顾一下,在RAG(Retrieval-Augmented Generation)系统中,解析知识库的过程通常包括以下几个步骤:
- 1.文件上传:首先,将知识库文件(如文本文件、PDF、HTML等)上传到RAG系统。
- 2.预处理:系统对上传的文件进行预处理,包括分块、去除噪音、格式转换等。这一步骤的目的是将原始数据转换为适合解析和索引的格式。
- 3.分块:将大型文件分割成较小的块,以便于后续的解析和索引。分块的数量和大小可以根据需要进行调整。
- 4.解析:对每个分块进行解析,提取出有用的信息。这可能包括识别文本、提取实体、关系和其他关键信息。
- 5.索引:将解析后的信息建立索引,以便于快速检索。索引可以是倒排索引、正向索引或其他类型的索引结构。
- 6.验证和优化:对解析和索引的结果进行验证,确保数据的准确性和完整性。根据需要,可以对解析和索引过程进行优化。
- 7.启用和存储:将解析和索引后的知识库启用,使其可以在RAG系统中被查询和使用。解析后的数据通常会存储在数据库或搜索引擎中。
- 8.监控和维护:定期监控知识库的性能和准确性,进行必要的维护和更新,以确保知识库的有效性和时效性。
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论