各位朋友大家好,今天我分享的论文题目是:
THINK-ON-GRAPH 2.0: DEEP AND FAITHFUL LARGE LANGUAGE MODEL REASONING WITH
KNOWLEDGE-GUIDED RETRIEVAL AUGMENTED GENERATION

我将会从以下五个角度出发,与各位分享这篇论文。

研究动机

  1. 传统RAG方法经常只关注表层语义相似性,难以捕捉实体关系,导致难以胜任多跳、复杂的推理任务。

  2. 知识图谱检索虽然结构化,但往往知识不全,缺少细节,难以应对没有先验结构的信息扩展需求。

  3. 两者“松耦合”结合依然无法充分协同发挥各自优势,导致深层推理和真确性受限。

目标:设计一种“紧耦合”框架,交替挖掘结构化(KG)与非结构化(文本)知识,在推理链条中多轮交替迭代,从而让大模型能更深入、可靠地获取线索,接近人类推理过程。

方法框架

核心思想

提出一个“紧耦合”的 KG×Text 混合 RAG 框架——Think-on-Graph 2.0 (ToG-2)。

总体流程:

从问题中抽取实体;

在知识图谱上扩展实体关系;

基于这些实体,在文档库中检索上下文;

用 LLM 判断是否信息充足,否则生成新线索进入下一轮;

迭代至足够信息或达到最大深度。

最终实现“图指导文检索,文反哺图探索”的循环。

技术细节

我主要重点讲这三个模块:

  1. Relation Prune:用 LLM 判断哪些关系可能提供有用信息。

  2. Context-based Entity Prune:通过 DRM(如 BGE-Reranker)计算上下文相关性。

  3. Iterative Reasoning Loop:每轮输出答案或继续检索。

实验效果

注意: 我通常不会过于关注论文中的实验结果,因为每篇论文的实验结果都会展示为“很好”。因此,重心应更多地放在其他研究维度上,比如方法、动机等。

亮点结果

在 7 个数据集上,6 个取得 SOTA;

相比 ToG、CoK、GraphRAG 等方法显著提升(例如 AdvHotpotQA 提升 16.6%);

能把 Llama-2-13B 提升到 GPT-3.5 的水平;

在新构建的金融数据集 ToG-FinQA 上表现最突出。

额外分析

Ablation 证明 ToG-2 不同模块(Topic Prune、Clue 反馈、Relation Prune 方式)都有贡献;

性能与宽度深度参数 (W, D) 呈饱和关系;

相比 ToG,ToG-2 效率更高,减少 LLM 调用量。

应用价值与局限

应用价值

对需要多跳推理的问答、知识问答、事实验证等任务效果显著;

可作为无训练、可插拔框架,适配各种 LLM;

在金融场景(ToG-FinQA)中展现潜力。

局限

依赖知识图谱的完整性;

检索与推理循环仍较耗时;

对 LLM 判断“信息是否充分”的准确性依赖大;

仍可能出现“过于保守”导致 recall 下降。

研究价值再思考

学术层面: ToG-2 将 RAG 从“简单融合”推向“深度交互”,开辟了 KG × Text 协同检索的新路线。

工程层面: 提供了一个可复用的、无训练的推理工作流。

未来展望:

自适应迭代(动态调整深度宽度);

更高效的 DRM + KG 构建;

向多模态(图像/表格/代码)RAG扩展。