Multimodal Document-level Triple Extraction via Dynamic Graph Enhancement and Relation-Aware Reflection

文件理解(Document Understanding)任務已從單句級資訊抽取
-> 走向更實務導向的文件層級結構化理解。

依賴:

多模態文件級三元組抽取成為建構 Knowledge Graph。

Multimodal Document-level Triple Extraction via Dynamic Graph Enhancement and Relation-Aware Reflection - ACL Anthology


既有方法的侷限?

  1. 多停留在 sentence-level 或 span-pair
  2. 圖結構多為靜態
  3. 缺乏全局校正
  4. 跨段落跨區塊的關係難以處理

核心動機和方法

從「靜態抽取」走向「動態結構理解」
-> 透過逐步推論修正結構體,圖表示

關係本身可以納入推理循環
-> 可以對後續推理或修正,檢查一致性

彌補端到端模型在文件層級的不穩定性
entity–relation–entity 不一致
→ 需要一個 relation-aware 的反思/校正機制


方法

「多模態文件 → 動態圖推論 → 關係反思校正」 的三階段框架
-> (Entity, Relation, Entity) 三元組


Step 1:多模態編碼與實體表示

目的:把文件轉成可推論的節點表示

👉 此階段解決「實體是什麼、在哪裡」。


Step 2:初始圖建構(Static Graph)

目的:提供關係推論的起點。

⚠️ 但這仍是 靜態假設圖,不足以捕捉隱含關係。


## Step 3:Dynamic Graph Enhancement(動態圖增強)

圖結構不是固定的,而是「隨模型理解逐步演化」。

效果:


Step 4:Relation Prediction(文件層級關係判斷)

⚠️ 單次預測仍可能不一致或衝突。


Step 5:Relation-Aware Reflection(關係感知反思)

文件層級常見問題:

做法

👉 類似 symbolic constraint + neural re-scoring


Step 6:最終三元組輸出


小節

多模態三元組抽取框架的創新點!


DTE, Document-level triple extraction

Powered by Forestry.md