Multimodal Document-level Triple Extraction via Dynamic Graph Enhancement and Relation-Aware Reflection
文件理解(Document Understanding)任務已從單句級資訊抽取
-> 走向更實務導向的文件層級結構化理解。
依賴:
- 文字語義(entity 與 relation)
- 版面結構(區塊、對齊、閱讀順序)
- 視覺線索(字型、表格、圖像)
多模態文件級三元組抽取成為建構 Knowledge Graph。
既有方法的侷限?
- 多停留在 sentence-level 或 span-pair
- 圖結構多為靜態
- 缺乏全局校正
- 跨段落跨區塊的關係難以處理
核心動機和方法
從「靜態抽取」走向「動態結構理解」
-> 透過逐步推論修正結構體,圖表示
關係本身可以納入推理循環
-> 可以對後續推理或修正,檢查一致性
彌補端到端模型在文件層級的不穩定性
entity–relation–entity 不一致
→ 需要一個 relation-aware 的反思/校正機制
方法
「多模態文件 → 動態圖推論 → 關係反思校正」 的三階段框架
-> (Entity, Relation, Entity) 三元組
Step 1:多模態編碼與實體表示
目的:把文件轉成可推論的節點表示
-
輸入模態:
- 文字(token / span 語義)
- 版面(bbox、閱讀順序、區塊結構)
- 視覺(字型、圖像、表格線索)
-
經多模態 Encoder 融合後,形成:
- 節點(Node):entity 或候選 span
- 初始節點向量:語義 + layout + vision
👉 此階段解決「實體是什麼、在哪裡」。
Step 2:初始圖建構(Static Graph)
目的:提供關係推論的起點。
- 節點:實體
- 邊(多種類型):
- 空間鄰近(同列、同區塊)
- 語義相似
- 跨模態關聯(如表格對齊)
⚠️ 但這仍是 靜態假設圖,不足以捕捉隱含關係。
## Step 3:Dynamic Graph Enhancement(動態圖增強)
- 使用 Graph Neural Network(GNN) 進行 message passing
- 根據中間關係預測結果:
- 動態 新增 / 移除 / 重加權邊
- 更新節點表示
圖結構不是固定的,而是「隨模型理解逐步演化」。
效果:
- 捕捉 跨段落 / 跨區塊 / 長距離 關係
- 修正初始圖無法連結的 entity pairs
Step 4:Relation Prediction(文件層級關係判斷)
- 對節點對
進行 relation 分類 - 輸出候選三元組:
⚠️ 單次預測仍可能不一致或衝突。
Step 5:Relation-Aware Reflection(關係感知反思)
文件層級常見問題:
- 同一實體出現多個互斥關係
- 關係型別與語義不相容
做法
- 將「已預測的關係」當作推理訊號
- 檢查:
- 關係型別相容性
- 全局一致性
- 對不合理的關係進行:
- 降權
- 修正
- 再推論(reflection loop)
👉 類似 symbolic constraint + neural re-scoring
Step 6:最終三元組輸出
- 經過動態圖 + 反思校正後
- 輸出高一致性、文件級的三元組集合
小節
- 不是一次抽取 → 是「反覆推論」
- 不是靜態結構 → 是「動態演化圖」
- 不是只靠 entity → 是「relation 反過來指導修正」
多模態三元組抽取框架的創新點!
- 動態圖增強(Dynamic Graph Enhancement)
- 關係感知反思(Relation-Aware Reflection)