Multimodal Document-level Triple Extraction via Dynamic Graph Enhancement and Relation-Aware Reflection

文件理解（Document Understanding）任務已從單句級資訊抽取
-> 走向更實務導向的文件層級結構化理解。

依賴：

多模態文件級三元組抽取成為建構 Knowledge Graph。

既有方法的侷限？

從「靜態抽取」走向「動態結構理解」
-> 透過逐步推論修正結構體，圖表示

關係本身可以納入推理循環
-> 可以對後續推理或修正，檢查一致性

彌補端到端模型在文件層級的不穩定性
entity–relation–entity 不一致
→ 需要一個 relation-aware 的反思／校正機制

「多模態文件 → 動態圖推論 → 關係反思校正」 的三階段框架
-> (Entity, Relation, Entity) 三元組

目的：把文件轉成可推論的節點表示

輸入模態：
- 文字（token / span 語義）
- 版面（bbox、閱讀順序、區塊結構）
- 視覺（字型、圖像、表格線索）
經多模態 Encoder 融合後，形成：
- 節點（Node）：entity 或候選 span
- 初始節點向量：語義 + layout + vision

👉 此階段解決「實體是什麼、在哪裡」。

目的：提供關係推論的起點。

⚠️ 但這仍是 靜態假設圖，不足以捕捉隱含關係。

圖結構不是固定的，而是「隨模型理解逐步演化」。

效果：

⚠️ 單次預測仍可能不一致或衝突。

文件層級常見問題：

做法

👉 類似 symbolic constraint + neural re-scoring

多模態三元組抽取框架的創新點！