Information Extraction
Information Extraction
Currently, information extraction methods can be categorized into two approaches:
- Supervised Learning
- Large Language Models (LLMs)
However, both approaches have their own limitations:
- Supervised Learning
- In the NER task: It operates at the sentence level and cannot capture keyword relationships across the entire document.
- In a specific domain: It is costly, but the quality may be higher.
- Large Language Models (LLMs)
- In the NER task: They process information at the document level but may generate hallucinated content.
- In a specific domain: They are less costly, but the quality is uncertain because LLMs generate output beyond their basic domain knowledge
法律遺囑的資訊擷取:GPT-4 的效能分析
探討 GPT-4 在法律遺囑文本資訊擷取中的效能,聚焦於四類實體(遺囑人、受益人、資產、遺囑)和四類關係(如遺囑人與受益人的關係)
- 模型在一致性和準確性上存在挑戰,特別是在處理細節時表現出不穩定
- 出現提示過度泛化現象,生成與提示不完全相關的多餘結果(幻覺問題)
- 適用於簡單任務,但對於法律文本的複雜結構仍有改進空間
Information Extraction from Legal Wills: How Well Does GPT-4 Do? - ACL Anthology
GPT-4 在科學資訊擷取中的應用分析
評估 GPT-4 是否能透過基本的一樣本提示(one-shot prompting)正確理解敘述性文字和表格數據,並完成基於 Schema 的科學資訊擷取任務
- 使用簡化的 Schema 設計可顯著提升模型的擷取效能
- 模型在非標準格式(如複雜表格)的數據上表現不佳,易出現錯誤
- 適用於結構清晰的數據集,但對於數據格式多樣化的情境仍需改進
這篇研究探討無監督、弱監督和預訓練模型(如DistilBERT、Longformer)在對話中抽取11個關鍵特徵(如案件類型、教育程度、假釋評估分數等)的能力。結果顯示,大多數模型的F1分數低於0.85,表明這些任務仍具挑戰性。主要難點包括:
- 長上下文窗口:模型難以處理對話中需跨多句話才能定位的資訊。
- 非實體抽取任務:如多分類或布林值問題表現較弱。
- 上下文歸納與推理能力:對於細節豐富的法律對話,模型難以有效提取核心事實。
Challenges for Information Extraction from Dialogue in Criminal Law - ACL Anthology (2021)
Connecting Symbolic Statutory Reasoning with Legal Information Extraction - ACL Anthology