創建日誌-RAG with AutoPeerReview
作業流程
- 為了實現搜索模組,建立一個 向量資料庫 (Vector Database)
- 這個資料庫可以幫助我們進行高效的相似度檢索
- 使用 Milvus Installation 來進行安裝與設置
- 獲取額外的知識庫
- 需要從期刊中爬取內容,將這些資料作為知識庫的一部分
- Crawler Journal
- Science Direct NLP
- Science Direct CLSR
- ACL 2023 long
- ACL 2023 short
- EMNLP 2024
- NAACL 2024 long
- NAACL 2024 short
- 解析 PDF: GitHub - facebookresearch/nougat: Implementation of Nougat Neural Optical Understanding for Academic Documents
- PDF → Markdown → JSON
- 可以進行向量搜尋
model.encode(queries, prompt=prompt)- 遇到的問題包含:
- model switch to 'cpu' or 'cuda'
- embedding length
- 遇到的問題包含:
- 嘗試創建 SEA-S 的模組 (Github SEA)
- 後來發現只有公開 Evaluation Module
- 但是有公開 SEA-S 的模型 ECNU-SEA/SEA-S at main
Inspired By.
- Multi-Agent + Author
- One-By-One
- Paper Compression ?
格式
統整資料格式
Summary (摘要)
Strengths (優勢)
Weaknesses (劣勢)
Questions (問題)
Soundness (嚴謹性)
Presentation (表達)
Contribution (貢獻)
Rating (評分)
Paper Decision (論文決策)
找尋評估方法:
- Soundness, Presentation, Contribution, Rating
- 評分 (RATE) 差距 = MSE
- Paper Decision: Decision
- 正確率 = F1 Score
- Paper Decision: Reasons, Summary, Strengths, Weaknesses, Questions
- Claim-Evidence
- 支持的主觀聲明比例與評論長度,與人類對審查質量的評估高度相關
- 需有足夠的 Claim-Evidence 支持
- BLEU
- 與參考文本之間的 n-gram 重疊程度,可能低估多樣性
- ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
- 評估生成摘要與參考摘要之間的重疊程度
- BERTScore
- 語義相似度
- Claim-Evidence
資料集結構
額外知識庫:
{
// 爬蟲時間
"CrawlerTime": "String",
"Title": "String",
"Author": ["String"],
"KeyWord": ["String"],
"Abstract": "String",
"Source": "String", // 出自於哪裡的資料: sciencedirect, ACL
"Content": [{
"Head": "String",
"Text": "String",
}],
// Last Published, Most Download...
"Articles": "String",
// 發佈時間:YYYY-mm, YYYY
"Time": "String",
}
先放著以後思考:
評估方法
-
Perplexity: 衡量生成文本的流暢性和自然度,使用如 GPT 或 BERT 等模型進行計算。
-
Toxicity Score: 確保生成文本沒有包含不適當的語言或偏見。
-
為什麼選擇 \texttt{BAAI/bge-multilingual-gemma2} 作為向量生成模型?是否有比較其他嵌入模型(如 Sentence-BERT、OpenAI embeddings)的結果或理由?
-
\texttt{instructions} 如何影響檢索的領域偏向性,是否有權重控制機制來平衡跨領域和精準檢索。
-
如何配置 Milvus,例如分片策略(sharding)、向量索引類型(如 IVF、HNSW)等,以優化檢索效率。
日記
- Basline: Review Module
- RAG: 先使用 Review Module 後使用 RAG 修正現有 Review 不好的部分
- Multi-Agent
- Agent:
- Check Format: 確認格式
- Contribution: 確認貢獻
- Methodledgy: 檢查方法
- Rigous Enough: 檢查嚴謹性
- 方法測試
- 不同 Agent 處理的評分不同
- 不同 Agent 處理所有評分
- One-by-One (可能要不同遞回次數)
- 先使用 Review Module 後使用 Agent 修正現有 Review 不好的部分
- Agent:
預測:Accept 預測:Reject
真實:Accept TN FP
真實:Reject FN TP
遇到問題
- 純數字可能會輸出小數點(不是期望的)
- 格式問題