創建日誌－RAG with AutoPeerReview

作業流程

為了實現搜索模組，建立一個向量資料庫 (Vector Database)
- 這個資料庫可以幫助我們進行高效的相似度檢索
- 使用 Milvus Installation 來進行安裝與設置
獲取額外的知識庫
- 需要從期刊中爬取內容，將這些資料作為知識庫的一部分
- Crawler Journal
  - Science Direct NLP
  - Science Direct CLSR
  - ACL 2023 long
  - ACL 2023 short
  - EMNLP 2024
  - NAACL 2024 long
  - NAACL 2024 short
- 解析 PDF: GitHub - facebookresearch/nougat: Implementation of Nougat Neural Optical Understanding for Academic Documents
  - PDF → Markdown → JSON
可以進行向量搜尋 model.encode(queries, prompt=prompt)
- 遇到的問題包含：
  - model switch to 'cpu' or 'cuda'
  - embedding length
嘗試創建 SEA-S 的模組 (Github SEA)
- 後來發現只有公開 Evaluation Module
- 但是有公開 SEA-S 的模型 ECNU-SEA/SEA-S at main

Inspired By.

Multi-Agent + Author
- Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate
One-By-One
- CHATEVAL - TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE
Paper Compression ?
- LongLLMLingua - Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

格式

統整資料格式

Summary (摘要)
Strengths (優勢)
Weaknesses (劣勢)
Questions (問題)
Soundness (嚴謹性)
Presentation (表達)
Contribution (貢獻)
Rating (評分)
Paper Decision (論文決策)

找尋評估方法：

Soundness, Presentation, Contribution, Rating
- 評分 (RATE) 差距 = MSE
Paper Decision: Decision
- 正確率 = F1 Score
Paper Decision: Reasons, Summary, Strengths, Weaknesses, Questions
- Claim-Evidence
  - 支持的主觀聲明比例與評論長度，與人類對審查質量的評估高度相關
  - 需有足夠的 Claim-Evidence 支持
- BLEU
  - 與參考文本之間的 n-gram 重疊程度，可能低估多樣性
- ROUGE（Recall-Oriented Understudy for Gisting Evaluation）
  - 評估生成摘要與參考摘要之間的重疊程度
- BERTScore
  - 語義相似度

資料集結構

額外知識庫：

{
	// 爬蟲時間
    "CrawlerTime": "String", 

    "Title": "String",
    "Author": ["String"],
    "KeyWord": ["String"],
    "Abstract": "String",
    "Source": "String", // 出自於哪裡的資料: sciencedirect, ACL
    "Content": [{
        "Head": "String",
        "Text": "String",
    }],

	// Last Published, Most Download...
    "Articles": "String", 

	// 發佈時間：YYYY-mm, YYYY
    "Time": "String", 
}

先放著以後思考:

評估方法

Perplexity: 衡量生成文本的流暢性和自然度，使用如 GPT 或 BERT 等模型進行計算。
Toxicity Score: 確保生成文本沒有包含不適當的語言或偏見。
為什麼選擇 \texttt{BAAI/bge-multilingual-gemma2} 作為向量生成模型？是否有比較其他嵌入模型（如 Sentence-BERT、OpenAI embeddings）的結果或理由？
\texttt{instructions} 如何影響檢索的領域偏向性，是否有權重控制機制來平衡跨領域和精準檢索。
如何配置 Milvus，例如分片策略（sharding）、向量索引類型（如 IVF、HNSW）等，以優化檢索效率。

日記

Basline: Review Module
RAG: 先使用 Review Module 後使用 RAG 修正現有 Review 不好的部分
Multi-Agent
- Agent:
  - Check Format: 確認格式
  - Contribution: 確認貢獻
  - Methodledgy: 檢查方法
  - Rigous Enough: 檢查嚴謹性
- 方法測試
  - 不同 Agent 處理的評分不同
  - 不同 Agent 處理所有評分
  - One-by-One (可能要不同遞回次數)
  - 先使用 Review Module 後使用 Agent 修正現有 Review 不好的部分

          預測：Accept    預測：Reject
真實：Accept     TN        FP
真實：Reject     FN        TP

遇到問題

純數字可能會輸出小數點（不是期望的）
格式問題