Crawler Journal
Science Direct
爬蟲的範圍的期刊領域 (2015 ~ 至近):
- ScienceDirect - Natural Language Processing
- ScienceDirect - Computer Law & Security Review
- ACL2023 - Long Papers
- ACL2023 - Short Papers
- ACL2024 - Long Papers
- ACL2024 - Short Papers
- EMNLP - Long Papers
期刊網站如 ScienceDirect 通常會實施 反爬蟲機制,來限制機器人自動抓取內容,確保網站資源被正常使用。這些機制會檢測不符合人類操作行為的流量,並加以限制或封鎖。
undetected_chromedriver- 隱藏瀏覽器的自動化特徵
- 增加操作隨機性,來模擬人類操作
- time.sleep 設置隨機,避免頻繁操作
- 顯示等待後才進行操作
由於 ACL 裡面沒有預覽內容的部分,需要透過解析 PDF 獲取論文內容,因此參考 Nougat - Neural Optical Understanding for Academic Documents 來解析論文內容成MarkDown格式後進行解析。