Crawler Journal

Science Direct

爬蟲的範圍的期刊領域 (2015 ~ 至近):

期刊網站如 ScienceDirect 通常會實施 反爬蟲機制,來限制機器人自動抓取內容,確保網站資源被正常使用。這些機制會檢測不符合人類操作行為的流量,並加以限制或封鎖。

由於 ACL 裡面沒有預覽內容的部分,需要透過解析 PDF 獲取論文內容,因此參考 Nougat - Neural Optical Understanding for Academic Documents 來解析論文內容成MarkDown格式後進行解析。


Powered by Forestry.md