最近在練習 Python,聽說 Python 當爬蟲不錯,因為 Dcard 最近有點紅,所以好奇想抓一下資料來看看。 原本想說直接一頁一頁爬下來就好,但是實作的時候會發現 Dcard 網站不是直接載入內容的,所以直接爬資料會得到空無一物的東西。
結果後來發現了學弟的這篇文章(Dcard 文章研究 (1) – 從 Dcard API 取得文章),馬上來實作看看。
用 https://www.dcard.tw/api/forum/all/ + 數字 可以抓版面所有文章。
得到 id 之後,再爬 https://www.dcard.tw/api/post/all/ + id 就可以得到文章內容了
例如我要抓 5 讚以上的文章,連續抓 3 頁:
非常簡單就完成了。
粉絲專頁
發表迴響