Python網路爬蟲解答

資訊科技 8 題 · 更新 2024-05-15

以下為「Python網路爬蟲」e等公務園+測驗解答，共 8 題，供公務人員學習參考。

BeautifulSoup的運作方式就是讀取HTML原始碼，自動進行解析並產生一個BeautifulSopu物件，此物件中包含了整個 HTML文件的結構樹

○
╳

常見的資料取得方式，以下那一種較為方便？

直接下載開放檔案格式
透過 API 取得開放檔案格式
擷取網頁資料
無差異

下列何者不是開放資料常用的格式？

CSV
HTML
XML
JSON

requests 是一個模擬 html request 功能的第三方套件。使用 get()函式，可以讀取網頁的資料

○
╳

「資料具有欄位，但資料的欄位可能不一致」，指的是以下那種資料類型？

結構化
非結構化
半結構化
全結構化

下列那一個模組與網路爬蟲有關？

matplotlib
numpy
pandas
requests

以下那個函數不是在擷取/解析網頁時使用？

urllib
requests
Beautiful
Pandas

urllib套件中的urlopen()函式可以將網頁內容擷取至程式

○
╳

答案有誤？回報修正有其他課程答案？提交新課程