Python網路爬蟲 解答

資訊科技 8 題 · 更新 2024-05-15

以下為「Python網路爬蟲」e等公務園+測驗解答,共 8 題,供公務人員學習參考。

BeautifulSoup的運作方式就是讀取HTML原始碼,自動進行解析並產生一個BeautifulSopu物件,此物件中包含了整個 HTML文件的結構樹

常見的資料取得方式,以下那一種較為方便?

  • 直接下載開放檔案格式
  • 透過 API 取得開放檔案格式
  • 擷取網頁資料
  • 無差異

下列何者不是開放資料常用的格式?

  • CSV
  • HTML
  • XML
  • JSON

requests 是一個模擬 html request 功能的第三方套件。使用 get()函式,可以讀取網頁的資料

「資料具有欄位,但資料的欄位可能不一致」,指的是以下那種資料類型?

  • 結構化
  • 非結構化
  • 半結構化
  • 全結構化

下列那一個模組與網路爬蟲有關?

  • matplotlib
  • numpy
  • pandas
  • requests

以下那個函數不是在擷取/解析網頁時使用?

  • urllib
  • requests
  • Beautiful
  • Pandas

urllib套件中的urlopen()函式可以將網頁內容擷取至程式