數據集 (scipy.datasets)#

數據集方法#

ascent()

取得 8 位元灰階位元深度、512 x 512 衍生影像,方便用於展示。

face([gray])

取得 1024 x 768 浣熊臉部彩色影像。

electrocardiogram()

載入心電圖作為一維訊號的範例。

工具方法#

download_all([path])

下載 scipy.datasets 模組所有資料集檔案的工具方法。

clear_cache([datasets])

清理 scipy 資料集快取目錄。

數據集的使用方式#

SciPy 資料集方法可以簡單地如下調用: '<dataset-name>()' 這會透過網路下載資料集檔案一次,並儲存快取,然後傳回代表資料集的 numpy.ndarray 物件。

請注意,不同資料集方法的傳回資料結構和資料類型可能有所不同。如需更詳細的使用範例,請參閱上方特定資料集方法的說明文件。

資料集檢索和儲存的工作原理#

SciPy 資料集檔案儲存在 SciPy GitHub 組織下個別的 GitHub 儲存庫中,遵循命名慣例,例如 'dataset-<name>',例如 scipy.datasets.face 檔案位於 scipy/dataset-facescipy.datasets 子模組使用並依賴 Pooch,這是一個旨在簡化資料檔案擷取的 Python 套件。Pooch 在調用資料集函數時,使用這些儲存庫來檢索各自的資料集檔案。

維護所有資料集的註冊表,本質上是檔案名稱與其 SHA256 雜湊和儲存庫網址的映射,Pooch 使用它來處理和驗證函數調用時的下載。下載資料集一次後,檔案會儲存在系統快取目錄下的 'scipy-data' 中。

資料集快取位置可能因不同平台而異。

適用於 macOS

'~/Library/Caches/scipy-data'

適用於 Linux 和其他類 Unix 平台

'~/.cache/scipy-data'  # or the value of the XDG_CACHE_HOME env var, if defined

適用於 Windows

'C:\Users\<user>\AppData\Local\<AppAuthor>\scipy-data\Cache'

在因各種安全原因而網路連線受限的環境中,或在沒有持續網際網路連線的系統上,可以手動載入資料集快取,方法是將資料集儲存庫的內容放置在上述快取目錄中,以避免在沒有網際網路連線的情況下擷取資料集錯誤。