數據集 (scipy.datasets
)#
數據集方法#
|
取得 8 位元灰階位元深度、512 x 512 衍生影像,方便用於展示。 |
|
取得 1024 x 768 浣熊臉部彩色影像。 |
載入心電圖作為一維訊號的範例。 |
工具方法#
|
下載 |
|
清理 scipy 資料集快取目錄。 |
數據集的使用方式#
SciPy 資料集方法可以簡單地如下調用: '<dataset-name>()'
這會透過網路下載資料集檔案一次,並儲存快取,然後傳回代表資料集的 numpy.ndarray
物件。
請注意,不同資料集方法的傳回資料結構和資料類型可能有所不同。如需更詳細的使用範例,請參閱上方特定資料集方法的說明文件。
資料集檢索和儲存的工作原理#
SciPy 資料集檔案儲存在 SciPy GitHub 組織下個別的 GitHub 儲存庫中,遵循命名慣例,例如 'dataset-<name>'
,例如 scipy.datasets.face
檔案位於 scipy/dataset-face。scipy.datasets
子模組使用並依賴 Pooch,這是一個旨在簡化資料檔案擷取的 Python 套件。Pooch 在調用資料集函數時,使用這些儲存庫來檢索各自的資料集檔案。
維護所有資料集的註冊表,本質上是檔案名稱與其 SHA256 雜湊和儲存庫網址的映射,Pooch 使用它來處理和驗證函數調用時的下載。下載資料集一次後,檔案會儲存在系統快取目錄下的 'scipy-data'
中。
資料集快取位置可能因不同平台而異。
適用於 macOS
'~/Library/Caches/scipy-data'
適用於 Linux 和其他類 Unix 平台
'~/.cache/scipy-data' # or the value of the XDG_CACHE_HOME env var, if defined
適用於 Windows
'C:\Users\<user>\AppData\Local\<AppAuthor>\scipy-data\Cache'
在因各種安全原因而網路連線受限的環境中,或在沒有持續網際網路連線的系統上,可以手動載入資料集快取,方法是將資料集儲存庫的內容放置在上述快取目錄中,以避免在沒有網際網路連線的情況下擷取資料集錯誤。