>>> import pandas as pd>>> import numpy as np
例如,在上一節使用的資料集中,可以想像到,圖書管理員如果需要搜索記錄,他也許輸入的是書籍的唯一識別碼( Identifier 列):
>>> df['Identifier'].is_uniqueTrue讓我們用 set_index 來替換現有的索引
>>> df.get_dtype_counts()object 6其中出版日期一列,如果將其轉化為數字類型更有意義,所以我們可以進行如下計算:
很好!本節完成了!
我們將用這兩個函數來清理 Place of Publication 一列,因為此列包含字串。以下是該列的內容:
我們發現某些行中,出版地被其他不必要的資訊包圍著。如果觀察更多值,我們會發現只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才會出現這種情況。
我們來看看兩條特定的資料:
與 np.where 結合:
管我們可以使用 for 迴圈來清理上面的字串,但是使用 Pandas 會更加方便。我們只需要州名和城鎮名字,其他都可以刪除。雖然這裡也可以再次使用 .str() 方法,但我們也可以使用 applymap() 方法將一個 Python 可調用方法映射到 DataFrame 的每個元素上。
我們一直在使用 元素 這個術語,但實際上到底是指什麼呢?看一下以下這個 DataFrame 例子:
然後,將它讀入 Pandas 的 DataFrame 中:
Python 資料清理:回顧以及其他資源
在本教程中,你學習了如何使用 drop()函數刪除不必要的資訊,以及如何給你的資料集設置索引以便更加方便的引用其他的項。
例如,在上一節使用的資料集中,可以想像到,圖書管理員如果需要搜索記錄,他也許輸入的是書籍的唯一識別碼( Identifier 列):
>>> df['Identifier'].is_uniqueTrue讓我們用 set_index 來替換現有的索引
>>> df.get_dtype_counts()object 6其中出版日期一列,如果將其轉化為數字類型更有意義,所以我們可以進行如下計算:
很好!本節完成了!
我們將用這兩個函數來清理 Place of Publication 一列,因為此列包含字串。以下是該列的內容:
我們發現某些行中,出版地被其他不必要的資訊包圍著。如果觀察更多值,我們會發現只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才會出現這種情況。
我們來看看兩條特定的資料:
與 np.where 結合:
管我們可以使用 for 迴圈來清理上面的字串,但是使用 Pandas 會更加方便。我們只需要州名和城鎮名字,其他都可以刪除。雖然這裡也可以再次使用 .str() 方法,但我們也可以使用 applymap() 方法將一個 Python 可調用方法映射到 DataFrame 的每個元素上。
我們一直在使用 元素 這個術語,但實際上到底是指什麼呢?看一下以下這個 DataFrame 例子:
然後,將它讀入 Pandas 的 DataFrame 中:
Python 資料清理:回顧以及其他資源
在本教程中,你學習了如何使用 drop()函數刪除不必要的資訊,以及如何給你的資料集設置索引以便更加方便的引用其他的項。