您的位置:首頁>正文

資料科學家帶你用使用NumPy和Pandas進行Python式資料清理!

>>> import pandas as pd>>> import numpy as np

例如,在上一節使用的資料集中,可以想像到,圖書管理員如果需要搜索記錄,他也許輸入的是書籍的唯一識別碼( Identifier 列):

>>> df['Identifier'].is_uniqueTrue

讓我們用 set_index 來替換現有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列,如果將其轉化為數字類型更有意義,所以我們可以進行如下計算:

很好!本節完成了!

我們將用這兩個函數來清理 Place of Publication 一列,因為此列包含字串。以下是該列的內容:

我們發現某些行中,出版地被其他不必要的資訊包圍著。如果觀察更多值,我們會發現只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才會出現這種情況。

我們來看看兩條特定的資料:

與 np.where 結合:

管我們可以使用 for 迴圈來清理上面的字串,但是使用 Pandas 會更加方便。我們只需要州名和城鎮名字,其他都可以刪除。雖然這裡也可以再次使用 .str() 方法,但我們也可以使用 applymap() 方法將一個 Python 可調用方法映射到 DataFrame 的每個元素上。

我們一直在使用 元素 這個術語,但實際上到底是指什麼呢?看一下以下這個 DataFrame 例子:

然後,將它讀入 Pandas 的 DataFrame 中:

Python 資料清理:回顧以及其他資源

在本教程中,你學習了如何使用 drop()函數刪除不必要的資訊,以及如何給你的資料集設置索引以便更加方便的引用其他的項。

例如,在上一節使用的資料集中,可以想像到,圖書管理員如果需要搜索記錄,他也許輸入的是書籍的唯一識別碼( Identifier 列):

>>> df['Identifier'].is_uniqueTrue

讓我們用 set_index 來替換現有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列,如果將其轉化為數字類型更有意義,所以我們可以進行如下計算:

很好!本節完成了!

我們將用這兩個函數來清理 Place of Publication 一列,因為此列包含字串。以下是該列的內容:

我們發現某些行中,出版地被其他不必要的資訊包圍著。如果觀察更多值,我們會發現只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才會出現這種情況。

我們來看看兩條特定的資料:

與 np.where 結合:

管我們可以使用 for 迴圈來清理上面的字串,但是使用 Pandas 會更加方便。我們只需要州名和城鎮名字,其他都可以刪除。雖然這裡也可以再次使用 .str() 方法,但我們也可以使用 applymap() 方法將一個 Python 可調用方法映射到 DataFrame 的每個元素上。

我們一直在使用 元素 這個術語,但實際上到底是指什麼呢?看一下以下這個 DataFrame 例子:

然後,將它讀入 Pandas 的 DataFrame 中:

Python 資料清理:回顧以及其他資源

在本教程中,你學習了如何使用 drop()函數刪除不必要的資訊,以及如何給你的資料集設置索引以便更加方便的引用其他的項。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示