您的位置：首頁>正文

資料科學家帶你用使用NumPy和Pandas進行Python式資料清理！

python學院 2018-04-18 1

>>> import pandas as pd>>> import numpy as np

例如，在上一節使用的資料集中，可以想像到，圖書管理員如果需要搜索記錄，他也許輸入的是書籍的唯一識別碼（ Identifier 列）：

>>> df['Identifier'].is_uniqueTrue

讓我們用 set_index 來替換現有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列，如果將其轉化為數字類型更有意義，所以我們可以進行如下計算：

很好！本節完成了！

我們將用這兩個函數來清理 Place of Publication 一列，因為此列包含字串。以下是該列的內容：

我們發現某些行中，出版地被其他不必要的資訊包圍著。如果觀察更多值，我們會發現只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才會出現這種情況。

我們來看看兩條特定的資料：

與 np.where 結合：

管我們可以使用 for 迴圈來清理上面的字串，但是使用 Pandas 會更加方便。我們只需要州名和城鎮名字，其他都可以刪除。雖然這裡也可以再次使用 .str() 方法，但我們也可以使用 applymap() 方法將一個 Python 可調用方法映射到 DataFrame 的每個元素上。

我們一直在使用元素這個術語，但實際上到底是指什麼呢？看一下以下這個 DataFrame 例子：

然後，將它讀入 Pandas 的 DataFrame 中：

Python 資料清理：回顧以及其他資源

在本教程中，你學習了如何使用 drop()函數刪除不必要的資訊，以及如何給你的資料集設置索引以便更加方便的引用其他的項。

例如，在上一節使用的資料集中，可以想像到，圖書管理員如果需要搜索記錄，他也許輸入的是書籍的唯一識別碼（ Identifier 列）：

>>> df['Identifier'].is_uniqueTrue

讓我們用 set_index 來替換現有的索引

>>> df.get_dtype_counts()object 6

其中出版日期一列，如果將其轉化為數字類型更有意義，所以我們可以進行如下計算：

很好！本節完成了！

我們將用這兩個函數來清理 Place of Publication 一列，因為此列包含字串。以下是該列的內容：

我們發現某些行中，出版地被其他不必要的資訊包圍著。如果觀察更多值，我們會發現只有出版地包含 ‘London’ 或者 ‘Oxford’ 的行才會出現這種情況。

我們來看看兩條特定的資料：

與 np.where 結合：

管我們可以使用 for 迴圈來清理上面的字串，但是使用 Pandas 會更加方便。我們只需要州名和城鎮名字，其他都可以刪除。雖然這裡也可以再次使用 .str() 方法，但我們也可以使用 applymap() 方法將一個 Python 可調用方法映射到 DataFrame 的每個元素上。

我們一直在使用元素這個術語，但實際上到底是指什麼呢？看一下以下這個 DataFrame 例子：

然後，將它讀入 Pandas 的 DataFrame 中：

Python 資料清理：回顧以及其他資源

在本教程中，你學習了如何使用 drop()函數刪除不必要的資訊，以及如何給你的資料集設置索引以便更加方便的引用其他的項。

上一篇：孫悟空太壞了! 欺負奕星是新人, 卻沒想到……

下一篇：精品錢幣推薦

同類文章

精品文章

Next Article

喜欢就按个赞吧!!!

打開Facebook專頁 >>

点击关闭提示