Pandas 是一個(gè)強(qiáng)大的數(shù)據(jù)分析和處理庫(kù),用于 Python 編程語(yǔ)言。它提供了高效的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)操作工具,使得數(shù)據(jù)清理、分析和可視化變得更加容易。以下是 Pandas 庫(kù)的基本使用教程。
Python Pandas 庫(kù)教程
1. 安裝 Pandas
在使用 Pandas 之前,你需要安裝它。你可以通過(guò) pip 來(lái)安裝:
bashCopy Codepip install pandas
2. 導(dǎo)入 Pandas
在你的 Python 腳本或 Jupyter Notebook 中導(dǎo)入 Pandas 庫(kù):
pythonCopy Codeimport pandas as pd
3. 創(chuàng)建 DataFrame 和 Series
Pandas 的核心數(shù)據(jù)結(jié)構(gòu)是 DataFrame 和 Series。
Series 是一維數(shù)組,與索引一起存儲(chǔ)數(shù)據(jù)。可以從列表或字典創(chuàng)建:
pythonCopy Code# 從列表創(chuàng)建 Series
s = pd.Series([1, 2, 3, 4, 5])
# 從字典創(chuàng)建 Series
s = pd.Series({'a': 1, 'b': 2, 'c': 3})
DataFrame 是二維表格,類(lèi)似于數(shù)據(jù)庫(kù)表或電子表格??梢詮淖值?、列表或文件創(chuàng)建:
pythonCopy Code# 從字典創(chuàng)建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
# 從 CSV 文件創(chuàng)建 DataFrame
df = pd.read_csv('data.csv')
4. 數(shù)據(jù)操作
Pandas 提供了豐富的數(shù)據(jù)操作功能:
查看數(shù)據(jù):使用 head() 和 tail() 方法查看 DataFrame 的前幾行和后幾行:
pythonCopy Codeprint(df.head()) # 查看前 5 行
print(df.tail()) # 查看后 5 行
選擇數(shù)據(jù):通過(guò)標(biāo)簽或位置選擇數(shù)據(jù):
pythonCopy Code# 選擇列
print(df['Name'])
# 選擇行
print(df.loc[0]) # 通過(guò)標(biāo)簽選擇
print(df.iloc[0]) # 通過(guò)位置選擇
篩選數(shù)據(jù):根據(jù)條件篩選數(shù)據(jù):
pythonCopy Codefiltered_df = df[df['Age'] > 30]
排序數(shù)據(jù):使用 sort_values() 方法對(duì)數(shù)據(jù)進(jìn)行排序:
pythonCopy Codesorted_df = df.sort_values(by='Age')
處理缺失數(shù)據(jù):使用 dropna() 和 fillna() 處理缺失值:
pythonCopy Codedf_cleaned = df.dropna() # 刪除缺失值
df_filled = df.fillna(0) # 用 0 填充缺失值
5. 數(shù)據(jù)聚合與分組
使用 groupby() 方法進(jìn)行數(shù)據(jù)分組和聚合:
pythonCopy Codegrouped = df.groupby('Age').mean() # 按年齡分組并計(jì)算均值
6. 數(shù)據(jù)導(dǎo)出
Pandas 也允許將數(shù)據(jù)導(dǎo)出為不同格式的文件:
pythonCopy Codedf.to_csv('output.csv', index=False) # 導(dǎo)出為 CSV 文件
df.to_excel('output.xlsx', index=False) # 導(dǎo)出為 Excel 文件
7. 數(shù)據(jù)可視化
Pandas 與 Matplotlib 集成,允許簡(jiǎn)單的數(shù)據(jù)可視化:
pythonCopy Codeimport matplotlib.pyplot as plt
df['Age'].hist()
plt.show()
Pandas 是一個(gè)功能強(qiáng)大的庫(kù),用于數(shù)據(jù)分析和處理。通過(guò)掌握 DataFrame 和 Series 的基本操作、數(shù)據(jù)篩選、排序、處理缺失值、數(shù)據(jù)聚合與分組以及數(shù)據(jù)導(dǎo)出,你可以高效地處理和分析數(shù)據(jù)。希望這篇教程能幫助你快速入門(mén) Pandas。