一本大道伊人久久综合,亚洲男性天堂,色婷婷色婷婷

<上一條下一條>

全部資訊

20個經典函數細說?Pandas?中的數據讀取與存儲，強烈建議收藏

編輯：廣州人工智能解決方案_APP開發公司_小程序開發公司_歌莫信息來源：日期：2024-9-26 11:04:40 人氣：標簽：

關于數據分析與可視化，以下介紹pandas讀取數據以及保存數據的方法，畢竟我們很多時候需要讀取各種形式的數據，以及將我們需要將所做的統計分析保存成特定的格式。
我們大致會說到的方法有：

read_sql()
to_sql()
read_clipboard()
from_dict()
to_dict()
to_clipboard()
read_json()
to_json()
read_html()
to_html()
read_table()
read_csv()
to_csv()
read_excel()
to_excel()
read_xml()
to_xml()
read_pickle()
to_pickle()

read_sql()與
to_sql()

我們一般讀取數據都是從數據庫中來讀取的，因此可以在

read_sql()方法中填入對應的

sql語句然后來讀取我們想要的數據，

pd.read_sql(sql, con, index_col=none,
coerce_float=true, params=none,
parse_dates=none,
columns=none, chunksize=none)

參數詳解如下：

sql: sql命令字符串
con: 連接sql數據庫的engine，一般用sqlalchemy或者是pymysql之類的模塊來建立
index_col：選擇某一列作為index
coerce_float：將數字形式的字符串直接以float型讀入
parse_dates: 將某一列日期型字符串傳喚為datatime型數據，可以直接提供需要轉換的列名以默認的日期形式轉換，或者也可以提供字典形式的列名和轉換日期的格式，

我們用

pymysql這個模塊來連接數據庫，并且讀取數據庫當中的數據，首先我們導入所需要的模塊，并且建立起與數據庫的連接

import pandas as pd
from pymysql import *

conn = connect(host='localhost', port=3306, database='database_name',
user='', password='', charset='utf8')

我們簡單地寫一條

sql命令來讀取數據庫當中的數據，并且用read_sql()方法來讀取數據

sql_cmd = "select * from table_name"
df = pd.read_sql(sql_cmd, conn)
df.head()

上面提到

read_sql()方法當中

parse_dates參數可以對日期格式的數據進行處理，那我們來試一下其作用

sql_cmd_2 = "select * from test_date"
df_1 = pd.read_sql(sql_cmd_2, conn)
df_1.head()

output

number  date_columns
0    1      2021-11-11
1    2      2021-10-01
2    3      2021-11-10

我們來看一個各個列的數據類型

df_1.info()

output

rangeindex: 3 entries, 0 to 2
data columns (total 2 columns):
#   column        non-null count  dtype
---  ------        --------------  -----
0   number        3 non-null      int64
1   date_columns  3 non-null      object
dtypes: int64(1), object(1)
memory usage: 176.0 bytes

正常默認情況下，

date_columns這一列也是被當做是

string類型的數據，要是我們通過

parse_dates參數將日期解析應用與該列

df_2 = pd.read_sql(sql_cmd_2, conn, parse_dates="date_columns")
df_2.info()

output

rangeindex: 3 entries, 0 to 2
data columns (total 2 columns):
#   column        non-null count  dtype
---  ------        --------------  -----
0   number        3 non-null      int64
1   date_columns  3 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1)
memory usage: 176.0 bytes

就轉換成了相對應的日期格式，當然我們還可以采用上面提到的另外一種格式

parse_dates={"date_column": {"format": "%d/%m/%y"}})

to_sql()方法

我們來看一下

to_sql()方法，作用是將

dataframe當中的數據存放到數據庫當中，請看下面的示例代碼，我們創建一個基于內存的

sqlite數據庫

from sqlalchemy import create_engine
engine = create_engine('sqlite://', echo=false)

然后我們創建一個用于測試的數據集，并且存放到該數據庫當中，

df = pd.dataframe({'num': [1, 3, 5]})
df.to_sql('nums', con=engine)

查看一下是否存取成功了

engine.execute("select * from nums").fetchall()

output

[(0, 1), (1, 3), (2, 5)]

我們可以嘗試著往里面添加數據

df2 = pd.dataframe({'num': [7, 9, 11]})
df2.to_sql('nums', con=engine, if_exists='append')
engine.execute("select * from nums").fetchall()

output

[(0, 1), (1, 3), (2, 5), (0, 7), (1, 9), (2, 11)]

注意到上面的

if_exists參數上面填的是

append，意味著添加新數據進去，當然我們也可以將原有的數據替換掉，將

append替換成

replace

df2.to_sql('nums', con=engine, if_exists='replace')
engine.execute("select * from nums").fetchall()

output

[(0, 7), (1, 9), (2, 11)]

from_dict()方法和
to_dict()方法

有時候我們的數據是以字典的形式存儲的，有對應的鍵值對，我們如何根據字典當中的數據來創立

dataframe，假設

a_dict = {
'學校': '清華大學',
'地理位置': '北京',
'排名': 1
}

一種方法是調用

json_normalize()方法，代碼如下

df = pd.json_normalize(a_dict)

output

學校地理位置排名
0 清華大學北京 1

當然我們直接調用

pd.dataframe()方法也是可以的

df = pd.dataframe(json_list, index = [0])

output

學校地理位置排名
0 清華大學北京 1

當然我們還可以用

from_dict()方法，代碼如下

df = pd.dataframe.from_dict(a_dict,orient='index').t

output

學校地理位置排名
0 清華大學北京 1

這里最值得注意的是

orient參數，用來指定字典當中的鍵是用來做行索引還是列索引，請看下面兩個例子

data = {'col_1': [1, 2, 3, 4],
'col_2': ['a', 'b', 'c', 'd']}

我們將

orient參數設置為

columns，將當中的鍵當做是列名

df = pd.dataframe.from_dict(data, orient='columns')

output

col_1 col_2
0      1     a
1      2     b
2      3     c
3      4     d

當然我們也可以將其作為是行索引，將

orient設置為是

index

df = pd.dataframe.from_dict(data, orient='index')

output

0  1  2  3
col_1  1  2  3  4
col_2  a  b  c  d

to_dict()方法

語法如下：

df.to_dict(orient='dict')

針對

orient參數，一般可以填這幾種形式

一種是默認的

dict，代碼如下

df = pd.dataframe({'shape': ['square', 'circle', 'triangle'],
'degrees': [360, 360, 180],
'sides': [4, 5, 3]})
df.to_dict(orient='dict')

output

{'shape': {0: 'square', 1: 'circle', 2: 'triangle'}, 'degrees': {0: 360, 1: 360, 2: 180}, 'sides': {0: 4, 1: 5, 2: 3}}

也可以是

list，代碼如下

df.to_dict(orient='list')

output

{'shape': ['square', 'circle', 'triangle'], 'degrees': [360, 360, 180], 'sides': [4, 5, 3]}

除此之外，還有

split，代碼如下

df.to_dict(orient='split')

output

{'index': [0, 1, 2], 'columns': ['shape', 'degrees', 'sides'], 'data': [['square', 360, 4], ['circle', 360, 5], ['triangle', 180, 3]]}

還有

records，代碼如下

df.to_dict(orient='records')

output

[{'shape': 'square', 'degrees': 360, 'sides': 4}, {'shape': 'circle', 'degrees': 360, 'sides': 5}, {'shape': 'triangle', 'degrees': 180, 'sides': 3}]

最后一種是

index，代碼如下

df.to_dict(orient='index')

output

{0: {'shape': 'square', 'degrees': 360, 'sides': 4}, 1: {'shape': 'circle', 'degrees': 360, 'sides': 5}, 2: {'shape': 'triangle', 'degrees': 180, 'sides': 3}}

read_json()方法和
to_json()方法

我們經常也會在實際工作與學習當中遇到需要去處理

json格式數據的情況，我們用

pandas模塊當中的

read_json()方法來進行處理，我們來看一下該方法中常用到的參數

orient：對應json字符串的格式主要有

split: 格式類似于：
{index: [index], columns: [columns], data: [values]}

例如我們的json字符串長這樣

a = '{"index":[1,2,3],"columns":["a","b"],"data":[[1,3],[2,8],[3,9]]}'
df = pd.read_json(a, orient='split')

output

a  b
1  1  3
2  2  8
3  3  9

records: 格式類似于：
[{column: value}, ... , {column: value}]

例如我們的json字符串長這樣

a = '[{"name":"tom","age":"18"},{"name":"amy","age":"20"},{"name":"john","age":"17"}]'
df_1 = pd.read_json(a, orient='records')

output

name  age
0   tom   18
1   amy   20
2  john   17

index: 格式類似于：
{index: {column: value}}

例如我們的json字符串長這樣

a = '{"index_1":{"name":"john","age":20},"index_2":{"name":"tom","age":30},"index_3":{"name":"jason","age":50}}'
df_1 = pd.read_json(a, orient='index')

output

name  age
index_1   john   20
index_2    tom   30
index_3  jason   50

columns: 格式類似于：
{column: {index: value}}

我們要是將上面的

index變成

columns，就變成

df_1 = pd.read_json(a, orient='columns')

output

index_1 index_2 index_3
name john tom jason
age 20 30 50

values: 數組

例如我們的json字符串長這樣

v='[["a",1],["b",2],["c", 3]]'
df_1 = pd.read_json(v, orient="values")

output

0  1
0  a  1
1  b  2
2  c  3

to_json()方法

將

dataframe數據對象輸出成

json字符串，可以使用

to_json()方法來實現，其中

orient參數可以輸出不同格式的字符串，用法和上面的大致相同，這里就不做過多的贅述

read_html()方法和
to_html()方法

有時候我們需要抓取網頁上面的一個表格信息，相比較使用

xpath或者是

beautifulsoup，我們可以使用

pandas當中已經封裝好的函數

read_html來快速地進行獲取，例如我們通過它來抓取菜鳥教程python網站上面的一部分內容

url = "https://www.runoob.com/python/python-exceptions.html"
dfs = pd.read_html(url, header=none, encoding='utf-8')

返回的是一個

list的

dataframe對象

df = dfs[0]
df.head()

output

異常名稱               描述
0                nan              nan
1      baseexception          所有異常的基類
2         systemexit          解釋器請求退出
3  keyboardinterrupt  用戶中斷執行(通常是輸入^c)
4          exception          常規錯誤的基類

當然

read_html()方法也支持讀取

html形式的表格，我們先來生成一個類似這樣的表格，通過

to_html()方法

df = pd.dataframe(np.random.randn(3, 3))
df.to_html("test_1.html")

當然這個

html形式的表格長這個樣子

然后我們再通過

read_html方法讀取該文件，

dfs = pd.read_html("test_1.html")
dfs[0]

read_csv()方法和
to_csv()方法

read_csv()方法

read_csv()方法是最常被用到的

pandas讀取數據的方法之一，其中我們經常用到的參數有

filepath_or_buffer: 數據輸入的路徑，可以是文件的路徑的形式，例如

pd.read_csv('data.csv')

output

num1  num2  num3  num4
0     1     2     3     4
1     6    12     7     9
2    11    13    15    18
3    12    10    16    18

也可以是url，如果訪問該url會返回一個文件的話

pd.read_csv("http://...../..../data.csv")

sep: 讀取
csv文件時指定的分隔符，默認為逗號，需要注意的是：“csv文件的分隔符”要和“我們讀取csv文件時指定的分隔符”保持一致

假設我們的數據集，

csv文件當中的分隔符從逗號改成了"\t"，需要將

sep參數也做相應的設定

pd.read_csv('data.csv', sep='\t')

index_col: 我們在讀取文件之后，可以指定某一列作為
dataframe的索引

pd.read_csv('data.csv', index_col="num1")

output

num2  num3  num4
num1
1        2     3     4
6       12     7     9
11      13    15    18
12      10    16    18

除了指定單個列，我們還可以指定多個列，例如

df = pd.read_csv("data.csv", index_col=["num1", "num2"])

output

num3  num4
num1 num2
1    2        3     4
6    12       7     9
11   13      15    18
12   10      16    18

usecols：如果數據集當中的列很多，而我們并不想要全部的列、而是只要指定的列就可以，就可以使用這個參數

pd.read_csv('data.csv', usecols=["列名1", "列名2", ....])

output

num1  num2
0     1     2
1     6    12
2    11    13
3    12    10

除了指定列名之外，也可以通過索引來選擇想要的列，示例代碼如下

df = pd.read_csv("data.csv", usecols = [0, 1, 2])

output

num1  num2  num3
0     1     2     3
1     6    12     7
2    11    13    15
3    12    10    16

另外usecols參數還有一個比較好玩的地方在于它能夠接收一個函數，將列名作為參數傳遞到該函數中調用，要是滿足條件的，就選中該列，反之則不選擇該列

# 選擇列名的長度大于 4 的列
pd.read_csv('girl.csv', usecols=lambda x: len(x) > 4)

prefix: 當導入的數據沒有header的時候，可以用來給列名添加前綴

df = pd.read_csv("data.csv", header = none)

output

0     1     2     3
0  num1  num2  num3  num4
1     1     2     3     4
2     6    12     7     9
3    11    13    15    18
4    12    10    16    18

如果我們將

header設為none，

pandas則會自動生成表頭0, 1, 2, 3..., 然后我們設置

prefix參數為表頭添加前綴

df = pd.read_csv("data.csv", prefix="test_", header = none)

output

test_0 test_1 test_2 test_3
0   num1   num2   num3   num4
1      1      2      3      4
2      6     12      7      9
3     11     13     15     18
4     12     10     16     18

skiprows: 過濾掉哪些行，參數當中填行的索引

代碼如下：

df = pd.read_csv("data.csv", skiprows=[0, 1])

output

6  12   7   9
0  11  13  15  18
1  12  10  16  18

上面的代碼過濾掉了前兩行的數據，直接將第三行與第四行的數據輸出，當然我們也可以看到第二行的數據被當成是了表頭

nrows: 該參數設置一次性讀入的文件行數，對于讀取大文件時非常有用，比如 16g 內存的pc無法容納幾百g的大文件

代碼如下：

df = pd.read_csv("data.csv", nrows=2)

output

num1  num2  num3  num4
0     1     2     3     4
1     6    12     7     9

to_csv()方法

該方法主要是用于將

dataframe寫入

csv文件當中，示例代碼如下

df.to_csv("文件名.csv", index = false)

我們還能夠輸出到

zip文件的格式，代碼如下

df = pd.read_csv("data.csv")
compression_opts = dict(method='zip',
archive_name='output.csv')
df.to_csv('output.zip', index=false,
compression=compression_opts)

read_excel()方法和
to_excel()方法

read_excel()方法

要是我們的數據是存放在

excel當中就可以使用

read_excel()方法，該方法中的參數和上面提到的

read_csv()方法相差不多，這里就不做過多的贅述，我們直接來看代碼

df = pd.read_excel("test.xlsx")

dtype: 該參數能夠對指定某一列的數據類型加以設定

df = pd.read_excel("test.xlsx", dtype={'name': str, 'value': float})

output

name  value
0  name1    1.0
1  name2    2.0
2  name3    3.0
3  name4    4.0

sheet_name: 對于讀取
excel當中的哪一個
sheet當中的數據加以設定

df = pd.read_excel("test.xlsx", sheet_name="sheet3")

output

name  value
0  name1     10
1  name2     10
2  name3     20
3  name4     30

當然我們要是想一次性讀取多個

sheet當中的數據也是可以的，最后返回的數據是以

dict形式返回的

df = pd.read_excel("test.xlsx", sheet_name=["sheet1", "sheet3"])

output

{'sheet1':     name  value
0  name1      1
1  name2      2
2  name3      3
3  name4      4, 'sheet3':     name  value
0  name1     10
1  name2     10
2  name3     20
3  name4     30}

例如我們只想要

sheet1的數據，可以這么來做

df1.get("sheet1")

output

name  value
0  name1      1
1  name2      2
2  name3      3
3  name4      4

to_excel()方法

將

dataframe對象寫入

excel表格，除此之外還有

excelwriter()方法也有著異曲同工的作用，代碼如下

df1 = pd.dataframe([['a', 'b'], ['c', 'd']],
index=['row 1', 'row 2'],
columns=['col 1', 'col 2'])
df1.to_excel("output.xlsx")

當然我們還可以指定

sheet的名稱

df1.to_excel("output.xlsx", sheet_name='sheet_name_1_1_1')

有時候我們需要將多個

dataframe數據集輸出到一個

excel當中的不同的

sheet當中

df2 = df1.copy()
with pd.excelwriter('output.xlsx') as writer:
df1.to_excel(writer, sheet_name='sheet_name_1_1_1')
df2.to_excel(writer, sheet_name='sheet_name_2_2_2')

我們還可以在現有的

sheet的基礎之上，再添加一個

sheet

df3 = df1.copy()
with pd.excelwriter('output.xlsx', mode="a", engine="openpyxl") as writer:
df3.to_excel(writer, sheet_name='sheet_name_3_3_3')

我們可以生成至

excel文件并且進行壓縮包處理

with zipfile.zipfile("output_excel.zip", "w") as zf:
with zf.open("output_excel.xlsx", "w") as buffer:
with pd.excelwriter(buffer) as writer:
df1.to_excel(writer)

對于日期格式或者是日期時間格式的數據，也能夠進行相應的處理

from datetime import date, datetime
df = pd.dataframe(
[
[date(2019, 1, 10), date(2021, 11, 24)],
[datetime(2019, 1, 10, 23, 33, 4), datetime(2021, 10, 20, 13, 5, 13)],
],
index=["date", "datetime"],
columns=["x", "y"],
)
with pd.excelwriter(
"output_excel_date.xlsx",
date_format="yyyy-mm-dd",
datetime_format="yyyy-mm-dd hh:mm:ss"
) as writer:
df.to_excel(writer)

read_table()方法

對于

txt文件，既可以用

read_csv()方法來讀取，也可以用

read_table()方法來讀取，其中的參數和read_csv()當中的參數大致相同，這里也就不做過多的贅述

df = pd.read_table("test.txt", names = ["col1", "col2"], sep=' ')

output

col1  col2
0     1     2
1     3     4
2     5     6
3     7     8
4     9    10
5    11    12

我們要讀取的txt文件當中的數據是以空格隔開的，因此再

sep參數上面需要設置成空格

read_pickle()方法和to_pickle()方法

python當中的

pickle模塊實現了對一個

python對象結構的二進制序列和反序列化，序列化過程是將文本信息轉變為二進制數據流，同時保存數據類型。例如數據處理過程中，突然有事兒要離開，可以直接將數據序列化到本地，這時候處理中的數據是什么類型，保存到本地也是同樣的類型，反序列化之后同樣也是該數據類型，而不是從頭開始處理

to_pickle()方法

我們先將

dataframe數據集生成

pickle文件，對數據進行永久儲存，代碼如下

df1.to_pickle("test.pkl")

read_pickle()方法

代碼如下

df2 = pd.read_pickle("test.pkl")

read_xml()方法和
to_xml()方法

xml指的是可擴展標記語言，和json類似也是用來存儲和傳輸數據的，還可以用作配置文件

xml和html之間的差異

xml和html為不同的目的而設計的

xml被設計用來傳輸和存儲數據，其重點是數據的內容
html被設計用來顯示數據，其焦點是數據的外觀
xml不會替代html，是對html的補充

對xml最好的理解是獨立于軟件和硬件的信息傳輸工具，我們先通過

to_xml()方法生成xml數據

df = pd.dataframe({'shape': ['square', 'circle', 'triangle'],
'degrees': [360, 360, 180],
'sides': [4, np.nan, 3]})
df.to_xml("test.xml")

我們用

pandas中的

read_xml()方法來讀取數據

df = pd.read_xml("test.xml")

output

shape  degrees  sides
0    square      360    4.0
1    circle      360    nan
2  triangle      180    3.0

read_clipboard()方法

有時候數據獲取不太方便，我們可以通過復制的方式，通過

pandas當中的

read_clipboard()方法來讀取復制成功的數據，例如我們選中一部分數據，然后復制，運行下面的代碼

df_1 = pd.read_clipboard()

output

num1  num2  num3  num4
0     1     2     3     4
1     6    12     7     9
2    11    13    15    18
3    12    10    16    18

to_clipboard()方法

有復制就會有粘貼，我們可以將

dataframe數據集輸出至剪貼板中，粘貼到例如

excel表格中

df.to_clipboard()

中文字幕久久久人伦,玖玖婷婷,午夜精品导航,手机在线观看av网站,www.国产免费,免费日本在线

read_sql()與
to_sql()

to_sql()方法

from_dict()方法和
to_dict()方法

to_dict()方法

read_json()方法和
to_json()方法

to_json()方法

read_html()方法和
to_html()方法

read_csv()方法和
to_csv()方法

read_csv()方法

to_csv()方法

read_excel()方法和
to_excel()方法

read_excel()方法

to_excel()方法

read_table()方法

read_pickle()方法和to_pickle()方法

to_pickle()方法

read_pickle()方法

read_xml()方法和
to_xml()方法

xml和html之間的差異

read_clipboard()方法

to_clipboard()方法

盒馬創始人侯毅中國零售業存在三…

美國港口大罷工，多家貨運公司運…

同名小說改編動漫作品《牧神記》…

董宇輝回應直播帶貨貨不對板無法…

易方達香港被曝做假賬、協助上汽…

瑪莎拉蒂汽車中國區換帥，于瀚邦…

中文字幕久久久人伦,玖玖婷婷,午夜精品导航,手机在线观看av网站,www.国产免费,免费日本在线

read_sql()與to_sql()

to_sql()方法

from_dict()方法和to_dict()方法

to_dict()方法

read_json()方法和to_json()方法

to_json()方法

read_html()方法和to_html()方法

read_csv()方法和to_csv()方法

read_csv()方法

to_csv()方法

read_excel()方法和to_excel()方法

read_excel()方法

to_excel()方法

read_table()方法

read_pickle()方法和to_pickle()方法

to_pickle()方法

read_pickle()方法

read_xml()方法和to_xml()方法

xml和html之間的差異

read_clipboard()方法

to_clipboard()方法

盒馬創始人侯毅中國零售業存在三…

美國港口大罷工，多家貨運公司運…

同名小說改編動漫作品《牧神記》…

董宇輝回應直播帶貨貨不對板無法…

易方達香港被曝做假賬、協助上汽…

瑪莎拉蒂汽車中國區換帥，于瀚邦…

read_sql()與
to_sql()

from_dict()方法和
to_dict()方法

read_json()方法和
to_json()方法

read_html()方法和
to_html()方法

read_csv()方法和
to_csv()方法

read_excel()方法和
to_excel()方法

read_xml()方法和
to_xml()方法