一、序列Series,很像numpy中的array数组,可以由列表、元组、字典、numpy中的array来初始化
>>> from pandas import Series>>> s = Series([0.1, 1.2, 2.3, 3.4, 4.5])>>> s0 0.11 1.22 2.33 3.44 4.5dtype: float64
2、序列也可以由标签组成,默认是由数字表示。
>>> s = Series([0.1, 1.2, 2.3, 3.4, 4.5], index = [’a’,’b’,’c’,’d’,’e’])>>> sa 0.1b 1.2c 2.3d 3.4e 4.5dtype: float64
索引的话可以由数字、标签、真值表、切片
from pandas import Seriess = Series([0.1, 1.2, 2.3, 3.4, 4.5], index = ['a','b','c','d','e'])s[1]Out[36]:1.2
from pandas import Seriess = Series([0.1, 1.2, 2.3, 3.4, 4.5], index = ['a','b','c','d','e'])print s[1],'\n'print s[1:4],'\n'print s[s>3],'\n'print s[[1,2,3]]1.2 b 1.2c 2.3d 3.4dtype: float64 d 3.4e 4.5dtype: float64 b 1.2c 2.3d 3.4dtype: float64
二、序列的常用函数
1、head and tail来显示头部5行或末尾5行数据,也可以通过传递参数来修改显示的行数
from pandas import Seriess = Series([0.1, 1.2, 2.3, 3.4, 4.5], index = ['a','b','c','d','e'])print s.head(),'\n'print s.head(2) a 0.1b 1.2c 2.3d 3.4e 4.5dtype: float64 a 0.1b 1.2dtype: float64
2、isnull and notnull返回等长的序列,
3、describe返回序列的一些统计特性
from pandas import Seriesimport numpy as nps=Series(np.arange(1.0,10))s.describe()Out[43]:count 9.000000mean 5.000000std 2.738613min 1.00000025% 3.00000050% 5.00000075% 7.000000max 9.000000dtype: float64
4、unique and nunique,返回不重复的数据集或者重复的数据集
5、drop(labels) 删除制定标签的数据,dropna()是删除NaN数据
6、append(series) 添加数据
from pandas import Seriesimport numpy as nps=Series(np.arange(1.0,10))s2=Series([22,33,44,55])print s.append(s2)0 1.01 2.02 3.03 4.04 5.05 6.06 7.07 8.08 9.00 22.01 33.02 44.03 55.0dtype: float64
7、replace(series,values) 将series数据集中的数据替换成values数据集
注意:这个替换是将替换后的数据返回,而不是在原来的数据集上做替换
from pandas import Seriesimport numpy as nps=Series(np.arange(1.0,10))s2=Series([22,33,44,55])s3=s.append(s2)print s3.replace([2,5,8],[22,55,99])s30 1.01 22.02 3.03 4.04 55.05 6.06 7.07 99.08 9.00 22.01 33.02 44.03 55.0dtype: float64Out[51]:0 1.01 2.02 3.03 4.04 5.05 6.06 7.07 8.08 9.00 22.01 33.02 44.03 55.0dtype: float64
8、update(series)用series来更新,只更新匹配上标签的数据
注意:是在原来数据集上做更新
>>> s1 = Series(arange(1.0,4.0),index=[’a’,’b’,’c’])>>> s1a 1b 2c 3dtype: float64>>> s2 = Series(-1.0 * arange(1.0,4.0),index=[’c’,’d’,’e’])>>> s1.update(s2)>>> s1a 1b 2c -1dtype: float64
9、数据框架,DataFrame,相当于array上的二维数组,区别于array数组的地方时它可以是不同数据类型的数据组合在一起
3、选择行可以是列标签或者列标签组成的列表,也可以是数字切片、真值表
from pandas import read_excel
score = read_excel('score.xlsx','Sheet1')
score[:1]
Out[20]: