您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

Python数据分析(十一):pandas十分钟入门(1)

2023/3/20 23:53:13发布53次查看
要使用强大的python数据分析模块pandas,我们首先要熟悉它的两个主要的数据结构:series(序列)和dataframe(数据框),或许它们无法解决所有的问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。
1.生成series(序列)
series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签组成。
仅由一组数据即可产生最简单的series,其字符串表现形式为:索引在左边,值在右边。
如果我们没有为数据指定索引,那么它会自动创建一个0到n-1(n为数据的长度)的整数型索引。
我们可以通过series的values和index属性获取其数组表示形式和索引对象:
2.通常,我们希望所创建的series带有以各可以对各个数据点进行标记的索引:
可以看到,与普通numpy数组相比,我们可以通过索引的方式选取series中的单个或一组值,甚至可以进行赋值操作。
3.对series进行numpy数组运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)时都会保留索引和值之间的链接。
4.还可以将series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射,它可以用在许多原本需要字典参数的函数中。如果数据被存放在一个python字典中,也可以通过这个字典来创建series。
可以看到,如果只传入一个字典,则结果series中的索引就是原字典的键(有序排列)。
我们还可以同时传入一个字典和一个索引列表(元组和数组也可以,如下图所示),如下图的例子,sdata中跟states索引相匹配的值会被找出来,并按照顺序放到相应的位置。
但由于‘california’所对应的sdata值找不到,所以其结果为nan(not a number,非数字,在pandas中,用于表示缺失或na值)。pandas中的isnull()和notnull()函数可用于检测缺失数据。同时,series也有类似的实例方法(对于pd.isnull(obj4)我们称之为对实例obj4应用函数pd.isnull(),对于obj4.isnull()我们一般称之为实例obj4的方法isnull()):
对缺失数据的处理,永远是数据分析和数据挖掘过程中的重要一环,我们将会在后续的内容中详细讨论。
5.对于许多应用而言,series最重要的功能是:它在算数运算中会自动对齐不同索引的数据。关于数据对齐的内容我们也会在后续单独讲解。
6.series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切。series的索引可以通过赋值的方式就地修改。
今天我们就分享到这里,对数据分析与挖掘、机器学习、心理学感兴趣的朋友可以关注下后续的更新。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product