Python有趣|数据分析三板斧

作者 : 开心源码 本文共2242个字,预计阅读时间需要6分钟 发布时间: 2022-05-12 共157人阅读

前言

天下武功中,哪个是最简单,最实用的了?那当然是程咬金的三板斧。传说中,程咬金晚上睡觉,梦见一老神仙,教了他三十六式板斧,这套功夫威力极大,而且招式简单,十分适合程咬金,但是程咬金醒来之后就只记住了三招,便有了这三板斧。就是这简单的三板斧,帮助李世民建立大唐江山。

这个教程将以简单,有效,实用为准则,让大家也能简单入门Python数据分析,学会这三板斧,让读者以后在学习数据分析的过程中,少走弯路。

Python数据分析流程

用Python做数据分析的优点就是,通过一个pandas库就能完成整个数据分析流程。简单的流程是,一读二看三解决四分析五展现,skr~。如下图所示。

PS:所有数据分析不以业务为依托,都是耍流氓~

读取数据

这里以全球星巴克的数据为例(https://www.kaggle.com/starbucks/store-locations),首先提出问题(前文说过要以业务为基础,这里我们只能提前定义几个感兴趣的问题),哪些国家星巴克店铺较多;哪些城市星巴克店铺较多;中国星巴克店铺分布情况。

首先通过read_csv读取数据,将文件转换为DataFrame格式,这样我们即可以在Python中进行解决。当然,pandas支持各种文件格式(read_excel,read_sql等等),做详细系列的时候逐一讲解。

import numpy as npimport pandas as pddata = pd.read_csv('directory.csv')data.head()

查看数据

我们可以通过describe和info方法对整个数据有个大概的情况。describe用于查看数值型数据的分布情况。

data.describe()

info方法用于查看各字段的数据类型,以及缺失情况,可用于后面的数据解决。这里我们根据问题,对country和city字段感兴趣,而后发现city缺失,所以后文中需要对其解决。

data.info()

数据解决

数据解决,其实就是我们常说的数据预解决(清洗数据),我们都知道,数据大部分情况下,是不干净的(或者者不是我们预期的),我们需要解决,清洗,常出现的解决任务如下:

  • 缺失值解决
  • 异常值解决
  • 重复值解决
  • 多表解决
  • 数据转换解决

这些都是需要根据实际情况来解决的。接着,我们就来解决星巴克数据,首先,查看Brand字段的唯一值,发现除了星巴克还有其余商品(可能是同一厂商的,屌丝表示对星巴克一无所知),我们只取星巴克的数据。

之前我们用info函数可以查看缺失值,但是我们常用isnull函数,这样可以清楚看出各字段的缺失值都有多少数据。

data.isnull().sum()

由于对city字段感兴趣,所以我们查看究竟缺失的数据,是哪些,我们可以看出,大部分是埃及的国家(是不是这些国家没有划分城市,还是说没有录入数据)。

data[data['City'].isnull()]

接着,我们就解决这些缺失值。缺失值一般的解决方法有两种:

  • 删掉
  • 填充

这里我们选择就用国家字段填充到City字段上。

def fill_na(x):    return xdata['City'] = data['City'].fillna(fill_na(data['State/Province']))data[data['Country']=='EG']

在数据分析中,我发现小美国的数据把台湾当做了国家,这我能忍么?直接重新赋值,换成了中国(中国一点都不能少)。整个的数据解决就到这了。

data['Country'][data['Country'] == 'TW'] = 'CN'
分析+可视化

在python数据分析中,我常常会把分析和可视化结合在一起,首先我们看看哪些国家星巴克店最多。

通过值计数,看看前10个国家。当然,数据分析中也会有各种方法:

  • 值计数
  • 数据分组聚合
  • 透视表
country_count = data['Country'].value_counts()[0:10]

接着,我们就用pandas可视化(后两期再详情功能更强大的可视化方法)。可以看出:美国和中国的是最多的。

import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['simhei'] #指定默认字体plt.rcParams['axes.unicode_minus'] = False   #处理保存图像是负号'-'显示为方块的问题%matplotlib inlinecountry_count.plot(kind='bar')

接着同样的方法,看看哪些城市的星巴克最多?默默发现,上海市最多(竟然不是美国城市),果然中国市场很大嘛。

最后,挑选出中国地区的数据,看看中国城市的星巴克数量排名。上海最多,北京第二,上榜的也可以看出都是经济较发达的城市~

china_data = data[data['Country'] == 'CN']city_count = china_data['City'].value_counts()[0:10]city_count.plot(kind='barh')

今日互动

代码下载: panluoluo/crawler-analysis,下载完整数据和代码。

留言打卡:今天的三板斧学会了么。公众号后端回复【入群】,加入Python学习群,2019年一起搞事情。

上次送的书,抽奖结果出来了。请以下五位幸运读者微信私信我(姓名,电话号码和详细地址),不是我好友的赶快加我微信(799407181)。

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Python有趣|数据分析三板斧

发表回复