python爬取数据分析的体会（爬取数据进行分析）

本文目录一览：

1、Python爬虫：如何在一个月内学会爬取大规模数
2、Python爬虫可以爬取什么
3、使用Python做数据分析的优点是什么？
4、如何评价《利用python进行数据分析》这本书
5、python做数据分析怎么样？
6、《利用python进行数据分析》读书笔记1

Python爬虫：如何在一个月内学会爬取大规模数

爬虫是入门Python最好的方式，没有之一。Python有很多应用的方向，比如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。

掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。

对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTMLCSS，结果入了前端的坑，瘁……

但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。

在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。

1.学习 Python 包并实现基本的爬虫过程

2.了解非结构化数据的存储

3.学习scrapy，搭建工程化爬虫

4.学习数据库知识，应对大规模数据存储与提取

5.掌握各种技巧，应对特殊网站的反爬措施

6.分布式爬虫，实现大规模并发采集，提升效率

– –

学习 Python 包并实现基本的爬虫过程

大部分Python爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

Python爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。这样下来基本套路都差不多，一般的静态网站根本不在话下，豆瓣、糗事百科、腾讯新闻等基本上都可以上手了。

当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化，这样，知乎、时光网、猫途鹰这些动态的网站也可以迎刃而解。

– –

了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。

开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。

当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。

– –

学习 scrapy，搭建工程化的爬虫

掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。

scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。

学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

– –

学习数据库基础，应对大规模数据存储

爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。

MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

– –

掌握各种技巧，应对特殊网站的反爬措施

当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。

往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了。

– –

分布式Python爬虫，实现大规模并发采集

爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。

分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。

Scrapy 前面我们说过了，用于做基本的

Python爬虫可以爬取什么

Python爬虫可以爬取的东西有很多，Python爬虫怎么学？简单的分析下：

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

知乎：爬取优质答案，为你筛选出各话题下最优质的内容。

淘宝、京东：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。

安居客、链家：抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。

拉勾网、智联：爬取各类职位信息，分析各行业人才需求情况及薪资水平。

雪球网：抓取雪球高回报用户的行为，对股票市场进行分析和预测。

但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。

1.学习 Python 包并实现基本的爬虫过程

2.了解非结构化数据的存储

3.学习scrapy，搭建工程化爬虫

4.学习数据库知识，应对大规模数据存储与提取

5.掌握各种技巧，应对特殊网站的反爬措施

6.分布式爬虫，实现大规模并发采集，提升效率

一

学习 Python 包并实现基本的爬虫过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

二

了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。

开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。

三

学习 scrapy，搭建工程化的爬虫

学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

四

学习数据库基础，应对大规模数据存储

MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

五

掌握各种技巧，应对特殊网站的反爬措施

当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。

往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了.

六

分布式爬虫，实现大规模并发采集

爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。

分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。

Scrapy 前面我们说过了，用于做基本的页面爬取，MongoDB 用于存储爬取的数据，Redis 则用来存储要爬取的网页队列，也就是任务队列。

所以有些东西看起来很吓人，但其实分解开来，也不过如此。当你能够写分布式的爬虫的时候，那么你可以去尝试打造一些基本的爬虫架构了，实现一些更加自动化的数据获取。

你看，这一条学习路径下来，你已然可以成为老司机了，非常的顺畅。所以在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目（开始可以从豆瓣、小猪这种简单的入手），直接开始就好。

因为爬虫这种技术，既不需要你系统地精通一门语言，也不需要多么高深的数据库技术，高效的姿势就是从实际的项目中去学习这些零散的知识点，你能保证每次学到的都是最需要的那部分。

当然唯一麻烦的是，在具体的问题中，如何找到具体需要的那部分学习资源、如何筛选和甄别，是很多初学者面临的一个大问题。

以上就是我的回答，希望对你有所帮助，望采纳。

使用Python做数据分析的优点是什么？

最近几年，大数据的发展程度越来越明显，很多企业由于使用了大数据分析使得企业朝着更好的方向发展，这就导致的数据分析行业的人才开始稀缺起来，对于数据分析这个工作中，是需要学会一些编程语言的，比如MATLAB，Python，Java等语言。对于初学者来说，Python是一个不错的语言，Python语言简单易懂，同时对于大数据分析有很明显的帮助。那么使用Python做数据分析的优点是什么呢？一般来说就是简单易学、语言通用、存在科学计算活跃区域等等。

首先说说Python的第一个优点，那就是简单易学。很多学过Java的朋友都知道，Python语法简单的多，代码十分容易被读写，最适合刚刚入门的朋友去学习。我们在处理数据的时候，一般都希望数据能够转化成可运算的数字形式，这样，不管是没学过编程的人还是学过编程的人都能够看懂这个数据。

Python在数据分析和交互、探索性计算以及数据可视化等方面都显得比较活跃，这就是Python作为数据分析的原因之一，python拥有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科学计算方面十分有优势，尤其是pandas，在处理中型数据方面可以说有着无与伦比的优势，已经成为数据分析中流砥柱的分析工具。

Python也具有强大的编程能力，这种编程语言不同于R或者matlab，python有些非常强大的数据分析能力，并且还可以利用Python进行爬虫，写游戏，以及自动化运维，在这些领域中有着很广泛的应用，这些优点就使得一种技术去解决所有的业务服务问题，这就充分的体现的Python有利于各个业务之间的融合。如果使用Python，能够大大的提高数据分析的效率。

python是人工智能时代的通用语言

Python对于如今火热的人工智能也有一定的帮助，这是因为人工智能需要的是即时性，而Python是一种非常简洁的语言，同时有着丰富的数据库以及活跃的社区，这样就能够轻松的提取数据，从而为人工智能做出优质的服务。

通过上面的描述，想必大家已经知道了使用Python做数据分析的优点是什么了吧，Python语言得益于它的简单方便使得在大数据、数据分析以及人工智能方面都有十分明显的存在感，对于数据分析从业者以及想要进入数据分析从业者的人来说，简单易学容易上手的优势也是一个优势，所以，要做好数据分析，一定要学会Python语言。

如何评价《利用python进行数据分析》这本书

1、为什么用Python做数据分析

首先因为Python可以轻松地集成C、C++、Fortran代码，一些底层用C写的算法封装在python包里后性能非常高效。并且Python与Ruby都有大量的Web框架，因此用于网站的建设，另一方面个人觉得因为Python作为解释性语言相对编译型语言更为简单，可以通过简单的脚本处理大量的数据。而组织内部统一使用的语言将大大提高工作效率。

2、为什么用R做数据分析

R的优势在于有包罗万象的统计函数可以调用，特别是在时间序列分析方面（主要用在金融分析与趋势预测）无论是经典还是前沿的方法都有相应的包直接使用；相比python在这方面贫乏不少。另外R语言具有强大的可视化功能，一个散点图箱线图可以用一条程序搞定，相比Excel更加简单。

在使用环境方面，SAS在企业、政府及军事机构使用较多，因其权威认证；SPSS、R大多用于科研机构，企业级应用方面已有大量的商业化R软件，同时可结合（具体怎么结合，尚未搞明白）Hadoop进行数据挖掘。

python做数据分析怎么样？

我使用python这门语言也有三年了，被其简洁、易读、强大的库所折服，我已经深深爱上了python。其pythonic语言特性，对人极其友好，可以说，一个完全不懂编程语言的人，看懂python语言也不是难事。

在数据分析和交互、探索性计算以及数据可视化等方面，相对于R、MATLAB、SAS、Stata等工具，Python都有其优势。近年来，由于Python库的不断发展（如pandas），使其在数据挖掘领域崭露头角。结合其在通用编程方面的强大实力，我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。

由于python是一种解释性语言，大部分编译型语言都要比python代码运行速度快，有些同学就因此鄙视python。但是小编认为，python是一门高级语言，其生产效率更高，程序员的时间通常比CPU的时间值钱，因此为了权衡利弊，考虑用python是值得的。

Python强大的计算能力依赖于其丰富而强大的库：

Numpy

Numerical Python的简称，是Python科学计算的基础包。其功能：

1. 快速高效的多维数组对象ndarray。

2. 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。

3. 线性代数运算、傅里叶变换，以及随机数生成。

4. 用于将C、C++、Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力，NumPy在数据分析方面还有另外一个主要作用，即作为在算法之间传递数据的容器。对于数值型数据，NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外，由低级语言（比如C和Fortran）编写的库可以直接操作NumPy数组中的数据，无需进行任何数据复制工作。

SciPy

是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包：

1. scipy.integrate：数值积分例程和微分方程求解器。

2. scipy.linalg：扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。

3. scipy.optimize：函数优化器（最小化器）以及根查找算法。

4. scipy.signal：信号处理工具。

5. scipy.sparse：稀疏矩阵和稀疏线性系统求解器。

6. scipy.special：SPECFUN（这是一个实现了许多常用数学函数（如伽玛函数）的Fortran库）的包装器。

7. scipy.stats：标准连续和离散概率分布（如密度函数、采样器、连续分布函数等）、各种统计检验方法，以及更好的描述统计法。

8. scipy.weave：利用内联C++代码加速数组计算的工具。

注：NumPy跟SciPy的有机结合完全可以替代MATLAB的计算功能（包括其插件工具箱）。

SymPy

是python的数学符号计算库，用它可以进行数学表达式的符号推导和演算。

pandas

提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能，以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

对于使用R语言进行统计计算的用户，肯定不会对DataFrame这个名字感到陌生，因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的功能只是DataFrame对象所提供的功能的一个子集。也就是说pandas的DataFrame功能比R的data.frame功能更强大。

matplotlib

是最流行的用于绘制数据图表的Python库。它最初由John D. Hunter（JDH）创建，目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟IPython（马上就会讲到）结合得很好，因而提供了一种非常好用的交互式数据绘图环境。绘制的图表也是交互式的，你可以利用绘图窗口中的工具栏放大图表中的某个区域或对整个图表进行平移浏览。

TVTK

是python数据三维可视化库，是一套功能十分强大的三维数据可视化库，它提供了Python风格的API，并支持Trait属性(由于Python是动态编程语言，其变量没有类型，这种灵活性有助于快速开发，但是也有缺点。而Trait库可以为对象的属性添加检校功能，从而提高程序的可读性，降低出错率。) 和NumPy数组。此库非常庞大，因此开发公司提供了一个查询文档，用户可以通过下面语句运行它：

from enthought.tvtk.toolsimport tvtk_doc

tvtk_doc.main()

Scikit-Learn

是基于python的机器学习库，建立在NumPy、SciPy和matplotlib基础上，操作简单、高效的数据挖掘和数据分析。其文档、实例都比较齐全。

小编建议：初学者使用python(x, y)，其是一个免费的科学和工程开发包，提供数学计算、数据分析和可视化展示。非常方便！

其官网：（由于某种原因，国内上不去，需要翻墙）

下载地址：（小编到网上搜到的一个地址，亲测可以用）

下图展示了python(x, y) 强大功能。

《利用python进行数据分析》读书笔记1

读取json内容：

建立只有‘tz’时区字段的列表。因为不是每个字典实例都有tz字段，所以要加上if ‘tz’ in rec。否则会报错。

统计每种时区的出现次数：

方法一：

先统计次数，生成{时区1：次数，时区2：次数….}形式的字典。

再对字典进行排序。

统计次数方法（1）：

统计次数方法（2）：

排序

其中counts.items()是将字典中的键值对以元组的形式放进列表里。

例：counts：

{u’America/Montreal’: 9, u’America/Anchorage’: 5, u’Asia/Seoul’: 5}

counts.items():

[(u’America/Montreal’, 9), (u’America/Anchorage’, 5), (u’Asia/Seoul’, 5)]

而这句：value_key_pairs=[(count,tz) for tz, count in counts.items()]则是对返回的键，值对元组的位置做了调换。

例：[(9, u’America/Montreal’), (5, u’America/Anchorage’), (5, u’Asia/Seoul’)]

value_key_pairs.sort()中 list.sort()方法只能用于列表，是对原列表进行排序。默认升序。需要降序则value_key_pairs.sort(reverse=False)

关于排序的知识详细参考：

方法二：使用Counter类

Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型，以字典的键值对形式存储，其中元素作为key，其计数作为value。计数值可以是任意的Interger（包括0和负数）。Counter类和其他语言的bags或multisets很相似。

详细参考：

方法三：用pandas计数

注意里面有空值

此时的tz_counts如下。注意空字符串变成了unknow。以及增加了missing计数。

使用前十的数据，利用plot方法生成一张水平条形图。

总结：

1.往字典里存数据需要先初始化字典。可使用defaultdict函数：

2.清洗数据，有的数据没有某个字段，一是要替换掉这些缺失值，可用fillna方法替换。二是要注意有没有空字符串，这种数据可通过布尔型数组索引来替换掉。

3.对某个字段的值的出现次数进行统计，可使用三种方法

（1）新建一个字典，用以统计每个值的出现次数。再将该字典转换为列表，对列表进行排序。

（2）使用counter类进行次数统计并排序。

（3）先将json转换为DataFrame对象，再对其tz字段使用pandas的value_counts()方法进行次数统计并排序。

原创文章，作者：FFW0A，如若转载，请注明出处：https://www.506064.com/n/129391.html