- Notifications
You must be signed in to change notification settings - Fork20
soberqian/Java-Carwler-Technology
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Java网络爬虫
书中的代码,另外本人的我的博客介绍了大量的网络爬虫知识,有兴趣的可以学习。 为及时更正书中的不恰当的内容,笔者在CSDN博客中创建了一个页面:https://qianyang-hfut.blog.csdn.net/article/details/90483177 读者可以将书中的问题,以评论的方式反馈给我,笔者针对这些问题进行勘误。
第一章:网络爬虫概述与原理10
1.1 网络爬虫简介10
1.2 网络爬虫分类11
1.3 网络爬虫流程13
1.4 网络爬虫的采集策略13
1.5 学习网络爬虫的建议14
1.6 本章小结15
第二章:网络爬虫涉及的Java基础知识16
2.1 开发环境的搭建16
2.1.1 JDK的安装及环境变量配置16
2.1.2 Eclipse下载17
2.2 基本数据类型18
2.3 数组19
2.4 条件判断与循环20
2.5 集合22
2.5.1 List 和 Set 集合22
2.5.2 Map集合23
2.5.3 Queue集合23
2.6 对象与类25
2.7 String类27
2.8 日期和时间处理28
2.7 正则表达式32
2.8 Maven工程创建34
2.9 log4j的使用38
2.10 本章小结43
第三章:HTTP协议基础与网络抓包44
3.1 HTTP协议简介44
3.2 URL45
3.3 报文47
3.4 HTTP请求方法47
3.5 HTTP状态码48
3.5.1 状态码2XX48
3.5.2 状态码3XX48
3.5.3 状态码4XX49
3.5.4 状态码5XX49
3.6 HTTP信息头50
3.6.1 通用头50
3.6.2 请求头52
3.6.3 响应头55
3.6.4 实体头55
3.7 HTTP响应正文56
3.7.1 HTML56
3.7.2 XML59
3.7.3 JSON59
3.8 网络抓包61
3.8.1 简介61
3.8.2 使用情境62
3.8.3 浏览器实现网络抓包62
3.8.4其他网络抓包工具推荐66
3.9 本章小结67
第四章:网页内容获取68
4.1 Jsoup的使用68
4.1.1 jar的下载68
4.1.2 请求URL68
4.1.3 设置头信息71
4.1.4 提交请求参数74
4.1.5 超时设置76
4.1.6 代理服务器的使用76
4.1.7 响应转输出流(图片、PDF等下载)78
4.1.8 HTTPS请求认证79
4.1.9 大文件内容获取问题83
4.2 HttpClient的使用84
4.2.1 jar的下载84
4.2.2 请求URL85
4.2.3 EntityUtils类89
4.2.4 设置头信息89
4.2.5 POST提交表单91
4.2.6 超时设置94
4.2.7 代理服务器的使用95
4.2.8 文件下载96
4.2.9 HTTPS请求认证97
4.2.10 请求重试100
4.2.11 多线程执行请求102
4.3 URLConnection与HttpURLConnection105
4.3.1 实例化105
4.3.2获取网页内容105
4.3.3 GET请求106
4.3.4 模拟提交表单(POST请求)107
4.3.5 设置头信息107
4.3.6 连接超时设置108
4.3.7 代理服务器的使用108
4.3.8 HTTPS请求认证108
4.4 本章小结110
第五章 网页内容解析111
5.1 HTML解析111
5.1.1 CSS选择器111
5.1.2 Xpath语法112
5.1.3 Jsoup解析HTML113
5.1.4 HtmlCleaner解析HTML119
5.1.5 Htmlparser解析HTML122
5.2 XML解析127
5.3 JSON解析128
5.3.1 JSON校正128
5.3.2 org.json解析JSON129
5.3.3 Gson解析JSON134
5.3.4 Fastjson解析JSON138
5.3.5 网络爬虫实战演练139
5.4 本章小结144
第六章 网络爬虫数据存储144
6.1 输入流与输出流144
6.1.1 简介145
6.1.2 File类145
6.1.3 文件字节流147
6.1.4 文件字符流150
6.1.5 缓冲流153
6.1.6 网络爬虫下载图片实战157
6.1.7 网络爬虫文本存储实战160
6.2 Excel存储163
6.2.1 Jxl的使用163
6.2.2 POI的使用166
6.2.3 爬虫案例171
6.3 MySQL数据存储175
6.3.1 数据库基本概念176
6.3.2 SQL语句基础176
6.3.3 Java操作数据库179
6.3.4 爬虫案例188
6.4 本章小结190
第七章 网络爬虫实战项目191
7.1 新闻数据采集191
7.1.1 采集的网页191
7.1.2 框架介绍193
7.1.3 程序编写193
7.2 信用中国信息采集202
7.2.1 采集的网页202
7.2.2 框架介绍204
7.2.3 第一层信息采集205
7.2.4 第二层信息采集212
7.3 股票信息采集220
7.3.1 采集的网页220
7.3.2 框架内容221
7.3.3 程序设计222
7.3.4 Quartz实现定时调度任务229
7.4 本章小结232
第八章 Selenium的使用233
8.1 简介233
8.2 Java Selenium环境搭建233
8.3 浏览器操控235
8.4 元素定位236
8.4.1 id定位236
8.4.2 name定位237
8.4.3 class定位237
8.4.4 tag name定位237
8.4.5 link text定位238
8.4.6 Xpath定位238
8.4.7 CSS选择器定位238
8 .5 模拟登陆238
8.6 动态加载JavaScript数据 (操作滚动条)241
8.7 隐藏浏览器243
8.8 截取验证码244
8.9 本章小结248
第九章 网络爬虫开源框架249
9.1 Crawler4j的使用249
9.1.1 简介249
9.1.2 jar的下载249
9.1.3 入门案例250
9.1.4 相关配置253
9.1.5 图片的采集255
9.1.6 数据采集入库259
9.2 WebCollector的使用266
9.2.1 简介266
9.2.2 jar的下载266
9.2.3 入门案例266
9.2.4 相关配置270
9.2.5 HTTP请求扩展271
9.2.6 翻页数据采集278
9.2.7 图片的采集281
9.2.8 数据采集入库284
9.3 WebMagic的使用294
9.3.1 简介294
9.3.2 jar的下载294
9.3.3 入门案例(翻页数据采集)295
9.3.4 相关配置297
9.3.5 数据存储方式298
9.3.6 数据采集入库300
9.3.7 图片的采集308
9.4 本章小结311
附录312
About
网络数据采集技术—Java网络爬虫 (书稿完整代码,涉及网络爬虫的各种技术和知识点)
Topics
Resources
Uh oh!
There was an error while loading.Please reload this page.
Stars
Watchers
Forks
Releases
Packages0
Uh oh!
There was an error while loading.Please reload this page.