- 网络数据采集技术:Java网络爬虫实战
- 钱洋等
- 573字
- 2021-04-04 11:22:37
1.5 学习网络爬虫的建议
很多学习Java编程知识的学生,采取的学习方式往往是看书或者观看视频,而这将导致面对具体的实战项目时,不知道如何上手。另外,一些学生学习了书本或视频中的Java编程知识,却不知道该怎么应用这些知识。为此,笔者建议读者通过网络爬虫项目的编写,加深对Java编程知识的使用。对于零基础入门Java网络爬虫的读者,在学习中需要注意以下几点。
Java基础知识的掌握:了解Java方面的基础知识,如基本数据类型、运算符、判断语句、循环语句、数组和集合操作等。这部分内容一般通过大学教材便可学习和掌握。
网络爬虫原理理解:理解了网络爬虫原理,便可以发现学习网络爬虫会涉及网页数据的请求、网页数据的解析以及网页数据的存储等一系列操作。本书的写作顺序便是依据网络爬虫的原理和操作流程进行的。
吃透基本爬虫代码:在Java网络爬虫中,涉及许多开源jar包的使用,如网页请求工具HttpClient、JSON解析工具Fastjson、数据库操作工具QueryRunner等。熟练掌握这些工具的使用,将方便我们快速开发网络爬虫。另外,在本书中介绍了大量网络爬虫实战案例,读者可以从GitHub网站上将代码下载到本地,进行实际演练,并根据自身需求,改写程序。
学会搜索:在实战开发以及程序调试的过程中,读者可能会遇到许多问题。解决这些问题最好的方式,便是网络搜索。例如,使用HttpClient直接请求某一个URL抛出“PKIX path building failed”的错误,我们便可以通过Google或者百度搜索该错误的原因以及解决方案。