Java Jsoup实现简单爬虫

Jsoup

Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。

学习资料

http://www.open-open.com/jsoup/parsing-a-document.htm
http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/index.html

工具
  • Filder4
  • IDEA
实现
  • 导包
  • 获取目标链接
  • 分析DOM
  • 遍历元素
  • jsoup提取元素
基本使用
//主要使用就是用的些对象的方法,其他就是各种嵌套
Document document= Jsoup.parse(s);  
        Element articleEle=document.getElementById("mylist");//获得当前div
        Elements links = articleEle.select("p"); //获得所有p标签
for (Iterator<Element>  links =info.iterator(); links .hasNext();) {  
                Element a = (Element) f.next();
                System.out.println(a.text()); //遍历所有P标签的内容
            }
效果

alt

总结
  • 单纯的使用Jsoup还是不足。
  • 由于未考虑到多线程、以及代码复用,导致垃圾代码太多,遍历一个线程时间就蛮长。
  • 计划下波学个WebMagic框架爬取数据,并利用数据做这些数据做简单的数据分析。

kxind

性别:男. 敢于尝试 爱折腾的死宅程序猿. https://github.com/kxinds