java 网页抓取笔记

java 网页抓取几种方法
1、httpclient
HttpClient 是 Apache Jakarta Common 下的子项目,感觉就是模拟一个客户端请求数据,没有对html 解析的支持.

相关地址:http://renjie120.iteye.com/blog/1727933
http://dongwei.iteye.com/blog/1756394

超时设置:

    HttpClient httpclient = new DefaultHttpClient();  
    HttpParams params = httpclient.getParams();  
    HttpConnectionParams.setConnectionTimeout(params, 10*1000);//设置连接超时10秒  
    HttpConnectionParams.setSoTimeout(params, 10*1000); //设置读取超时10秒

2、jsoup
比较好用的,可以远程请求数据,支持html 的解析。
相关地址:中文 http://www.open-open.com/jsoup/
官方 http://jsoup.org/
下载 jsoup-1.6.2
3、HTMLParser
不太了解
相关地址:http://htmlparser.codeplex.com/

发表评论

您的电子邮箱地址不会被公开。