成都网站推广
 

中联无限-服务热线:028-86637122 工作时间:9:00-18:00 星期一-星期五

 
首页 | 关于我们 | 新闻动态 | 成都网站建设 | 成都网站推广 | 成都微信营销 | 网站制作案例 | 软件开发 | 常见问题 | 域名注册 | 虚拟主机
  新闻动态
     公司新闻
     行业新闻
     营销知识
     网站建设
  
  客户案例
·巨丰达人减肥训练营
·成都写意经典家具有限公司
·成都卡姆士安防设备有限公司
·新千里装饰集团
·成都吕氏三才中医博爱堂
·泊菲特语言学校
·四川高地易景园林工程公司
·成都烽火建筑装饰设计有限公司
·优尼客酒店
·成都杜嘉机电有限公司
·菲颖1购
·成都安东尼体育文化传播有限公
·四川九章生物化工科技发展有限
·成都环球体育文化传播有限公司
·万友爱淘网上商城
·四川省斯博兰德建筑装饰设计有
·肥犇仔
·成都市猛追湾游泳场
  网站运营
·企业新站推广中存在的六大误区
·网站运营之八大要素
·怎么区别网站运营与网络运营
·怎样区分网站运营和网络运营
·SQL Server 200
·新网站运营后如何迅速增加网站
·减肥网站是怎样提高收入的
·个人网站赢利模式的拓展方向
·商业门户网站运营模式探讨
·成都地方门户网站运营模式
·网站策划人如何盈利
·网站运营模式观察与分析
  最新资讯
·成都网络推广公司介绍的六种推
·分析导致成都网络推广效果差的
·成都网站优化:企业网站关键词
·成都网站优化初期企业应该需要
·浅析成都网站优化中企业如何建
·分析企业在做成都网站优化过程
·短视频营销可以为成都网络推广
·小品牌怎么样才能既省钱又省力
·分析成都网络推广中企业需要注
·如何根据成都网络推广的营销周
·成都网站优化需要遵循哪些规则
·成都SEO网站优化过程中如何
 
   您的位置在:成都网站推广 > 新闻动态 > 行业新闻 > 正文
   行业新闻

利用Java如何实现搜索引擎收集网址

[ 来源:中联无限科技有限公司   发布日期:2010/12/21 10:08:08 ]
我这里讲的不是怎么使用搜索引擎,而是怎么让程序利用搜索引擎来搜集网址,这有什么用?很有用!网上动辄有人叫卖网址数据库,如发布软件网址、邮件地址、论坛网址、行业网址,这些网址是怎么来的呢?不可能是人手工收集而来的,都是让程序利用搜索引擎取到的,如果您需要某类网址信息数据,就跟我来一起研究一下,非常简单。   本文采用Java语言写成,以google和百度搜索引擎为对象。   我们要利用google、百度搜索引擎的搜索规则中的两条,关键字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的网址中本身带有的关键字,比如http://www.xxx.com/post.asp ,这个网址就含有post.asp这样的关键字,在搜索引擎中填写规则是 inurl:post.asp,这是收集网址的关键,因为很多网址本身会带有特定的信息,比如软件发布的网页网址信息中多含有 publish、submit、tuijian这样的信息,如http://www.xxx.com/publish.asp,这样的网址多是发布信息的网页,在结合网页中本身可能含有的关键字,就可以用搜索引擎搜索出结果,然后我们利用程序将结果取回,对HTML页面进行分析,去除没有用的信息,将有用的网址信息写入文件或者数据库,就可以给其它应用程序或者人来使用了。
我这里讲的不是怎么使用搜索引擎,而是怎么让程序利用搜索引擎来搜集网址,这有什么用?很有用!网上动辄有人叫卖网址数据库,如发布软件网址、邮件地址、论坛网址、行业网址,这些网址是怎么来的呢?不可能是人手工收集而来的,都是让程序利用搜索引擎取到的,如果您需要某类网址信息数据,就跟我来一起研究一下,非常简单。 
  本文采用Java语言写成,以google和百度搜索引擎为对象。 
  我们要利用google、百度搜索引擎的搜索规则中的两条,关键字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的网址中本身带有的关键字,比如http://www.xxx.com/post.asp ,这个网址就含有post.asp这样的关键字,在搜索引擎中填写规则是 inurl:post.asp,这是收集网址的关键,因为很多网址本身会带有特定的信息,比如软件发布的网页网址信息中多含有 publish、submit、tuijian这样的信息,如http://www.xxx.com/publish.asp,这样的网址多是发布信息的网页,在结合网页中本身可能含有的关键字,就可以用搜索引擎搜索出结果,然后我们利用程序将结果取回,对HTML页面进行分析,去除没有用的信息,将有用的网址信息写入文件或者数据库,就可以给其它应用程序或者人来使用了。 
  第一步,用程序将搜索结果取回,先以百度为例,比如我们要搜索软件发布的网页,关键字采用 “软件发布 版本 inurl:publish.asp",先登录百度看看,将关键字写入,然后提交,在地址栏就会看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文关键字全都变成编码了,没有关系,我们在程序中直接用中文也是可以的,其中多个关键字用+号相连,去掉一些没有用的信息,我们可以把地址优化成http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=软件发布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一页显示多少个结果,wd=表示你要搜索的关键字,pn表示从第几条开始显示,这个pn将是我们程序循环取结果的变量,每20条循环一次。我们用Java写的程序来模拟这个搜索的过程,用到的关键类为 java.net.HttpURLConnection,java.net.URL,先写一个提交搜索的class,关键代码如下: 
class Search 

 public URL url; 
 public HttpURLConnection http; 
 public java.io.InputStream urlstream; 
 ...... 
 for(int i=0;i++;i <100) 
 { 
  ...... 
  try { 
   url = new URL("http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=软件发布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0"); 
  }catch(Exception ef){}; 
  try { 
   http = (HttpURLConnection) url.openConnection(); 
   http.connect(); 
   urlstream = http.getInputStream(); 
  }catch(Exception ef){}; 
  java.io.BufferedReader l_reader = new java.io. 
  BufferedReader(new java.io.InputStreamReader(urlstream)); 
  try { 
   while ((currentLine = l_reader.readLine()) != null) { 
    totalstring += currentLine; 
   } 
  } catch (IOException ex3) {} 
  .... 
  //本次搜索的结果已经放到totalstring中了,是一些HTML代码,需要下一步进行分析了。 

  再以google为例,稍微有些不同,google对浏览器进行了一些检测,编码也不同,URL为http://www.google.com/search?q=软件发布+版本+inurl:publish.asp&hl=zh-CN&lr=&newwindow=1&start=0&sa=N&ie=UTF-8,其中编码要用ie=UTF-8,start表示从第几条记录显示,需要注意的是google对浏览器还要检查,如果浏览器不符合它的要求,将返回错误代码,所以在模拟浏览器提交中,我们要多加一行代码,修改关键部分要将http属性中的User-Agent设置为常用的浏览器,比如Mozilla/4.0,代码如下: 
try { 
 http = (HttpURLConnection) url.openConnection(); 
 http.setRequestProperty("User-Agent", "Mozilla/4.0"); 
 http.connect(); 
 urlstream = http.getInputStream(); 
}catch(Exception ef){};  
  第二步,对取回的HTML编码进行分析,取出其中的有用网址信息,并写入文件或者数据库,由于这些搜索引擎都有网页快照和相似网页等网址信息混杂在HTML中,我们要将这些网址信息剔除掉,剔除的关键就是找出其中的规律,百度搜索引擎中的网页快照和其它没有用的的地址都含有baidu这个关键字,而google中含有的无用网址信息含有关键字 google和cache,我们就根据这些关键字剔除无用网址信息。在Java中要对字符串进行分析必然要用到java.util.StringTokenize这个类,用来将字符串以特定的分隔符分开,java.util.regex.Pattern和java.util.regex.Matcher用来匹配字符串,关键代码如下: 
class CompareStr 

 public boolean comparestring(String oristring,String tostring) 
 { 
  Pattern p=null; //正则表达式 
  Matcher m=null; //操作的字符串 
  boolean b; 
  p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE); 
  m = p.matcher(tostring); 
  b = m.find(); 
  return b; 
 } 

class AnalyUrl 

 ...... 
 StringTokenizer token = new StringTokenizer(totalstring," <> \""); 
 String firstword; 
 CompareStrcompstr = new CompareStr(); 
 String dsturl = null; 
 while (token.hasMoreTokens()) 
 { 
  firstword = token.nextToken(); 
  if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword)) 
  { 
   if (firstword.length() > 7) 
   { 
    dsturl = firstword.substring(6,firstword.length() - 1); 
    WriteUrl(dsturl); //成功取到URL,记录到文件中 
   } 
  } 
 } 

  通过以上程序,我们就可以收集到自己要的网址信息了,还可以再写另外一个应用程序,对收集到的网址信息进一步分析,取出自己需要的信息,这里就不再累赘,道理都是一样的。最后需说明一点,google搜索引擎搜索所能返回的结果不能超过1000条,过了1000条,就直接提示“对不起,Google 为所有查询的结果数都不会超过 1000 个。”,百度搜索引擎返回的结果不能超过700多条,所以我们要搜索时尽可能多加关键字,将结果范围缩小。
 
中联无限科技公司提供专业的成都网站建设成都网站设计成都网站制作成都网站推广


上一篇:浅谈动态网页中如何隐藏url参数传递的方法
下一篇:为何找不到网站首页site:的原因分析
   相关行业新闻
·成都网络推广公司介绍的六种推广引流方式2018-07-24
·分析导致成都网络推广效果差的常见几个原因2018-07-23
·成都网站优化:企业网站关键词排名效果为什2018-07-20
·成都网站优化初期企业应该需要注意的几个问2018-07-19
·浅析成都网站优化中企业如何建立更好的内链2018-07-18
·分析企业在做成都网站优化过程中容易出现的2018-07-17
·短视频营销可以为成都网络推广带来哪些影响2018-07-16
·小品牌怎么样才能既省钱又省力地做成都网络2018-07-13
·分析成都网络推广中企业需要注意的三个关键2018-07-12
·如何根据成都网络推广的营销周期来选择好的2018-07-11
·成都网站优化需要遵循哪些规则才有可能获得2018-07-10
·成都SEO网站优化过程中如何有效的抓取产2018-07-09
首页 | 公司简介 |联系方式 |付款方式 |人才招聘 | 域名空间 | 网页设计案例 | 网站知识 | 解决方案 | 建站指南 | 网站地图
地址:成都市青羊区西大街1号   邮编:610041   E- Mail:619027769@qq.com   代理合作: 028-86637122
网站建设/推广咨询:028-86637122  86618860  传真:028-86637322   
成都中联无限科技有限公司 2004-2014    蜀ICP备05017733号