Java實現利用搜索引擎收集網址的程式 @ 狼翔天地

最近剛好要寫這程ap難得在網路上找到比較完整的訊息，提供給跟我一樣有問題的人參考^^

我這裡講的不是怎麼使用搜索引擎，而是怎麼讓程式利用搜索引擎來蒐集網址，這有什麼用？很有用！網上動輒有人叫賣網址數據庫，如發佈軟體網址、郵件地址、論壇網址、行業網址，這些網址是怎麼來的呢？不可能是人手工收集而來的，都是讓程式利用搜索引擎取到的，如果您需要某類網址資訊數據，就跟我來一起研究一下，非常簡單。

　　本文采用Java語言寫成，以google和百度搜索引擎為對象。

　　我們要利用google、百度搜索引擎的搜索規則中的兩條，關鍵字搜索和inurl搜索。什麼是inurl搜索，就是你所要搜索的網址中本身帶有的關鍵字，比如http://www.xxx.com/post.asp ,這個網址就含有post.asp這樣的關鍵字，在搜索引擎中填寫規則是 inurl:post.asp,這是收集網址的關鍵，因為很多網址本身會帶有特定的資訊，比如軟體發佈的網頁網址資訊中多含有 publish、submit、tuijian這樣的資訊，如http://www.xxx.com/publish.asp,這樣的網址多是發佈資訊的網頁，在結合網頁中本身可能含有的關鍵字，就可以用搜索引擎搜索出結果，然後我們利用程式將結果取回，對HTML頁面進行分析，去除沒有用的資訊，將有用的網址資訊寫入文件或者數據庫，就可以給其他應用程式或者人來使用了。

　　第一步，用程式將搜索結果取回，先以百度為例，比如我們要搜索軟體發佈的網頁，關鍵字採用 “軟體發佈版本 inurl:publish.asp",先登錄百度看看，將關鍵字寫入，然後提交，在地址欄就會看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關鍵字全都變成編碼了，沒有關係，我們在程式中直接用中文也是可以的，其中多個關鍵字用＋號相連，去掉一些沒有用的資訊，我們可以把地址優化成http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=軟體發佈+版本+inurl%3Apublish%2Easp&pn=0&cl=0，其中rn表示一頁顯示多少個結果，wd=表示你要搜索的關鍵字，pn表示從第幾條開始顯示，這個pn將是我們程式迴圈取結果的變數，每20條迴圈一次。我們用Java寫的程式來模擬這個搜索的過程，用到的關鍵類為 java.net.HttpURLConnection,java.net.URL，先寫一個提交搜索的class,關鍵代碼如下：

　　class Search

　　{

　　public URL url;

　　public HttpURLConnection http;

　　public java.io.InputStream urlstream;

　　......

　　for(int i=0;i++;i<100)

　　{

　　......

　　try {

　　url = new URL("http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0&wd=軟體發佈+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");

　　}catch(Exception ef){};

　　try {

　　http = (HttpURLConnection) url.openConnection();

　　http.connect();

　　urlstream = http.getInputStream();

　　}catch(Exception ef){};

　　java.io.BufferedReader l_reader = new java.io.

　　BufferedReader(new java.io.InputStreamReader(urlstream));

　　try {

　　while ((currentLine = l_reader.readLine()) != null) {

　　　totalstring += currentLine;

　　}

　　} catch (IOException ex3) {}

　　....

　　//本次搜索的結果已經放到totalstring中了，是一些HTML代碼，需要下一步進行分析了。

　　}

　　再以google為例，稍微有些不同，google對瀏覽器進行了一些檢測，編碼也不同，URL為http://www.google.com/search?q=軟體發佈+版本+inurl:publish.asp&hl=zh-CN&lr=&newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示，需要注意的是google對瀏覽器還要檢查，如果瀏覽器不符合它的要求，將返回錯誤代碼，所以在模擬瀏覽器提交中，我們要多加一行代碼，修改關鍵部分要將http屬性中的User-Agent設置為常用的瀏覽器，比如Mozilla/4.0,代碼如下：

　　try {

　　http = (HttpURLConnection) url.openConnection();

　　http.setRequestProperty("User-Agent", "Mozilla/4.0");

　　http.connect();

　　urlstream = http.getInputStream();

　　}catch(Exception ef){};

　　第二步，對取回的HTML編碼進行分析，取出其中的有用網址資訊，並寫入文件或者數據庫，由於這些搜索引擎都有網頁快照和相似網頁等網址資訊混雜在HTML中，我們要將這些網址資訊剔除掉，剔除的關鍵就是找出其中的規律，百度搜索引擎中的網頁快照和其他沒有用的的地址都含有baidu這個關鍵字，而google中含有的無用網址資訊含有關鍵字 google和cache,我們就根據這些關鍵字剔除無用網址資訊。在Java中要對字符串進行分析必然要用到java.util.StringTokenize這個類，用來將字符串以特定的分隔符分開，java.util.regex.Pattern和java.util.regex.Matcher用來匹配字符串，關鍵代碼如下：

　　class CompareStr

　　{

　　public boolean comparestring(String oristring,String tostring)

　　{

　　Pattern p=null; //正則運算式

　　Matcher m=null; //操作的字符串

　　boolean b;

　　p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);

　　m = p.matcher(tostring);

　　b = m.find();

　　return b;

　　}

　　}

　　class AnalyUrl

　　{

　　......

　　StringTokenizer token = new StringTokenizer(totalstring,"<> "");

　　String firstword;

　　CompareStrcompstr = new CompareStr();

　　String dsturl = null;

　　while (token.hasMoreTokens())

　　{

　　firstword = token.nextToken();

　　if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))

　　{

　　if (firstword.length() > 7)

　　{

　　　dsturl = firstword.substring(6,firstword.length() - 1);

　　　WriteUrl(dsturl); //成功取到URL，記錄到文件中

　　}

　　}

　　}

　　}

　　通過以上程式，我們就可以收集到自己要的網址資訊了，還可以再寫另外一個應用程式，對收集到的網址資訊進一步分析，取出自己需要的資訊，這裡就不再累贅，道理都是一樣的。最後需說明一點，google搜索引擎搜索所能返回的結果不能超過1000條，過了1000條，就直接提示“對不起，Google 為所有查詢的結果數都不會超過 1000 個。”，百度搜索引擎返回的結果不能超過700多條，所以我們要搜索時盡可能多加關鍵字，將結果範圍縮小。

引用自：http://big5.china.com/gate/big5/tech.china.com/zh_cn/netschool/programme/java/11035578/20051219/12959169.html

狼翔月影

狼翔天地

狼翔月影發表在痞客邦留言(0) 人氣()

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

狼翔天地

軟體、程式、下載、動漫、資源、好康、心情分享

Java實現利用搜索引擎收集網址的程式

歷史上的今天

留言列表

月曆

QR Code

最新文章

熱門文章

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

文章分類

站方公告

最新訂閱

活動快報

日本最優價租車

參觀人氣

我的連結

好友

美術

吃喝玩樂

Blog

服飾

MSDN

PHP

POWERED BY

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30