yummy-yummy

WEBクローラーや検索エンジンについて　情報収集中

crawler

クローラー、スパイダ

Java

Heritrix（archive.org で使用されているらしいJava製Webクローラ）
WebSPHINX（カーネギーメロン大学製クローラー）
HouseSpider
Grunk
nutch（Luceneのビルドオンとして使用）
Arale
あとはJavaで書かれているクローラーをリストアップしているサイト参照。

PHP

PHPCrawl（リクエスト間隔を制御する仕組みが備わっていないので使用には注意）

Perl

wwgetall（ノンブロッキングモードなのでプロセスで複数のコネクションを管理可能。Keep-Aliveを用いた持続接続にも対応）

Python

Webstemmer（ニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出）

検索エンジン

Java

http://www.egothor.org/

Perl

Yomi-Search（ディレクトリ型検索エンジン）

全文検索

egothor（HTML, PDF, PS, エクセル,ワードに対応）
Apache Lucene（インデックス作成型全文検索エンジン）
Hyper Estraier（cで書かれているが、Java,Ruby,Perl,Pythonの言語バインディングあり）
Senna（DBMSやスクリプト言語処理系等への組み込み型の全文検索エンジン）
namazu
JiroSearch（日本語全文検索「namazu」と同様のことが可能。GPLライセンス。検索されたキーワードの保存）

参考サイト

gihyo.jp 検索エンジンを作る
 WIKIPEDIA Web crawler
Web2.0な日々　自分だけの検索エンジン -All About-
検索エンジンの作り方【yomi-search 編】