WEBクローラーや検索エンジンについて 情報収集中

クローラー、スパイダ

Java

Heritrix(archive.org で使用されているらしいJava製Webクローラ)
WebSPHINXカーネギーメロン大学クローラー
HouseSpider
Grunk
nutchLuceneのビルドオンとして使用)
Arale
あとはJavaで書かれているクローラーをリストアップしているサイト参照。

PHP

PHPCrawl(リクエスト間隔を制御する仕組みが備わっていないので使用には注意)

Perl

wwgetall(ノンブロッキングモードなのでプロセスで複数のコネクションを管理可能。Keep-Aliveを用いた持続接続にも対応)

Python

Webstemmer(ニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出)

検索エンジン

全文検索

egothor(HTML, PDF, PS, エクセル,ワードに対応)
Apache Lucene(インデックス作成型全文検索エンジン
Hyper Estraier(cで書かれているが、Java,Ruby,Perl,Pythonの言語バインディングあり)
SennaDBMSスクリプト言語処理系等への組み込み型の全文検索エンジン
namazu
JiroSearch(日本語全文検索namazu」と同様のことが可能。GPLライセンス。検索されたキーワードの保存)