WEBクローラーや検索エンジンについて 情報収集中
クローラー、スパイダ
Java
Heritrix(archive.org で使用されているらしいJava製Webクローラ)
WebSPHINX(カーネギーメロン大学製クローラー)
HouseSpider
Grunk
nutch(Luceneのビルドオンとして使用)
Arale
あとはJavaで書かれているクローラーをリストアップしているサイト参照。
Python
Webstemmer(ニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出)