こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

締切り済みの質問

Webから日本語取得、無難なクローラーは?

言語処理のために大量の日本語文章が欲しいです。
Webから取るのが現実的的かとおもっており、クローラーを使おうと思っています。
各ページ1回だけで、取ったら更新はほぼしません。

取得対象に影響を与えない事を優先したいです。

オススメのクローラーがあれば教えてください。
取得先の情報で分類出来るとうれしいです。

取得はlinuxサーバから行う予定です。

投稿日時 - 2016-07-25 22:08:34

QNo.9206513

暇なときに回答ください

このQ&Aは役に立ちましたか?

0人が「このQ&Aが役に立った」と投票しています

回答(1)

ANo.1

SEOとかサイトのランク付けとか関係なくて、ただのダウンローダーがあればいいんですよね?
ならば、wget で再帰処理すればリンクをたどってhtmlが取り出せるんで
あとは、sedでHTMLタグを削除して文章のみにすればよいのでは。

取得先のドメイン名/階層名 と文章を紐付けしてDBに格納するとか
ドメインごとに1ファイルにまとめる 必要があるなら
そのスクリプトは自作することになるでしょうけど。

投稿日時 - 2016-07-26 09:53:01

お礼

どうもありがとうございます。
そうすれば出来るのは分かるのですが、それをきっちり実装しようとするろ結構な工数が掛かるので質問しております。

投稿日時 - 2016-07-26 13:46:45

あなたにオススメの質問