検索ロボット・クローラーからのアクセス

Googleのウェブマスターツールという
クロールとサイト評価を確認できる無料の管理者ツールがあります。
ここのブログも、もうひとつやっている楽器系のブログも
ウェブマスターツールで色々と確認をしながら運用しています。

エフェクター、レビューブログ

robot.txtやsitemap.xmlを登録することによって
定期的にGoogleBotがサイトをクロールしてくれますが、
新しい記事の投稿や更新をすぐにGoogleに通知するには
ウェブマスターツールのFetch as Googleという機能で
ページを教えてあげるとはやくクローラーが見に来てくれます。

単独ページの通知は週500回まで、
あるページを基点にそのページからリンクしている
ページも含めた通知は月10回まで利用可能です。

通知したからといって必ずクロールされるとは
限らないようですが、先ほど通知を行ったところ
1分以内でGoogleBotがサイトを見に来てくれました。

66.249.74.60 - - [25/Aug/2013:01:02:21 +0900] "GET / HTTP/1.1" 200 44551 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

ついてにApacheのAccessLogを色々確認して
どのくらい検索ボットがクロールにきているか見てみました。

66.249.74.60 - - [24/Aug/2013:19:15:15 +0900] "GET / HTTP/1.1" 200 26650 "-" "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"

こちらはモバイル用のGoogle検索BOTです。
ユーザーエージェントをiPhoneに偽装しているみたいですね。
これでモバイル用のページをモバイル版Google
インデックスに載せているようです。
ちなみに、エフェクター、レビューブログの方では
同一URLでPCとモバイルなどのユーザーエージェントを
判断してページ内を動的に書き換えています。
レスポンシブなページやPC/モバイルで異なるURLにする・・・などしない場合は
HTTPヘッダに【Vary:User-Agent】を追加してユーザーエージェントによって
画面の内容が変わるよ!って通知しています。
こうしないとGoogleBotがPC/モバイル用の判断をうまくしてくれません。

66.249.74.60 - - [24/Aug/2013:15:00:54 +0900] "GET /xxx.jpg HTTP/1.1" 200 10143 "-" "Googlebot-Image/1.0"

Google画像検索のBOTも遊びにきてました。
やはりイメージのURLのみにアクセスしてきています。

66.249.74.60 - - [24/Aug/2013:17:47:28 +0900] "GET /glossary/ HTTP/1.1" 200 19406 "-" "Mediapartners-Google"

Google Adsense用のBOT
ページに最適化した広告を出す為にクロールしている様子。

209.85.238.60 - - [17/Aug/2013:07:58:14 +0900] "GET / HTTP/1.1" 200 38324 "-" "AdsBot-Google (+http://www.google.com/adsbot.html)"

209.85.238.60 - - [23/Aug/2013:09:39:36 +0900] "GET / HTTP/1.1" 200 45035 "-" "AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari"

Google Adwords用の検索BOT
以前Adwordsのつけていたからでしょうか。
広告のリンク先ページとしての品質評価をしているみたいです。
今はAdwordsを切っているのでモバイル版BOTはまだきますが、
PC版BOTはたまーにしかきません。

Yahoo
98.137.207.108 - - [17/Aug/2013:20:14:00 +0900] "GET /robots.txt HTTP/1.0" 200 111 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"

MSN
65.55.213.242 - - [24/Aug/2013:23:39:18 +0900] "GET /sitemap.xml.gz HTTP/1.1" 200 1454 "-" "msnbot/2.0b (+http://search.msn.com/msnbot.htm)"

MSN画像
199.30.20.3 - - [24/Aug/2013:22:40:20 +0900] "GET /xxx.jpg HTTP/1.1" 200 65922 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

Bing
157.56.93.84 - - [24/Aug/2013:00:31:25 +0900] "GET /robots.txt HTTP/1.1" 200 111 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"


その他の有名サイトのBOTもちょこちょこきていますが
回数的にはGoogleに比べるとかなり少ないです。

74.112.131.243 - - [24/Aug/2013:01:29:34 +0900] "GET /robots.txt HTTP/1.1" 200 111 "-" "Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8"

199.59.148.209 - - [24/Aug/2013:23:09:45 +0900] "GET / HTTP/1.1" 200 44551 "-" "Twitterbot/1.0"

173.208.180.234 - - [23/Aug/2013:23:13:26 +0900] "GET / HTTP/1.0" 200 865 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.3; http://www.majestic12.co.uk/bot.php?+)"

5.10.83.3 - - [21/Aug/2013:03:26:56 +0900] "GET / HTTP/1.1" 200 41480 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"

49.212.189.165 - - [24/Aug/2013:00:17:50 +0900] "GET / HTTP/1.1" 200 46072 "http://effector-review.com/" "QuerySeekerSpider ( http://queryseeker.com/bot.html )"

海外からなぞなBOTもいくつかきます。
Butterfly(74.112.131.243)とTwitterbot(199.59.148.209)は
Twitterの投稿を元にクロールする海外のBOTです。
MJ12bot(173.208.180.234)はイギリスのBOTみたいです。
こいつはかなりアクセスしてきています。
AhrefsBot(5.10.83.3)とQuerySeekerSpider (49.212.189.165)はよくわかりません。

なんか危うそうなのでそのうち、アクセス拒否するかもしれません。
クラックされる可能性もあるし、
変なとこにリンク張られるとページ評価も下がってしまうので。。。

アフィリエイトで年3000万稼ぐ人の検索キーワードの法則

アフィリエイトで年3000万稼ぐ人の検索キーワードの法則