今日のオレ - Tech Info Diary

昨日の続き。さて、顧客の情報システム部を通してその大手インテグレータの担当から翌日以下の回答が。

当該 IP アドレスはそのインテグレータの顧客に割り当てられている

その顧客のサービスとは試験運用中の検索エンジンで、大量のリクエストはロボットのテストだったこと

サイトの情報収集は無作為に行っていた

CGI等の Web アプリを利用しているサイトの情報も GET のパラメータを動的に変化させて漏れなく収集していた

情報収集された他のサイトからも「一体何をなされているのでしょうか？」と弊社と同じような問い合わせが相次いでいた

結果的には検索エンジンのロボットによるアクセスだった訳で、重大なセキュリティインシデントではなかったのでほっとしました。ただ、ちょっと行儀が悪いロボットだと思いました。有名どころの行儀のいいロボットは通常以下のように振る舞うようです。

HTML のメタ情報や robots.txt を正しく解釈する

収集した情報の重複をさけるのと収集先のサーバへ負荷をかけないよう、URL に "/cgi-bin/" や "?&" などの文字が含まれる動的なページは無視する。たまに CGI に対しても情報収集を行うクローラーがあるが、CGI のファイル名が同じで、それに続くパラメータが違う(hoge.cgi?xxx=111&yyy=222とか)URI が多数ある場合は何度もリクエストしない。

収集先のサーバへ負荷をかけないよう、リクエスト間隔は長め(短くても20〜30秒とか)

ロボット名の User-Agent を残して、ロボットからのアクセスを明確にする(google なら「Googlebot〜」)

今回やってきたロボットは上記の振る舞いを完全に無視して、極端に言えば単なる「DoS アタッカー」と化して他所様のサーバに膨大なリクエストを送り続けていたようです。つーか、ロボットのテストでリアルのサイト使うなよ…。まず閉じた環境で負荷テストやれっつーの。
これらを踏まえて、ロボットの振る舞いについてインテグレータにはメールで以下の最低限の要望を送りました。

大量のリクエストが想定されるならば事前連絡が欲しかった

リクエスト間隔を長く取って欲しい

User-Agent を記録するようにして欲しい

程なくして相手方の担当者から「善処いたします」と丁寧な返事がメールで送られてきたので、この件は終了。
折しも個人情報流出に関するニュースが続いていた時期と丁度重なっていたので、非常に神経質になっていましたが、結果的に些細な事だったのでほっとしました。全然オチがなくてすいません。