今日のオレ
昨日の続き。さて、顧客の情報システム部を通してその大手インテグレータの担当から翌日以下の回答が。
結果的には検索エンジンのロボットによるアクセスだった訳で、重大なセキュリティインシデントではなかったのでほっとしました。ただ、ちょっと行儀が悪いロボットだと思いました。有名どころの行儀のいいロボットは通常以下のように振る舞うようです。
- HTML のメタ情報や robots.txt を正しく解釈する
- 収集した情報の重複をさけるのと収集先のサーバへ負荷をかけないよう、URL に "/cgi-bin/" や "?&" などの文字が含まれる動的なページは無視する。たまに CGI に対しても情報収集を行うクローラーがあるが、CGI のファイル名が同じで、それに続くパラメータが違う(hoge.cgi?xxx=111&yyy=222とか)URI が多数ある場合は何度もリクエストしない。
- 収集先のサーバへ負荷をかけないよう、リクエスト間隔は長め(短くても20〜30秒とか)
- ロボット名の User-Agent を残して、ロボットからのアクセスを明確にする(google なら「Googlebot〜」)
今回やってきたロボットは上記の振る舞いを完全に無視して、極端に言えば単なる「DoS アタッカー」と化して他所様のサーバに膨大なリクエストを送り続けていたようです。つーか、ロボットのテストでリアルのサイト使うなよ…。まず閉じた環境で負荷テストやれっつーの。
これらを踏まえて、ロボットの振る舞いについてインテグレータにはメールで以下の最低限の要望を送りました。
程なくして相手方の担当者から「善処いたします」と丁寧な返事がメールで送られてきたので、この件は終了。
折しも個人情報流出に関するニュースが続いていた時期と丁度重なっていたので、非常に神経質になっていましたが、結果的に些細な事だったのでほっとしました。全然オチがなくてすいません。