#1457 Spam Words Cloud
当サイトにやってくるスパムの単語を調べてみた。
Cloud表示
http://stone.dialog.jp/archives/cloud/spam/
元のデータ(数字は出現頻度の%)
http://stone.dialog.jp/archives/cloud/spam/words.tsv
viアgra
という単語をチェックするだけで、83%のスパムを弾くことができる。
手を変え品を変えやってこられてイタチごっこになるのは嫌だけど、必ず捕獲できるワンパターンなスパムも退屈である。最近のスパムはゲリラ広告というよりサイバー攻撃の一種になっていると思う。
【作成条件】
- 本文以外の文字列(名前欄、HTML、URLを含む)も処理対象
- Perl正規表現の
\w+
(半角英数字と _) を拾う。 - 2文字以下の単語は除外。
- 数字だけの文字列は除外。
- 1投稿1回 - 同一投稿に複数回出現する単語を重複カウントしない。
Links
US Presidential Speeches Tag Cloud - Chirag Mehta : chir.ag - アメリカ大統領の演説をクラウド表示
Japanese Prime Minister Speeches Tag Cloud - 日本の首相演説のタグクラウド
HTML::TagCloud - Generate An HTML Tag Cloud - search.cpan.org - Perl でタグクラウド作成