#1469 無駄に長い文章を要約するツール
はてなブックマーク - 無駄にエロいブックマーク / 転載問題
「無駄に長い」記事こそ圧縮してくれるツールはないんでしょうか…ぱわー
#「無駄に長い」記事こそ圧縮してくれる「機械要約ツール」は前に興味があって、メモが残っていた。
YappoLogs: Lingua::JA::Summarize::Extract - 日本語文章のサマリ抽出 - Perl
プログラムによる要約は、たいてい ChaSen, MeCab, などの面倒な処理(形態素解析)が入ったりするが、Lingua::JA::Summarize::Extract は、辞書ファイルが必要なくて、お手軽に使うことができる。まさに Hack(大雑把だが要領の良い仕事)という感じ。
Lingua::JA::Summarize::Extract の CGI
http://stone.dialog.jp/archives/extract/index.cgi
例の「善意の転載」の全文を Lingua::JA::Summarize::Extract で要約してみた。
原文 (6577 byte) file:1469-1.txt
↓
要約 (708 byte)
人によっては無駄に思える転載記事の氾濫などの現状もありますがしかし、こういった記事を書いて転載をお願いする事はまた、問題解決の際には、この記事の転載についてはこの記事の転載先件数についてはココ→転載先検索番号YTK000004をクリックしていただければ、この記事の転載件数と転載先が判ります。(非公開・ファン専用書庫以外の公開転載記事の場合のみリストアップされます)記事最下部にリンクした作成元記事のほうで※転載元の記事が修正されても、転載先の記事には反映しません。転載についての注意
うーむ、正確だ。ある意味、正確すぎる
機械要約でも、「転載」が主題で、「イジメの救済」が枝葉だということが分かった。
Perl とかややこしいことが嫌な人には ソースネクスト「ズバリ要約」 という製品もある。(使ったことがないので詳細は不明)
http://www.sourcenext.com/products/youyaku/
要約専用エンジン搭載
Sematics社が独自に開発した日本語解析エンジンは、要約を目的に開発されたもので、長文を統計的な確率モデルに基づき、文章を1語1語に正確に区切り、品詞や活用型、関係を判断して構文を高速に解析します。Sematics社によるとA4・200ページ(約60万字)をほぼ1秒で解析します。
その解析結果を利用して、ただ短くするだけでなく、重要度の高い構文を残すため、元の文章の意味を維持しながら、要約することができるのです。
「ズバリ要約」関連記事
ekken♂ : これであなたもGIGAZINEになれる! ……かも
雑記、日記、悪知識。
ソースネクスト、1万字の文章を5秒で要約できる「ズバリ要約」
ZDNet Japan
MYCOMジャーナル
機械要約関連
専門用語(キーワード)自動抽出サービス 「言選Web」
GetSen 日本語文章サマリ抽出システム - ほそいりょすけのほめぱげ
N-gramモデルを利用したテキスト分析 ―morogramを使う前に Perlとモジュールの組み込み―
ChaSen
MeCab