pochitto’s blog

詩、雑感などを記しています。

文芸批評エンジン(仮)

Kazuho@Cybozu Labsに、ある文章からキーワードを抽出する具体的な方法がエントリされていた。
http://labs.cybozu.co.jp/blog/kazuho/archives/2006/04/summarize.php
ここで単細胞メソッドを発動して、と。
つーことはだ、ある文章からキーワードを抽出して、そっから上記wikipediaのタグを辿っていくと、キーワードが樹状に接続されていくわな。んでもってそのキーワードマップをシーケンシャルに配置し、その間を適当な言葉、たとえば形態素解析したフレーズをN-gramでつないでいけばそれなりの文章ができるから、それで埋めていく。段落同士の接続を考慮しつつ一連の処理を行えば、割りに読める文章になるんじゃなかろうか。各種の文芸批評を蒐集して形態素解析のソースに使えば、かなり「それっぽい」文章ができるように思う。こうして文芸批評エンジン(仮)を作れるんじゃないか、という春の日の妄想。