WikipeJaGo - ウィキペディア(日本語版)のXMLデータからキーワードを抽出するツール群 ウィキペディア(日本語版)のXMLデータをダウンロードして使います。 下記のようにして入手してください。数百Mバイト。大きいです。 wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.bz2 ■ ext-wpj-person.pl Input: Wikipedia JA XML Output: person name file 人名リストを作ります(person name file)。 bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | ext-wpj-person.pl > wj-person.txt ■ ext-wpj-words.pl Input: Wikipedia JA XML Output: keyword tsv file, df file キーワードとそのページに出てきたキーワードからなるTSVを作ります(keyword tsv file)。 また、キーワードのDF(他のページに現れる頻度)をカウントし別ファイルに出力します(df file)。 bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | prog.pl -d wj-word.df > wj-word.txt 出力先 df file は -d オプションで指定。keyword tsv file は stdout に出ます。 ■ mkrel-wpj.pl Input: keyword tsv file, df file, person name file(optional) Ooutput: keyword with DF tsv file keyword tsv file の各エントリの各単語に DF を付与し、DF 順にソートします。 person name file も指定すると、このファイルにある単語(人名)以外を無視します。 mkrel-wpj.pl -d wj-word.df wj-word.txt > wj-rel.tsv mkrel-wpj.pl -d wj-word.df -p wj-person.txt wj-word.txt > wj-person-rel.tsv § 詳しくはソースコードをご覧下さい!!!