2001.05.11 作成 COUNTER (since 2001.05.29)

文章中の使用語彙の頻度表を
手軽にそれなりに精密に作る方法

ご感想をお寄せ下さい。

野浪正隆研ホームページに戻る。

準備

実行

  1. 使用語彙の頻度表を手軽にそれなりに精密に作りたい文章ファイルを go.pif にドロップしてください。
  2. go.bat が 働いて、C:\Program Files\chasen20\に temp.txt=使用語彙の頻度表 を作成します。

go.bat の内容

chasen.exe %1 | ssort.exe | uniq -c | ssort R > temp.txt
"C:\Program Files\Accessories\WORDPAD.EXE" temp.txt
  1. chasen.exe が %1=ドロップした文章ファイル を品詞分解する
  2. ssort.exe が 品詞分解されたものを 文字コード順に 並び替える(同じ語が連続するように)
  3. uniq -c が 文字コード順に並び替えたものを見て 頻度を勘定し、重複する行は省いて、行頭に頻度を書き加える。
  4. ssort R が、頻度順(大から小へ)に並び替えて temp.txt に書き出す。
  5. WORDPAD で temp.txt を表示する。
    (不要な場合は、go.batの該当行を削除してください。WZやEXELで見たい場合は書き換えてください。)

実行例

対象テキスト
「羅生門」
 
 或日の暮方の事である。一人の下人が、羅生門の下で雨やみを待っていた。
 広い門の下には、この男の外に誰もいない。唯、所々丹塗の剥げた、大きな円柱に、蟋蟀が一匹とまっている。羅生門が、朱雀大路にある以上は、この男の外にも、雨やみをする市女笠や揉烏帽子が、もう二三人はありそうなものである。それが、この男の外には誰もいない。
 何故かと云うと、この二三年、京都には、地震とか辻風とか火事とか饑饉とか云う災がつづいて起った。そこで洛中のさびれ方は一通りではない。旧記によると、仏像や仏具を打砕いて、その丹がついたり、金銀の箔がついたりした木を、路ばたにつみ重ねて、薪の料に売っていたと云う事である。洛中がその始末であるから、羅生門の修理などは、元より誰も捨てて顧る者がなかった。するとその荒れ果てたのをよい事にして、狐狸が棲む。盗人が棲む。とうとうしまいには、引取り手のない死人を、この門へ持って来て、棄てて行くと云う習慣さえ出来た。そこで、日の目が見えなくなると、誰でも気味を悪るがって、この門の近所へは足ぶみをしない事になってしまったのである。


以下略

chasen.exe の処理結果
「	記号-括弧開
羅生門	名詞-固有名詞-一般
」	記号-括弧閉
EOS
EOS
 	記号-空白
或	連体詞
日	名詞-非自立-副詞可能
の	助詞-連体化
暮方	名詞-副詞可能
の	助詞-連体化
事	名詞-非自立-一般
だ	助動詞
ある	助動詞
。	記号-句点
一	名詞-数
人	名詞-接尾-助数詞
の	助詞-連体化
下人	名詞-一般
が	助詞-格助詞-一般
、	記号-読点
羅生門	名詞-固有名詞-一般
の	助詞-連体化
下	名詞-一般
で	助詞-格助詞-一般
雨	名詞-一般
やみ	名詞-一般
を	助詞-格助詞-一般
待つ	動詞-自立
て	助詞-接続助詞
いる	動詞-非自立
た	助動詞
。	記号-句点
EOS

以下略

ssort.exe の処理結果
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
 	記号-空白
以下略

uniq.exe | ssort R の処理結果(最終処理結果)
    400	、	記号-読点
    177	の	助詞-連体化
    155	を	助詞-格助詞-一般
    145	た	助動詞
    145	。	記号-句点
    124	て	助詞-接続助詞
    115	に	助詞-格助詞-一般
    111	は	助詞-係助詞
     88	だ	助動詞
     80	が	助詞-格助詞-一般
     70	する	動詞-自立
     57	いる	動詞-非自立
     44	下人	名詞-一般
     40	EOS
     39	ある	助動詞
     38	この	連体詞
     33	も	助詞-係助詞
     32	の	名詞-非自立-一般
     31	その	連体詞
以下略