青空文庫用ツール(1)
 凡例・ルビ・注記・出典を取り除くAwk script

青空文庫に集められている文書ファイルのうち、ルビつきファイルはのようになっています。
赤字の部分は野浪に必要ないので、取り除く Awk scriptを書きました。よければお使い下さい。
使い方:mawk32 を使うとして(他のawkでも動くと思いますが)、同じフォルダにruby.awkを入れてください。

mawk32 -fruby.awk %1
というバッチファイルを作って、ショートカットを sendto フォルダに入れておくと便利です。(対象ファイルをポイントして右クリック「送る」を使えますから)

青空文庫に集められているルビつき文書ファイル
あそび
森鴎外

-------------------------------------------------------
【テキスト中に現れる記号について】

《》:ルビ
(例)醒《さ》ました

|:ルビの付いていない漢字とルビの付く漢字の境の記号
(例)丁度|物干竿《ものほしざお》

[#]:入力者注 主に外字の説明や、傍点の位置の指定
   (数字は、JIS X 0213の面区点番号、底本のページと行数)
(例)※[#「※」は「巾+廚」、第4水準2-12-1、115-3]
-------------------------------------------------------

 木村は官吏である。
 ある日いつもの通りに、午前六時に目を醒《さ》ました。夏の初
めである。もう外は明るくなっているが、女中が遠慮してこの間
《ま》だけは雨戸を開けずに置く。蚊※[#「※」は「巾+廚」、
第4水準2-12-1、115-3]《かや》の外に小さく燃えているランプ
の光で、独寝《ひとりね》の閨《ねや》が寂しく見えている。

中略

 号砲《ドン》が鳴った。皆が時計を出して巻く。木村も例の車掌
の時計を出して巻く。同僚はもうとっくに書類を片附けていて、
どやどや退出する。木村は給仕とただ二人になって、ゆっくり書
類を戸棚にしまって、食堂へ行って、ゆっくり弁当を食って、そ
れから汗臭い満員の電車に乗った。
[#下げて、地より1字あきで](明治四十三年八月)



底本:「普請中 青年 森鴎外全集2」ちくま文庫、筑摩書房
   1995(平成7)年7月24日第1刷発行
底本の親本:「筑摩全集類聚版森鴎外全集」筑摩書房
   1971(昭和46)年4月〜9月刊
入力:鈴木修一
校正:mayu
2001年6月19日公開
青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫
(http://www.aozora.gr.jp/)で作られました。入力、校正、制作
にあたったのは、ボランティアの皆さんです。
ruby.awk
{
	d[NR]=$0;
}
END{
	flag=0;
	title= "「" d[1] "」\t" d[2];
	fname= "data\\「" d[1] "」" d[2] ".txt";
	for(i=1;i<=NR;i++){
		if(d[i]~/^-+$/ && flag==0){flag=1;d[i]=""}
		if(d[i]~/^-+$/ && flag==1){flag=0;d[i]=""}
		if(d[i]~/^底本:/ && flag==0){flag=1;d[i]=""}
		gsub(/《[^》]+》/,"",d[i]);
		gsub(/[#[^]]+]/,"",d[i]);
		gsub("|","",d[i]);
		if(i==2){ print title > fname}
		if(flag==0 && d[i]!="" && i>2){print d[i] > fname}
	}
}