目次 | 前へ | 次へ |
% /usr/local/bin/Wnn6/otow |
otow [-i 入力ファイル] [-f 書式ファイル] [-o 出力ファイル] [-l ログファイル] [-h 頻度値] |
-i 入力ファイル |
入力ファイルに指定するのは、ATOK7、ATOK8、
VJE-Delta、EGBRIDGE のそれぞれのテキスト
形式辞書ファイルです。 文字コードは、EUC コードに限ります。 "入力ファイル名" を指定しない場合は、標準入力に対応し ます。 |
入力ファイルの内容については、後述の「2.1 入力ファイル」を参照してください。 |
-f 書式ファイル |
書式ファイルは入力ファイルの書式を定義するものです。 文字コードは、EUC コードに限ります。 書式ファイルで指定された書式にしたがって、入力ファイルの 内容を解釈します。 "書式ファイル名" を指定しない場合は、ATOK7 の書式が 指定されたものと見なします。 |
書式ファイルの内容については、後述の「2.2 書式ファイル」を参照してください。 |
-o 出力ファイル |
コンバート後の Wnn6 のテキスト形式辞
書ファイル名を指定します。 出力する文字コードは、EUC コードです。 省略時には、標準出力へ対応します。 |
出力ファイルの内容については、「辞書 - 5.テキスト形式辞書の編集」または、後述の「2.3 出力ファイル」を参照してください。 |
-l ログファイル |
コンバートが不可能な単語がある場合、このログファイルへ
出力されます。 出力する文字コードは、EUC コードです。 "ログファイル名" を指定しない場合は、ログファイルは作成 されません。 |
ログファイルの内容については、後述の「2.4 ログファイル」を参照してください。 |
-h 頻度値 |
出力ファイルに適応する頻度値を指定します。 省略時には、頻度値 1 が設定されます。 |
【コメント】 読み1,単語1,品詞1 読み2,単語2,品詞2 読み3,単語3,品詞3 ・ ・ ・ ・ ・ ・ ・ ・ ・ |
ア,亜,単漢字 ア,あ,カ行五段 ア,あ,ワ行五段 ア,阿,単漢字 ア,開,カ行五段 ・ ・ ・ |
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、 後述の「2.2 書式ファイル」を参照してください。 |
!コメント 読み1,単語1,品詞1 読み2,単語2,品詞2 読み3,単語3,品詞3 ・ ・ ・ ・ ・ ・ ・ ・ ・ |
!ATOK8UT;単語一覧;A:¥ATOK8¥ATOK8.DIC book,本,一般名詞* ア,有,ラ行五段 ア,亜,単漢字 ア,阿,単漢字 ア,あ,カ行五段 ・ ・ ・ |
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、 後述の「2.2 書式ファイル」を参照してください。 |
読み1[TAB]単語1[TAB]品詞1 読み2[TAB]単語2[TAB]品詞2 読み3[TAB]単語3[TAB]品詞3 ・ ・ ・ ・ ・ ・ ・ ・ ・ |
あ 編 [マ五] あ あ [ワ五] あ あ [ラ五ある] あ 開 [カ五] あ 空 [カ五] ・ ・ ・ |
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、 後述の「2.2 書式ファイル」を参照してください。 |
読み1[TAB]単語1[TAB]品詞1 読み2[TAB]単語2[TAB]品詞2 読み3[TAB]単語3[TAB]品詞3 ・ ・ ・ ・ ・ ・ ・ ・ ・ |
あー アーカイブ 1+20 あきはばら 秋葉原 1+3 あせ (^_^; 1 あたらし 新し 1 あとかぎ 』 1 あとかく ] 1 あとてん ” 1 あとぱ 】 1 あぷり アプリケーション 1 ・ ・ ・ |
「読み」、「単語」、「品詞」、それぞれの記述の規約などについては、 後述の「2.2 書式ファイル」を参照してください。 |
形式:
/usr/local/lib/wnn6/ja_JP/otow.format/*.fmt |
各 FEP ごとの書式ファイルは、上記のディレクトリ下で以下のファイルに該当します。
ATOK7 向書式ファイル ATOK8 向書式ファイル VJE-Delta向書式ファイル EGBRIDGE向書式ファイル | atok7-wnn6.fmt atok8-wnn6.fmt vje-wnn6.fmt egbridge-wnn6.fmt |
以下は ATOK7 の書式ファイル例ですが、「書式データ」と「品詞」は
次のように分類されています。
形式: 読み,単語,品詞 区切りは「,」「、」 コメント開始="【" コメント終了="】" 読み=1 読み区切り="," 読み区切り連続=NG 読み無効=" " 単語識別= 単語区切り="," 単語区切り連続=NG 単語無効=" " 品詞区切り="," 品詞無効= 品詞つなぎ= シーケンス=OFF 品詞対応 "一般名詞","名詞" "固有名詞","固有名詞" "名詞サ変","サ行(する)&名詞" "名詞ザ変","ザ行(ずる)&名詞" "名詞形動","形容動詞&名詞" ・ ・ ・ |
キーワード名=定義 キーワード名=定義 キーワード名=定義 ・ ・ ・ |
書式キーワード名に対応する定義内容を半角文字 "=" でセットします。
[TAB] などの制御コードを使用する場合、実際の制御コードを
記述することができます。
また、"¥" に続けて、アスキーコードを 3 桁の 8 進数で
記述することもできます。
制御コード 8 進数 ¥a ¥007 ¥t ¥011 ¥n ¥012 ¥v ¥013 ¥f ¥014 ¥r ¥015 ¥" ¥042 ¥' ¥047 ¥¥ ¥104 |
書式データで未定義のキーワード名に対しては、初期設定である ATOK7 での定義が採用されることになります。
キーワード名 | 定 義 内 容 |
コメント開始 | コメント開始部分の文字を指定します。 最大 4 バイトでコメント開始文字を指定することができます。 入力ファイルにコメントがない場合は、定義に何も記述しません。 |
コメント終了 | コメント終了部分の文字を指定します。 最大 4 バイトでコメント終了文字を指定することができます。 入力ファイルにコメントがない場合は、定義に何も記述しません。 行末は必ずコメントの終了になります。 |
読み | 読みの文字幅(半角、全角)を指定します。 半角の場合は 1 、全角の場合は 2 を指定します。 読みの文字幅を「半角」に指定すると、出力ファイルには全角に変換します。 |
読み区切り (注) | 読みの終了を示す文字を指定します。 最大 4 バイトで終了文字を指定することができます。 「読み区切り」は複数設定することができます。 |
読み区切り連続 | 読み区切りの文字を連続して入力できるかを指定します できる場合は OK 、できない場合は NG を指定します。 |
読み区切り=" " 読み区切り="¥t" 読み区切り連続=OK |
キーワード名 | 定 義 内 容 |
読み無効 (注) | 読みに使用される文字で、無効となる文字を指定します最大 4 バイトで無効とする文字を指定することができます。 入力ファイルに「読み無効」の文字がない場合は、定義に何も記述しません。 「読み無効」は複数指定することができます。 |
単語識別 (注) | 単語を囲む文字を指定します。 最大 4 バイトで文字を指定することができます。 入力ファイルに「単語識別」の文字がない場合は、定義に何も記述しません。 |
単語区切り (注) | 単語の終了を示す文字を指定します。 最大 4 バイトで終了文字を指定することができます。 入力ファイルに「単語区切り」の文字がない場合は、定義に何も記述しません。 「単語区切り」は複数指定することができます。 |
単語区切り連続 | 単語区切りの文字を連続して入力できるかを指定しますできる場合は OK 、できない場合は NG を指定します。 |
単語無効 (注) | 単語に使用される文字で、無効となる文字を指定します。 最大 4 バイトで無効とする文字を指定することができます。 入力ファイルに「単語無効」の文字がない場合は、定義に何も記述しません。 「単語無効」は複数指定することができます。 |
「読み区切り」から「単語識別」の間に文字がある場合、無視されます。また、「単語識別」から「単語区切り」の間に文字がある場合も、無視されます。 「読み区切り」と「読み無効」に同じ文字を指定することはできません。 「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。 |
キーワード名 | 定 義 内 容 |
品詞区切り | 品詞の終了を示す文字を指定します。 最大 4 バイトで終了文字を指定することができます。 入力ファイルに「品詞区切り」の文字がない場合は、定義に何も記述しません。 行末は必ず品詞の終了です。 |
品詞無効 | 品詞に使用される文字で、無効となる文字を指定します 最大 4 バイトで無効とする文字を指定することができます。 入力ファイルに「品詞無効」の文字がない場合は、定義に何も記述しません。 「品詞無効」は複数指定することができます。 |
品詞つなぎ | 複数の品詞を指定する場合に使用します。 最大 4 バイトでつなぎとなる文字を指定することができます。 入力ファイルに「品詞つなぎ」の文字がない場合は、定義に何も記述しません。 |
シーケンス | ESC シーケンスの解釈が必要であるかを指定します。 必要がある場合は ON 、必要がない場合は OFF を指定します。 |
|
|
|
ATOK7、ATOK8、VJE-Delta、EGBRIDGE の それぞれの書式データの設定は次のようになっています。
キーワード名 | ATOK7 (初期設定) | ATOK8 | VJE-Delta | EGBRIDGE |
コメント開始 | "【" | "!" | 指定なし | "//" |
コメント終了 | "】" | 指定なし | 指定なし | 指定なし |
読み | 1 | 1 | 2 | 2 |
読み区切り | "," | "," "、" | [TAB] | [TAB] |
読み区切り連続 | NG | NG | OK | NG |
読み無効 | " " | " " | 指定なし | 指定なし |
単語識別 | 指定なし | """ | 指定なし | 指定なし |
単語区切り | "," | "," "、" | [TAB] | [TAB] |
単語区切り連続 | NG | NG | OK | NG |
単語無効 | " " | " " | 指定なし | 指定なし |
品詞区切り | "," | "," | "," | [TAB] |
品詞無効 | 指定なし | "$" "*" | "*" | 指定なし |
品詞つなぎ | 指定なし | 指定なし | 指定なし | "+" |
シーケンス | OFF | OFF | OFF | 0FF |
入力辞書の品詞名称、Wnn6 の品詞名称 入力辞書の品詞名称、Wnn6 の品詞名称 入力辞書の品詞名称、Wnn6 の品詞名称 ・ ・ ・ |
"一般名詞","名詞" "固有名詞","固有名詞" "名詞サ変","サ行(する)&名詞" ・ ・ ・ |
"【カ五】", "カ行五段" "【ガ五】", "ガ行五段" "【サ五】", "サ行五段" ・ ・ ・ |
¥comment ¥total ¥hinsi 読み 単語 品詞 頻度 読み 単語 品詞 頻度 読み 単語 品詞 頻度 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ |
% otow -i atok7-dic.txt -f atok7-wnn6.fmt -o wnn6-dic.txt | |
|
コンバートできない行 ← エラー番号 コンバートできない行 ← エラー番号 コンバートできない行 ← エラー番号 ・ ・ ・ |
「コンバートできない行」には、入力辞書中、コンバート不可能な単語が
存在する行が入ります。
エラー番号には、各番号により、次ページの表にあるエラー原因が対応しています。
エラー番号 | 原 因 |
1 | 「読み」の長さが 256 を超えています。 |
2 | 「読み」の長さが 0 です。 |
3 | 単語部分が識別できません。 書式データ:単語区切りなどを確認してください。 |
4 | 「単語」の長さが 256 を超えています。 |
5 | 「単語」の長さが 0 です。 |
6 | 単語識別が書式データと不適合です。 |
7 | 品詞部分が識別できません。 書式データ:品詞区切りなどを確認してください。 |
8 | 品詞が不適切です。 |
9 | 品詞定義の形式が不適合です。 |
起動時のオプション指定での誤りなど、標準出力されるエラーについては、付録の「エラーメッセージ一覧」を参照してください。 |