目次 | 前へ | 次へ |
Wnn6 のかな漢字変換では、「文節」という変換対象の単位を設定しています。
「文節」は「自立語」と「付属語」から構成されています。Wnn6 の辞書は、この「自立語」と「付属語」のエントリ情報を格納するものです。
「自立語」向けの辞書には、主に、単語の読み(ひらがな)、
変換結果の文字列(かな漢字混じり文などすべての文字種が可能)、品詞(自立語の種類)が収められています。
「付属語」向けの辞書には、その種類、自立語との接続情報、
付属語間での接続情報が収められています。
jserver の起動時に読み込まれる辞書は、Wnn6 システムで
管理される固定データです。ユーザがシステム辞書ファイルに対して単語登録を
行うことはできません。しかし、ユーザごとに別途、個別の辞書ファイルを持ち、
ユーザ本位で動的に単語を登録、削除させることができます。
前者のシステム管理の辞書をシステム辞書といい、
後者のユーザによる単語登録を可能にする辞書をユーザ辞書といいます。
ユーザ辞書には、バイナリデータ形式とテキスト形式の記述ファイルがあります。 バイナリデータ形式は Wnn6 のシステムが解読するものであり、 テキスト形式はユーザによる編集作業をスムーズにするものです。 両記述形式のファイル間では、双方向での変換が可能です。 ユーザは、テキスト形式の辞書ファイルで編集を行い、それをバイナリデータ形式に 変換して、Wnn6 システムが読み込める形にします。
また、Wnn6 では、ユーザごとのかな漢字変換結果の情報の集約として、
頻度情報を持ちます。過去のかな漢字変換の結果を実績として、出現回数により、
候補への提示順序を制御します。ユーザごとに頻度値を参照しながら変換を
実行しますから、それぞれのユーザで望まれる変換結果をより速やかに
提供できるようになっていきます。
頻度は、辞書外部の頻度ファイルという形と辞書内部に存在する頻度値という形で
保存します。
Wnn6 の辞書利用のしくみ
Wnn6 の辞書ファイル構成
システム辞書ファイルの種類
ファイル名 | 内 容 |
kihon.dic symbol.dic tankan.dic tankan2.dic tankan3.dic tel.dic zip.dic ikeiji.dic | 基本辞書 記号辞書 単漢字辞書(第 1 水準) 単漢字辞書(第2水準) 単漢字辞書(補助漢字) 電話番号辞書 (市外局番を入力すると、住所に変換します) 郵便番号辞書(注) (郵便番号を入力すると、住所に変換します) 異形字辞書 (新字⇔旧字、略字⇔正字 を変換します) |
zip.dic は、郵便番号 7 桁対応になっています。同ディレクトリに zip3-5.dic という辞書ファイルがありますが、こちらは以前の 5 桁対応時の辞書ファイルです。 標準では、7 桁対応の zip.dic を使用するようになっています。 |
付属語情報ファイルの種類(注)
ファイル名 | 内 容 |
kougo.fzk | 文語&口語用 |
付属語ファイル Wnn4 用に作成された付属語ファイルを Wnn6 で使用することはできません。「古いバージョンの付属語ファイルが設定されています」というエラーメッセージが表示されて、jserver が正常に動作しなくなる場合があります。 |
ユーザ頻度情報ファイルの種類
ファイル名 | 内 容 |
kihon.h symbol.h tel.h zip.h | 基本辞書内のエントリに対するユーザ頻度情報 記号辞書内のエントリに対するユーザ頻度情報 電話番号辞書内のエントリに対するユーザ頻度 情報 郵便番号辞書内のエントリに対するユーザ頻度 情報 |
ユーザ辞書
作業はスーパーユーザになって行います。
上記の後、コピーしたユーザ辞書ファイルのオーナーを wnn に設定します。 # chown wnn /usr/local/lib/wnn6/ja_JP/dic/usr/omron/ud |
ユーザが辞書に単語登録を行うときには、必ず品詞を指定しますが、 そこで指定できる品詞一覧は以下の通りです。
大 項 目 | 種 類 |
普通名詞 | 名詞 / サ行(する)&名詞 / 一段&名詞 / ら抜き一段&名詞 / 形容動詞&名詞 / 数詞 / 数詞&名詞 / ザ行(ずる)&名詞 / 形動&する&名詞 / 形容動詞(たる)&名詞 / 副詞&名詞 / 副詞&する&名詞 / 助数詞&名詞 / 助数詞&する&名詞 / 接頭助数詞&名詞 / 名詞(御なし) |
固有名詞 | 人名 / 地名 / 人名&地名 / 固有名詞 / 姓 / 名 / 企業 / 姓&地名 / 名&地名 / 地名&人名 |
動詞 | 一段 / 一段&名詞 / ら抜き一段 / ら抜き一段&名詞 / カ行五段 / ガ行五段 / サ行五段 / タ行五段 / ナ行五段 / ハ行五段 / バ行五段 / マ行五段 / ラ行五段 / ワ行五段 / サ行(する) / サ行(する)&名詞 / ザ行(ずる) / ザ行(ずる)&名詞 / 形動&する&名詞 / 副詞&する / 副詞&と&する / 副詞&する&名詞 / 助数詞&する&名詞 |
特殊な動詞 | カ行(行く) / ラ行(下さい) / 来(こ) / 来(き) / 来(く) / 為(し) / 為(す) / 為(せ) |
動詞以外の用言 | 形容詞 / 形容動詞 / 形容動詞&名詞 / 形容動詞(たる) / 形容詞(いい) / 形容詞連用形う / 形動&する&名詞 / 形容動詞&副詞 / 形容動詞(たる)&名詞 / 形容動詞(たる)&副詞 |
その他の独立語 | 副詞 / 連体詞 / 接続詞 / 感動詞 / 形容動詞(たる)&副詞 / 副詞&名詞 / 副詞&する / 副詞&と&する / 副詞&する&名詞 |
接頭語、接尾語 | 接頭語 / 接尾語 / 接尾人名 / 接頭地名 / 接尾地名 / 接頭数詞 / 助数詞 / 接頭助数詞 / 接尾助数詞 / 形容動詞化接尾語 / サ行(する)&名詞化接尾語 / 接尾動詞 / 形容詞化接尾動詞 / 接頭語(お) / 接頭語(各) / 接頭人名 / 助数詞&名詞 / 助数詞&する&名詞 / 助数詞&接尾助数詞 / 接頭助数詞&名詞 / 接尾姓 / 接尾名 / 動作接尾語 |
単漢字 | 単漢字 |
疑似品詞 | 数字 / カナ / 英数 / 記号 / 閉括弧 / 開括弧 / 付属語 |
その他の特殊品詞 | 特殊助数詞 / 特殊数詞 / 数助数詞 / 特殊接頭数詞 / 特殊単独語 / 郵便番号 / 電話番号 / 連濁 / 異形字 |
特殊助数詞 | 助数詞(音読) / 助数詞(音読)&する&名詞 / 助数詞(音読)&接尾助数詞 / 助数詞(音読)&名詞 / 助数詞(共通) / 助数詞(共通)&名詞 / 助数詞(数字) / 助数詞(数字)&する&名詞 / 助数詞(数字)&する&名詞(御なし) / 助数詞(数字)&名詞助数詞(数字)&名詞(御なし) |
特殊数詞 | 数詞(一) / 数詞(訓読) / 数詞A / 数詞A&名詞 / 数詞A(一般) / 数詞A(証書) / 数詞B / 数詞B&名詞 / 数詞B(一般) / 数詞B(一般)&名詞 / 数詞B(証書) / 数詞B(証書)&名詞 / 数詞C / 数詞C&名詞 / 数詞C(一般) / 数詞C(証書) |
数助数詞 | 数助数詞A(一般) / 数助数詞B / 数助数詞C / 数助数詞C&助数詞(数字)&名詞 / 数助数詞C&助数詞(数字)&名詞(御なし) |
特殊接頭数詞 | 接頭数詞A / 接頭数詞A(数字) / 接頭数詞B / 接頭数詞B(一般) / 接頭数詞B(証書) / |
特殊単独語 | 単独語 / 単独接頭語 / 単独接尾語 |
ユーザが独自に、新しい品詞または複合品詞を定義することもできます。詳しくは、後述の「2.2 品詞管理ファイル」を参照してください。 |
に使用されます。
品詞に関する情報は、すべての辞書と付属語ファイルの間で共通のものですから、品詞の削除またはファイル中での並び替えはできません。削除や並び替えを行うと、変更前の品詞管理ファイルを使用して作成された辞書および付属語の品詞情報(番号)が不適正なものとなります。 |
ファイルに対して行える編集操作は、新しい品詞および複合品詞を ファイルの最後に付け加えることと、"@" のみからなる行を 品詞の定義に置き換えることです。
形式:
/usr/local/lib/wnn6/ja_JP/hinsi.data |
書式:
複合品詞/品詞:品詞: … :品詞 |
複合品詞の定義で使用される品詞は、それより先に品詞として定義されていなければなりません。また、品詞名、複合品詞名は重複して使用することはできません。
1 行中で ";" 以降はコメントとなります。
;;;; ;;;; 品詞は、階層的に分類されています。 ;;;; ルートのノードは、"/"という名前を持っています。 ;;;; リーフが本当の品詞になっています。 ;;;; ノードは、 ;;;; ノード名|品詞1:品詞2:… ;;;; と書かれます。 … … /|普通名詞/:固有名詞/:動詞/:特殊な動詞/:動詞以外の用言/¥ :その他の独立語/:接頭語,接尾語/:単漢字:疑似品詞/その他の特殊品詞
普通名詞/|名詞:サ行(する)&名詞:一段&名詞:形容動詞&名詞:数詞 … 動詞/|一段:一段&名詞¥ |
形式:
/usr/local/lib/wnn6/ja_JP/dic/usr/(username)/*.h |
頻度ファイルには、ユーザ頻度情報ファイルと FI 関係ユーザ頻度情報ファイルの 2 グループがあります。ユーザ頻度情報ファイルは、システム辞書(kihon.dic / symbol.dic / tel.dic / zip.dic)内のエントリ(単語)に対する、ユーザごとの使用頻度を管理します。FI 関係ユーザ頻度情報ファイルは、FI 関係システム辞書(fisd)内のエントリに対して、同様の管理を行います。
頻度情報は、頻度ファイルの他に、辞書本体の内部にも頻度情報を一組持っています。頻度ファイルを新しく作成した場合には、すべての項目の頻度値が 0 であるように初期化されます。以後、頻度値の更新には、辞書本体内にある頻度値と頻度ファイルの頻度値を加算したものが適用されていきます。また、新しく辞書を作成した場合には、環境設定ファイル eggrc(クライアントに Mule を使用している場合)/wnnenvrc(クライアントに kinput2 を使用している場合)などで、辞書に対して頻度ファイルの指定も行いますが、このときに、頻度ファイル名を明記しなければ、辞書本体内の頻度値を使用します。
システム辞書の辞書本体の頻度値が個々のユーザによって更新可能では、運用上の問題があります。このため、辞書本体および辞書本体の頻度に対して、パスワードを設定することができるようになっています。
辞書本体および頻度に対するパスワードの設定は、後述の「6.1 テキスト形式辞書 ⇔ データ形式辞書」にある atod コマンドの解説を参照してください。 |
パスワードの有無により、パスワードを知らないユーザに対して、下記のように制限事項が変わります。(注)
辞書本体 | 辞書本体内にある頻度 | ユーザへの制限 |
パスワード有り | パスワード有り | 頻度ファイルを使用します。 単語登録はできません。 |
パスワード無し | パスワード有り | 頻度ファイルを使用します。 単語登録ができます。 |
パスワード有り | パスワード無し | 辞書本体内にある頻度を共有できます 単語登録はできません。 |
パスワード無し | パスワード無し | 辞書本体内にある頻度を共有できます 単語登録ができます。 |
もちろん、頻度部分にパスワードが設定されていない場合でも、頻度ファイルを使用することができます。また、辞書にパスワードが設定されていない場合においても、辞書本体、頻度部分を READ ONLY に設定して使用することもできます。 |
頻度値を "-1" にセットすることにより、
その辞書エントリを一時的に変換候補から外 すことができます。
これにより、複数のユーザで共有して使用している辞書で、
1 ユーザから不要であると思われる単語を、意図的に変換候補の対象から
外すことができます。頻度ファイルを指定している場合は、
頻度ファイル内にある頻度値または辞書本体内の頻度値のいずれかを
"-1" にセットします。そして、頻度ファイルを指定していない
場合には、辞書本体内の頻度値を "-1" にセットします。(注)
この処理は、エントリを実際に削除するわけではありません。
あくまで一時的な処理ですから、辞書を柔軟に使用することができます。
テキスト形式辞書では、一時的に削除されたエントリの頻度を "-" で表します。 |
形式:
/usr/local/lib/wnn6/ja_JP/dic/iwanami/kougo.fzk |
jserver が起動時に読み込むデータ形式付属語情報データであり、付属語の接続、文節の連鎖の文法情報のデータベースです。(注)
付属語ファイル Wnn4 用に作成された付属語ファイルを Wnn6 で使用することはできません。「古いバージョンの付属語ファイルが設定されています」というエラーメッセージが表示されて、jserverが正常に動作しなくなる場合があります。 |
バイナリデータ形式辞書 jserver が読み込み、 かな漢字変換システム で使用します。 | テキスト形式辞書(EUCコード記述) ユーザによる辞書内容の更新を 行います。 |
「バイナリデータ形式 ⇔ テキスト形式」の双方向での変換は、dtoa と atod というコマンドで行います。 詳しくは、後述の「6.1 テキスト形式辞書 ⇔ データ形式辞書」を参照してください。 |
テキスト形式辞書は、vi 、emacs などのエディタを使って、EUC コードで記述します。
テキスト形式辞書は以下のような書式で作成します。
¥comment コメント ¥total 総頻度 ¥hinsi 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ |
下線部分の "¥commemt" "¥total" "¥hinsi" は固定で記述します。その他の項目についてユーザの仕様を記述します。 それぞれ「読み」「単語」「品詞」「頻度」「コメント」の間には [SPACE] または [TAB] を入力して、区切ります。
No | 項 目 | 説 明 |
1 2 3 3 3 3 3 | コメント 総頻度 読み 単語 品詞 頻度 コメント | 辞書全体に付けられるコメントです。 辞書全体の頻度(その辞書が経験した単文節変換の回数)です。 (int型) 単語の読み。256文字までの長さで、ユーザ辞書はひらがな・ 「ー」・半角英数字で、システム辞書はひらがな・「ー」で逆順に 表現します。 半角英数字は大文字/小文字の区別は行いません。ソート時の文字 の昇順は「ー」・ひらがな・半角英数字の順になります。 (注) 256 文字までの半角文字・全角文字・外字などすべての文字表現が 可能です。 スペース、改行などの制御文字は " 0" に続く2桁の8進数で表しま す。 "¥" に "0" 以外の文字を続けるとその文字を指すようになります ("¥¥"は文字 "¥" を指します。) 品詞名を入力します。 各単語ごとの頻度値です。 各単語ごとに付けられるコメントです。512文字までです。 |
バイナリデータ形式へ変換することを考慮して、必ず、単語は読みでソートされていなければなりません。 |
ユーザが新規にユーザ辞書ファイルを作成した場合、その辞書ファイルはユーザ辞書ファイルを納める以下の所定のディレクトリ下に置きます。
/usr/local/lib/wnn6/ja_JP/dic/usr/(username)/* |
また、その辞書ファイルを Wnn6 が参照するように設定しなければ なりません。設定方法はクライアントごとに異なります。
"address.dic" を新しく作成して、クライアントに Mule を使用する場合、eggrcファイルに次のように追加します。
同様に、クライアントに kinput2 を使用する場合、wnnenvrc ファイルに次のように追加します。
|
wnnenvrc ファイルについては、「8. Wnn6 の動作環境」の章の「かな漢字変換環境の設定」 を参照してください。 |
|
バイナリデータ形式の辞書ファイル名は、拡張子 ".dic" を、 テキスト形式の辞書ファイル名には、拡張子 ".u" を付けて、区別します。
テキスト形式辞書は、EUC コード形式であり、標準で UJIS を採用しています。 UJIS 以外の EUC 形式のテキスト辞書を変換する場合には、環境変数 CSWIDTH を設定します。
形式:
% /usr/local/bin/Wnn6/atod binary-data < text-data |
% atod /usr/local/lib/wnn/ja_JP/dic/usr/userA/userA.dic < userA.u カレントディレクトリ下の "userA.u" という EUC テキスト形式辞書を、 "/usr/local/lib/wnn/ja_JP/dic/usr/userA/userA.dic" (バイナリデータ形式)に変換します。 |
atod のオプションには次のようなものがあります。
atod [-s 語数] [-R] [-S] [-U] [-r] [-N] [-n] [-P 辞書パスワードファイル名] [-p 頻度パスワードファイル名] [-I] [-e] [-h 品詞ファイル名] binary-data < text-data |
-s |
割り当てるメモリ容量を指定しますが、通常は指定の必要はありません。
atod がメモリ領域不足のメッセージを出力して終了した場合に、
[-s]オプションを指定して再実行させます。 指定するときには、辞書の語数より少し大きい数字を指定します。 初期設定値は 70000 です。 |
-R | テキスト形式辞書を逆引き形式辞書に変換します。(初期設定) |
-S | テキスト形式辞書を固定形式辞書に変換します。 |
-U | テキスト形式辞書を登録可能形式辞書に変換します。 |
-r | テキスト形式辞書を変換するときに、読みと漢字を反転します。 |
-N | 辞書のパスワードに "*" を設定します。 |
-n | 頻度のパスワードに "*" を設定します。 |
-N / -n オプションで、それぞれパスワードに "*" を設定すると、だれにも内容を変更できない辞書/頻度ファイルになります。 |
-P 辞書パスワードファイル名 | 辞書のパスワードを記述したファイル名を設定します。 |
-p 頻度パスワードファイル名 | 頻度のパスワードを記述したファイル名を設定します。 |
-l | システム辞書を作成するときに使用します。 |
-e | 読みと候補が同一の場合(ひらがなのみの候補)、読みから候補 データを検索できるようにします。これにより、辞書のサイズを 小さくすることができます。 |
-h 品詞ファイル名 | 使用する品詞データファイル名を指定します。 |
形式:
% /usr/local/bin/Wnn6/dtoa binary-data > text-data |
% dtoa /usr/local/lib/wnn6/ja_JP/dic/usr/userB/userB.dic > userB.u "/usr/local/lib/wnn6/ja_JP/dic/usr/userB/userB.dic" と |
また、バイナリデータ形式辞書に続いて、頻度ファイルを指定することもできます。
形式:
dtoa binary-data [<頻度ファイル名> …] > text-data |
頻度ファイルは複数指定することができます。頻度ファイルを指定すると、その頻度情報がテキスト形式辞書に反映されます。
dtoa のオプションには次のようなものがあります。
dtoa [-n] [-s] [-e/E] [-h 品詞ファイル名] binary-data [<頻度ファイル名> …] > text-data |
-n | テキスト形式辞書を、登録順にソートします。 |
-s | シリアルナンバーを付けます。 |
-e | 特殊表現に展開します。[SPACE] [TAB] などを8進表現に展開します。 (初期設定) |
-E | 特殊表現に展開しません。[SPACE] [TAB] などを8進表現に展開しません。 |
-h |
品詞ファイル名を指定します。 省略時には "/usr/local/lib/wnn6/ja_JP/hinsi.data" が適用されます。 |
形式:
% /usr/local/bin/Wnn6/wnntouch binary-data … |
データ形式辞書または付属語情報ファイルは、複数指定することができます。