header

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS

(工事中)

私は普段 Ubuntu Linux を使っています。エディターは emacs を使うことが多いのですが、 日本語入力に既定の Anthy を使うと、漢字入力モードにする度切り替える必要があり、 Latex の原稿のような全角・半角文字が頻繁に切り替わるテキストの編集は煩雑過ぎて 使い物になりません。emacs にはフリーの漢字変換ソフト canna による日本語入力を 簡易化する yc-mode があり、これは半角で入力した後、Ctrl + j で日本語入力モードに 切り替えること無く即座に日本語変換が可能になるため、作業効率が高くなります。

注意:Ubuntu ではパッケージ canna とともに canna-util, yc-mode をインストールしてください。

canna に付属する日本語辞書は今一貧弱で変換効率が悪いことが悩みの種です。これにフリーの辞書を組み込むことで 変換効率を飛 躍的に向上させることが可能です(ただし変換候補が多くなりすぎて困るとい う贅沢な悩みが新たに生じます)。以下ではそうした辞書を canna で利用するための tips を紹介します。このホームページから入手できる辞書(全てテキスト形式で、普通名詞もしくは固有名詞として記載)は下の一覧を見て下さい。

必要な辞書の用意

mycannadic.t を適当な作業用ディレクトリーにダウンロードする。

辞書を canna に登録する。

canna の辞書保守用の命令 mkdic を用いて  mkdic -l mycannadic.t mycannadic で mycannadic.t を canna のユーザー辞書ディレクトリーに登録してください(しばらく時間がかかります)。 最初の引数 mycannaskk.t は登録しようとする辞書ファイル名、最後の引数 mycannadic はこの辞書のニックネームで任意です。 辞書の登録は既定の canna のユーザー辞書ディレクトリー(例えば私の使用している Ubuntu Linux では /var/lib/canna/dic/user/mase )に自動的に行われます。 登録ファイル名は登録順に自動的に user1.ctd, user2.ctd,... という名前になり (そのうちの一つは個人的登録単語用の既定辞書ファイルでニックネーム user を持ちます。最初に 単語登録をする際に作られます)、同じディレクトリにある登録辞書一覧ファイル dics.dir の各行に

usr2.ctd(.mwd) -skk--w- 

といった風に自動的に記録されます(ユーザーが登録してもこれらのファイル の所有者は root です)。 登録が無事に終れば作業ディレクトリにある元辞書ファイルは不要になります。 登録済みの辞書は canna の辞書保守用命令 lsdic で確認できます。 システムに用意された辞書は lsdic -iで一覧できます。

canna 設定ファイルの編集

必要な辞書ファイルをすべて登録したら、次にユーザーのホームディレクトリにある canna 用初期化ファイル .canna を編集します。 もし無ければ .canna をホームディレクトリにおきます。 (ファイル名の先頭のドットに注意)。このファイルの (use-dictionary で始まるブロックに登録辞書のニックネームを示す "mycannadic" という一行( 前後の二重引用記号が必須 )を加えてください。 こうすることにより次回から canna を起動したとき辞書 mycannadic が利用可能になります。

チェック

  • 単語 あおいきといき が一発で 青息吐息 に変換できれば辞書 skk.t の登録が成功したことになります。
  • 地名 あいおふたじま が一発で 秋穂二島 に変換できれば辞書 skkgeo.t の登録が成功したことになります。
  • 人名 わかやまとねこひこおおひび が一発で 稚日本根彦大日日 に変換できれば辞書 skkjinmei.t の登録が成功したことになります。
  • 法律用語 いきちししょう が一発で 遺棄致死傷 に変換できれば辞書 skklaw.t の登録が成功したことになります。
  • 地球科学用語 りゅうたいけんさんそのうど が一発で 流体圏酸素濃度 に変換できれば辞書 chibutu.t の登録が成功したことになります。
  • 人名 あきとう が一発で 秋藤 に変換できれば辞書 hujinmei.t の登録が成功したことになります。
  • 医学用語 あからじあが 一発で 無弛緩症 に変換できれば辞書 cannamed.dic の登録が成功したことになります。
  • 生命科学用語 あんそくこうさんえん が一発で 安息香酸塩 に変換できれば辞書 lsd3.t の登録が成功したことになります。

canna にはテキストファイル形式の辞書をバイナリー化してより早く検索できるようにする機能が ありますが、現在の計算機の能力ではテキスト形式のままでも十分高速です。

canna 辞書ファイルの編集

canna の辞書ファイルは少なくとも普通名詞については

読み #T35 変換文字  (例  わりもどし #T35 割戻 )

という行を並べただけのものですから、他にもテキスト形式のフリーの 辞書があれば、適当に変換し canna 用の辞書にすることは簡単です。 登録された辞書では、同じ読みの語は一まとめにされ、あいうえお順にソーティングされます。更に重複した単語が あれば一意化されますから、元テキスト辞書は単語がどんな順序で現れようとも、どんなに重複があろうとも最終的には問題はあり ません。 mycannadic.t は約 31 万行(つまりこれが重複を含めた 単語数)、サイズは 8.0Mbyte で、登録された辞書のサイズは 6.2Mbyte になります。重複を除いた単語総数は全部で約 26 万語という莫大なものになります。

mycannadic.t について

mycannadic.t は以下のテキスト形式のフリーの日本語辞書ファイルを個人的に統合したものです。

  • skk.t 日本語入力ソフト SKK 用の基本辞書(Large版) 【SKK-JISYO.L】を canna 用に変換したもの。辞書名 skk.t 、登録語数約13万5千語。
  • cannamed.t Yo-Nagisa版【一万語医学辞書】を canna 用に変換したもの。入手・使用条件についてはホームページを参照。登録語数約1万5千語。
  • skktimei.t 日本語入力ソフト SKK 用の地名辞書 【SKK-JISYO.geo】を canna 用に変換したもの。 郵政事業庁のページにあるデータをもとに SKK 辞書形式に加工したもの。使用・再配布・移植・改良について郵政省は著作権を主張しない そうです。登録語数約7万3千語。
  • skkjinmei.t 日本語入力ソフト SKK 用の人名辞書を canna 用に変換したもの。本来の名前は【SKK-JISYO.jinmei】で Wnn 用の辞書「人名辞書(gerodic) 1.00」を SKK 形式に変換したもの。登録語数約1万語。
  • chibutsu.t 地球物理に関連する用語や重要な人名などを含む地球物理辞書の canna 版。登録語数約6千語。
  • chibutsu-canna.t 地球物理辞書とその関連文書。
  • skklaw.t 日本語入力ソフト SKK 用の法律用語辞書【SKK-JISYO.L】を canna 用に変換したもの。小松弘氏による GPL 法律辞書「法律用語電子化辞書 LKKS」を SKK 辞書形式に変換したもの。登録語数約1万3千語。
  • hujinmei.t 角川裕次氏が広島大学の職員の姓名を Wnn version 4 用に辞書化したものをさらに canna 用に変換したもの。1998年4月時点の教職員と学生(約8万6千人)の氏名データを元にしている。当世風の宛て字まがいの多くの名前が登録されています。使用許可条件は明記されていないようです。登録語数約3万2千語。
  • lsd3.t 国立感染症研究所石川淳氏による生命科学辞書【Lsd3】を canna 用に変換したもの。登録語数約2万8千語。

注意:これらのフリーの辞書ファイルの配布に対しては、 オリジナルの著作権・使用許可表示を明記する ことが求められるものが含まれています。オリジナルの著作権・使用許可については関連ホームページを是非御覧下さい。 より詳しい説明はここにあります