あれこれ備忘録@はてなブログ

勉強したことやニュースや出来事を備忘録として書いていきます

このブログには広告が含まれます

Puppy LinuxでMozcが使えるようになっていた。Anthy辞書強化もついでに

 Puppy Linuxで動くMozc(SCIM-Mozc)が日本語フォーラムに出ていました。

 

scim-mozc パピー日本語フォーラム

 

元のものは2ch発で、そちらにはPetパッケージがありました。

 

"【CD/USB】PuppyLinux - 17匹め - 【軽量】 [転載禁止]"で検索してみてください。

 

どちらも辞書設定が出来ないようです。

 

SFSの方がその都度、使わないようにできるの良いかも知れません。

 

Anthyの辞書強化しても標準よりは随分ましになるはずですから、普段はAnthyで良いような気もします。

 

追記

TarhPupで試してみました。

 

f:id:t_massann:20151122133519p:plain

 

テキスト入力欄でCTRL+SPACEでSCIMを起動して、Anthyと書かれているところをクリックして切り替えます。

 

f:id:t_massann:20151122133645p:plain

 

SCIMの設定でのMozcの欄は空でした。

 

辞書どころかキーバインドなどの設定もできません。

 

直接入力の切り替えもscimごとOFFにしなくてはいけないようです。

 

あとはスペースを押す前に変換候補が出ますが方向が通常のMozcとは違って横方向なのでscimで縦に表示するよう変更する方が慣れの面で良いかも知れません。

 

ホームに".mozc"ディレクトリができているので、手で書き換えるといろいろ変更できる設定はあるかもしれません。

 

変換候補がスペースを押す前に出るのは非力マシンでは負担になると思うので、そういう意味でも普段はAnthyのほうが良いかも知れませんね。

 

Anthy辞書の強化もやりました。

 

MS-IMEの辞書登録データをAnthyの辞書へ移行: 端っこなひとの備忘録

 

ここにあるように表計算ソフトを使って比較的簡単に編集できます。

 

http://www.geocities.jp/ep3797/mozc-ut2.html

 

 ただ、現在のものはビルドしないと使えません。

 

昔のバージョンではhatenaキーワードから抽出した辞書があったのでそれを表計算ソフトで編集して"~/.anthy/imported_words_default.d/"へhatena.tとして置きました。

 

現在の辞書データは上のサイトからダウンロードしたファイルを解凍したフォルダのdata->dictionary_ossにありますが、そのままでは使えません。

 

/src/data/dictionary_oss/id.defが品詞の表だと思われます。

 

こちらも参考に。

 

Google日本語入力の品詞一覧 - KEINOS™の日記

 

上の「端っこな人の備忘録」さんのところにあるように細かくは設定できないため表計算で適当に変換しましょう。

 

表計算ソフトで番号順に並べ替えて、id.defを見ながら人名や固有名詞だけを抜き出してそれだけ登録するという方法もあります。

 

それだけでもずいぶん違うのではないかと思います。

 

重要そうなものだけを抜き出して、少しずつ辞書にしていくとか品詞ごとに辞書を分けるのも良さそうです。

 

腕に自身がある人はプログラムやシェルスクリプト表計算のマクロで変換しても良いでしょう。

 

注意が必要なのは文字コードUTF-8にすることと改行コードをLFにすることです。

 

改行の方は表計算ソフトに読み込んだときに変わってしまったり、保存時に変換されてしまったりしてしまうことがあるので、テキスト編集ソフトで開き直すなどして確認、変換がいるかもしれません。

 

SCIMの辞書ファイルを起動するとかなり時間がかかりますが読み込み終わると編集ダイアログが表示されるようです。

 

追記

sakurapup.browserloadofcoolness.com • トピック - scim-mozc バイナリ

 

こちらを使うと辞書ツールも使えるらしいのでインストールしてみました。

 

しかし、SCIMの設定にはMozcの項目があるものの呼び出すことができませんでした。

 

しかたがないのでこれをインストールした上に、さらに上のSFSをロードしてみました。

 

すると設定や辞書ツールも使えるようになっていました。

 

これで強化辞書をテキストファイルに変換して辞書登録ツールからインポートをしてUbuntuなどと同じ程度の変換精度のMozcを使うことができますね。

 

しかし、上に書いたようにAnthyでも辞書を強化すれば十分に使うことができます。

 

この記事もAnthyで書いています。

 

少しスペースを押して変換する頻度が多いですが、誤変換はそれほど多くありません。

 

好みで使い分けられるというのは選択肢が広がって良いですよね。

 

さらに追記

scim-mozc-20151202.sfs (42.2 MB)がフォーラムでダウンロードできます。

 

https://mega.nz/#!8lM0DKqR!4jtHwQM_0UtMrNs7oSo1aVMFoTB5RtDuq7fdM6VMw4s

 

これをダウンロードして、petファイルをアンインストールし、前のバージョンのsfsファイルのロードを無効にしてから、ダウンロードしたsfsをロードしましょう。

 

--------------------

 

Google日本語入力強化辞書も手に入らなくなり、Mozc UT Dictionaryもそのままでは使えないのでちょっと面倒です。

 

---

 

追記

 

https://www.mediafire.com/?cy1mxpjds5l5h

 

Google日本語入力強化辞書は上のリンクから手に入ります。

 

これを変換することでAnthyに読み込む辞書が作れます。

 

userdic - 日本語入力ユーザー辞書変換スクリプト

 

変換スクリプトもあります。

 

元の辞書がShift-JIS形式である場合にはうまくいかず、iconvなどの変換コマンドでエラーが出ることもあるので、その場合は一度Mozcの辞書ツールにインポートし、作った辞書をエクスポートすると良いと思います。

 

追記終わり

 

---

 

Mozc自体のソースが必要な場合や用意されているのがArch Linux用のスクリプトだったり、scimが想定されていなかったりと、素人にはちょっと手が出せません。

 

リンク切れもあるかも知れませんが、フリーの辞書がこのページでまとめられています。

 

フリーのIME・ATOKユーザ辞書リンク集 | mwSoft

 

100年分のアニメタイトルだけを集めた辞書もあるそうです。

 

animedb/google-ime-dict.txt at master · anilogia/animedb · GitHub

 

上で紹介したGoogle日本語入力の品詞一覧をまとめられた方が作ったカタカナ語辞書もあります。

 

Google Code Archive - Long-term storage for Google Code Project Hosting.

 

Canna用辞書ですが、ここにある.tファイルを"~/.anthy/imported_words_default.d/"

 

GitHub - mt819/Canna-Dictionary: かんな辞書 / Dictionary for Canna

 

ありがたく使わせてもらいましょう。

 

----------

 

そのまま使うのではうまくいかないことが判明しました。

 

詳しくはこちら。

 

 

arekorebibouroku.hateblo.jp

 

arekorebibouroku.hateblo.jp