あれこれ備忘録@はてなブログ

勉強したことやニュースや出来事を備忘録として書いていきます

Baidu IME情報送信のうち問題だったのは何?

百度ソフト、スマホ用も入力した全文を無断送信

中国製の日本語入力ソフト 入力情報を無断送信

バイドゥ、「Baidu IME」「Simeji」でユーザーの入力内容を無断送信 ネットエージェントが解析

ネットエージェントは、両アプリからSSL暗号通信でインターネットに送信されているデータを解析。ユーザーが設定画面でログ送信をオフにしたり、「クラウド入力」をオフにしていても、変換した文字列や端末名、使用中のアプリ名が、国内にあるサーバに送信されていることが分かったという。

送信されていたのは、Baidu IMEは(1)変換確定文字列、(2)Windows PCのセキュリティ識別子(SID)、(3)使用中しているアプリケーションのパス名、(4)Baidu IMEのバージョン。Simejiは(1)変換確定文字列、(2)UUIDによる個別端末識別子、(3)使用しているデバイス名、(4)使用しているアプリケーションのパッケージ名、(5)Simejiのバージョン。

基本的には、無断で送信、あるいは機能をオフにしていても情報が送信されていたこと、そして入力した日本語情報と直接関係ない情報が送信されていたこと、が問題だったのでしょう。

ネット上のクラウドから高度な変換結果をもらう多くのサービスでは入力した情報を送っています。当たり前ですね。

ひらがなの文字列を送って、それを名詞や助詞、形容詞などなどに分解、解析して正しいと思われる変換結果が返ってくるわけです。

また、変換精度を高めるために、もとのひらがな情報と変換候補のうち何を選んだのかという情報をサーバーに送るということをしていると思います。

「Simeji」の入力ログ無断送信は「実装バグ」 バイドゥ、IMEログ収集の意図を説明

Baidu IMEに関しては「事前に規約を読んでもらっているはず、許可を取ってる」という主張で、Simejiに関しては「オフにしたのに送られていたのはバグ」という見解のようですね。

Baidu IMEについてはちょっとひどい言い訳に思えます。

追記

ログ情報の送信は設定のプライバシーで変更できました。インストール時にもチェックがあったと思います。無断とまでは言えないようです。

Baidu IME の設定・使い方 - フリーソフト100

さらに追記

プライバシーの項目で設定もできる。 http://blog.livedoor.jp/blackwingcat/archives/1609424.html

ただ、Simejiのようなオフにしても通信している疑いがあります。

Simejiは、バグかどうかはわかりませんが、あるバージョン以降で問題になったというのは正しいのではないでしょうか?

ずっと以前から問題になっていれば、Google日本語入力で個人情報の不安が指摘されたり、iPhoneのSiriで情報が送信されて問題になったりしたときに、Baidu IMEやSimejiについてもチェックされていたんじゃないかと思うんですよね。

随分以前からGoogle日本語入力と同じかそれ以上にIME以外のファイルと思われるものをIMEとは別のフォルダにインストールして、アンインストールしても消えないなど、Baidu IMEをお行儀の悪いアプリと指摘している人も少なからずいたので、問題があればもっと前に知られていたと思うんですけども。

Simejiの影響は大きいでしょうね。700万ユーザと言うとかなりの数です。

Baiduに買収される前から使っていたユーザや、初音ミクとコラボした背景UIが気に入った人、それから以前はx86マシンで動いているAndroidで動く日本語入力ソフトはSimejiくらいしか無かったので、そのころから使っている人もいるでしょうね。

今はGoogle日本語入力x86で動きますし、ARMエミュレーションが働いているので通常のAndroidアプリでもほとんどの場合動きます。

あとBaiduIMEが以外にユーザが多く、公的な機関での使用が少なくなくて問題になったことです。

マイナーなIMEをわざわざ公的な機関で使うのは何故か?と思ったのですが、安いOfficeソフトやフリーウェアに抱き合わせでついてくるそうです。

なるほどなと思いました。

これがきっかけで乗り換える人がたくさん出てくるでしょうね。

おまけ

面白かったのはBaidu.jpで「baidu IME 無断送信」で検索したところ、今回の事件の情報が全然出てきませんでした。

情報操作か?と思ったのですが、検索結果が古いだけみたいです。

一時期問題になり、たしか今はサービスが終了したはずの百度ライブラリでの著作権作品の無断公開がヒットしてました。

入力日本語情報を集めるよりも検索結果を向上するための情報を収集したほうがいいんじゃないでしょうか…

広告を非表示にする