Social IME ~ みんなで育てる日本語入力 ~

慶應義塾大学の学生、ユーザー参加型の日本語入力システムを開発
~ユーザー間の辞書共有とWEBデータによる予測変換を実現~

プレスリリース概要

慶應義塾大学理工学研究科において、ユーザー参加型の新しい日本語入力システム「Social IME ~みんなで育てる日本語入力~」の開発を行いました。従来の日本語入力は、オフラインのPCにインストールして1人で使うことを前提に設計されていました。それに対して、Social IMEではインターネットを用いたユーザー参加型のメリットを活かして変換を行うことができます。具体的には次のような特長があります。

本研究は修士課程の学生が行い、2007年度に独立行政法人情報処理推進機構(IPA)の未踏ソフトウェア創造事業採択されました。 開発したシステムはWebサイト(http://www.social-ime.com/)において公開を行いました。

従来のIMEとSocial IMEの違い

図1 従来のIMEとSocial IMEの違い

1. 背景・目的

従来の日本語入力は、オフラインのPCにインストールして1人で使うことを前提に設計されていました。そのため、変換に用いる辞書や単語の使用頻度などのデータは基本的にインストールした時点のものがそのまま使われます。しかし、このような方式ではデフォルトの辞書に入っていない専門用語を変換できず、予測変換も困難という問題点がありました。一方で、近年インターネットの普及により、ユーザー参加型のWebアプリケーションが増えてきています。そこで私たちは、インターネットを用いたユーザー参加型の日本語入力を開発することで、従来の日本語入力の問題を解決しました。

2. 単語辞書の共有

芸能人の名前や漫画の名前などには、従来の日本語入力システムでは変換できない単語が数多く存在しています。Social IMEでは、すべてのユーザーで登録された単語が共有されます。たくさんのユーザーが共有する辞書に単語を登録するため、変換できなかった単語を変換できるようになります。現在までにユーザーによる登録や辞書のインポートにより、54万語以上が変換できるようになりました。

例えば、図 2の左の表のような単語が変換できます。 このように登録された単語は、人名や作品名、キャラクター名、顔文字などを幅広くカバーしています。共有された辞書には既にいろいろな単語が登録されていますが、 まだ変換できない単語もあります。ユーザーは変換できない 単語を見つけたら、図 2の右側の単語登録画面を使って、単語を登録することができます。これにより次からはそのユーザーだけでなく、他のユーザーも登録された単語を変換できるようになります。

変換できる単語の例と単語登録画面

図2 変換できる単語の例と単語登録画面

多くの人がこのように単語を登録すると、変換できる単語が増えていく。たとえていえばWikiPediaのように不特定多数が編集することで、 日本語入力の辞書が自律的に成長していくシステムなのです。

3. 予測変換による入力効率アップ

携帯電話のように、予測変換によって入力効率を向上させることができる機能を開発しました。 PC初心者を対象とした実験によると、Microsoft Office IME 2007と比べて入力時間が21%、キー操作が26%削減されました。

図 3に予測変換の例を示します。特に定型的な文章や、Web上でよく使われる単語などが効率よく入力できます。予測変換には、Webデータを用いた全く新しい変換エンジンを採用しています。

予測変換の例

図3 予測変換の例

膨大なWebページの文章から単語の使用頻度などの統計量を抽出することで、よく使われる文章表現を予測変換の候補とすることができますつまりSocial IMEユーザーの中での共有だけではなく、Web全体から集合知の力を借りて変換に活かすことができます。

4. 補足説明

本研究は2007年度に独立行政法人情報処理推進機構(IPA)の未踏ソフトウェア創造事業に採択され、支援を受けて行われました。予測変換機能はグーグル社の提供するWeb日本語Nグラム[1]を用いて学術目的で研究開発が行われました。

1) 工藤拓, 賀沢秀人:Web 日本語Nグラム第1版,言語資源協会発行(2007).

5. お問い合わせ先

慶應義塾大学 理工学研究科 修士課程2年 奥野陽

TEL: 090-5753-5899, E-mail: okuno @ soft.ics.keio.ac.jp