日本翻訳連盟(JTF)

1-3 ディープラーニング、統計、ルール、使えるものは何でも使う 最先端の『音声・言語』処理技術

隅田 英一郎 Sumita Eiichiro

情報通信研究機構NICTの副研究所長。1982年電気通信大学大学院修士課程修了。99年京都大学大学院博士課程修了、博士(工学)。82年(株)日本アイ・ビー・エム東京基礎研究所研究員。92-2009年国際電気通信基礎技術研究所研究員、主幹研究員、室長。07年から情報通信研究機構研究マネージャー、グループリーダー、ユニバーサルコミュニケーション研究所副所長多言語翻訳研究室長として機械翻訳、情報検索、eラーニングに関する研究開発に従事。05-11年神戸大学大学院システム情報学研究科客員教授。言語学会会長。総務大臣賞、文科省大臣賞など受賞歴多数。
 

報告者:川名 広治(一般財団法人 日本予防医学協会)
 



今日は皆さんに言語処理技術が驚くほど急速に進歩しているということを知っていただきたい。精度改良サイクルがどんどん短縮している。情報通信研究機構(NICT)が開発した最先端の「音声・言語」処理技術を紹介する。この技術を皆さんと共有し、皆さんにどんどん利用していただきフィードバックしてほしい。対訳データ量が多いほど、翻訳精度が高くなる。

音声認識の仕組みを紹介する

日本語の音声データを集める。数千人の老若男女のデータをマッチングすることで、音声を判定する。音声翻訳のプロセスは、①音声を認識し文字化し、②相手の言語に変え、③訳文の音声を合成する。音素を判定したり、言葉の規則性をとらえたり、単語の並び方をとらえたりする。例えば、「新幹線」の次には「乗る」や「間に合う」が来る確率が高い。「駅」の次には「から」や「の」が来やすい。そういう確率を集めてゆく。訳語や語順をモデル化し、確率の積が最大になる訳文を出力する。

対災害SNS情報分析システム「DISAANA」の開発経緯

日本は震災が多いが、3月11日の東日本大震災時にはPCもITも何も役立たなかった。
「マスコミも行政も事態を把握していない」と震災地のボランティアが嘆いていた。
何が何処で不足しているのか?どんな情報があれば役に立つのか?どんな技術が必要なのか?当時は分からなかった。そこで開発されたのがWISDOM-Xを災害向けにチューンした対災害SNS情報分析システムの「DISAANA」(ディサーナ)だ。
Twitter社が、同社が保有するデータを活用するプロジェクトを募集した。世界中から1,300件の応募があり、選ばれたのは6件だけ。その中にNICTのプロジェクトが入った。日本からはNICTだけが選ばれ、無料で膨大なデータを1か月間利用させてくれた。Twitter社の東日本大震災時のTwitter情報はDISAANAを作るうえで活用された。

DISAANAの実証実験が10月に宮城県で実施された。自治体職員の全員から「役に立つ」との評価され参加者からも好評を得た。宮崎県と連携して今後も改善してゆく。
DISAANAは一般に公開されており、消防庁で実際に運用される段階に入っている。
マスコミより早く情報を取得できるケースが多く、リアルタイムに事故や火災の情報をキャッチできる。デマ対策として、矛盾する情報を同時に提供したり、否定や推量を解析することで、情報の信ぴょう性を判断する材料も提供している。DISAANAは毎秒最大15,000のツィートを処理できる。一日平均では1,000万のツィートを処理している。

進化する人工知能/実用化の時代へ

最初のデモシステムは1文を処理するのに1分もかかる代物だったが、今は瞬時にできるほど飛躍的に進歩している。現在はディープラーニング(深層学習)で従来よりはるかに精度が向上している。人工知能は質問に回答するだけでなく提案することもできるようになる。対話システムが開発され、人工知能と雑談が楽しめるほど進歩してゆく。
旅行会話の分野で実用化された音声翻訳を、医療、防災、交通機関など多分野化することになる。社会的に実用化してゆくために、産学官が協働するシステムがつくられている。世界初のスマホ用の音声翻訳アプリ「VoiceTra」(ボイストラ)が一般公開され、100万人を超える人々に音声翻訳を体験してもらい、その技術は交通機関、空港、通信企業などで利用されている。都内の地下鉄ではすべての駅員が「VoiceTra」を体験している。

話し言葉が瞬時に文字に!

自動翻訳はとても役に立つ。アジアからの訪日客が8割を占め、アジア言語の需要にどう応えるかが課題になっている。アジア言語は翻訳者も少ない。対策として機械翻訳が手段として使える。「みんなの自動翻訳@TexTra」をぜひ利用してみてほしい。また、VoiceTraを実際に使用してみて自ら判断してほしい。様々な言語の翻訳を機械がやってくれる。
実例をビデオでご覧いただきたい。

 

画像:音声認識のビデオが上映され、外国人が話す英語が瞬時に文字化されてゆく。


非常に認識率が高くなっていて、どんなトピックでも環境さえよければ認識できる。雑音があったり、複数の話し声が重なると認識が難しくなるが、複数のマイクで指向性集音することで精度が改善できる。この技術が普及すれば翻訳が早くできるようになる。
時間が短縮できるので費用が安くなり翻訳需要も膨らむ。

次のビデオでは、英中日の3か国語を音声通訳するシーンが上映された。
 

画像:3人の男性がそれぞれ異なる言語で、駅への行き方、電車の発車時刻、乗車賃を尋ねると、即時にPCが質問された言語で応答する。PC画面には3か国語の訳文も表示される。


音声処理技術は十分に社会実用できる段階になっている。対話を十分に理解したうえで応答できるようになる。人と機械が全く違和感なしに対話できるようになるのに5年もかからないだろう。

 



質疑応答(Q&Aセッション)

Q/どのソースからデータが出てきたのか、情報の出所の確認は可能か?
A/例えば厚労省から出ているなど出所が分かるようになっている。

Q/訛りが強い英語の場合は翻訳可能か?
A/豪州、英国、米国の違いか?

Q/英語圏以外の外国人の英語ということである。
A/米語・英語はできるが、シングリッシュ(シンガポール人の話す英語)はできない。しかしデータを入れてモデルを作れば良い。現地で使われている単語も追加しなければならない。つまり時間と金を掛ければできるようになる。

Q/長文でも認識・翻訳できるのか?
A/長文でもできるが、話し言葉が非常に多いと難しくなる。長文をどこで切るか。それが全文を翻訳するときの課題となる。対訳データに翻訳例が十分にないのがネック。膨大なデータを入力してシステムを作る。やがて汎用ができると長文も翻訳できるようになるが、数パーセントのエラーが残るかもしれない。

Q/若者などの曖昧な質問はどうか?
A/それは音声認識の問題ではないですね。

Q/曖昧な内容でも返事はできるか?
A/主語が省略された文章でも、正確に答えられるようになっている。
技術の急速な進歩で、機械がデータを集め学習し応答するのが可能になっている。
世界最大の言語資源「ALAGIN」(アラジン)を公開している。ぜひご覧になっていただきたい。
将来的には、人と機械の翻訳が相互に補完し、全体としてメリットがでる形に進化してゆくと考えている。
 

共有