日本翻訳連盟(JTF)

2-F オールジャパンで対訳を集める活動~みんなでニューラル機会翻訳を育てよう! そのための課題と対策~

隅田 英一郎 Sumita Eiichiro

自動翻訳への熱い期待を間違いなく結実させるために注力中。IBM、ATR、NICTの研究所を渡り歩きつつ一貫して自動翻訳に関わり、規則、用例、統計、ニューラルネットの全技術を熟知。音声翻訳アプリVoiceTra、テキスト翻訳サイトTexTraを公開して、「対訳データ」と「高度なアルゴリズム」によって、本質的に翻訳が困難な日本語と英語の間でさえも高精度自動翻訳が実現可能であることを証明してきた。現在、2020年をゴールとする音声翻訳の国家プロジェクト「グローバルコミュニケーション計画」を推進しながら、翻訳イノベーションの種蒔き・草抜き・水やり等のお世話に精を出している(^^♪。


報告者:橋本麻友美(フリーランス翻訳者)
 



セッションの概要

“みんなで世界一の機械翻訳を作ろう”

 ニューラル機械翻訳の精度を上げるためには、アルゴリズムの改良と対訳データの収集が必要である。アルゴリズムの研究は日々進んでいるが、多様な分野からの対訳データが集まっていない。そこで「オールジャパンで対訳を集める活動」が提案された。対訳データを十分に整備することで、高精度化を実現させたい。みなさんにご協力いただきたく、活動内容の詳細やそこに至るまでの経緯をお話しする。
 翻訳アプリの実演でシステムのイメージをしつつ、参加者と質疑応答をして疑問を払拭した。今後も議論の余地はあるだろう。参加者の半数は翻訳会社の方で、残りの1/4ずつは翻訳者とソースクライアントの方であった。

「目指せ!機械翻訳立国」

 AIの時代になり、自動翻訳システムを高精度にすることの道筋が見えた。そこで皆さんでどんな協力ができるかを議論させていただきたい。
 まず、2023年までに20億文の翻訳データを集めたいと考えている。20億文のデータがあれば、高精度なシステムができるからだ。2003年からデータを集め始め、4年で10倍ものデータが集まった。だが、今までと同じやり方では集められない。収集方法は後半にお話しする。

 高精度な自動翻訳システムができたときの世界を想像しながら聞いていただけたら。
 

多言語音声翻訳アプリVoice Tra(ボイストラ)の実演
日本語で話しかけると、ベトナム語に音声翻訳してくれる。


 このアプリでは31言語に対応。「日経PC21」にて、グーグル機械翻訳とボイストラの翻訳品質の比較が紹介されている。ボイストラは対訳データが少ない分野で、グーグル翻訳に劣後してしまう。しかし旅行会話に関しては、より自然な翻訳ができる。それはデータ量が多いこと証明である。
 東京五輪に向けて、日本中にこの技術を使ったデバイスを普及させる。日本は言葉の壁が高いと考えられているが、だれでもどこでもおもてなしができる世界を実現したいと考えている。

 一例をご覧いただきたい。
 

映像:Logbarの翻訳装置
外国人が日本で音声翻訳アプリを片手に観光している。
音声翻訳アプリを使って、日本人とコミュニケーションをはかる。


 自動翻訳は海外旅行で役に立つシチュエーションになっている。

ニューラル機械翻訳の紹介

 人間が翻訳する時の脳の仕組みは単純なので、同じようにコンピューターに翻訳させてみた。実験したところ、予想よりはるかに高性能なシステムができた。対訳データと深層学習で、翻訳システムをつくっている。プロセスは、日本語と英語をペアにして読み込ませる。対になる文章を蓄積していく。大量に読み込ませることにより、未知の文章も訳せるようになるのだ。
 日本語と英語では文法や語彙など差が大きいため、日英は自動翻訳ができないと思われていたが、大幅に改善されてできるようになった。SMT (従来技術)と比較すると、どの分野でも20%くらい翻訳精度が上がっている。ただ条件がある。それは該当分野に関して、対訳データが十分にあること。対訳データがないと、箸にも棒にもかからないシステムになっている。性能を上げるためには対訳データを十分に整備することが重要である。

 NICTのNMTをご紹介する。NMTを試してみたいと思われたら、『みんなの自動翻訳@TexTra』へ!特徴は、ユーザー辞書が使えることだ。オーバーライドする形で自動翻訳システムに組み込むことができる。また、3ステップで精度を向上できる。1, 汎用NMTはデータを集めることでNICTが高度な性能を実現する。2, 特定分野の対訳に関しては、カスタマイズできる。該当分野の対訳データを再度学習することにより、分野にカスタマイズしたシステムができあがる。 3, 対訳辞書や用語集を導入すると、より高精度になる。

 ここまでいい側面をお話ししてきたが、課題もある。1、非常にコストがかかる。並列処理をするための加速器が必要。ハードウエアGPUが高価。2、翻訳漏れや低頻度語の誤訳が厄介。アルゴリズムの問題なので、数年後に解決される可能性はあるが。

対訳データの追加により、NMTの精度を改善できる

 アルゴリズムの改良と対訳データの収集により、NMTの精度を改善していく。アルゴリズムに関しては年間数百本の論文がでており、世界中に数千人の研究者がいるので改善されていくだろう。問題は、対訳データの収集だ。対訳データを集めれば、アルゴリズムは限界を超えて性能がよくなっていく。
 一例だが、NICTと特許庁は、多言語特許文献の高精度自動翻訳の実現に向けて協力し、システムを作っている。2014年に研究協力の合意をし、SMTを実現。2016年にNMTを導入したところ、高性能であった。それが今、市場にでている。現在は対訳コーパスで汎用のNMTをつくった。その結果、対訳文の量を増やせば精度が上がることが証明された。
課題はデータ不足の分野の解消であり、解決に向けて発表された活動がある。

オールジャパンで対訳を集める活動 「翻訳バンク」にご協力いただきたい

 総務省とNICTは2016年9月に「翻訳バンク」の運用を開始した。総務省とNICTというパブリックセクターに対訳データを集めて、そこで高精度な自動翻訳システムをつくり、皆さんにお使いいただく。提供者の同意なしにデータを第三者に提供することはない。
 データの提供方法は3パターンある。 1、「みんなの自動翻訳@TexTra」より対訳集登録をする。(100万文収集実績) 2、NICTから依頼状/情報提供の2者間契約をする。(29社より提供実績あり) 3つ目は9月に発表されたやり方だ。
 さらに対訳データを集めるためのスキームとして、3、ライセンス契約の一部とする。これは、翻訳データを提供していただく方にもメリットのある仕組みである。質の向上と低コスト化を実現する。
 これまでは著作権法47条の7の関係で、会社のHPなどWEB上から翻訳データを集めてきた。今後は非WEBからデータを集めることが重要であると考えている。データ収集したい対訳の分野は、医薬、リーガル、ファイナンス、IR、製造業など全分野からいただければと思っている。
 対訳データの量を集めたときの疑問として、翻訳品質はどうなるかと質問をよく受ける。現実問題、世の中の翻訳データは玉石混交。多少誤りがあったりバイアスがあったりしても、問題はない。今考えているのは、質より量。
 言葉の壁をなくし多言語でのコミュニケーションを容易にすることを目指している。みんなで高精度な自動翻訳システムをつくることができれば、世界がいろんな意味で変ってくると考えている。ご協力いただければ本望だ。

質疑応答(Q&Aセッション)

Q: 稲、米、ごはんを訳仕分けできるか?(翻訳者)
A: 語彙が使われる周辺の単語や文脈で判断できる。訳し分けの難しい単語もあるが、特許翻訳において訳語選択は上手くいっている。機械はなかなかやるな、という感じではないか。

Q:医薬業界は情報をだしたがらないと思うが、どのような文章から対訳データを集めるのか?(クライアント)
A: 守秘が厳しい業界だが、最終的に公開される文章が大量にある。既に用語や対訳が集まっている。

Q: 日中・日韓の計画は?
A: 日英のみリリースしているが、順次、日中・日韓はカバーする。フランス、スペイン、タイ語などはNMTを2020年までに間に合うようにだす。

Q: 導入を検討しているが、期間や費用はどのくらいかかるのか?(クライアント)
A: 契約に一月かかる。リリースは1週間以内。御社の中にサーバーをたててもらう必要がある。

共有