ニューラル翻訳(NMT)の実体とその周囲の実態に迫る ~NMTとの良い関係の確立を~
2017年度JTF第6回翻訳セミナー報告
ニューラル翻訳(NMT)の実体とその周囲の実態に迫る
~NMTとの良い関係の確立を~
内山 将夫
日本語に関係する世界最高精度の自動翻訳エンジンを構築し、それを世の中に普及するための研究開発に従事している。現在、情報通信研究機構の自動翻訳エンジンの開発を指揮しており、2017年6月には VoiceTraにニューラル自動翻訳エンジンを導入した。また、2002年ごろに新聞記事の日英対訳データ18万文程度を構築し、それ以来継続的に対訳データを構築・収集していて、数年前には億文オーダーの対訳データを構築した。
三笠 綱郎
大手電機メーカーでシステム開発に携わった後、1990年代半ばローカリゼーション業界に入り、翻訳サービスのプロセス標準化や品質管理、翻訳チームのマネジメント、機械翻訳をはじめとした言語関連の各種テクノロジーの導入に従事。途中フリーランス翻訳者も経験し、ITを中心としたさまざまな分野の翻訳に携わる。現在は(株)十印にて、品質管理プロセスの強化・改善とともに最新のMT技術の翻訳現場への導入に取り組んでいる。
隅田 英一郎
自動翻訳への熱い期待を間違いなく結実させるために注力中。IBM、ATR、NICTの研究所を渡り歩きつつ一貫して自動翻訳に関わり、規則、用例、統計、ニューラルネットの全技術を熟知。音声翻訳アプリVoiceTra、テキスト翻訳サイトTexTraを公開して、「対訳データ」と「高度なアルゴリズム」によって、本質的に翻訳が困難な日本語と英語の間でさえも高精度自動翻訳が実現可能であることを証明してきた。現在、2020年をゴールとする音声翻訳の国家プロジェクト「グローバルコミュニケーション計画」を推進しながら、翻訳イノベーションの種蒔き・草抜き・水やり等のお世話に精を出している(^^♪。
2017年度JTF第6回翻訳セミナー報告
日時●2018年3月8日(木)14:00 ~ 16:40
開催場所●剛堂会館
テーマ●ニューラル翻訳(NMT)の実体とその周囲の実態に迫る
~NMTとの良い関係の確立を~
登壇者●内山 将夫 Utiyama Masao 国立研究開発法人 情報通信研究機構 研究マネージャー●三笠 綱郎 Mikasa Tsunao 株式会社 十印 品質管理・MT戦略部マネージャー●隅田 英一郎 Sumita Eiichiro 国立研究開発法人 情報通信研究機構 フェロー、JTF理事
報告者●目次 由美子(XTM International Ltd.)
約130名の参加者で溢れんばかりの会場にて、隅田氏のイントロダクションによってセミナーが開始された。機械翻訳は過去には使えないと言われたこともあり、崖を登っては転げ落ちるということを約60年間にわたって繰り返して来たそうだ。しかしながら、峠は越えたと認識しており、その確たるところを紹介したいと隅田氏は力強く語られた。そして、質疑応答を中心に本セミナーを進めたいと、参加者の積極的な発言を促した。
「NMTの利用方法」というスライドが映し出され、内山氏のセッションが始められた。自動翻訳サイト「みんなの自動翻訳」は2014年頃から製作し、公開しているそうだ。当初は統計的翻訳(Statistical Machine Translation: SMT)であったが、昨年度からニューラル翻訳(Neural Machine Translation: NMT)も利用可能になった。登録にも利用にも費用は発生しない。このサイトで自動翻訳を利用するには、複数の方法がある。
-
テキストを入力して翻訳を実行する。
-
MS Word文書などのファイルや、WebページのURLを指定して翻訳を実行する。
読み込まれた文書はフォルダに格納され、左列にセグメント化された原文、右列に自動翻訳によって生成された訳文が対訳テーブルとして表示される。いわゆる「翻訳支援ツール」の機能を統合的に利用できる。翻訳メモリ(Translation Memory: TM)や用語集を活用でき、対訳の登録も可能。Word文書などの場合はWYSIWYGモードとして別ウィンドウに表示しての編集も可能。
自動翻訳についてはカスタマイズも可能であり、翻訳前に原文を書き換える、翻訳後に訳文を書き換える、TMを利用した完全一致翻訳、訳語の指定などが設定できる。著名な翻訳支援ツールのみでなくWebAPIも利用可能であり、連携の幅広さも伺える。平均して1日100人以上のログインを確認しており、近い将来に翻訳速度の高速化が予定されている。
さらに、内山氏は「NMTの技術解説」を続け、NMTとはコーパスに基づく自動翻訳技術(コーパスベースMT)の最新パラダイムであると説明した。コーパスベースMTを構成する要素として、1. アルゴリズムとハードウェア、2. 対訳コーパス、3. 評価を挙げた。
1. アルゴリズムとハードウェアについては、以下の表が示された。
* EBMT = Example-based Machine Translation、用例ベース機械翻訳
NMTでは従来の約1000倍の計算量が必要であるため、計算処理能力はきわめて優れているが高額なGPUが必要とされるそうだ。
2. 対訳コーパスについては、異なる言語で同一の意味を有する文章の組から成るデータベースであるとのこと。
3. 評価については、人間がどのように感じるかという観点からMTの良さが評価されてきたそうだ。
コーパスベースMTはEBMTからSMTへ、さらにNMTへと新しいアルゴリズムが変遷を遂げるなか、翻訳精度は右肩上がりの向上を続けている。コーパスが大きい(例:100万文を超える)とき、SMTに比較してNMTはきわめて高精度であるとも指摘された。
さらに、NMTがSMTよりも優位である例として、SMTの語順変換を説明してくれた。SMTでは翻訳精度を上げるため、「語順変換」(1.文をフレーズに分割、2.フレーズの順番を変更、3.フレーズを翻訳)という手法が採択されてきた。結果として、言語対の構造が異なる場合では良好な結果を得ることは困難だったが、NMTでは自然な語順を生成することが可能とのこと。
NMTの良い点としては、流暢な訳文生成が可能であることと個別分野への適用が容易であること、悪い点としては、単語の脱落が発生することとGPUの需要が指摘された。結論として、NMTの改善によって翻訳の高精度化を達成することが最善と考えられている。
今後のコーパスベースMTの改善について、アルゴリズムやハードウェアは研究者・開発者が業務の一環として改善すべきであるとしながらも、汎用コーパスをより多く持つことによるベース精度の確保、分野を特化したコーパスによる汎用NMTに対する訓練(アダプテーション)、用語集の活用や前・後処理によるカスタマイズの重要性が指摘された。
三笠氏は、英日翻訳の品質評価に対する取り組みを紹介した。1つはWeb上で公開されているマーケティング系のコンテンツを対象に、もう1つは技術系コンテンツを対象にして、NMTと人間翻訳(Human Translation: HT)を比較している。NMTにはGoogle NMTとNICTニューラルを使用し、HTにはWeb公開テキストと実在する某翻訳者による翻訳を示した。
自らもIT系翻訳者として活躍してきた三笠氏は、機械翻訳には本当の翻訳はできないと言い続けるのではなく、なかなかやるじゃないか!というところを見て欲しいと言及した。
マーケティング系コンテンツのテキストには「The ultimate laptop」という一例があり、これは経験豊富な翻訳者にとっても良い訳を提供する難易度は高いように思われる。NMTの訳出は「究極のラップトップ」と「究極のノートパソコン」であり、HTでは「想像力を刺激するハイパフォーマンスPC」と「究極のノートPC」であった。三笠氏からは、HTでこのような訳を捻出するには長時間を要するがMTの訳出は秒単位で実行される、広告訳に対する経費として包括的に考慮するとMTを活用するという選択肢も見いだせるのではないかという指摘があった。
技術系コンテンツでは、約5000ワードのオンラインヘルプを翻訳対象としていた。10年以上の翻訳歴を有する4名の上級翻訳者がHTまたはポストエディット(PE、MTが生成した訳に対する人手による事後編集)をするに際の生産性を1時間あたりの作業ワード数として算出したとのこと。PEにはHTと同等レベルの品質を求め、急がせず、翻訳支援ツールは使用せず、TM、用語集、スタイルガイドも提供しなかったとのこと。MTはGNMTとNICTのNMTを利用した。
翻訳スピードは、いずれの翻訳者にもHTよりPEが速いという結果であった。
三笠氏からは、翻訳業界ではこれまでPEが翻訳単価を切り下げる手段かのように捉えられてきた側面があるが、実際の生産性向上の効果を見極めてきっちりとした仕組みを作る必要があるのではないかと言及された。会場から原文を理解しない人にPEができる将来が来るかとの質問が発されると、通常の翻訳プロセスにおける専門家レビュー(Subject Matter Expert: SME)をPEとして組み込むことの可能性に話が及んだ。ただ、コスト面も含めて有効性を慎重に検討する必要があるだろうとのことだった。
当日のセミナー最後のトピックとして、隅田氏が再登壇し、「翻訳バンク」の概要を説明してくれた。これは、どんな文でも高精度に翻訳するシステムをみんなで作る方法とのこと。以下の形式の日・英、英・日の翻訳データの提供を広く募っている。
A. 翻訳メモリ、B. テキスト、C. Word(一段組図表なし)、D. Excel、E. その他(応相談)
Webサイト「みんなの自動翻訳」には、対訳集の登録を受け付けるページが用意されている。また、情報提供者としてNICTと二者間契約を締結することも可能。さらに、自動翻訳技術のライセンス料算定時に提供翻訳データを考慮することも可能とのこと。機密保持契約や著作権などに対する不安の声を聞くこともあるが、公知の翻訳テキストをNICTへ提供することは問題に該当しないという説明もあった。詳しくは、http://h-bank.nict.go.jp/index.html を参照されたい。
日本中からの寄付によって建立された奈良の大仏様のように、オールジャパンで世界一の自動翻訳を作ろう!と力説されていた。