機械翻訳技術を取り巻く最近の動向について
2017年度JTF総会「基調講演」報告
機械翻訳技術を取り巻く最近の動向について
中岩 浩巳
JTF監事、名古屋大学特任教授、アジア太平洋機械翻訳協会 会長
1987年名古屋大学大学院工学研究科博士前期課程修了、2002年名古屋大学博士(工学)。1987年日本電信電話(株)(NTT)入社、英マンチェスター大学客員研究員(1995年~1996年)、国際電気通信基礎技術研究所(ATR)研究室長(2002年~2004年)を経て、2014年 NTT退職。現在、名古屋大学大学院情報学研究科特任教授。NTT入社以来、機械翻訳の研究開発に従事。言語処理学会会長(2012年~2014年)、アジア太平洋機械翻訳協会(AAMT)会長(2012年~)、国際機械翻訳協会(IAMT)会長(2015年~)、日本翻訳連盟監事(2014年~)。
2017年度JTF総会「基調講演」報告
日時●2017年6月7日(水)16:35~17:45
開催場所●アルカディア市ヶ谷
テーマ●機械翻訳技術を取り巻く最近の動向について
登壇者●中岩 浩巳 Nakaiwa Hiromi JTF 監事、名古屋大学特任教授、アジア太平洋機械翻訳協会 会長
報告者●目次 由美子(LOGOStar)
つつがなく執り行われた日本翻訳連盟の総会の基調講演では、昨今目覚ましい進化を遂げている機械翻訳(MT:Machine Translation)がテーマに取り上げられた。会場が満席であったという事実からも、注目度の高さが伺えた。2020年に東京で開催されるオリンピック・パラリンピックへ向けてさらなるグローバル化が急ピッチで推進される最中、ニューラル機械翻訳(NMT:Neural Machine Translation)技術は突如として登場し、日本語に関する品質改善がもたらされ、機械翻訳を取り巻く環境にも変化が見られている。本講演では単に機械翻訳に関する最新状況のみを紹介するのではなく、機械翻訳に馴染みがない参加者のことも考慮してシンプルに構成されていた。
まず、国際ビジネスの拡大による翻訳の需要増加や、円安に伴う訪日外国人の急増による外国人とコミュニケーションする機械の増加が紹介され、「言語バリアー」という障壁を取り除くためのMTの必要性が指摘された。そして、機械翻訳の技術について以下のように分類して紹介された。
Rule-Based Machine Translation (RBMT) |
単語直接方式 |
計算機で自然言語処理を行う文法論理がまだ提案されていなかった初期の方法 |
・表層的単語レベルの処理のみであり、構造的情報や意味情報を訳文に反映できない ・語の並び替えの規則の記述が容易でない |
変換方式 |
原言語を解析して構文構造を決定し、これを目的言語の構文構造に変換し、目的言語を生成 |
原言語の構造から目的言語の構造に直接変換するため、原言語での語順など表層的な情報や構文構造が目的言語に反映されやすい |
|
中間言語方式 |
特定の言語に依存しない中間言語へ原言語から変換し、生成部で目的言語に変換 |
言語対ごとに変換規則を作成する必要がある |
|
用例を活用した機械翻訳 |
用例翻訳 Example-based MT (EBMT) |
翻訳用例を直接活用して適切な訳語・表現を選択 |
|
統計的機械翻訳 Statistics-based MT (SBMT) |
翻訳用例を統計的に分析し、翻訳ルールに統計情報を付与して適切な訳語・表現を選択 |
||
ニューラル機械翻訳 Neural MT (NMT) |
翻訳用例を深層学習であるニューラルネットで学習し、学習したネットワークに基づき訳語・表現を生成 |
RBMTの限界として、深い解析が翻訳精度の向上に必ずしも結びつかない、辞書やルールの構築にコストを要するため分野を特定してのチューニングが難しいといったことも言及された。また、用例を活用した翻訳システムについては、参考とする訳例がインターネットなどで数多く入手可能になったことや、計算機パワーが急増したことによって大規模な統計処理が一般的なパソコンでも実行できるようになったことなど、翻訳をめぐる環境の変化について指摘があった。
SBMTについては、原文1単語がいくつのターゲット言語に訳されるか(Fertility Probability)、原文で何番目の単語が訳文では何番目に置かれるか(Distortion Probability)といった単語の訳し方や位置、何個の単語に訳されるかといった具合に統計的に処理されるという解説があり、言語対の距離が長い日本語と英語では性能が発揮されにくいと機械翻訳業界では認識されてきたそうだ。しかしながら、翻訳前に目的言語の語順に入れ替えることで改善が図られてはいた。
NMTは1980年代にブームとなったが、計算機パワーの不足などもあり効果が限定されていた。2010年以降、GPU(Graphics Processing Unit、グラフィックス プロセッシング ユニット)の普及などにより計算機能力が急激に普及したことや、アルゴリズムの改良によって改めて脚光を浴びている。NMTは自然言語処理でも効果を発揮し始め、機械翻訳にも導入され、従来主流であったSBMTをも凌駕する性能を達成し、2016年11月にリリースされたGoogle翻訳では翻訳業界でも周知されるほどの効力を示している。中岩氏は、現在の主流である、どの単語が注目されるべきかが計算される「アテンションに基づくニューラル機械翻訳」などのNMT方式も解説した。
さらに、本年5月28日~31日にチェコ・プラハで開催されたばかりの2017 EAMT conference※で入手した最新情報として、NMTの評価が高かったことも紹介された。
※ 機器翻訳国際連盟 International Association for Machine Translation(IAMT)は、以下の3つの地域組織を擁する。
- アメリカ機械翻訳協会 AMTA: Association for Machine Translation in the Americas
- ヨーロッパ機械翻訳協会 EAMT: European Association for Machine Translation
- アジア太平洋機械翻訳協会 AAMT: Asia-Pacific Association for Machine Translation
中岩氏は機械翻訳の評価についても解説した。
目的 |
利用者側 |
・翻訳対象に適したシステムを選定 ・機械翻訳導入による効果を検証 |
開発者側 |
・機械翻訳システムの性能検証 ・機械翻訳システムの性能向上のためのパラメータ調整陽 |
|
方法 |
人手評価 |
・訳文品質評価(Fluency流暢さ、Adequacy適切性、など) ・翻訳効率評価(翻訳過程へのMT導入による時間短縮・人件費節減など) |
自動評価 |
・BLEU、METEO、RIBES |
人手評価と自動評価の基準や、実際の性能比較例などもいくつか紹介された。多くの例でNMTは概して流暢さでは高い評価を得ているが、訳抜けが多く検出されていたり、BLEUでの評価が低めであることが指摘された。
NMTの利点としては、生成される文章が自然であることと紹介された。また、欠点としては、過剰訳出や訳抜けの頻出、エンジンを学習させるための時間や計算などリソースの必要性、RBMT同様に自動評価と人手評価に見られる矛盾、単語アライメントの情報の欠如が上げられた。
さらに、日本で唯一のMTに関する組織であるAAMTでは、研究者、製造者、ユーザを結びつける活動を展開していること、AAMTが中心となって本年9月18日~22日には名古屋大学東山キャンパスの豊田講堂にてMT Summit XVIが開催されることも紹介された。