翻訳界に、Game Changer『使える自動翻訳』が、降臨!
2016年度JTF第6回翻訳セミナー報告
翻訳界に、Game Changer『使える自動翻訳』が、降臨!
隅田 英一郎
自動翻訳への熱い期待を間違いなく結実させるために注力中。IBM、ATR、NICTの研究所を渡り歩きつつ一貫して自動翻訳に関わり、規則、用例、統計、ニューラルネットの全技術を熟知。音声翻訳アプリVoiceTra、テキスト翻訳サイトTexTraを公開して、「対訳データ」と「高度なアルゴリズム」によって、本質的に翻訳が困難な日本語と英語の間でさえも高精度自動翻訳が実現可能であることを証明してきた。現在、2020年をゴールとする音声翻訳の国家プロジェクト「グローバルコミュニケーション計画」を推進しながら、翻訳イノベーションの種蒔き・草抜き・水やり等のお世話に精を出している(^^♪。
2016年度JTF第6回翻訳セミナー報告
日時●2017年3月23日(木)14:00 ~ 16:40
開催場所●剛堂会館
テーマ●翻訳界に、Game Changer『使える自動翻訳』が、降臨!
登壇者●隅田 英一郎 Sumita Eiichiro (国研)情報通信研究機構(NICT) フェロー。
先進的音声翻訳研究開発推進センター副センター長。JTF理事、アジア太平洋機械翻訳協会(AAMT)理事
報告者●目次 由美子(LOGOStar)
熱意あふれる120名の参加者で満席となったセミナー会場にて、「本日はみんなで思い切り話しましょう」と隅田氏は講演を開始した。
1954年に世界で初めて自動翻訳が実現され、その可能性に多数の人が期待し多大な研究資金が投入されたが、ALPACレポートで役に立たないと判断され急速にブームが去った(※1965年に発表されたアメリカのNational Science Foundationが組織したAutomatic Language Processing Advisory Committeeによるレポートにおいて、当時の機械翻訳の実用性に疑問が呈され、その研究促進に否定的見解が示された)。3回目のブームを迎えた今、「自動翻訳は使えそう」という評価が広まりつつある。
2016年11月11日には、日英双方向のGNMT(Google Neural Machine Translation、Googleニューラル機械翻訳)が公開され、最も翻訳が難しい言語対である日本語と英語において、性能が圧倒的に向上したことが幅広く認知された。
NMTでは、まず単語を実数のベクトルに変換する。「王」のベクトルから「男」のベクトルをマイナスし、「女」のベクトルをプラスすると、「女王」のベクトルになるといった具合に、ベクトルで意味が表現されているとみることができる。
AI(Artificial Intelligence、人工知能)の世界で使われる「ニューラルネット」という言葉には、「人間の脳を模倣しよう」という気持ちが込められている。つまり、「人間の神経回路網」に対する「人口の神経回路網」といったところだ。人間の脳は単純な機能を有するニューロンの組み合わせで高度な知的処理を実現していることから、同様にコンピュータで複雑な処理を実現すべく「ニューラルネット」が提唱された。先ほどのベクトル表現がニューロンを伝わる信号だ。
ニューラルネットは盛んに研究されたものの、1990年頃には計算の遅さからその研究は下火になった。近年、GPU(Graphics Processing Unit)を利用することでニューラルネットの計算の高速化が可能となり、急速に応用が広がることとなった。
参加者からのGPUの価格に関する質問に対し、現状では信頼性の高い機種では1台あたり約200万円、大規模なコーパスから学習させるためには少なくても100台が必要と考えられるとの回答があった。AI一般での利用が可能であることから、GPUの価格の高騰が起こっている。多数のメーカーが追随しているので、今後、価格低下が期待できる。
NMTでも、SMT(Statistical Machine Translation、統計的機械翻訳)と同様に、対訳を学習させる必要がある。NMTでは入力文(原文)は単語の意味がベクトルに変換されニューラルネットに取り込まれ、「文の終わり」の記号をきっかけにして目的言語での出力を開始する。入力文が長ければ長いほど意味の欠落が発生し、結果として訳抜けが生じるそうだ。
一方SMTでは入力文がフレーズに分割され、各フレーズが確率的に翻訳され、フレーズの順序を確率的に並べ替える。訳抜けは起こりにくいが、文法違反は起こりやすい。日韓のように文法が類似している場合は、SMTでも十分に良質の翻訳が出力されるが、日英のように文法が異なるとさまざまな工夫が必要になる。
文法を考慮していないNMTで、日英のようにまったく文法が異なる言語対で良質の翻訳が出力されるということは衝撃的と捉えられている。
現時点でのNMT、SMT、RBMT(Rule-Based Machine Translation、ルールベース翻訳)の(研究でなく)利用可能なサービスの比較も紹介された。たとえば、流暢さではNMTの圧倒的な強さが示され、カスタマイズにおいてはSMTが優れており、汎用性についてはRBMTが高く評価されている。
実際に日本語から英語へ人手翻訳した結果、機械翻訳に後処理(ポストエディット)をした結果、機械翻訳した結果が並列に表示された。機械翻訳では、「興福寺」などの固有名詞が適切に訳されていないことが見て取れた。しかしながら翻訳品質だけではなくコストとスピードも考慮した上で利用者がどれを選択するべきかを検討すべきであり、この検討がなされるべきところまで日英翻訳の機械翻訳は向上したと考えられていることが指摘された。
実際に後処理を試みているという参加者からは、人手での修正が必要があると判断するまでの時間がNMTでは従来よりも長く要しているとの発言があった。NMTでは不正確な箇所を見つけるまでに時間を要するため、修正の要・不要を判断するまでに長時間を費やすというのだ。
別の参加者からは前処理(プリエディット)の有効性も紹介された。機械が翻訳しやすい原文を書くことで、より良い訳出結果が得られる。また、精錬された原文が自動翻訳の精度を上げるとなると、ライターのモチベーションを向上させ、より良いマニュアル制作にもつながるという意見もあった。さらに、翻訳コストの低下まで期待できるといった発言も参加者からあった。また、関連して、MTを利用する上での社内ルール作りをしているという参加者もあった。
今後のMTの課題として文脈の考慮があると紹介された。単語単位での翻訳、文単位、文章単位という順に難易度が高くなるとのこと。特に、文単位から文章単位への壁は高く、文脈を考慮した機械翻訳は今は実現できていない。
「翻訳の享楽」も紹介され、翻訳という作業の楽しさや喜びについても指摘があり、文芸など人手翻訳が永遠に必要な分野についても紹介があった。
NMTやSMTでは対訳データの量が増えると翻訳精度が向上する。Google社はインターネット上でCrawler(Web上のテキストを周期的に取得し、自動的にデータベース化するプログラム)を活用し、対訳データを収集している。NICTは、『みんなの「翻訳バンク」』という名前の下、正式に部署を設置して翻訳会社や翻訳発注側の協力を求め、大量に集めることを目指している。
参加者から翻訳メモリの所有権に関する質問が上がると、本来、翻訳メモリとはテキストを抜き出して作成した新たなデータベースであり、この権利は翻訳会社に帰属するという見解を持つ弁護士があること、7単語以下のフレーズには著作権はないと考えられていることなどが紹介された。社会全体の合意形成の重要性も指摘された。
また、NICTの「みんなの自動翻訳@Textra」は複数の翻訳支援ツール用のプラグインも開発されていることも紹介された。