[イベント報告]機械翻訳とは何か? どこから来て、どこへいくのか?
2021年度第1回JTF関西セミナー報告
- テーマ:機械翻訳とは何か? どこから来て、どこへいくのか?【JTF40周年特別企画】
- 日時:2021年4月27日(火)14:00~16:00
- 開催:Zoomウェビナー
- 報告者:伊藤 祥(翻訳者/ライター)
登壇者
高橋 聡(タカハシ アキラ)
個人翻訳者、JTF副会長
CG以前の特撮と帽子をこよなく愛する実務翻訳者。翻訳学校講師。学習塾講師と雑多翻訳の二足のわらじ生活を約10年、ローカライズ系翻訳会社の社内翻訳者生活を約8年経たのち、2007年にフリーランスに。現在はIT・マーケティング文書全般の翻訳を手がけつつ、セミナー(オンライン)や雑誌で、翻訳者に必要な辞書環境や文化背景知識などについても発信している。共著に『翻訳のレッスン』(講談社)、訳書に『機械翻訳:歴史・技術・産業』(森北出版)など。
中澤 敏明(ナカザワ トシアキ)
東京大学大学院情報理工学系研究科 客員研究員
東京大学大学院情報理工学系研究科で修士号を、京都大学大学院情報学研究科で博士号を取得後、京都大学特定研究員および特定助教、科学技術振興機構研究員、東京大学特任講師を経て、現在は東京大学客員研究員。専門は自然言語処理、特に機械翻訳で、多数の国際会議にて成果を発表。機械翻訳に関する正しい知識の共有と機械翻訳の普及のために、様々な媒体で機械翻訳に関する記事を寄稿している。共著にコロナ社の自然言語処理シリーズ『機械翻訳』、解説に森北出版の『機械翻訳:歴史・技術・産業』がある。
4月18日のJTF40周年を記念して行われる、本年のセミナー第一回のテーマは機械翻訳である。近年、大幅に精度を向上させた「機械翻訳」(machine translation: MT)については、これまでもJTFでその動向は取り上げてきたが、今回は最新技術情報に加え、産業としての進化の歩みを踏まえ、いよいよ翻訳者と翻訳業界が機械翻訳とどう向き合い、付き合っていくのかを考える。より個人の翻訳者にとっても、これからをどう生きていくべきか、仕事について考えるきっかけが提示された。
第1部「訳書を通じて個人翻訳者が考えた機械翻訳」
― 高橋 聡氏(JTF副会長・個人翻訳者)
1. 訳書の紹介とハイライト
私の訳書『機械翻訳:歴史・技術・産業』において特徴的なのは、産業における機械翻訳の歩みが語られていること。
産業的な歴史で振り返るとき、多言語世界を見ないと背景は見えてこない。たとえば、カナダの天気予報の翻訳システムは1970年代に構築されている。EUの翻訳予算は2013年でも3億3千万ユーロで、93%が人力翻訳であった。欧州では言語の壁は無条件に取っ払いたいものとされていたということだ。
一方、2000年代まで日本語は特殊という扱いで、欧米クライアントの予算も高かったが、今や「グローバルな翻訳市場」の一角でしかなく、アジアの中心もシンガポールや上海に移った。
2. 機械翻訳に対する翻訳者の思い
翻訳者の機械翻訳に対する思いやスタンスは人により異なる。機械翻訳の動向とは無縁に自分の翻訳を続けるという人(文芸は例外)。逆に機械翻訳、AIを積極的に導入したいという人。大多数はその間で揺れているが、今の立脚点で不動の人もいる。
なぜ翻訳をしているかという動機も様々で、好きだからという人、生活の手段として仕事にしているという人。その両端に振り切れる人は少ないであろうが、基本スタンスによって機械翻訳をどう考えるかが違ってくる。
そもそも翻訳とは何か。人間の翻訳者は、何通りもの訳出パターンを頭に思い浮かべ、文種、文体、文脈、読者などの条件に合わせて絞り込んでいく。もし機械翻訳に慣れたら何通りも翻訳案を考えることはできなくなると思う。
情報としての翻訳は、翻訳支援ツール・TM期を経てMTに移行していき、中間にポストエディットが存在する。コンテンツとしての翻訳には少なくとも当面人間の翻訳が必要だ。
3. 個人翻訳者のこれから
これからは淘汰と変化が必ず起こる。翻訳者として自分の道は自分が考えるしかない。多くの人がやっている「裾野」の翻訳の仕事はなくなる可能性がある。ポストエディットの達人になる、MTやAIを使いこなす、上を目指し続ける、文芸や字幕など違う世界を目指すなど、道はいろいろ。これは、上下や貴賤ではないと思う。進んだ先で見える世界はまったく違うものになる。各人がどんな形で翻訳に関わりたいかによって決まるはず。両立は難しいが、方向転換は可能かもしれない。
4. 機械翻訳の扱われ方
今大きな問題点となっているのは、機械翻訳の検証を経ない安易な使い方、売り方である。災害警報の誤訳などは情報としての翻訳としてすら十全に機能していない。これには、社会全体の取り組みが必要であると思う。
第2部「機械翻訳の現状と課題、可能性」
― 中澤 敏明 先生(東京大学大学院情報理工学系研究科 客員研究員)
1. NMTの訓練デモと最新の技術動向
冒頭にリアルタイムでNMTのデモが行われた。英語とそれに対応する日本語の文のペア(対訳コーパス)をサブワードに分割したものを教師データとしてNMTツールに入れて訓練を行う。コマンドを実行すると訓練が始まり、その後、数十分の学習の成果が披露された。
(※対訳コーパスは京都フリー翻訳タスク、NMTツールFairseq、サブワード分割はSentencepieceを使用)
サブワードとは、NMTで用いられる、人間の認識している単語分割とは異なる単位の単語分割である。たとえば、京都の歴史を語る文章における「足利義満」なら、足利で区切るのではなく、足利義〇の人がたくさんいることから、「足利義」までをひとまとまりとする。
NMTでは一般的にイメージされるような以下の解析はなされていない。
固有名詞や名詞と代名詞の照応関係、たとえばJohnとhisとheが文中に出た時に同じものを指すと解析する照応解析。日本語の省略されている主語のような省略部分を解析する省略解析。単語が指す意味を解析する意味解析。たとえば、2つ以上の語義のある言葉を辞書を利用して、語義曖昧性の解消をはかる。また、照応解析や意味解析を行うには、文単位ではなく文書単位での翻訳がなされていることが必要。
NMTがこのように解析し、意味や関係を分かっているかというと、実際はたまたまうまい翻訳が出ているような感じだ。NMTのエンコーダーで、入力文の情報がベクトル列(数値の集合のようなもの)になった時点で元の単語や意味の情報はなくなる。
ただし、最近一部の解析は可能になったものもある。たとえば、DeepLは照応・省略解析なども行っているらしいし、また文書単位の翻訳もサービス開始当初からできている。Google翻訳もつい最近文書単位の翻訳ができるようになった、日進月歩で進化している。
たとえば、「これは中澤さんです。大学の先生です。」という文に対し、「This is Mr. Nakazawa. He is a college teacher.」のように、文章単位で前の情報を考慮して、次の文を考えるのが文書単位の翻訳だ。ちなみに、大学の先生を自動的にheと訳すのは学習データにバイアスがかかっているから。いまは性差別であると問題視され、男女両方に訳す翻訳も出始めている。
- Q. 小説は感情の読み取りが必要なので、機械翻訳はほぼ役に立たないそうだが、いずれは可能になる時が来るのか?
- A. 深層学習の限界がまだわからないため、将来どうなるかはわからない。小説の翻訳は正解がないものなので、いつか翻訳界の初音ミクが現れる可能性がないとも言い切れない。
2. MTの現状と課題
できることは徐々に増えてきている。上記の省略や照応解析の利用、文書単位の翻訳に加え、マイナー言語のローリソース翻訳、まだ精度はよくないが画像と文書を両方使う翻訳であるマルチモーダル翻訳など。
しかし課題はまだまだ山積、訳抜け・湧き出し、否定・肯定誤り、訳語統一、代名詞誤り、対訳辞書の利用、ドメインアダプテーションもよくない、翻訳速度が遅い、という問題点を日々改善している。
3. MTの可能性
深層学習の限界はまだよくわかっていないが、NMTがでた当初の2014年より成長スピードが落ちている気がする。
NMTは人間が一生かけて読む文書量よりもはるかに多くの文に触れているので、人間の翻訳より良い訳を出すこともある。しかし、いつもよいわけではないので、チェックが必要である。
人手が不要もしくは最低限でよいという翻訳の需要は必ず存在するし、その割合は多くなるはず。機械翻訳が活かせるところは積極的に活かすべきだと思う。翻訳されなかったものが翻訳されるようになり、仕事を奪うのではなくサポートして、翻訳全体の生産性を向上するものになってほしい。
第3部 パネルディスカッション「機械翻訳とは何か、どこへいくのか?」
― モデレーター:石岡映子氏(JTF常務理事・関西委員長、株式会社アスカコーポレーション代表取締役)
石岡:弊社のクライアント対象のアンケートでは、8割の企業がMT導入済で、残りの2割の半数は導入を検討しているとの結果だった。JTFの最新の白書でも特許・医薬・工業が収入減、現場にMTが導入されたためと思われる。書籍のように人がやらないといけないところは伸びている。このような環境下で現場の課題を伺いたい。
先ほどの公共機関でのMT使用の問題はどうか?
高橋:社会全体で考えないといけない問題であると思う。気になるのは、誤訳発信の後、当の公共機関がその後どうしたか、なぜか報道がない。反省にたって改善しないといけないと思う。それには翻訳業界、JTFのような業界団体が先陣を切ってやっていくべきではないか?
石岡:リテラシーの観点はどうか?
中澤:オンラインのフリーソフトは自己責任が普通なので、そこに品質を求めることはナンセンスである。そういうリテラシー教育を受けていないがためにリテラシーが低いことが問題であり、子どものころから教育するべきだ。また、フリーのものをどう使うかも考えるべき。
石岡:翻訳という仕事はなくなるのか。ニューラルになってMT導入が進み、実際収入減となっている、今後ここをどうするのか?
高橋:なくなっていく部分はある。その人がこの先どうするか、PEに移行、人手の部分にこだわるなど。全部がなくなるわけではないが一部はなくなるので、その前提で考えるべき。
石岡:機械翻訳をハンドリングする方面の人材不足も感じている。
中澤:翻訳が細分化されると、新たな需要が出てくる。コーパス、辞書の整理、これらも機械翻訳で使いやすい形にするにはリテラシー、プログラミングなど、これまでの翻訳者に求められるものとは異なった新たな職業ができる。純粋な翻訳者は減っても新たな関連の仕事が出てくる。
高橋:翻訳に関わるデータ整備の仕事について、翻訳メモリが出現した時代から整理の必要があった。当初はやっていたが、現状はどこでもほぼ放置状態。この20年きちんと積み重ねがあれば、もっと翻訳メモリも使いやすくなっていたはず。その反省から、翻訳もレビューもできるMLVのリンギストのような人、いろいろな方面に目を配ってレビューし、クライアントと交渉できる人が求められる。翻訳者の別の道になるかもしれない。
石岡:業界は、もらった対訳データが使えないというのを見て見ぬふりをしてきた。これからMTの時代はそこをきちんと考えられる人が翻訳会社も一番欲しい人材ではないか。翻訳者やチェッカーに、新しいキャリアパスという観点で挑戦してほしい。
企業が世界でビジネスをするために翻訳は未来への投資、ケチらずに投資してほしいと言っているが、一方で情報を早く出さなければならない時代、品質をどう考えたらいいか?
高橋:投資ならリターンが必要、リターンが見えづらいから投資しない。望むものが返ってこない、翻訳者に十分な情報を提供しないから、翻訳者の力不足だからなどの点は、お客さんと翻訳会社と翻訳者が縦につながって整備しないといけない。成果が出るとわかったら投資につながると思う。
中澤:そのとおり。投資は将来のリターンへの期待があるから。たとえばマニュアルで売り上げが増えたかは計算できない。将来がわからないからコストをかけられない、特にベンチャーなどでは予算もなく、製品のバージョンアップサイクルが早くて予算が取れないから機械翻訳になる。よりシビアにクライアントが必要とする品質をすりあわせコントロールすることがLSPの使命だと思う。
石岡:意外と盲点で、目の前の納期ありきで、クライアントとどこまでの精度か要不要をきちんとすり合わせてないことが多い。三者が合意をすることで商品として担保され、クレームも減る。機械翻訳が進む中、もう一度品質についてすりあわせするべき。
中澤:低い品質、安い見積もりにつけこむ人が出てくると、業界の首を絞めるのでそこはちゃんとやるべきだ。
Q. 自分の翻訳メモリを「食わせる」と自前のスモールなデータセットで、既成のエンジンの出力はどれくらい変化するのか。
中澤:数万文、十万文ぐらいないと変わらない、数千文でもニッチな業界ですべてを網羅しているのならあり。翻訳したい文のバリエーションによる。特許文全体を翻訳したいのに工業しか持ってないというところは、自分でバランスをとってみてもらうしかない。
高橋:TM登場のときからそういう議論があって、メモリもとんちんかんなところにあてはめて使えないという話があった、似たことが繰り返されそうな感じがする。
Q. 将棋や囲碁ではAIが人間に勝っているのに、翻訳では機械翻訳が人間を越えられないのはなぜか?
中澤:将棋や囲碁は正解があるが、翻訳は明快なゴールがないから、ゴールが決まっているほうがやりやすい。
高橋:文芸翻訳のような正解のない翻訳で、機械翻訳が初音ミクのように、1つの個性になったらおもしろい。
中澤:そういう研究もある。たとえば太宰治風とか。人格を持たせるのはおもしろい。
石岡:本日の延長戦となる、中澤先生のYouTubeをご紹介いただきたい。
中澤:研究者と翻訳者の相互理解をはかる場として、YouTubeをまずは気軽な話題からスタートし、将来的には機械翻訳の健全な普及につなげていきたい。
- YouTube「翻訳と機械翻訳の座談会」https://www.youtube.com/channel/UC4fiKKrfcvQY1dcZkjxfnHQ