機械翻訳の品質評価 ~その限界と可能性~
第7回JTF 翻訳セミナー報告
機械翻訳の品質評価 ~その限界と可能性~
鈴木 博和
株式会社 東芝 研究開発センター 知識メディアラボラトリー
平成23年度第7回JTF翻訳セミナー
平成24年2月9日(木)14:00 ~ 16:40
開催場所●剛堂会館
テーマ●「機械翻訳の品質評価 ~その限界と可能性~」
講師●鈴木 博和 株式会社 東芝 研究開発センター 知識メディアラボラトリー
報告者●早舩 由紀見 個人翻訳者
機械翻訳は10年前に比べ、誤訳が減り使いやすくなったと個人的には思っている。Tradosなどの翻訳メモリ同様、用語、用例、訳語をインプットしていくことで、ユーザーが使いやすいようにカスタマイズできるようになっているとも聞いている。機械翻訳を開発する現場はどのような手法でどのような目標を掲げて開発を進めているのだろうか?第7回研究会は、普段決して聞くことのできない機械翻訳の開発現場の声を聞かせてもらった。
機械翻訳の概要
機械翻訳の手法は大きく分けて2通りある。ルールベース翻訳(RBMT)と統計ベース翻訳(SMT)だ。東芝の機械翻訳はRBMTを用いている。RMBTは、「解析」→「変換」→「生成」という主に3つのフェーズで構成されている。原文を解析規則に従って構文解析し、次に変換規則に従い目的言語の意味に変換する。最後に、生成規則に従い、目的言語の構文生成を行う。翻訳精度を上げるには、各フェーズの変換規則を見直していけばよいのだが、常にこれらのフェーズの状態を監視しなければならず、手間がかかる手法だ。一方でSMTは、対訳コーパスを用いて原文から統計的に最も確からしい訳文を直接生成する。構築しやすい翻訳手法である反面、翻訳精度を上げるには大規模な対訳コーパスが必要となる。
訳文評価
機械翻訳の精度を上げるには、生成された訳文を評価し、フィードバックする必要がある。現在は、自動評価と人手評価という2通りの方法で評価を行っている。自動評価には様々な手法があり、「参照訳(正解)と翻訳結果との類似度をn-gramをベースに計算することによって算出」する、BLEU(BiLingual Evaluation Understudy)という方法が最もよく用いられている。その他、NIST、METEOR、TER(Translation Edit Rate)などある。
自動評価の後に人手評価を行う。人手評価には、Adequacy(適確性)とFluency(流暢性)を使ったLDC-style、複数のシステムの出力結果をランク付けするRanking、2つのシステムの結果を比較しベストな方を選んでいくBinary Comparisonなどがある。
評価の問題点
自動評価も人手評価も、まだ開発段階であるため評価手法自体を「評価」する必要がある。自動評価は人手評価との相関が高いかどうかで評価しているが、人手評価手法が確立されていないという問題点がある。現在の人手評価は相対評価となっており、評価者の主観に左右されてしまう。そのため、高品質な訳文とは何かを徹底して考え、その訳文を目標訳文とし、そこへの到達度で評価する絶対評価を使えばよいのではないかと考えた。そこで、多くの人が良いと評価する訳文を高品質な訳文であると定義し、社内の14名に、機械翻訳で訳出された40個の日本語文を評価してもらった。評価は訳文のみを使って行い、文を読んで直感的に不自然だと思った箇所をチェックしその理由を記述してもらう方式で行った。その結果を分析すると、「局所的な文法事項を解けていない場合」と「その他」に二分できた。そして、ここから大分類6、小分類31の評価基準を作成できた。訳文の「自然さ」に関してはこのようにして評価できそうだということが分かった。
新しい人手評価手法
機械翻訳の評価方法の評価を考察している中で、自分の中では常に「良い訳文とは何か?」という疑問がついてまわった。主観的な評価をできる限り客観的に扱い、評価結果の信頼性、精度、一貫性も検証するべきではないかと考えている。結論は出ていないがこれまでの検討結果を紹介したい。
産業翻訳での評価方法なども参考にしたが、数値化という観点から英語教育の評価方法にフォーカスし、Cambridge ESOL(English for Speakers Of other Language)テストを参考にした。このテストでは、点数により英語習熟度がランク付けされ、CEFR(Common European Framework of Reference)で基準が示されている。CEFRは、A1からC2までの6段階でランク付けが行われ、それぞれのランクで適切な基準(criteria)が非常に細かく示されている。これを参考に機械翻訳でも評価ランクを設け、さらにcriteriaを設定することを試みた。しかし、評価ランクを設定するにあたり、そもそも「翻訳」とは何かを考慮しなければ適切な評価ができないのではないかと考え、まず翻訳学の研究を行った。翻訳学では、文化、状況、地域、常識によって原文と訳文のEquivalence(等価性)を重視し、表現を変える必要があるということが分かったが、残念ながら新しい人手評価についての研究はここまでとなった。Equivalenceまで考慮した機械翻訳が行えれば良いのではないかという方向性は見えてきたような気がする。
現在の開発現場では、翻訳者や産業翻訳に携わるユーザーの視点が欠けているので、このような場を通じてユーザーの意見をよく聞かせてもらい、今後の開発に活かしていければと考えている。
産業翻訳の世界でも、訳文の評価は非常に難しく、翻訳会社ごとに様々な手法で評価を行っているのが現状である。数値化して客観的に評価し、その評価に多くの人が納得できるような手法が確立できれば、翻訳ソフトも飛躍的に使いやすくなるということだが、まだ難しいのが現実のようだ。