AAMT/Japio特許翻訳研究会『特許文書の機械翻訳結果評価方法検討会』参加報告

2012年9月7日2021年2月1日 Editor

AAMT/Japio特許翻訳研究会
『特許文書の機械翻訳結果評価方法検討会』参加報告

鈴木博和
（株）東芝　研究開発センター　知識メディアラボラトリー

AAMT/Japio特許翻訳研究会は、一般財団法人日本特許情報機構(Japio)からの委託によりアジア太平洋機械翻訳協会(AAMT)にて2003年に発足した研究会であり、特許文書の機械翻訳（MT）の精度向上やその評価方法などについての研究活動を行なっている。今回の報告書は、2012年9月7日に東京大学本郷キャンパスにて開催され、私自身も登壇し講演を行った『特許文書の機械翻訳結果評価方法検討会』の参加報告書である。本研究会では様々な観点からの議論が求められており、研究者だけでなく実務で特許翻訳に携わっている方々からの参加も増えている。本報告書が機械翻訳技術やその翻訳品質の評価について、読者の皆さんのご参考となれば幸いである。

『特許文書の機械翻訳結果評価方法検討会』のプログラム

MTの翻訳結果の評価には、大きく分けて「自動評価」と「人手評価」とがある。自動評価は実施の際のコストが低いが人間の評価との差が大きいという点が指摘されている。一方、人手評価はコストが高く、また手法・ガイドラインも確立されていないという問題点がある。

本検討会の目的は、上記の状況を踏まえて特許文書のMT結果の評価方法として何を採用すればよいかを議論することにある。そこで多面的に翻訳評価タスクを見直し、多方面からの参加者間での議論により、新たな展望を探る。

以下は、今回のプログラムからの抜粋である：

議論の要点

外国の特許文書からその技術内容を調査する場面での機械翻訳の評価
自動評価の現状、そして、利用者の評価にできるだけ近い児童評価方法の探索
人手評価と自動評価の比較
特許翻訳用テストセットの要件
今後の翻訳評価の方向性

プログラム

13:00-13:05 開催趣旨の説明
主催者

13:05-13:50 自動評価手法の研究者の立場から（その１）
北海学園大学　工学部生命工学科　越前谷博氏
講演題目：自動評価がもたらした歓喜と失望、そして、希望
13:50-14:35 自動評価手法の研究者の立場から（その２）
岡山県立大学　情報工学部情報システム工学科　磯崎秀樹氏
講演題目：最近の自動評価法の研究動向とRIBES
14:35-15:05 機械翻訳メーカの立場から
（株）東芝　研究開発センター　知識メディアラボラトリー　鈴木博和
講演題目：「空気の読める機械翻訳」の評価方法
15:10-15:40 人手評価の立場から
情報通信研究機構　後藤功雄氏（NTCIR-10 PatentMT タスクオーガナイザ）
講演題目：NTCIR-9、NTCIR-10 特許機械翻訳タスクでの人手評価
15:40-16:10企業の技術調査担当者の立場から
トヨタテクニカルディベロップメント(株)　森田陽介氏
（日本知的財産協会　知的財産情報検索委員会副委員長）
講演題目：特許調査に求められる機械翻訳の精度～中国特許調査の事例より～
16:10-16:40評価用テストセット作成の立場から
（株）富士通研究所　メディア処理システム研究所 長瀬友樹氏
機械翻訳課題調査委員会委員長）（AAMT）
講演題目：テストセットを用いた日中翻訳エンジン評価
16:40-17:00 総合討論（今後の翻訳評価方法の展望）

各発表の概要

以降では前記プログラムに従い、各発表内容について概要を説明していく。

開催趣旨の説明

主催者である江原暉将先生（山梨英和大学）より、本検討会の趣旨に関し説明があった。なお前半は江原先生が司会進行をされ、後半は横山晶一先生（山形大学）に司会進行がバトンタッチされた。

自動評価手法の研究者の立場から（その１）

自動評価では正解となる参照訳とMT訳との一致率を計算することで翻訳品質を評価する。このスタンダード手法としては、単語の位置を無視して一致率を計算するPER (Position-independent word Error Rate)やMT訳を参照訳に書き換えるために必要な置換・挿入・削除などの処理回数を計算して求めるWER (Word Error Rate)がある。一方、BLEU (A Bilingual Evaluation Understudy)やNIST (National Institute of Standards and Technology)は、n単語の繋がり(n-gram)の一致率に基づく手法であり、広く用いられている。これらの手法に対し、越前谷先生の提唱されている評価手法IMPACT(Intuitive comMon PArts ConTinuum)はn-gramの一致を再帰的に計算する手法であり、従来手法よりも人手評価と高い相関が認められたと報告されていた。

自動評価の良し悪しを判断するには、人間が行う評価とどのくらい似ているか(相関があるか)、という観点で評価される。従って人手評価と相関が高いということは、この手法が有効であることを表している。

自動評価手法の研究者の立場から（その２）

機械翻訳評価のデファクト・スタンダードとなっている自動評価手法BLEUに対して様々な問題が指摘され、近年新しい自動評価手法の模索が始まっている。その一つが磯崎先生の提案されているRIBES(Rank-based Intuitive Bilingual Evaluation Score)である。語順に着目した同手法は、BLEUでは高評価となってしまう誤訳もスコアを低く算出できるので、人間の訳文に対する妥当性判断と非常に高い相関を有するとのこと。同ツールはNTTからソースコードが公開されている：
http://www.kecl.ntt.co.jp/icl/lirg/ribes/index-j.html

BLEUなどの評価手法は、英日・日英翻訳の評価を想定して作られているわけではないため、これらの言語対では人手評価との相関が低いと言われている。これでは評価結果の信頼性が損なわれる事になる。その点、RIBESは相関が高く英日・日英での信頼性が高いと言える。

機械翻訳メーカの立場から

今回、機械翻訳メーカの立場からということで発表させていただいた。内容は2012年2月9日の第7回JTF翻訳セミナーでの講演内容を再構成したものであるが、タイトルの「空気の読める機械翻訳」に主眼を置き、その実現のための人手評価はどうあるべきか、という観点で講演した。

『空気の読める』機械翻訳を実現するためには翻訳学で言うところのEquivalent Effect(Nida, 1964)やConnotative Equivalence(Koller, 1997)を工学的に捉え、技術開発する必要があると考える。そしてそのためには翻訳の『空気の読み具合』を評価できるような手法が必要である。その際の重要なポイントは「絶対評価（到達度評価）」を実現することである。これは評価結果をただ単にスコアリングするだけでなくそのスコアを、予め定義した翻訳能力とマッピングすることである。

このような到達度評価を用いれば、評価結果のスコアから機械翻訳がもつ能力（どのくらい空気が読めているか）を判断することができ、開発中の機械翻訳が目標とする能力のどの段階にあるのかを判断することが可能となる。さらに、この評価手法は対象を機械翻訳に限定するわけではないので、人手翻訳の評価に用いて両者を比較すれば、機械翻訳が人間に対してどの程度の能力を有しているのかの判断も可能となる。「翻訳能力」の定義には機械翻訳の研究者だけでなく、言語学者・翻訳者などの広範な意見が必要と考えている。

下表はCEFR(Common European Framework of Reference)での評価の考え方と、機械翻訳で考慮すべき点とを対応付けてまとめたものである。

教育学（言語習得）	機械翻訳
言語習得に関する評価ランクを設ける(e.g. CEFR)	機械翻訳品質に関する評価ランクを設ける
適切なcriteriaの設定 (e.g. Can Do Statements)	適切なcriteriaの設定 (e.g. JEIDAの”機械翻訳システム評価基準”＋自然さ・流暢さの評価基準＋文脈・意図理解に関する評価基準＋etc.)
問題・得点配分の策定	品質評価項目・スコアの策定
適切なstandardの設定 (何点のスコアがどのランクに対応するか決定)
Validation （設定したstandardがどれくらい正確に分類できるか確認）

上記の全ての段階で様々な分野の専門家の意見・議論が求められる。

人手評価の立場から

NTCIRは、情報検索と、テキスト要約・情報抽出などのテキスト処理技術の研究の更なる発展を図るワークショップ型共同研究であり、そこで実施されている特許翻訳タスクの説明とそこで用いられている人手評価手法について説明があった。機械翻訳の人手評価でよく用いられているのはAdequacyとFluencyによる評価である。各5段階評価でAdequacyは翻訳の正しさを、Fluencyは翻訳の流ちょうさを評価する。NTCIRで得られた知見から、この評価方法は各評価グレードの基準が明確でないこととAdequacyとFluencyの評価の役割分担を明確化しなければならない点が指摘された。これは例えば、”Hello!”という訳文に対しFluency＝5をつけたとき、その原文が「今日は晴れです。」の場合には訳質の評価にならないからである。

これらの点を考慮しAcceptabilityという評価方法を導入した。これは各評価グレードの意味をはっきりと定義し、原文の意味が理解できる場合に限り流ちょうさも評価するような工夫がなされている。

AdequacyとFluencyの評価は単純で分かりやすいが、評価の曖昧さやばらつきが問題になる。その点、Acceptabilityはフローチャートによりこれらの評価の弱点を補うように設計されており、実用的であると感じた。

企業の技術調査担当者の立場から

特許調査においては、検索に必要な検索式を作成するときや、不要な検索結果を取り除き必要なデータをピックアップするスクリーニングなどで機械翻訳を使用するため、調査精度・スピードに機械翻訳の性能は大きく影響を与えるということだった。そのため各社の翻訳ソフトウェアのベンチマークを実施したり、文切り仕方を変えてみるなどの工夫をして、翻訳性能の向上を検討しているとのことであった。それによると、文切りの変更や一旦英文に翻訳した後に英日翻訳を行うなどの工夫を行うことで、ある程度の翻訳精度の向上が確認できたと報告されていた。

評価用テストセット作成の立場から

テストセットとは、文法項目毎に設問がついた基本例文集のことであり、機械翻訳結果に対して評価者がYes/Noで評価を行なっていくものである。この設問は例えば「○○は～に訳されていますか？」のような単純なものであるため、この評価を自動で行うことも可能である。このような自動評価を「設問ベース自動評価」と呼んでいる。この設問ベース自動評価は人間の評価と高い相関を持っているため、この評価手法をコストがかかる人手評価の代替として用いることができるというのは、非常に大きなメリットといえる。今後は多言語翻訳評価用に言語固有の文法項目への対応、システムの成長に合わせた設問の柔軟な改変などが挙げられていた。

総合討論（今後の翻訳評価方法の展望）

日本語機械翻訳の発展のためには英日・日英に特化した自動評価手法があっても良いのではないか、という議論があった。これには言語固有の知識を評価手法に取り入れていく必要があるが、汎用性・利用容易性の観点から、自動評価手法は「言語非依存」が望ましいとされた。また、RIBESは語順重視しているが、日本語の持つ「語順の柔軟性」が考慮されていないのではないか、という指摘もあった。磯崎先生の意見では、自由と言っても実は読みやすい語順というのがあるので、語順重視でも問題ないのではないかという回答だった。確かに、日本語は語順が比較的自由だとは言われているが、全く自由なわけではないため、シンプルな評価手法を開発するためには要不要の見極めも大事だと感じた。

まとめ

今回の報告書は、検討会の内容を非常に大雑把ではあるが全体の概要をお伝えすることに主眼をおいた。各発表は非常に内容の濃いものであり、本報告書では紙面の関係から記述できなかった内容も多い。機会があれば読者の皆さんにも是非参加して頂き、活発な議論が出来ればと思っている。
最後にAAMT/Japio特許翻訳研究会のURLを掲載しておく。
http://aamtjapio.com/

AAMT/Japio特許翻訳研究会 『特許文書の機械翻訳結果評価方法検討会』参加報告