3-4 多言語における機械翻訳へのアプローチ ~評価とプロセスの観点から~
鍛冶 智子 |
Van Hiel HeidiYamagata Europe |
堀越かおり(株)ヒューマンサイエンス |
德田 愛(株)ヒューマンサイエンス |
報告者●矢野直子(PFUソフトウェア株式会社)
第一部
Yamagata Europeでは2009年から機械翻訳(MT)を採り入れており、現在では複数のプロジェクトに使用している。同社が独自に開発したMT品質測定システムについての講演。
品質を測定する前に「品質とは何か」を定義する必要があるが、顧客ごと/プロジェクトごとに品質要件は異なり、すべてのMTプロジェクトに対して1つの共通の品質メトリックスを作ることはできなかった。顧客がMTの価値を判断し、ポストエディタが作業量を見積り、適正な価格を決めるためにメトリックスは非常に重要である。
MTプロジェクトを立ち上げるときには、最初の段階で品質メトリクスを決める必要がある。
MTプロジェクトを開始するとき
- 顧客とともに品質レベルを定義する。
ヒューマンクオリティを求めるのか、理解可能であればよい(文法ミスがあっても内容が伝わればよい)のかを定義する。 - 顧客とともにMTエンジンの改善詳細を決める。
MTエンジンは固定された変化のないものではなく、徐々に品質を上げていくものであるため、MTプロジェクトの開始時の最低閾値と最終レベルの閾値を定義する必要がある。(翻訳フローにMTを導入する際にエンジンの品質が悪すぎると意味がない。最終的な品質はできるだけ高い方が良いが、それには時間もコストもかかる。) - MT品質をモニターし、ポストエディタ/顧客からのフィードバックを反映する方法を決める。
2種類のMTプロジェクト
- サービスマニュアル
翻訳メモリを使ってターゲットを抽出しMTで下訳する。人間の翻訳者(ポストエディタ)が品質を確認/修正する。品質要件はヒューマンクオリティ。 - オンライン多言語チャット
各国のディーラがチャットを使って(自国語で)質問する。ボタンを押すと質問内容が英訳され、エンジニアの回答結果(英語)が質問者の言語にMTされる。品質要件は理解可能な即時翻訳。
サービスマニュアルのMT品質評価
FTRレートとPEスコアにより評価する。
- FTRレート(First Time Right segment rate):
PEでの修正が不要なMTセグメントの割合。
100個の文章をMT訳を使って翻訳し、そのうち40個のMT訳について修正が不要だった場合、FTRレートは40%。FTRレートが高いほどMT品質が高い。 - PEスコア(Post‐Editing score):
ポストエディタによる修正の割合。完璧な翻訳結果にするためにポストエディタが行う必要がある修正の量。PEスコアが高いほどMT品質は低い。
FTRレートの最小値20%、PE スコアの最大値35% を実運用の閾値としている。
MTエンジンの改善
MTエンジンのリリース後、FTRレートとPEスコアを使いながら徐々に品質を上げていく。
- FTRレート向上のサイクル:
PE前後を比較し、ポストエディタの修正の内容から用語集をアップデートしたり、定型的なPE内容を自動化する。またプロジェクト終了後、ポストエディタに品質アンケートを行い、そのフィードバックをもとにエンジンをアップデートする。
経験上、FTRレートの上限は言語にもよるが約55%。これを超えるのは難しく、FTRレートが55%になった時点で改善のフォーカスをPEスコアにシフトする。 - PEスコア改善のサイクル:
FTRレートの改善策と同様、用語集のファインチューニングとPEの自動化を行う。PEスコアの下限は10%。
オンライン多言語チャットのMT品質評価
ポストエディタの作業が入らないため、FTRレート PEスコアは測定不能。
人間による4レベル(完璧に理解可能/充分理解可能/かろうじて理解可能/理解不可能)で評価している。
- 改善のサイクル:
どうしても理解不能なものについて「ヒューマン翻訳」ボタンをおすと、その文がYamagata Europeに送られ、1~2時間以内に翻訳結果を返す。その翻訳不能な文を集約/分析してフィードバックとして使用する。
第二部
ヒューマンサイエンスでは2007年からMTプロジェクトに携わり、多言語における検証を進めてきた。英語から欧州言語への翻訳では期待できる成果が得られることが分かっている。多言語翻訳においては「MTを使うかどうか」ではなく「いかに使いこなすか」というフェーズにある。翻訳会社としてMTにどのようなアプローチが可能か、またサンプルプロジェクトにおけるフランス語/イタリア語/ドイツ語/スペイン語の4言語でのコスト/スケジュール/品質に対する効果に関する講演。
MTを使いこなすための3つのポイント~MTの前に~
- プロジェクトに合わせた翻訳品質基準を事前に設定することコンテンツに期待する最終品質を明確にすること、使用するMTエンジンの出力品質を把握すること。これら2つの品質ギャップを埋めることが翻訳ベンダーのタスクであり、ギャップの大きさがタスク(PreEdit/PostEdit)の量になる。
- MTアウトプットの品質・生産性を向上するためにプリエディットを行うこと
MTエンジンは行間を読むことができないため、機械が翻訳しやすい英文にリライトする。
- 短文化でシンプルに
不要な用語やフレーズを排除して一文を15ワード以下に抑える。
箇条書きを活用する。
副詞節は1文中に1回までにする。
並列節は1文に2回までにする。 - 一文一義
修飾関係を明確にする。
代名詞の意味を明確にする。 - 表記統一
用字・用語・表現を統一する。
- 適切なMTエンジンを選定すること
- エンジンの種類
ルールベース/統計ベース/ハイブリッド - 特徴
導入コスト/機能/CATツールとの連携/ユーザビリティ/得意な言語・分野 - 品質
マッチしないことがあるという問題点も指摘されている。自動評価と合わせて、人による評価も併用するとよい。 自動評価については、BLEUやTERといった手法が一般的だが、やはり機械が算出する結果であるために、実際の品質とは
サンプルプロジェクトでの適用事例
フランス語/イタリア語/ドイツ語/スペイン語での評価を行った。
- 翻訳品質基準の設定
翻訳対象はエンドユーザー向けの取扱説明書。品質基準は「人による翻訳と同水準」とし、ポストエディットの工程では、正確さと読みやすさを考慮した他、スタイルや用語を統一するためにフルエディットを実施した。 - プリエディット
英文の品質があまり良くなかったため、MTの前に英文のプリエディットを実施した。プリエディット前後のMT結果を各言語のネイティブ翻訳者2名で評価したところ、全体的に品質が向上した。MT前のプリエディットによりMTアウトプットの品質が向上し、ポストエディットの負荷を減らすことができる。 - エンジンの選定について
ルールベースのエンジン1つと統計ベースのエンジン2つで品質比較を行った。
各言語の品質比較結果から
- ルールベースのエンジンは、言語による品質の差が小さかった。
- 統計ベースのトレーニング前の数値と比べても、ルールベースの方が品質が良い言語もあるため、大量のコーパスをすぐに準備できないという場合は、最初はルールベースのエンジンでMTを導入し、翻訳データを蓄積してから統計ベースに移行する方法もある。
- 統計ベースのエンジンでは言語によって品質に差がある。読み込むコーパスや翻訳内容によってもアウトプットの品質が変わってくるため、必ず事前にサンプル翻訳を行い、エンジンや言語の品質を把握してから、どのエンジンを導入するかを決めるのが良い。
サンプルプロジェクトの結果
サンプルプロジェクトでは、MTを導入することにより、人による翻訳の場合と比べて、翻訳コストを27.5%、翻訳期間を48%短縮することができた。ポイントをおさえてMTを使いこなすことで、このように人と同レベルの品質を保ちながらも、コスト削減や翻訳期間の短縮が可能になるプロジェクトもある。
また、品質基準をどこに設定するかによっても翻訳期間/コストに差が出るため、事前に翻訳の内容やクライアントの要求品質をよく理解した上で、求める品質とコスト削減の実現を考えていくことが重要である。
もちろん、コーパスの品質や内容、原文(英語)の品質、使用するエンジンの種類によって、翻訳コストや期間をどの程度削減できるかは異なってくる。MTの各エンジンの特徴や各工程についてよく理解し、プロジェクトに合わせたワークフローを構築していくことが、今後、MTを使いこなし、他の企業とは違う独自のMTサービスを提供していくための鍵となるのではないか。
講演資料のダウンロードはこちら
*ダウンロードには、参加者のみに別途メールでお送りしておりますパスワードが必要になります。