AAMT総会(招待講演報告) 翻訳品質とTAUS DQF
AAMT総会(招待講演報告)
翻訳品質とTAUS DQF
西野 竜太郎
合同会社グローバリゼーションデザイン研究所代表社員。TAUS Representative、JTF 標準スタイルガイド検討委員も務める。情報システム学修士(専門職)。著書『アプリケーションをつくる英語』で第4回ブクログ大賞(電子書籍部門)を受賞。雑誌記事に「Learning localization in context」(MultiLingual誌 2013年12月号)など。趣味はジャズ鑑賞とアニメ鑑賞。
アジア太平洋機械翻訳協会AAMT 機械翻訳フェア(MTフェア)2016 招待講演会
日時●2016年6月17日(金)12:30 ~ 18:00
開催場所●ホテルアジュール竹芝
テーマ●翻訳品質とTAUS DQF
登壇者●西野 竜太郎 Nishino Ryutaro 合同会社グローバリゼーションデザイン研究所、TAUS Representative
報告者●目次 由美子(LOGOStar)
早くて安くて上手い翻訳にはいずれのクライアントも満足するだろう。つまり、発注者は翻訳という作業に対してスピード・低価格・品質を求めており、この三大要素を基に依頼先となる翻訳者を探しているといっても過言ではない。これは翻訳業界全体で求められていることであり、機械翻訳も同様の条件で比較・検討されていると言えよう。
2004年に創設されたTAUS(Translation Automation User Society)は、翻訳業界で機械翻訳など技術革新を推進する世界規模のシンクタンクであり、リソースやリサーチを共有するなどして相互運用性の実現を目指している。同団体のRepresentativeとしてDQF(Dynamic Quality Framework)という品質評価に関する取り組みを行っている西野氏は、今日の翻訳業界における「品質」に関する問題を指摘して講演を開始した。
翻訳業界でよくある取引関係には代表的に4つの立場が挙げられるそうだ。翻訳を消費する a) 最終読者、そして翻訳を生産する b) クライアント、c) 翻訳会社、d) 翻訳者。この4者それぞれの視点からでは、同一のマニュアルに対しても評価は異なる。例えば、b) クライアントは自社のスタイルガイドに従っているので品質基準は満たしている、ところが c) 翻訳会社は納期と料金に見合った品質を提供したといった具合だ。4者それぞれの「品質」の定義が異なり、結論には到達し得ないであろうことが容易に想像される。
西野氏は、Garvinという経済学者の提唱に基づいて2014年にFieldsを含む複数の業界人・学者により共著論文として発表された以下の翻訳品質に対する5つの分類を紹介してくれた。尚、Garvinは既存する品質のほとんどは5つのいずれかに分類されるとしているそうだ。
A |
超越的 |
transcendent approach |
良い文章に多く触れるといった経験を通して培われた力で、品質の良し悪しを直感的に判断 |
B |
プロダクトベース |
product-based |
製品やサービスの品質は原材料や特質によって測定が可能。測可能な数値を用い、製品やサービスどうしの比較が可能。 |
C |
ユーザーベース |
user-based |
ユーザのニーズ、要望、好みを満たす度合いにより品質が決定される |
D |
生産ベース |
production-based |
あらかじめ定義された要件や仕様を満たしている度合いによって品質が決定される |
E |
価値ベース |
value-based |
品質と便益(cost and benefit)によって品質が測定される。費用に比較して便益が大きければ高品質と見られる |
マニュアルの翻訳品質をこれに適用させると、たとえば、仕様や要件を満たしていることを重視する b) クライアントはD 生産ベースであり、納期と料金に則して品質を計測する c) 翻訳会社はE価値ベースであるという。これら5つのうちいずれを使用するかは状況によっても異なり、翻訳の場合も、評論などでは超越的に品質は考慮されるが、教育現場ではプロダクトベースの評価エラーが計測されることもあり得ると西野氏はいう。
また、翻訳ビジネスでは複数の主体が関わるため、「生産ベース」を採用すべきだとの主張がなされた。つまり、翻訳者・翻訳会社・クライアントが主体となり、事前に合意した「仕様」をどれだけ満たしているかで品質を評価すべきだというのである。また、仕様には他の4つを組み込み、評価方法やしきい値などを関係者間で合意しておくことができるとのこと。
エラーを基準とした評価方法は、プロダクトベースの代表的な手法であり、LISA(Localization Industry Standard Association、1990~2011)のQAモデルや、SAE (Society of Automotive Engineers )のJ2450などが従来から活用されている。訳文のエラーをカテゴリーごとに重みを付けてカウントし、合計点数をしきい値に比較して合否を決定する。たとえば、用語集違反は重み「Critical 」として10点を付与する。
ところが、近年は新しいエラー評価の方法が提唱されているそうだ。2012年にはTAUS DQF(Dynamic Quality Framework)が、2014年にはドイツ人工知能研究センターとQTLaunchPad(EU資金拠出)が開発したMQM(Multidimensional Quality Metrics)が紹介された。
DQFでは品質評価の手法のみでなく、ツール類の開発も推進しているそうだ。また、コンテンツの種類に応じて評価方法をDynamicに変えるという目的もあり、従来のエラー評価方法に対する「one-size-fits-all」という批判にも応えるとのこと。基本手順はとてもシンプルで、1. コンテンツ・プロファイリングをウェブで実施し、2. 推奨される評価方法から1つを選択し、3. 評価を実施するとのこと。たとえば「UIテキスト」に対しては、ユーザビリティ評価やエラー評価などが推奨されるそうだ。さらに、2015年にはDQFとMQMのエラー項目が統合されたとのことで、今後、国際的により広く利用される可能性も伺える。
DQF Toolsと呼ばれるウェブ上のツールでは、アップロードされた対訳テキストに対して評価の実施結果であるレポートが表示されるとのこと。翻訳メモリツールなどの外部ソフトウェアからも評価操作を実行できるよう、APIも整備中だそうだ。
講演末尾の質疑応答では、和訳文に対する評価の正当性についての実績が問われたほか、機械翻訳での利用やエラー原因の追求など、単なる質問というよりも拡張リクエストとも受け取れる要望が参加者から熱心に伝えられた。「翻訳の品質評価」の国際標準化へ向けてのアプローチと必要性が強く感じられた講演であった。