TAUS Executive Forum Tokyo 2012 レポート

TAUS Executive Forum Tokyo 2012 レポート

河野弘毅(かわのひろき) 
日本翻訳ジャーナル編集長



名称●TAUS Executive Forum Tokyo 2012
期間●2012年4月19日(木)~ 20日(金)
場所●オラクル青山センター
主催●Translation Automation User Society (TAUS)
詳細●http://www.translationautomation.com/executive-forums/taus-tokyo-executive-forum.html

 



TAUS(Translation Automation User Society)は、翻訳における技術革新を促進するためにローカリゼーション業界のビジョナリーであるJaap van der Meer氏が2004年に設立したNPOである。Jaap氏は翻訳会社としてはじめてNASDAQに上場したALPNETのCEOを務めた経歴の持ち主で、現在はTAUSのディレクターとして翻訳産業におけるイノベーションとインターオペラビリティの実現に力を注いでいる。

TAUSは毎年世界各地をまわって情報交換と交流をおこなうイベントの企画運営、企業の壁を超えた言語資源の共有活動、インターオペラビリティを実現するための技術標準の検討などの活動を行っており、そのメンバーにはグーグル・アドビ・マイクロソフト・Cisco・インテル・オラクル・HP・シマンテック・デルなどの著名なクライアント企業をはじめとして、ライオンブリッジ・SDL・CLS・Moravia・Welocalizeなどの大手翻訳会社、またSYSTRAN・XTM International・Kilgrayなどの翻訳支援ツールの主要企業が参加している。

TAUS Executive Forum TokyoはTAUSの世界ツアーにおける日本開催イベントであり、二年前の2010年に初めて開催された。2011年の開催は東日本大震災の影響で中止となったため、日本においては今年が二度目の開催となる。開催直前にTAUSとJTFの間でパートナーシップ協定が締結されてJTF会員へも開催の案内が回覧されたこともあり、今年は一昨年を大きく上回る約60名の参加者が二日間にわたって集い、二日間にわたって20-25分間のセッションが約25個提供され、質量ともに充実した情報共有を行った。また、セッションの間には交流の時間が余裕をもって確保してあり、参加者間の親睦や情報交換をはかれるように配慮されている。なお、プログラムの詳細は冒頭に記載したURLから参照できる。

TRANSLATION IN THE 21ST CENTURY

“Translation in the 21st Century”は今回のTAUS Executive Forum Tokyo のテーマ。TAUSが提供するイベントの魅力のひとつは業界屈指のビジョナリーであるJaap氏から最新の業界認識を聞けることであろう。今回のイベントでも冒頭と最後にJaap氏のキーノートスピーチが行われた。

Who Gets Paid for Translation in 2020−Jaap van der Meer (TAUS)

Jaap氏は、MT(MT=Machine Translation、機械翻訳。以下同じ)の歴史(1954~)、TAUSの歴史(2004~)、MTの未来(~2050)、TAUSの未来(~2020)という100年スパンでの俯瞰を最初に提示し、その中で現代を「翻訳がユーティリティとなった時代」と位置づけた。続いて、5年後までに翻訳支援技術・TM(TM=Translation Memory、翻訳メモリ。以下同じ)・翻訳アプリケーション・業界でのキャリア・顧客企業の各分野で人々が遭遇するであろうトレンドを予測した。そこから今度は、コンテンツの種類に応じて異なる課題が発生している翻訳産業の現状を分析し、直面している課題を解決するためには20世紀における翻訳の考え方と異なる21世紀の翻訳の考え方が必要だと述べた。
 

TAUS 創設者兼ディレクターのJaap van der Meer 氏と
イベントのホストを務めた日本オラクルの千明潤一氏


ちなみにJaap氏が20世紀における翻訳の考え方としてリストアップした項目は下記のとおりである。

1.    One translation quality fits all
2.    Selecting locales – limited languages
3.    Counting words – owned content
4.    TM is core
5.    Project-based translation
6.    Cascaded supply chain
7.    Publisher-driven
8.    One directional

これに対して、21世紀における翻訳の考え方は下記のように変化するとJaap氏は予測する。

1.    Quality differentiation
2.    Long-tail – unlimited languages
3.    Unlimited content – owned, shared, earned
4.    Data is core
5.    Continuous translation
6.    Collaborative translation
7.    User-driven
8.    Multi directional

最後は、このように変化していくトレンド中で、私たちはどのような戦略的方向性を目指すべきかについてJaap氏は持論を語り、キーノートの最後を“Imagine we have 100 Billion Translated Words at our Disposal” という印象的なスライドで締めくくった。

顧客にとっての価値こそ重要−Daniel Marcu (SDL)

今回のイベント参加者には、もう一人の業界ビジョナリーと呼ぶべき存在としてDaniel Marcu氏が含まれていた。Marcu氏は南カリフォルニア大学で統計的機械翻訳の流行のさきがけとなった重要な研究を行うのと並行して機械翻訳ベンチャー企業のLanguage Weaverに創業者のひとりとして参加。その後のSDLによるLanguage Weaverの買収を経て、現在はSDLの言語技術部門のCTO(Chief Technology Officer)としてこの業界の行方を左右する重要人物である。

Marcu氏は「今や業界で語るべきことの焦点は技術から顧客にとっての価値に移った」というテーマで発表した。MTコミュニティの関心事は、どの翻訳技術が優れているかとかBLEUスコアがいくつ増えたかとかいうことに終始しがちだが、顧客はそんなことにまったく関心はなく、顧客の関心事は顧客自身にとっての価値である。MTが大企業のエコシステムにおいて価値を生み出しえる領域はどこであり、どうすればその価値を増やすことができるのか、その問いに集中すべきであると強調した。スピーチの中で、SDLが顧客向けに構築したMTエンジンのシステム数が13,747件に上るとの言及があり、その多さに驚いた。

次世代ワークフローの追求

ここからは個別の発表を紹介していくが、発表された順番に並べてもイメージが掴みにくいと思われるので、このレポートでは前半で作業プロセスの特定の段階の改善をテーマとする発表を作業プロセスの順番に並べ替えて紹介し(題して「次世代ワークフローの追求」)、後半でケーススタディに関する発表を発表者が所属するグループにしたがって分類して紹介する(題して「さまざまなショーケース」)。

原文を制御するーアクロリンクス

日本企業において日英翻訳を介して制作される英語文書はネイティブでない書き手によって書かれる場合が多く、とくにテクニカルライティングの素養のない技術者が執筆する場合は英語の品質に問題が生じる場合が少なくない。そのような場合、原文である和文の品質から改善するのがひとつの対処方法になる。原文を制御するわけであるが、アクロリンクスはそのようなケースで原文にルールの縛りをかけるためのツールを提供しており、英語を原文とするケースでは多くの導入実績がある。同社のツールは原文が日本語の場合にも対応しているが、この発表では日本語原文の場合の推奨ルールといくつかのベストプラクティスなどが紹介された。

エンジンを選ぶーシマンテック

MTエンジンの選択が機械翻訳結果の品質を左右する重要な要素であることは当然である。シマンテックでは当初は多言語に対して単一のMTエンジンを採用していたが、新しく言語ペアやコンテンツの種類ごとに異なる個別に最適のMTエンジンを選択するように方針を変更したのに合わせて、オープンソースのMTエンジンを含む複数のMTエンジンを比較検討した結果を報告した。少なくとも今回比較実験した範囲内では、統計翻訳のエンジンよりも文法ベースないしハイブリッドエンジンのほうが良い結果を得られたとの内容だった。

日本語-英語間のMT性能を改善するーオートデスク, Pangeanic, 東芝

日英間のMTはまだ性能面で劣るが、その改善を目指した技術開発が進められている。日本語と英語は語順が違いすぎて統計的翻訳がうまく機能しないというのが共通理解になっているが、それを克服するテクニックとして、いったん原文を構文解析にかけ、格構造にもとづいて句(または節)の順序を自動的に訳文の順序と近い並びに並べ替えた上で統計処理をかけるという手法が、オートデスクと東芝-Pangeanic(日本での窓口はBIジャパン)という二件のセッションで報告された。

オートデスクは翻訳生産性の改善を目的として2009年からオープンソースの機械翻訳エンジンであるMosesを導入しているが、2日間にわたって37名の翻訳者の参加を得て9言語の翻訳生産性計測試験を行った結果、日本語以外の8言語(中国語・韓国語を含む)でポストエディットの生産性が翻訳の生産性を上回ったのと対照的に日本語のみでポストエディットのほうが翻訳より生産性が下がってしまった。この結果を受けてポストエディットの作業内容を分析したところ、日中韓の三言語で語順の並べ替え操作が明らかに負担になっていることが計測結果から明らかになったため、英語の原文の語順を日本語の語順により近い順序に並べ替える前処理をかませたところ、ポストエディットの効率を最大で75%も改善できたとの報告がなされた。

語順の自動変更という手法はもう一件、Pangeanicと東芝からも発表された。Pangeanicは統計ベースのMosesにもとづく最初の商用アプリケーションPangeaMTを提供した企業であり、東芝は1979年から文法ベースの機械翻訳の研究開発を続けてきた長い実績を持つ。両者は2010年に東京で開催されたTAUSで知り合い、それぞれの機械翻訳エンジンを組み合わせたハイブリッド(=統計ベース+文法ベース)エンジンの開発に取り組んでいる。具体的には、英語を日本語と似た語順に並べ替える処理(東芝はこの処理をNipponizationと呼ぶ)を自動的に行った上で統計処理に持ち込む。その結果BLEUスコアの改善が見られたと東芝は発表した。

語順を自動的に並べ替えることでSMTの精度を上げるというこの手法が一般的に使われるようになれば、従来は機械翻訳が使えない・使いにくいとされてきた英語-日本語間の機械翻訳性能が改善される期待が持てる。今後の動向に注目したい。

ポストエディットを改善するーオラクル, 立教大学

このイベントのホストでもあるオラクルからは、エンジンとしてMosesを採用した同社がMTシステムのポストエディットにどのように取り組んでいるかというテーマで発表があった。オラクルではユーザーサポート用のナレッジベースの記事をMTで翻訳して提供しているが、ポストエディットに関しては「社内 or 社外」および「Rapid or Full」の二つの要素をどう組み合わせるのが最善か、実験している。Rapid PE(PE = Post-Editing)では、誤訳を改める編集のみ行うよう指示し、スタイル・表現・表記統一のための編集は禁止する。実験した結果、社内のエディタにRapid PEを担当させるオプションを採用しているが、その場合はプロ翻訳者でない作業者にPEを委託することになるので、実例を含んだ丁寧な作業指示をPE開始より前に出しておくとともに、PEの結果をきちんと評価してフィードバックする手間をかける必要があると述べた。

ポストエディットに関しては、立教大学の山田優氏から、その生産性が作業者の習熟度に応じてどのように変化するのかを研究したユニークな研究成果が報告された。MTの評価に使われるスコアの一種にGTMというスコアがあり、2つのテキストの一致度が高いほど1に近い値になるが、このGTMスコアを用いてファジーマッチからの翻訳に要する作業量とMTのポストエディットに要する作業量を比較した。この発表では、MTのポストエディット作業のGTMが0.362になった一方でファジーマッチ率70%以下のTMからの翻訳作業のGTMは0.464であり、MTのポストエディットは70%以下のTMからの翻訳よりさらに作業効率が落ちることを示唆した。もちろん、いつもそういう結果がでるという話ではないが、「MTを下訳に使って翻訳のコストを下げる」ことができるかどうかというよくある議論に対して定量的な実験例を示したことは興味深い。

翻訳の品質基準を再考するーTUAS, Asia Online

翻訳の生産性を考える際に品質に関する尺度はもちろん重要であるが、翻訳品質というテーマに関して行われた2つの発表を紹介する。1件目はTAUSの職員であるRahzeb Choudhury氏が行った “Dynamic Quality Framework”で、このテーマはTAUSの研究開発セクションであるTAUSラボの主要コンテンツの一つである。ここで説明された方法では、コンテンツの種類ごとに、(1) Utility(その文書の有用性)、(2) Time(納品までに与えられた時間)、(3) Sentiment(企業イメージに与える影響度?)がどのレベルかを検討し、決定したレベルの組合せに応じて適用する品質モデルを選択する。この研究には、オリジナルメンバーとしてCiscoなど9社が、また途中からマイクロソフトなど7社が参加しており、その研究成果はTAUSメンバーに対して公開されている。

翻訳品質(の評価)についてのもう一つのトピックはAsia Onlineが発表したBLEUスコアに対する疑問である。BLEUスコアは、与えたテストセット次第で大きく変動してしまうし、リファレンス用として人間による翻訳結果をいくつ設定するかによっても変動するし、言語ペアによっても変動する。また、統計的MT(以下SMT)だととにかく大量のデータを与えれば良いとばかりにデータも何でも放り込む場合(Dirty Data SMT approach)があるが、それは逆効果であり、むしろ20-200万文のクリーンなデータを読み込ませたSMTのほうがPEの操作に対して敏感に反応するとの説明があった。ちなみにこの発表では、同社がMTの目標精度を「ファジーマッチ率が85%のTMに相当する効用が得られる水準」に置いているとの説明があった。覚えておきたい数値である。

さまざまなショーケース

日本で開催されるTAUSイベントの特徴の一つとして、他のイベントでは一同に介する機会がない多様なセクター(クライアント企業・翻訳会社・ベンチャー企業・大学・官庁)が一同に介する魅力があげられる。それぞれの組織が取り組んでいる市場、抱えている課題、持っている経験や人材が異なる以上、その取り組みがバラエティに富むのはごく自然なことである。レポートの後半では、組織の種類にもとづいて発表者をいくつかのグループに分け、それぞれのケーススタディを紹介する。

クライアント&翻訳会社ーCisco, PayPal, YAMAGATA, マイクロソフト, その他

顧客自ら、あるいは顧客と提携ベンダーが協力して構築した機械翻訳システムの事例報告がいくつか報告されたので、ここではそれらをまとめて紹介する。なお、マイクロソフトのケースは翻訳サービスの紹介であるが便宜上ここで紹介する。
 

TAUS の日本における紹介者である中村哲三氏
(YAMAGATA INTECH)


CiscoとSDLは何年も前から共同でユーザーサポート文書の機械翻訳を試行錯誤してきた経緯があり、発表されたワークフローもかなり成熟したもののように感じられた。MTエンジンはSYSTRANを使っている。このチームの発表が、今回のイベントでベスト・プレゼンテーションに選ばれた。個人的には、翻訳者にポストエディットを担当させると丁寧に仕事しすぎてしまうが翻訳者でないポストエディターに任せると誤訳を見つけられない、という説明のくだりが面白かった。

PayPalの発表はMTの導入効果に関してもっとも前向きの評価を与えるものだった。PayPalでは、MTの導入効果を高めるために複数の対策を組み合わせて導入している。原文制御のためにアクロリンクスを導入し、MTリンギストからのフィードバックを反映させて診断ルールを改善する。また、ローカリゼーションを始める前にMTによるコンテンツ翻訳の手順を加えることにより、翻訳開始前にソーステキストのバグをフィックスできる場合があり、24言語に翻訳してからバグとして上がってくるのを事前に防ぐことができた。スペイン語・イタリア語・フランス語については各言語から英語への逆翻訳についてもMTが機能することを確認した。インハウスで作業しているコンテンツ・スペシャリスト(ヘルプと顧客サポートeメールのテンプレートを担当する)はMT導入で作業時間を短縮できた。これらの成果を導入から2年足らずの期間に得ることができた。

Yamagataからは欧州ホンダにおいてドイツ・ロシア・イタリアの現地ディーラーからのクレームを英語に翻訳するプロジェクトでMTを採用したケースが発表された。エンジンはSYSTRANを採用した。その経験から、(1) 翻訳品質を定量的に評価する基準の重要性、(2) 構造化されていないコンテンツを翻訳する場合は事前の編集(Pre-editing)がカギとなる、(3) 用語集の重要性、(4) トータルでのシステム構築のほうがMT自体よりも複雑な課題となる、(5) 文法ベースMTのスコアが予想以上に良い、といった点がわかったと報告した。このプロジェクトにはWebサービスを使った多言語チャットシステムのMT翻訳が含まれており、翻訳リクエストを受けてから2秒で結果を返すシステムを構築したが、そのシステムの平均Understandabilityは79.5%(目標は90%)であったと報告された。

マイクロソフトからは同社が提供する公開翻訳プラットフォームであるTranslator Hubが紹介された。Translator Hubはユーザーがプロジェクトを登録するとマイクロソフトのMTエンジンを利用して自らのコンテンツを翻訳できるウェブサービスであり、グーグルが提供するGoogle Translation Toolkitのライバル製品と言えるだろう。なお、提供されたスライドの最後のあたりに、ナレッジベースを参照したユーザーが「解決した」と回答してくれる割合を人間翻訳(HT)とMTで言語ごとに比較したグラフがあり、日本語や韓国語ではHTがMTをはっきりと上回っているのに、大部分の言語ではHTとMTの成績が拮抗しており、一部の言語(簡体字中国語・ドイツ語・ポルトガル語など)ではMTがHTを上回っていたのは大変おもしろいと思った。

この他にニュージーランドのFuji Xeroxからは自ら提供するSaaS型の翻訳サービス(Smart Translate)の紹介が行われた。同じくニュージーランドに拠点を持つ翻訳会社で自社開発した多言語CMSを所有するStraker Translationsからは翻訳の課金ベースをボリューム(ワード数)から時間に変更すべきだとの意欲的な提案とともに提案を実現するために同社が自社開発した翻訳プラットフォームが紹介された。また、翻訳センターからは同社が2008年から取り組んでいる自社開発ツールHC TraToolへの取り組みについて紹介された。

ベンチャービジネス登場—Baobab, 八楽, myGengo

このイベントが前回東京で開催された2010年にはまったく見られなかった日本発の翻訳ベンチャー企業も今年は三社(Baobab、八楽、myGengo)がプレゼンを発表し、時代の移り変わりを実感した。三社の企業はそれぞれがユニークなサービスとビジネスモデルを展開しており、技術的にも組織的にも興味深い存在である。

BaobabはNICTのMT技術をベースにクラウド翻訳のインフラ「留学生ネットワーク@みんなの翻訳」を実用化して商業利用に成功したベンチャー企業で、2011年に発行した日本翻訳ジャーナルの別冊3号でインタビューしている。社員が1名しかいない企業が日英で月産100万字を超える翻訳を処理するというのは一昔の常識で考えれば奇跡的としか言いようがないスコアだと思うがそれが現実である。ちなみに翻訳コストは日英で73%削減できたと発表。削減して73%になったのではなく73%削減、すなわち1/4に削減してしまったとのこと。

八楽は「ワールドジャンパー」というSNS上で動作するSMTアプリケーションを開発・提供しているベンチャー企業で、当日は創業社長である坂西優氏が若者らしいポップで元気なプレゼンで存在を印象づけた。MTとクラウド翻訳を組み合わせている点でワールドジャンパーはBaobabと似ているが、そのサービスは当初はSNSアプリケーションとして、また、今春からはウェブサイトの多言語化ツールとして提供されており、ビジネスモデルにおいても試行錯誤している様子がうかがえる。この企業の特徴は、MTの技術開発を自らの手で行なっていることだろう。

myGengo(2012年7月にGengoに社名を変更)は当初、このイベントの発表者にノミネートされていなかったが急遽短時間であるが会社紹介を行った。API経由のクラウド翻訳サービスというユニークなビジネスモデルをひっさげて3年前に日本から産まれた翻訳ベンチャー企業であり、昨年にはシリコンバレーの著名なベンチャーキャピタルから出資を受けたことで、翻訳業界の枠を超えてベンチャービジネスの業界で話題になった会社である。この会社も、今後の動向に注目したい。

大学・官庁の取り組み−国立国会図書館, 豊橋科学技術大学, 京都大学, 特許庁

アカデミックなセクター(大学等)からも重要なプレーヤーが参加している。ここでは官学のセクターからの参加者について紹介する。

今回のTAUSには国立国会図書館の前館長である長尾真先生も参加され、「機械翻訳と電子図書館」(Machine Translation and Digital Libraries)という、まさに長尾先生が生涯をかけて追求してこられたテーマでプレゼンされた。前半は機械翻訳の概要を14枚のスライドに要約して解説、後半は機械翻訳を電子図書館に適用するという長尾先生の二つのライフワークが交錯するトピックだった。いずれのテーマについても名実ともに日本の研究開発をその夜明けからリードしてきた、この業界の「神様」による発表であり、そのような超大物まで召喚してしまうJaap氏の人脈力には敬服した。ちなみに長尾先生のプレゼンでは、language gridという用語を「A-B言語間のMTとB-C言語間のMTシステムを組み合わせてA-C言語間のMT出力を得るという方法で多言語対多言語のMT出力を提供するようなシステム」を指すものと定義しており、後述する京都大学の言語グリッドプロジェクトとは意味が異なる点が興味深い。
 


キーノートの直後に発表した豊橋科学技術大学からは、AAMTの活動の紹介、井佐原研究室での研究の紹介されたほか、別のセッションで東京大学と共同で取り組んでいるSimplified Japaneseによるmachine translatability改善についても研究成果が発表された。MTの精度を上げる方策のひとつとして原文をMTになじむように整形するという考え方(制限言語アプローチ)は昔からあるが、Simplified Japaneseはその現代版といえるだろう。アクロリンクスが英語圏で一定の成功を収めているのをみると制限言語アプローチも一定の条件のもとで有効性があるのかもしれないが、個人的にはツールで自動診断してワーニングをだして原文を整えることができるくらい原文を賢く構文解析できるアルゴリズムがあるのなら、そのアルゴリズムをMTの前処理に組み込んでユーザーとインタラクティブに前処理を進める翻訳支援ツールを開発するほうが原文を制限するよりポジティブなように思った。しかし、私の理解が間違っているのかもしれない。

京都大学からは、継続的な研究テーマである「言語グリッド」の最新状況に関する発表があった。言語グリッドは「辞書・MTエンジン・関連ツールなどを言語サービスとして登録し共有するためのサービス基盤」だとされており、以前NICT内に置かれていたオペレーションセンターは現在京都大学に移転している(続報であるが、2012年7月には石田大成社が言語グリッドの「オフィシャルスポンサー」となることが発表された)。プレゼンでは、言語グリッドのコンセプトが「言語資源の提供から言語サービスの提供へ」のシフトであるとの説明に続いて、ベトナムの小学校と日本を結んだ利用例が紹介された。

特許庁からは日本における知的財産権の機械翻訳の現状が報告された。はじめに日本政府が提供するMTによる知財データベースとして、一般向けに公開されている知財情報のデータベースであるIPDL (Industrial Property Digital Library)と、世界各国の特許庁向けに特許の審査結果を英語で公開するためのデータベースであるAIPN (Advanced Industrial Property Network)の2つが紹介された。続いてこれらMTの精度向上のために年間5000語のペースで辞書登録を行っていること、海外の特許庁からAIPNに関する誤訳レポートのフィードバックを受けていることが紹介された。EU・米国・日本・韓国・中国の5つの特許庁(IP5)の間では2011年9-11月にMTによる各国知財の英語版データベースの誤訳フィードバック方法に関する合意が結ばれ、2012年1月からフィードバックを反映して各国のMTシステムをアップグレードするプロセスが開始されている。



「初日夜に開かれた懇親会」

TAUSと翻訳の未来

TAUS Data 2020−Jaap van der Meer

イベントの締めくくりとして、Jaap氏が総括となるプレゼンを行った。題して“TAUS Data 2020”。冒頭でビッグデータの重要性を示す先例としてヒトゲノム・プロジェクトに言及。3.8Bドルの投資が796Bドルの経済効果を産み31万人の雇用を作り、ゲノム革命を起こしている。この事例がデータの重要性を示している。

2020年に翻訳はどうなっているか。いくつか予想をたてる。英語がグローバル言語としての影響力を失っている。言語のdiversityが支配している。MTがあたらしいリンガフランカとなる。数十万という単位で産業・分野・セクター・企業などを特定した自動翻訳ツールが稼働している。翻訳サービスの課金方法が変化する。翻訳はすべてのサービス・ウェブサイト・アプリケーションに埋め込まれたユーティリティとなる。新しき「プレミアム」サービスが産まれているがそれは、「パーソナライゼーション」「カスタムサービス」「データアナリティクス」などである。

変革とは不可逆的に進行するもの。fragmentationからconsolidationへ。closedからopenへ。desk-topからenterprise serverを経てindustry shared platformsへ。言語データの共有は言語産業における自動化(オートメーション)と技術革新(イノベーション)を加速する。年間に世界全体で50Bワードが翻訳されるとして、局所的にTMが使われるプロセスも多数あるが、一方でContributory Data Cloudの周辺にデータを追加するプラットフォームとデータを処理するプラットフォームが多数囲み、そこでも多くの翻訳が行われるようになる。

Contributory Dataの強みのひとつは、言語の可撓性に追随できる点にある。言語とは常に変化していくものであり、new inventions、convergence、new terminology、sociological and cultural changeが常に生じている。(固定されたTMではそれらの変化に自律的に追随していくことは困難であるが)Contributory Data Cloudであれば、言語データに関する inexhaustible sourceを提供することが可能である。

そのような言語環境をよりよく実現できるContributory Translation Data Cloudは、Free, Open, Sharing, Collaborativeなものであり、ギブ・アンド・テイクが機能する相互応酬的なものであり、そこで技術標準として需要な意味を持つのはAPIであり、ビジネスモデルとしてはコントリビューターのビジネスに優位に働くものでなければ成立しない。しかし、いったんこれが機能すれば、翻訳産業を革新するとともに大きく成長させる契機となり、世界のコミュニケーションを改善する社会的貢献となろう。
     
TAUSがイニシアティブをとって推進するContributory Translation Data CloudはTAUS Dataという名前であり、その発祥は2007年のニューメキシコでの会合である。なお、知的財産権について説明しておくと、各社とも著作権は留保する(=手放さない)という条件で翻訳メモリを提供しており、各社は機密保持上問題のないデータだけをTAUS Dataに提供している。

TAUS Dataは誕生から現在までの五年足らずの期間で、多くのMTエンジン(マイクロソフト・Pangeanic・Welocalizeなど)の性能改善に貢献し、毎月50万件の検索が行われ、産業界における唯一の公共性保護区のようなフレームワークになっている。TAUS Dataのロードマップとして、今後はTerm Extractorの装備、Data Collectorの開発、マッチングスコアの開発などを引き続き行う。当初370であった言語ペアが現在は2600まで増えており、テキスト量も最初4Bワードだったものが50Bワードにまで増えている。

2013年は4月12日-13日に開催予定

冒頭にも述べたが、TAUSのイベントではセッションの間に交流の時間があるので参加者間の親睦や情報交換をはかることができた。ローカライゼーションの顧客企業や大手LSPの技術開発者は、TAUSのような機会を通じてベストプラクティス(=成功事例)の経験と情報を共有しているのだろう。経営者間のコミュニケーションはまた違う雰囲気になるのだろうが、少なくとも技術者間のコミュニケーションはとてもオープンでフランクであり、うまくいった事例を隠したりせず気前よく公開し、それが業界全体のレベルアップにつながっている。同業組合的伝統がよい意味で機能しているのかもしれないと感じた。

TAUS Executive Forum Tokyoは来年も開催される。会場は今年と同じく日本オラクルの青山センターでの開催、期日は2013年4月12日から13日と決定している。TAUSとパートナーシップ協定を結んでいるJTFの会員は参加費用の大幅ディスカウントが受けられることになり、コストパフォーマンスも一気に改善された。プログラムの充実度を考えると、翻訳の未来に関心をもつ業界関係者に自信をもって参加を勧められるイベントであると思う。

末筆になるが、TAUSの日本でのイベント開催に最初の準備段階からかかわりいろいろと見えないところで骨を折ってくださったYAMAGATA INTECHの中村哲三氏と、ホストとして会場を提供して海外からのゲストにホスピタリティを提供してくださった日本オラクル側の責任者である千明潤一氏のお二人のご尽力に感謝するとともに、TAUSという先見性に満ちた取り組みを創出し、継続して世界の論調をリードし続けるJaap van der Meer氏の歴史的な貢献に心からの敬意を表してこのレポートを終えることにする。
 

共有