Talk 2: Crowdsourcing Post-Editing for Rugby World Cup 2019
Talk 2: Crowdsourcing Post-Editing for Rugby World Cup 2019
Speaker: Prof Tony Hartley, Rikkyo University
(下に報告者による和訳がありますが、ハートレー先生の書かれた英語の文章はとても美しく、様々な表現が使いこなされているだけではなくイギリス英語らしさも表れているので、ぜひ英語もお読みになってください。)
The Rugby World Cup is a major sporting event first held in 1987. The 2015 edition takes place in England from September to November, and 2019 will see the first ever RWC staged in Asia – in Japan.
As with the Olympics and Paralympics to be held in Tokyo in 2020, one of the major challenges for the organisers is enabling visitors and fans to communicate freely with their Japanese hosts. To remove obstacles to communication the Japan government is already investing heavily in machine translation (MT) R&D with its eye on 2020. So, apart from the interest it holds for rugby fans worldwide, RWC 2019 also presents a golden opportunity as a dress rehearsal for some of these technologies.
At least, this is a dream cherished by Prof Hartley, himself an active member of Japan’s huge community of veteran rugby players. His idea is to involve this pool of potential volunteers in crowdsourcing the post-editing of rugby-related texts, for which he coined the term “scrumsourcing” (which is, of course, a play on the rugby “scrum”).
The idea was also partly inspired by the success of a crowdsourced post editing project carried out by Prof Hitoshi Isahara at Toyohashi University of Technology (henceforth, TUT), which resulted in translations of the TUT website in several other Asian languages.
The Organising Committee for RWC 2019 within the Japan Rugby Football Union has shown a lively interest, as have many rugby veteran and fans.
The intention is to launch the project in November 2015, once RWC 2015 has concluded. On the technical side, it will be a collaboration between Rikkyo, TUT and the Multilingual Translation Laboratory at NICT, who will provide the MT engine. Work has already started at Rikkyo, building monolingual and bilingual (parallel) corpora in the rugby domain in Japanese and English, and in extracting lists of terms. These will be used to train a NICT MT system specialised in rugby. After launch, the corrections made by the volunteer rugby fans to the raw MT output will serve to re-train the system at frequent intervals, progressively improving its performance up to the 2019 horizon.
Even more ambitiously, Prof Hartley hopes to extend the language coverage beyond Japanese and English. The main other languages represented at RWC 2015 are French, Italian, Romanian and Spanish. Preliminary discussions are underway with one of the national rugby federations and with others who could mobilise the very large fan bases of speakers of these languages. In all likelihood, any extension of the system would use English as a pivot language rather than translating directly between, say, Spanish and Japanese.
<Q & A> |
In short, personal satisfaction as well as an interest in rugby information from abroad will keep them motivated.
More on Prof Isahara’s post-editing project at TUT |
Prof Hartley went on to introduce a highly technical question related to the customisation of statistical machine translation (SMT) systems to specific domains, such as rugby. Creating an SMT system requires a very large corpus of parallel sentences in the source and target languages; usually, these come from “general” sources. When specialized rugby (or other) texts are translated, terms likeラック andモール are typically rendered as rack and mall rather than ruck and maul, simply because the latter translations are too sparsely represented in the corpus. If little parallel data from the specialised domain is available, what can be done to boost the production of specialised terms?
While some SMT systems, including that developed by NICT, accept bilingual term lists, the use of such lists can often disrupt the general fluency of the output. It is far preferable to train with aligned whole sentences. Rule-based machine translation (RBMT) systems, on the other hand, are specifically designed to integrate bilingual term lists. Prof Hartley outlined a novel approach to customizing SMT to a specific domain by creating “fake” specialised corpora by means of an RBMT system incorporating domain terminology. He has started to explore this possibility using SYSTRAN as his preferred RBMT engine.
As an aside, he described a project he conducted earlier this year with a group of students at Tokyo University of Foreign Studies. They created French-English, Spanish-English and English-Japanese dictionaries for SYSTRAN to translate rugby texts from French and Spanish via English into Japanese. The same texts were translated directly from French and Spanish into Japanese with Google Translate. Using the TAUS evaluation platform, volunteers were recruited to judge the translations for fluency. The finding was that, for Spanish, customized SYSTRAN out-performed Google, although for French it did not. Google, of course, is not customizable by end users.
(以下報告者の和訳です。
ハートレー教授のお人柄と講演内容の親しみやすさから、文体が他の報告とは異なり「ですます」調となっています。)
講演2:ラグビーワールドカップ2019の情報をクラウドソーシングでポストエディットするプロジェクト
講演者:トニー・ハートレー教授(立教大学)
ラグビーのワールドカップ(Rugby World Cup、以下RWCという)は、1987年に最初に開催された有名なスポーツイベントです。2015年のRWCは英国で9月から11月まで開催される予定で、2019年には、はじめてRWCをアジアの舞台で見ることができますー日本です!
2020年に開催されるオリンピックとパラリンピックと同様に、大会を組織する人々にとっての主な課題なひとつは、訪問客とファンが、主催国である日本の人々と自由に会話できるようにすることです。コミュニケーションの障壁を取り除くため、日本政府はすでに、2020年を視野にいれたMT(機械翻訳)の研究開発に投資を行っています。世界中にいるラグビーファンの益になるだけではなく、2019年のRWCは、これらの技術の実践練習(dress rehearsal)としての素晴らしい機会を提供するものです。
少なくとも、これは、ハートレー教授の切なる願いです。彼自身が、日本におけるラグビー選手のOBの巨大なコミュニティの一員でもあります。教授のアイディアは、ラグビーに関連するテキストのポストエディットをクラウドで行う(crowdsourcing)ため、ボランティアになりうる人々を集めて協働してもらうことです。このプロジェクトは、ラグビーのスクラムになぞらえてスクラムソーシング(”scrumsourcing”)という造語で名付けられました。豊橋技術科学大学(Toyohashi University of Technology、以後TUTという)の井佐原均教授による、クラウドでのポストエディットのプロジェクトの成功もこのアイディアのヒントとなっています。同プロジェクトでは、TUTのウェブサイトが複数の他のアジア言語に翻訳されました。
日本ラグビーフットボール協会(Japan Rugby Football Union)内にあるRWC2019の組織委員会は、多くのラグビーOBとファンと共に、構想に非常に関心を示しています。
そして、RWC2015の終了後、2015年の11月に実際にプロジェクトが立ち上げられることになりました。技術的な面では、プロジェクトは立教大学、TUT、そして機械翻訳エンジンの提供者であるNICTの多言語翻訳研究室(Multilingual Translation Laboratory)による協働作業となります。立教大学では、日本語と英語でラグビーのドメインのモノリンガルコーパスおよびバイリンガルコーパス(パラレル/対訳コーパス)を構築し、用語集を抽出する作業を開始しています。これらのデータは、ラグビーに特化したNICTの機械翻訳システムをトレーニングするために活用されます。プロジェクト立ち上げ後、機械翻訳の出力(raw MT output)をラグビーファンのボランティアが修正した内容は、頻繁にシステムをトレーニングし直し、2019年のRWCの開幕を迎えるまでに徐々に改善していくのに役立てられます。このプロジェクトを日本語と英語でも行うというのも、ハートレー教授の野心的ともいえる望みです。RWC2015で英語以外に表記されている主な言語は、フランス語、イタリア語、ルーマニア語、そしてスペイン語です。[RWC2019について]国家のラグビー協会(national rugby federations)のひとつと、(これらの言語の話者に非常に大きなファンの基盤を動かしかねない)他の協会の間で事前討議が行われています。恐らく、システムは、言語間で、例えばスペイン語と日本語の間で直接翻訳をするというよりも、英語が中間言語(pivot language)として使用されることになるでしょう。
質疑応答 |
要するに、外国のラグビーの情報に対する関心とあわせて個人的な満足が、ボランティアのモチベーションを維持しているのです。
井佐原教授のTUTでのポストエディットプロジェクトについて |
Hartley教授はつづけて、統計的機械翻訳(SMT)システムをラグビー等の特定のドメインにカスタマイズすることに関する高度に技術的な課題を紹介しました。SMTシステムを作るには、大量のソース言語とターゲット言語の対訳文のコーパスが必要になります。通常、これらは「汎用の」情報源(“general” sources)からとられます。ラグビー(または他の)分野に特化された文書が翻訳されるとき、「ラック」「モール」のような用語は、”ruck”や”maul”ではなく、”rack”や”mall”と理解されることが多いです。それはただ単に、後者の用語はコーパスで出てくることがあまりに少ないからです。もし、特定のドメインの対訳データがほとんど手に入らないなら、専門用語の生成を増やすために何をしたらよいでしょうか?
一部のSMTシステムは(NICTが開発したものを含む)、バイリンガルの用語リストを受け付けますが、そのようなリストの使用はしばしば出力内容の全体的な流暢さを乱してしまいます。アラインされた完全な文でトレーニングするほうがはるかに好ましいです。一方、ルールベース型機械翻訳(RBMT)システムは、特にバイリンガルの用語リストを取り込むように設計されています。ハートレー教授は、ドメインの用語集を組み込んでいるRBMTシステムを用いて“ダミーの”専門分野のコーパス(“fake” specialized corpora)を生成することによりSMTを特定のドメインにカスタマイズする新しいアプローチの概要を示しました。好ましいRBMTエンジンとしてSYSTRANを用いてこの可能性を探りはじめたところです。
余談として、東京外国語大学の学生グループと今年のはじめに実施したプロジェクトについて説明されました。皆は、フランス語対英語、スペイン語対英語、および英語対日本語の辞書をSYSTRANでラグビーに関する文書をフランス語およびスペイン語から英語を介して日本語に翻訳するために作成しました。あわせて、同じ文書を、Google翻訳を用いてフランス語およびスペイン語から日本語へ直接翻訳してみました。そして、TAUS Evaluation Platformを使用し、ボランティアを募って翻訳文の流暢さについて判断してもらいました。そこで発見されたことは、スペイン語については、SYSTRANはGoogleよりも優れていましたが、フランス語については逆でした。Googleは当然、エンドユーザがカスタマイズすることはできないものです。