4-2 日本の多言語翻訳を支える大規模辞書データベースの活用

2016年1月15日 Editor

春遍雀來 Jack Halpern

日中韓各語とアラビア語の大規模な辞書データベースを開発し、提供している会社の取締役社長である。西ドイツに生まれ、イスラエル、フランス、ブラジル、アメリカ、日本の6カ国に移り住み、英･日･ベトナム・ヘブライ･西･独･中、他の計15ヵ国語を習得。漢字に魅せられ1973年に来日。漢字を体系的に学ぶ方法を考案し、外国人向けに研究社「新漢英字典」や講談社「漢英学習字典」等を編纂した。国内外で約700回以上の講演を手掛けてきた。国際一輪車連盟の創立者でもある。

報告者:福永詩乃（翻訳者）

このセッションでは、多言語での翻訳におけるポイントを踏まえた、大規模辞書データベースの活用について報告された。

多言語辞書の重要性（固有表現抽出と処理）

辞書は翻訳のみならずデータ処理にも使われる。中でも固有名詞は自然言語処理において扱いが難しい。異表記のバリエーション（例：アラブ人名「アブドゥル・ラフマーン」には千通り以上のアルファベット表記がある）、語彙レベルの違い（同じ意味でもpetroとgasなど、別語彙が使われる）、平仮名表記の中国語訳（市町村名など）に対応する際などに、辞書データベースは幅広く活用されるべきである。また春遍氏が取締役社長をつとめる㈱日中韓辞典研究所（CJKI）では、専門用語についても膨大な辞書データベースの構築・拡張をしている。

機械翻訳と人間翻訳、および作業効率と精度の向上

例えば地名やPOI(points of interests = ホテル、公園、大学など)名などは膨大で、変更される場合もある。人間がすべて翻訳するのは難しいが、各言語体系に基づき正しい表記が必要であるため、全面機械化も不可である。そこで辞書データベースが必須となる。
全面的な自動翻訳は不可能だが、求められる精度と費用を比較して、機械翻訳と人間翻訳の割合が決められる。固有名詞の翻訳作業にあたり、字訳、音訳、意訳、意音訳、翻訳の5種類の変換方法がある。機械化可能な割合が高く、安くて速いが精度が上がりにくいものから、人間翻訳で高価格だが翻訳としての正しさを期す（定訳を選択）ものまで様々である。

自然言語処理への幅広い応用

自然言語処理で課題となる以下の異表記を、データベースに全て包括することで対応ができるようになる。

異表記：日本語は世界でも表記の幅が広い言語。漢字表記、平仮名表記、片仮名表記、交ぜ書きなどがある。片仮名語にも異表記（例：コンピュータとコンピューター、メイドとメードなど）がある。
同音異形異義語：うまい=美味い、上手い、巧いなど。

日中韓英辞書データベース、および中日・日中専門用語データベースの紹介

CJKIでは、こうした異表記を網羅する大きな辞書・固有名詞・専門用語データベースを作成しており、世界の大手企業がそれを使用している。中国語のデータベースについてはピンインも正確で、全て検証済みである。さらに、個人の翻訳者向けにiOSおよびAndroid用アプリも70種類ほど発表している。こちらはデータ処理用ではないが、安価で気軽に引くことができる。

まとめ

統計的機械翻訳だけでは翻訳およびデータ処理上のすべての問題を解決することはできない。統計処理、辞書検索、ルール処理のハイブリッド型機械翻訳が最も有効である。CJKIは人間翻訳に役立つ辞書データのみならず、このようなMTシステムをサポートする各種の大規模な辞書データベースを提供している。

春遍 雀來 Jack Halpern

多言語辞書の重要性（固有表現抽出と処理）

機械翻訳と人間翻訳、および作業効率と精度の向上

自然言語処理への幅広い応用

日中韓英辞書データベース、および中日・日中専門用語データベースの紹介

まとめ

春遍雀來 Jack Halpern