4-2 日本の多言語翻訳を支える大規模辞書データベースの活用
春遍 雀來 Jack Halpern
日中韓各語とアラビア語の大規模な辞書データベースを開発し、提供している会社の取締役社長である。西ドイツに生まれ、イスラエル、フランス、ブラジル、アメリカ、日本の6カ国に移り住み、英・日・ベトナム・ヘブライ・西・独・中、他の計15ヵ国語を習得。漢字に魅せられ1973年に来日。漢字を体系的に学ぶ方法を考案し、外国人向けに研究社「新漢英字典」や講談社「漢英学習字典」等を編纂した。国内外で約700回以上の講演を手掛けてきた。国際一輪車連盟の創立者でもある。
報告者:福永 詩乃(翻訳者)
このセッションでは、多言語での翻訳におけるポイントを踏まえた、大規模辞書データベースの活用について報告された。
多言語辞書の重要性(固有表現抽出と処理)
辞書は翻訳のみならずデータ処理にも使われる。中でも固有名詞は自然言語処理において扱いが難しい。異表記のバリエーション(例:アラブ人名「アブドゥル・ラフマーン」には千通り以上のアルファベット表記がある)、語彙レベルの違い(同じ意味でもpetroとgasなど、別語彙が使われる)、平仮名表記の中国語訳(市町村名など)に対応する際などに、辞書データベースは幅広く活用されるべきである。また春遍氏が取締役社長をつとめる㈱日中韓辞典研究所(CJKI)では、専門用語についても膨大な辞書データベースの構築・拡張をしている。
機械翻訳と人間翻訳、および作業効率と精度の向上
- 例えば地名やPOI(points of interests = ホテル、公園、大学など)名などは膨大で、変更される場合もある。人間がすべて翻訳するのは難しいが、各言語体系に基づき正しい表記が必要であるため、全面機械化も不可である。そこで辞書データベースが必須となる。
- 全面的な自動翻訳は不可能だが、求められる精度と費用を比較して、機械翻訳と人間翻訳の割合が決められる。固有名詞の翻訳作業にあたり、字訳、音訳、意訳、意音訳、翻訳の5種類の変換方法がある。機械化可能な割合が高く、安くて速いが精度が上がりにくいものから、人間翻訳で高価格だが翻訳としての正しさを期す(定訳を選択)ものまで様々である。
自然言語処理への幅広い応用
自然言語処理で課題となる以下の異表記を、データベースに全て包括することで対応ができるようになる。
-
異表記:日本語は世界でも表記の幅が広い言語。漢字表記、平仮名表記、片仮名表記、交ぜ書きなどがある。片仮名語にも異表記(例:コンピュータとコンピューター、メイドとメードなど)がある。
-
同音異形異義語:うまい=美味い、上手い、巧いなど。
日中韓英辞書データベース、および中日・日中専門用語データベースの紹介
CJKIでは、こうした異表記を網羅する大きな辞書・固有名詞・専門用語データベースを作成しており、世界の大手企業がそれを使用している。中国語のデータベースについてはピンインも正確で、全て検証済みである。さらに、個人の翻訳者向けにiOSおよびAndroid用アプリも70種類ほど発表している。こちらはデータ処理用ではないが、安価で気軽に引くことができる。
まとめ
統計的機械翻訳だけでは翻訳およびデータ処理上のすべての問題を解決することはできない。統計処理、辞書検索、ルール処理のハイブリッド型機械翻訳が最も有効である。CJKIは人間翻訳に役立つ辞書データのみならず、このようなMTシステムをサポートする各種の大規模な辞書データベースを提供している。