日本翻訳連盟(JTF)

特許翻訳におけるNMT実用性の研究

2018年度第6回JTF翻訳セミナー報告
特許翻訳におけるNMT実用性の研究


松谷洋平(マツタニヨウヘイ)

特許庁 総務部総務課特許情報室 室長補佐

浜口宗武(ハマグチムネタケ)

1965年東京商船大学(現東京海洋大学)卒。運輸省(現国土交通省)入省、練習船教官として海上勤務後(財)沖縄海洋博協会調査役などを経て、1976年に貿易・翻訳業(株)ビジネス・アソシエーツ設立。社名を1990年に知財翻訳研究所、2013年に知財コーポレーションに改称。翻訳を基幹とする知的財産総合サービスプロバイダーとして外にもビジネス展開中。知財アカデミー特許翻訳講座の講師も務める。元(社)日本翻訳連盟常務理事、元(社)日本工業英語協会理事。


渡部孝明(ワタナベタカアキ)

一般財団法人 日本規格協会 翻訳者登録センター(RCCT) APT(Advanced Professional Translator)(分野:特許・知財、言語:日英)。 2001年、株式会社翻訳センター入社。以来、出願用特許明細書を中心とした知財関連文書の翻訳・校正業務に従事(主たる対応可能技術分野:機械分野、電気・電子分野)。知財関連文書以外では、過去に、取扱説明書、製品カタログ、ニュースレター、ウェブサイトなどの翻訳経験も有り。また、登録者用マニュアルの作成、登録用トライアルの評価なども経験。現在は、登録者向けのセミナーなども開催し、翻訳品質の向上に取り組んでいる。

上野哲也(ウエノテツヤ)

東北大学大学院理学研究科化学第二専攻修了、博士(理学)。 有機化学を専攻。主に非ベンゼン系芳香族化合物、ヘテロ原子(リン、フッ素)。学位取得後にドイツ・マールブルク大学に留学(日本学術振興会海外特別研究員)。帰国後、民間企業などで研究員として勤務しながら、2004年11月に副業翻訳(英日・独日)を開始。2016年7月に専業翻訳者として独立し、2017年9月付けで株式会社MK翻訳事務所に入社。主に化学・自動車・工作機械・電子機器の分野を担当。

湯浅豊裕(ユアサトヨヒロ)

特許翻訳者。University of Wales, Aberystwyth卒(BSc Mathematics)、知的財産翻訳検定1級 機械工学(日英、英日)

新田順也(ニッタジュンヤ)

エンジニアリング会社と特許事務所を経て独立。多業種のクライアントにWordの設定やWordマクロ活用のコンサルティングを実施。2017年に某済新聞社が主催するアグリテックの国際カンファレンス運営の多国籍チームにて、Google翻訳を活用した情報共有スキームを構築・運用。現在は翻訳者向けの機械翻訳を活用する手法を開発中。
 



2018年度第6回JTF翻訳セミナー報告
日時●2019年3月7日(木)14:00 ~ 16:40
開催場所●剛堂会館
テーマ●特許翻訳におけるNMT実用性の研究
[内容]
第1部 特許庁における機械翻訳活用の現状と今後の課題
講演者●松谷 洋平(マツタニヨウヘイ)特許庁 総務部総務課特許情報室 室長補佐
第2部 NMTみんなで使ってみた~特許翻訳におけるNMT実用性の研究~
講演者●NPO 法人日本知的財産翻訳協会(NIPTA)特許機械翻訳研究会 
浜口 宗武(ハマグチムネタケ)日本知的財産翻訳協会常務理事・事務局長/
株式会社知財コーポレーション代表取締役会長兼CEO
渡部 孝明(ワタナベタカアキ)株式会社翻訳センター 特許営業部 専門職マネージャ
上野 哲也(ウエノテツヤ)株式会社MK翻訳事務所・社内翻訳者(英日・独日担当)
湯浅 豊裕(ユアサトヨヒロ)WIS知財コンシェル株式会社翻訳事業部/
日本知的財産翻訳協会理事
新田 順也(ニッタジュンヤ)エヌ・アイ・ティー株式会社(翻訳マクロ開発)代表
報告者●浜口 宗武(株式会社 知財コーポレーション)

 


 

冒頭挨拶

翻訳セミナー企画運営委員会 中尾 勝 委員長

JTFの翻訳セミナーでは、毎年機械翻訳をテーマにしたセッションを設けているが、その内容は年々具体的になりいろいろな局面が出てきている、今年度最後のJTF翻訳セミナーは特許の機械翻訳に絞り新たな知見を加えた内容となる。ご参加の特許翻訳者の方々、翻訳会社の方々にとって今後のお仕事に役立つことがあれば幸いである。

第1部:特許庁における機械翻訳活用の現状と今後の課題

講演者:総務部総務課 特許情報室 松谷 洋平 氏

背景説明

近年のデータではPCT国際特許出願の件数は増加傾向にある。日本企業も日本国内特許出願件数を減少させながらも海外への出願件数は増やしており、外国出願率(日本出願のうち海外にも出願された件数の割合)は40%に達し海外重視の傾向が明らかである。世界的に見ると特許出願は中国、米国、日本、欧州、韓国の5大特許庁に集中しているが、その中で、日本特許庁(JPO)は、「世界をリードする審査」、具体的には世界最速・世界最高品質の先行技術調査の実現を目標に掲げ、審査の促進、審査結果の外国知財庁向けの発信強化を目指しており、その過程で機械翻訳の活用を進めている。この取り組みは政府が進めるデジタルガバメント推進方針と合致する。

JPOにおける機械翻訳活用の現状

1. 外国語から日本語への機械翻訳

  • 外国特許情報(先行技術文献、出願書類・権利内容)へのアクセス性を高めることにより日本における特許審査精度を向上させるとともに、日本ユーザー(企業・個人・研究機関・事務所)にも機械翻訳システムを開放し便宜を供給している。
  • 中国・韓国語特許文献検索需要が増大している中、中国語・韓国語の特許文献を機械翻訳により日本語化し、日本語でテキスト検索を可能にしている。一般ユーザーにも開放している。

2. 日本語から外国語(英語)への機械翻訳
「世界最速・最高品質の特許審査」の結果を機械翻訳により英語化し、5庁共有のワン・ポータル・ドシエシステムに提供する。 
3. 他言語機械翻訳
JPO審査官用に、英・中・韓・独と日本語との間の双方向機械翻訳システムが構築されている。

世界的に見た特許機械翻訳の活用状況

1. WIPO(世界知的所有権機関)が開発した機械翻訳ツールWIPO TRANSLATE はNMT化により大幅に制度向上。6500万の特許文献を学習。ソースコードは5庁に無償供与されている。
2. EPO(欧州特許庁)は、2010年来 Google と協力関係にあり、Google はEPOから対訳データの提供を得てNMTを特許翻訳用に最適化し精度を向上させている。

今後の取組み

国立研究開発法人情報通信研究機構(NICT)との協力によりNMTエンジンを採用した多言語対応の「機械翻訳プラットフォーム」を開発し庁内のみならず一般ユーザーにもリリースする計画。また、日本特許庁における審査の情報を外国に素早く発信するために、中間処理文書の自動翻訳にも取り組む。そのために学修用翻訳資源(コーパスデータなど)の構築を入札事業で調達する。今年度は新たに中国審決情報翻訳用の対訳・コーパス作成などに取り組む。事業者各位の協力をお願いしたい。

質疑応答

質問1 WIPO Translateのエンジンは何か?
講師回答 詳しいことはわからないが、Marian NMT (オープンソース)をベースに、WIPOの技術職員が開発したものと思われる。
質問2 翻訳資源構築のためにフリーランンス翻訳者レベルでできることはあるか?
講師回答 例えば中国審決情報の場合、200万コーパスくらいの量になるので、ある程度の規模の事業者でないと無理。ただし、そのような事業者も最終的には沢山の個人の力を必要とするので、事業者経由で間接的にかかわることは個人でも可能。

第2部:NMTみんなで使ってみた
~特許翻訳におけるNMT実用性の研究~

2-1 NIPTAの活動と特許機械翻訳研究会の紹介

紹介者:浜口宗武 氏 NIPTA常務理事 (株)知財コーポレーションCEO

NIPTAは日本における知的財産翻訳のレベル向上のために様々な事業を行っているNPO法人。主要事業のひとつである「知的財産翻訳検定」は、5月19日実施予定の第28回検定試験から、JTFと合同で行うことになった。「特許機械翻訳研究会」は、NIPTA会員を中心に、特許事務所、翻訳会社、個人翻訳者が、NMT開発者や研究者を交えて隔月に研究会を開き、複数のNMTエンジンについて性能評価を行い、課題抽出やユーザーの視点からの提言などを行っている。今のところ、電気・電子工学分科会、機械工学分科会、化学分科会、知財法務実務分科会がある。

2-2 電気・電子工学分科会発表

発表者渡部孝明 氏 株式会社翻訳センター 専門職マネージャー

3種のNMTエンジンで同じ課題文を翻訳(英和・和英)し性能評価を行った。人手翻訳では通常起り得ない誤りがNMTでは起きる。例えば、出力中に同じ訳文が繰り返し出現する、和文英訳で翻訳されることなく日本語のまま英語訳文中に残る。「ですます調」の訳文がでてくる(英文和訳)、訳語の選択不十分、文章構成不適切など。3種のNMTエンジンでは大きな性能差は認められず、エンジンによってエラーの性向が大きく変わるということではない。NMTの出力がそのまま翻訳製品として使えるわけではなく人手による処理ポストエディット(以下PE)が必要。PE作業の中には機械的に処理できるものもあるが人の判断が必要になるものもある。PE作業の内容を項目化してゆくことが望ましい。
定点観測という観点から、同一の文章について2018年2月27日の時点でNMTにより翻訳した訳文と、2019年年2月15日の時点におけるNMT生成訳文を比較したところ、スライド(下に引用)に見るように品質がやや向上しているが、必ずしも向上した例ばかりでもない。

[英語→日本語]
●原文
Energy or power may be transferred wirelessly using a variety of known radiative, or far-field, and non-radiative, or near-field, techniques.
NMT出力結果(2018.02.27)
エネルギーまたは力が既知の放射、または遠方場および非放射、あるいは近接場、様々な手法を使って無線で転送することもできる。
NMT出力結果(2019.02.15)
エネルギーまたは電力は、様々な既知の放射技術または遠距離場技術、および非放射技術または近距離場技術を使用して無線で転送することができる。

[日本語→英語]
●原文
図1において、エネルギー最小化計算103では、各ノードの状態(たとえば各ノードのストレス度、ストレスの指標値)を、できるだけ系全体のエネルギーが小さくなるよう、確率的に変化させる。
NMT出力結果(2018.02.27)
In Figure 1 and energy minimization calculations 103, status of each node (e.g., stress on each node, index values of stress), the stochastic alter that energy of the whole system becomes smaller.
NMT出力結果(2019.02.15)
In FIG. 1, in the energy minimization calculation 103, the state of each node, for example, the stress degree of each node and the index value of the stress, is stochastically changed so that the energy of the entire system becomes as small as possible.

開発者向け提言
NMT出力に、フローティング、訳漏れ、文章不成立、などがあった場合に、何らかの警告が表示されるようになると良い。

まとめ
重労働からの解放や効率化という観点からNMTの出現をチャンスととらえるのが良いのではないか。NMTを導入するとポストエディット中心の業務となるが、翻訳会社としてはプリエディットの充実、特許ライティングマニュアルの活用、ツールの利用などを通じて従来の人手翻訳同等の品質レベルを目指すべきである。これを担保するためには自分でも翻訳を一から作成する能力のあるひとがポストエディットにかかわるべきで、ポストエディットについて適正な市場価格の検討が必要になろう。

2-3 化学分科会発表

発表者:上野哲也 氏 株式会社 MK翻訳事務所 社内翻訳者 (英日/独日・理学博士)
資料作成平林千春 氏 平林特許・翻訳事務所 特許翻訳者/弁理士、日本翻訳者協会(JAT)理事

既に業務で英日についてはNMTを導入しポストエディット(以下PE)に携わっている。その立場からの所見や提言を以下に述べる。また、発表者は独和の翻訳も行っているのでそれについても言及したい。NMTの精度検証にあたっては、知的財産翻訳検定の過去問題を題材に3種のNMTエンジンを用いた。クレームの翻訳について、NMTは原文がクレームであることを意識しないのでPEに手間がかかる。また、NMTは文脈を考慮しないので特有の誤りが観られた。PEにどれだけ時間がかかるかというのも評価指標となる。複数の分科会メンバーがPE作業を行いその過程で検出された誤りの個数を原文セグメントごとにデータ化した。英文和訳においては省略符号であるピリオド(例えばsat. conc.)を読点とみなして無理やり文章を作ってしまうとか、図面の翻訳の部分でFig.1 を「 いちじく」と訳すなど、PEの途中でこんなことがあるとぎょっとする、単数複数は図面を見ないとわからないことが多く機械はそれができない。用語の統一も不十分で、例えば一つのセグメント中で「試験片」が test piece と訳されたり specimen となっていたりする。 また、例えばPolyvinyl chloride(ポリ塩化ビニル)が、塩化ポリビニルと訳されるなど化合物名の不適切訳など化学特有の誤りもある。専門の人が見れば気づくような誤りも、化合物の命名ルールを知らないポストエディターはパスしてしまうかもしれない。カタカナに置き換えるなどルール化も必要かもしれない。

まとめ
NMTの翻訳が一見うまく行っていそうに実際には見えてもそうではないことがある。長いクレーム文はうまく処理できていない。訳語の適否、単複、用語統一、などだけでもPEは大変な作業。前処理として原文をセグメントを区切るとか、省略記号であるピリオドが含まれる原文を整理するなどは有効であろう。 実感としてはNMTにより作業時間が10~20%低減しているという印象で、大幅に削減ということではない。ヨーロッパ言語間でも90%マッチしているというケースでさえ10~20%の短縮に過ぎず作業効率が劇的に改善しているということではない。ドイツ語のMTも進んでいるが、まだ英語ほどではない。ドイツ語から英語にMT+PEし、英語から日訳(単価が安い)のやり方も顕在化しているが、英訳の段階でエラーが入っても、英語しかわからない人はドイツ語オリジナルを参照して判断することができない。人間がそこを埋めなければならない。NMT, PE技術が進歩しても英語以外の外国語もわかる人材が必要であることは変わらない。

提言
PE作業について学生を使った実験では、NMTの出力の適否を判断できずにこれに引きずられてしまいPEの目的が達せられなかった。また、翻訳能力が高い人がやると延々として終わらないというような事例もある。NMT出力をPEでどこまで改善すべきか、PEの適正レベルなども考える必要がある。まず自分でも翻訳ができる人を育成し、それぞれ適性を考えて通常翻訳とPEとのいずれかを選択するのも一つのやり方である。
プロレベルでないとPEの仕事はできない。最初からPE用に人材開発を目指すのはは危険である。

2-4 機械分科会発表

発表者:湯浅豊裕 氏 WIS知財コンシェル株式会社日本知的財産翻訳協会(NIPTA)理事

知的財産翻訳検定試験の過去問題をNMTにかけ評価した。感想としては、NMT出力は1級レベルには遠くても使える部分があるのではないか?というところである。
具体的には、NMTによる英和翻訳の出力はST(統計機械翻訳)、RB(ルールベース機械翻訳)に比べるとかなり流暢でPEもやりやすい。
一法、訳語の揺れについては技術的に訳語統一が難しいと聞くが何とか解決できないものか?単語単位、文節単位で原文にない情報が出力されるいわゆるフローティングの問題や訳抜けも見受けられる。これらも単語レベル、文節単位で顕れる。これらの語訳の傾向やパターンを分析理解したうえで対策を立てられるのではないか?と考える。NMTは字面を追って翻訳を行い原文に現れてはいない背景や意味を考えて翻訳をするわけではない。
例えば、「ゴルフクラブ(以下クラブ)には飛んで曲がらない(曲がりにくい)ことが最も要求されている。」は、「クラブで打ったボールが曲がらずに遠くまで飛ぶことが求められる」という意味だが、NMTの出力は例えば下記の様にゴルフクラブを主語とした訳になっている。
It is most demanded that a golf club (hereinafter referred to as a club) does not bend by bending (hardly bending).このような誤りは人手翻訳でも起こりがちである。
現在、いろいろなやポストエディットの手法が提案されている。NMTにCAT(Computer Aided Translation) ツールを組み合わせて使う手法に暫く取り組んでみたが、その結果次のような知見を得ている。プリエディットによる原文の改良の提案もあるが原文が複文・重文構造で長い場合にはそのままNMTにかけても必ずしも良い結果にはならない。原文を頭から分割してNMTで対訳表示させる手法も文法破綻で使えずポストエディットでは手に負えない。長い日本語をCATツールを利用して句読点で分割して複数の文節に分け、これらをNMTにかけると各文節の訳文は結構つかえる。後はパズルのように出力をつなぎあわせることで翻訳を最終化する。この手法は既にJTFジャーナルにも紹介している(https://journal.jtf.jp/298/)。

2-5 編集作業を自動化するツールの紹介
~修正の手間を省けばNMTって意外と使える~

発表者:新田 順也翻訳者色deチェック等翻訳マクロ開発者、Microsoft MVP for Office Apps and Services受賞者、ブログ「みんなのワードマクロ」管理人

NMTの実用性と活用について考えてきた過程で、使える部分と使えない部分とがある程度見えてきた。訳揺れ、訳抜け、フローティングなどの問題については各スピーカーご指摘の通り。発表者はもともと特許翻訳以外でのNMTについても研究してきたので、その知見も併せて発表する。AIに対して期待が大きすぎる論調もある一方過少評価する向きもあるが、これは立場、翻訳会社とか個人とか、によるのではないかと思われる。翻訳コストの大幅削減との期待の中で実際の現場では品質維持のための作業あり方が問われている。自らが良い翻訳を行える人がNMTに携わるのでなければ良い結果にならない、というのは先行発表のとおり。ポストエディット(PE)という仕事が注目されているがこの仕事には訓練が必要である。AIの活用は万能ではないがうまく行っている事例もある。うまくゆかないところを他の技術を組み合わせて補うとか人間がやるなどの方法がfeasibleであり、組み合わせにより成果を上げることを目指すのが現実的である。NMTについても同様で、全部NMTということではなく、翻訳プロセス全体という観点から、一部をNMTが分担し、用語集の整備、プリエディット、ポストエディット、数字チェック、などの技術を組み合わせて活用しその上で人間が翻訳した方が良い部分を明確化するのが良い。
試行錯誤の結果として、NMTの出力には使える部分もあると認識しているが翻訳者による監修は必須である。「NMTは誤訳をする」 という前提で、人間がやるべきとされているプリエディット、ポストエディット、数字チェックなどの作業を簡単にするためのツール「グリーンティー(GreenT)」を開発したので紹介する。文章の切れ目は人間が判断する。用語集の適用により訳揺れある程度は防止できる。自動化すべき点として、数値など参照符号の処理がある。これがうまくゆけばポストエディット作業がかなり軽減される。図1、図2などの処理も同様。GreenTではこの辺りが自動化されている。自動化、半角全角の整理も可能。参考までにツールのデモを行う。このような作業を自動化することにより翻訳者は原稿の内容に集中して作業を行えるようになる。主語と述語の捻じれや係り具合の修正などはNMTにはできない。ツールが原文の整理もできるようになればもっと良い。
一応のまとめとして、NMTは面白く使える技術だと思っている。いろいろな技術と組み合わせ使用することにより実用性が高まる。NMT自体も進化するであろうし、同じく今後も進化が見込まれる翻訳支援(CAT)ツールを組み合わせ使用することは推奨できる。実際の仕事の場でNMTを使うかどうかは、発注者の意向も考えなければならないが、自分としては、特許翻訳の場合、審査官が読んでどう思うか?とか、中間処理翻訳に使えるか?とか、クライアントがどのような方針なのか、などを考慮して本人が選ぶべきことだと思う。「機械翻訳はここまでできて凄いな」という印象が先走ると危険である。最終的にはNMTを使っても使わなくても同等品質レベルを目指すべきであるが、そうであればNMT使用・不使用にかかわらず同等の対価を求めるべきである。NMT導入によりコスト削減が図られるのであればその削減分がどのように分配されるべきか、ソースクライアントや翻訳会社も含めて議論が必要ではないか?NMTが全分野で全く使えないとする意見は正しくないと思う。使える部分はある。
GreenTはワードで走る。用語集、宇用語の揺れはあまり気にしなくても良くなる。.
プリエディットを一部自動化し、用語集との組み合わせて有効な事前処理ができるのでNMT出力精度は向上する。出力された数字の正誤確認は自動化できる。間違っていればポストエディットで修正すれば良い。些末な作業の自動化を進めるにあたり、いろいろなことが可能性として見えてくる。

2-6 質疑応答

下記の様な質疑応答が行われた。

質問1 クライアントがNMTを導入すると、業としての翻訳はなくなるのではない? 
回答1-1
NIPTAとして統一見解は正式にはできていないが、今日のプレゼンでもわかるように、自分でも良い翻訳ができる人でないとNMTは使えないというのがコンセンサス。優秀な方がそれなりに報われるようにしてゆかねばならないが、そのために適切な市場価格の形成が必要である。一部出願人企業にはコスト削減への過度の期待もあるが自社内で対応できる状況ではないので仕事がなくなることはない。働き方改革の動きもあるので、NMT仁ついてはポジティヴに向き合うのが良いと考えている。
回答1-2 これからはいろいろな翻訳の在り方が出てくる、人間として価値をつけるのはどういうところなのか?翻訳の多様化ということも考えるべき。翻訳の仕事はなくならない。

質問2 これから翻訳を志す人にとってNMTを使って仕事にしてゆける可能性はあるか?
回答2-1
特許翻訳を志す人のモティベーションはいろいろ。自分は会社で研究職をつとめたあと専門知識を活用する場として特許翻訳の業界に入った。英語の知識がある、専門技術知識を活かしたい、特許翻訳は仕事の量が多い、などの理由で特許翻訳を目指す人もいる。特許に限れば語学の勉強だけでなく技術知識の習得も必要なので習熟するのは結構大変で努力が必要と思う。従ってNMTをいきなり最初から使うのは危険。ある程度自信ができるまで地道に技術と語学を勉強するほうが良い。
回答2-2 翻訳業界に入って20年になるが、実感しているのは特許翻訳は語学力、技術理解力、法律知識が求められる。そのことはこれからも変わらない。加えてツールの知識もこれからは必要だし、自分で考える力は更に必要である。

共有