[Transformed]第1回:Eコマースに国境なし

AI翻訳(機械翻訳)は日進月歩で発展している。新しい仕組みや応用事例を常に追い続けるのは難しい。本連載「Transformed」では、機械翻訳コンサルタントの河野弘毅氏が最新情報を紹介し、独自の視点から解説を加える。


河野弘毅

機械翻訳コンサルタント。翻訳顧客企業およびLSPへの機械翻訳導入支援を行う。JTFジャーナル印刷版編集長を歴任(2011-2020)。1989年より産業翻訳に従事してIT英和翻訳の分野でコーディネータ・翻訳者・チェッカー・経営の各業務を経験する。


産業翻訳市場は縮むのか

翻訳産業で仕事をしている人であれば誰でも、AI翻訳の今後の発展によって産業翻訳の市場が現在よりも小さくなるのか、それとも大きくなるのかというテーマには関心があると思います。

このテーマが不安とともに語られることが多いのは、AI翻訳をポストエディット(PE)して納品する業務の単価が従来の人間翻訳(HT)よりも安くなる現実を実際に経験しているからです。

機械翻訳をポストエディットする工程(MTPE)の単価がHTと比べてどこまで下落するのかはもちろん案件・顧客・分野ごとに異なるでしょうが、個人的には単価の下落はおおむね30%程度で落ち着くのではないかと予想しています[1]。これは自分でPEをやってみて得た意見です。

HTがPEに置き換えられることによる単価の下落幅を仮に30%とすると、AI翻訳の実用化にともなって新しい案件・顧客・分野の仕事が増えない限りは産業翻訳全体の市場規模がマイナス30%に向けて年々縮んでいくという未来予想になりますが、この予想は当たるのでしょうか?

AI翻訳の新興市場はEコマース

私自身は、PEとは別の現場体験を根拠に、産業翻訳市場は縮小せずにむしろ拡大するという未来予想をたてています。

私は現在、「機械翻訳コンサルタント」という肩書で翻訳顧客企業(ソースクライアント)やLSP(=Language Service Provider、翻訳会社等)がAI翻訳を導入するのを手伝う仕事をしていますが、この仕事をやっていて顧客から声をかけていただく案件でいまいちばん多いのが「日本国内向けの販売のしくみを多言語に拡張して展開したい」というEコマースの多言語展開案件です。

Eコマースの多言語展開というと海外市場へのリーチを意図したいわゆる「越境EC」がよく知られていますが、これだと旅行・飲食などの国内市場向けの多言語化が含まれないため、この原稿では国内・国外いずれの場合も含め、「ウェブサイトのコンテンツの多言語化を通じて売上の拡大を目指すビジネス」を仮に「グローバル・コマース(Gコマース)」と呼ぶことにします。この呼び方なら、Eコマース=電子商取引という呼び方で除外されてしまう「フロントエンドが対面販売となるビジネス」も含むことができるという意図もあります。

Gコマース分野の翻訳需要は翻訳対象の品目数が膨大であるために、Gコマース化することでよほど大きな収益増を期待できるサービスでない限り既存のHTでは対応できず、そういうサービスがあまり存在しないためにこれまで限定的にしか実現できなかったビジネスでした。しかし、この案件で私に声をかけてくださるお客様は、最近改良が著しいAI翻訳を使って翻訳コストを大幅に下げることができれば、多言語化しても採算がとれるのではないかと期待しているわけです。

Gコマースの対象業種は、2019〜2020の二年間に私が見聞しただけでも、製造業・アパレル・旅行・飲食・金融・エンタメなど多岐にわたります。潜在的な需要まで含めるともっと多くの業種に拡がっていくに違いありません。

Gコマースの新興市場が開花すればそこで産まれる新しい売上によって産業翻訳市場全体の売上が増えるため、最初に述べたMTPE工程の導入による単価下落の効果を差し引きで上回って、未来の産業翻訳市場はむしろ拡大するだろうと私は考えているわけです。

埋め込まれたデータベースの翻訳問題

とはいうものの、Gコマース市場を開拓するには既存の産業翻訳には存在しなかった新しい技術的ソリューションを導入する必要があります。ここでは、その新しい技術的ソリューションがどのようなものになるのかを考えてみましょう。

Gコマースの業種は前述したとおり多岐にわたりますが、翻訳の視点から見ると、そこにある共通構造を見いだすことができます。

Gコマースでは必ず大量の商品情報がユーザーに提供されますが、それらの商品情報のかなりの部分は商品名やその説明文など、データベースから抽出されたテキストです。

Gコマースが商品のデータベースと連関していることは言うまでもありませんが、粒度を細かくして見ていくと商品名以外にもいろいろなデータベースが関連情報の中に組み込まれていることがわかります。

たとえば企業のIRにおける開示資料では、新しく就任する役員の履歴情報は個々の案件のスコープ(範囲)で見ているとエクセルの表に見えますが、数千社の企業の開示資料を俯瞰すればこれは企業人のデータベースの一部です。

また、現在はコロナ禍で大きな打撃を受けていますが、旅行産業・外食産業の検索サイトにおけるホテル・旅館・飲食店の情報には、住所やPOI(=Point of Interest。利用目的に応じて地図上の対象物に対して付与される記名情報。駅名やビル名など)のデータベース情報が組み込まれています。

少し応用的な例では料理名があります。多くの料理名は食材や調理法などの構成要素に分解することが可能で、各構成要素については有限個のデータベースから対応する訳語を引き当てることができそうです。

これらのデータベース部分の翻訳は件数が膨大であるために、HTだと翻訳コストがふくれあがってしまうだけでなく、同じ原文が複数の箇所に繰り返し登場したら対応する訳文も同一であるべきという「訳文の一貫性」や、日付や単位などの「表記の統一性」を保証するための品質管理の負荷が重くなりすぎるため、プロジェクトの途中で管理をあきらめる事態になりがちです。

HTをベースとする従来の翻訳産業の場合、このような課題に対する翻訳ソリューションは翻訳支援ツール(CATツール)による翻訳メモリ(TM)や用語集(TB)の利用ですが、Gコマースの場合は取り扱うデータベースの規模がTMやTBがもともと想定している繰り返し回数を桁違いに上回っているために、TMやTBという手法では訳文の一貫性と統一性を期待される水準で実現できません。

そこでAI翻訳に期待が集まりますが、よく知られているように現状のAI翻訳技術は用語(訳語)の統一を不得意としているため、こちらもGコマースで顧客が期待する訳文の一貫性や統一性を実現できません。

もちろん、MTの出力を人手でPEして訳文の一貫性と統一性を担保しようとしても、HTでそれができないのと同じ理由で不可能です。

このような「埋め込まれたデータベースの翻訳問題」があるために、従来の翻訳産業ではEコマースの多言語化を実現できませんでした。

翻訳顧客の投資判断

ここでいったん視点を切り替えて、なぜGコマースが新興翻訳市場の本命になると私が考えるのか、その理由を翻訳顧客企業(ソースクライアント)の視点から説明したいと思います。

通常、翻訳通訳は顧客企業にとって購買部門が取り扱う販管費の一科目に過ぎませんから、その文脈におけるAI翻訳は、翻訳工程をMTPEに切り替えることで30%の経費削減ができる改良技術とみなされ、そういう見積もりを出してくれるLSPに外注先を切り替えて経費削減して話は終わりです。これだと産業翻訳の市場規模は30%縮小するわけです。

しかし、コロナ禍で経済の先行きが不透明になっている現代でも、特に大企業の経営陣はどうすれば新時代の収益の柱を育てられるか考えているはずです。その流れで自社の事業分野におけるAIの活用は最近流行のDXにつながる経営課題として検討されており、個人利用での普及が先行したAI翻訳のビジネスでの活用もまた各企業で検討されているようです。

大企業の経営陣はたいていの場合、AIの将来像やAIで可能になることをマスコミの報道や市販の書籍をもとにイメージしていますから、遠くない将来にいわゆるシンギュラリティが訪れてすべての翻訳は人間でなくAIが行うようになるという説がまことしやかに役員会で語られるケースもあるかもしれません(ここは想像ですけど笑)。

そんな社会的風潮のなかで、Eコマースのビジネスを多言語に展開して売上を拡大するという話は、小さいリスクで手堅い収益拡大が見込める新規事業として役員会の賛同を比較的得やすいのだろうと想像します。

翻訳への出費が「経費」ではなく将来の収益拡大のための「投資」と位置づけられるのであれば、そこではしくみの開発も含めた新しい産業翻訳の需要が発生することになります。

AIでは深層学習に先立ってトレーニングデータの準備が必要であり、AI翻訳の場合は対訳コーパス(翻訳メモリ)や用語集などの言語資源を準備する必要があることまでは本で勉強してもわかりますから、大企業がGコマースの実現にむけてAI翻訳を活用する事業計画をたてる場合は、産業翻訳の歴史で初めて、言語資源への設備投資が予算化されます。

この予算を活用できれば、前述したGコマースの「埋め込まれたデータベースの翻訳問題」の課題を解決できる可能性が出てきます。

実際の話、LSPが言語データの加工を受注する「特需」は今後5年ないし10年は継続するのではないかという見方が海外にはあり、すでにこのビジネスに関するレポートがSlatorから発行されています[2]

CATとAI翻訳だけでは不十分

大企業の役員会がGコマースの事業計画を承認したとして、そこで期待されている破壊的イノベーションの目標(たとえば翻訳の納期とコストを1/10にする等)を達成するにはどうすればいいでしょうか?

これまでまったく多言語化されていなかったEコマースサービスをはじめて翻訳する場合であれば、まずはCATツールの導入による生産性改善が期待できます。CATツールの導入効果は原文中にどのくらい繰り返し表現があるか(=レペティション)と一度翻訳した文がどのくらい再利用できるか(=レバレッジ)の二つの効果の効き方次第で異なりますが、たいていのEコマースサービスではどちらの効果もある程度は効くことが多いので、それだけで翻訳生産性は30%程度、条件がよければ二倍程度にまで改善されると思います。

ここにさらにAI翻訳を投入することになりますが、AI翻訳をPEすることで得られる生産性改善は冒頭で述べたようにせいぜい30%と考えられるので、ここまでの効果をすべて合算しても生産性の改善は運が良くて2.5倍から3倍といったところでしょうか。

しかしこれだけでは、顧客が求める生産性の10倍改善には遠く及びません。こんなときは発想の転換が必要です。

メガファクトリーという先達

翻訳産業にとってさいわいなことに、破壊的イノベーションによる生産性の改善という点では製造業が150年ほど先輩であり、人類の様々な工夫の集積を製造業から学ぶことができます。

先日偶然にナショナルジオグラフィックの「世界の巨大工場」(Megafactories)という番組[3]でコカ・コーラの製造工程が紹介されているのを見かけたのですが、あまりのおもしろさに一気におしまいまで見てしまいました。

その番組によると、コカ・コーラがはじめてボトルに詰めて販売されたのは1899年で、そのときは作業者が一本ずつ瓶にコーラを手作業で詰めていました。手慣れた作業者であれば1時間に300本のボトルを瓶詰めできたそうです。

これに対して現代の工場では、アルミ缶の場合、1分間に2,000缶のコカ・コーラを製造できます。もちろんすべての工程が可能な限り機械化および自動化されており、外観の目視検査や不合格品の除外などすべての工程ごとに専用の製造機械が配備され、使われています。

この番組を見ていて、「オートメーション」の本質に関していくつか気づいたことがあります。

第一に、ある製品の製造プロセスがどれほど複雑であっても、そのプロセスを構成する個々の工程にまで分解したのち、各工程に特化した自動化機械を開発して前後の工程を担う自動化機械と接続し、全体として一本のラインを編成することによって製造プロセスの生産性が大幅に改善できること。

第二に、そうして完成した自動化機械の連鎖のなかに人間をシリアルに組み込んでは基本的にダメで、人間の役割は自動化機械が所定のスペックからはずれたときの対処のような非常時対応、または自動化機械がよどみなく働き続けられるようにするためのサポート業務(たとえば消耗品の補充であるとか、自動化機械を開発する投資に見合わないような特殊なタスクを人間が手作業で行うであるとか)にあること。

第三に、人間の身体や行為はいくら手順書を定めてそれに準拠させたところで必ず機械よりも速度と精度に劣るだけでなく分散も大きく、そもそも機械的大量生産には人間は向いていないこと(反対に言えば、曖昧で不正確な環境におかれても自分の判断で目的達成の方法をみつけだす創造性や一人ずつ異なる個性にこそ、人間の人間らしさがあること)。

第四に、翻訳プロセスを工程要素にどう分解するかというグランド・デザインを考えることや、各工程を担当する自動化機械の開発は、機械にはできない人間の仕事であること。

気づいたことは以上の四点です。

製造業におけるメガファクトリーを観察して得たこれらの考え方を翻訳業のプロセスに適応した場合、すぐに気づくのは定形表現・用語集・CATツール・AI翻訳などの既存の方法やツールが翻訳オートメーションの完成度を上げていくうえでの必須技術であるとしても、これらの技術だけでは翻訳ライン全体の自動化にはまだ程遠いという事実です。

一例をあげると、Gコマースの場合は商品情報のデータベースをひとつ下の階層で支える要素のデータベース(商品名・人名・地名・料理名など)の多言語化が必要になるわけで、その要素データベースの翻訳では翻訳のブレが許されないために深層学習と異なるアルゴリズムで実装する必要があると思います。

翻訳プロセスのオートメーションを完成させるには、まず既存の技術をすべて導入してプロセスを一度実験的に動かしてみて、ボトルネックとなる人手工程を実証的にみつけだすことができたら、次にその工程を自動化するツールを開発する、という実証試験のループを気が遠くなるほど根気よく繰り返し回していくほかに道はないと思います。

現代の製造業の生産性の高さとその工程の完成度には感嘆しますが、製造業も一夜にしてあの境地に到達したわけではなく百年以上の時間がかかっているわけですから、私たちもあきらめずに根気強く翻訳プロセスの改善に取り組む覚悟が必要でしょう。

グローバル✕ニッチが実現可能に

地道な個別工程の自動化を積み重ねていくことによってGコマースのオートメーションが完成するまでに10年かかるのかそれとも100年かかるのか今の私にはわかりませんが、わかっていることもあります。それは、既存の国内向けEコマースを多言語化する(Gコマース化する)工程の自動化が実現すると、経済の仕組みに画期的な新しい流れをもたらすということです。

独立研究者の山口周さんは、その著作の中で「ローカル✕メジャーからグローバル✕ニッチへの構造転換」という興味深いビジョンを提示しています[4]

簡単に紹介すると、市場が国別のローカルに閉じている場合は、その国内だけでビジネスとして成り立つだけの市場規模が得られる産業しか経済的に存続できませんが、市場がグローバルに開かれると国内ではマイナーすぎて事業として成立しなかったビジネスにもグローバルで存続に必要な市場規模を達成して事業化できる可能性がでてくるというビジョンです。(山口周さんの考察はこれに留まらず、このことが企業競争にどのような革命的影響をもたらすかという点についてとても興味深い洞察を展開しているのでご興味のある方はぜひこの文献をご覧ください。)

すでに国内でEコマースのビジネスを成功させている企業(=ローカル✕メジャー)が多言語化を実現するために翻訳工程を改善する研究開発に投資すると、工程の生産性を改善する仕組みやツールが産まれます。そこで産まれた新しい仕組みやツールは産業翻訳の他の市場セグメントに普及していきます。

限界費用逓減の法則によりGコマース化するための仕組みやツールはだんだんと低コストで利用できるようになりますから、国内だけでは採算ラインにのらないEコマースでも、たとえばはじめから日本語に加えて英語と中国語でサービスを実装することによって日英中の三言語の市場を合わせれば採算ラインに到達できる「グローバル✕ニッチ」となる可能性がでてきます。

私がGコマースとそれを支える新しい翻訳産業の将来性に大きな期待を抱く理由はここにあります。


[1] 生産性改善率の推定根拠については河野弘毅「新しきLSP」JTFジャーナル2020年11/12月号、10頁を参照。

[2] Slator 2021 Data-for-AI Market Report, https://slator.com/data-research/slator-2021-data-for-ai-market-report/、2020

[3] ナショナルジオグラフィック「世界の巨大工場3」https://natgeotv.jp/tv/lineup/prgmtop/index/prgm_cd/651

[4] 山口周『ニュータイプの時代 – 新時代を生き抜く24の思考・行動様式』ダイヤモンド社、2019、100頁を参照。

共有