日本語翻訳の重要性を言語権から考える(後編)
講演者:HALライティングカレッジ代表、英日・日英翻訳者 豊田憲子さん
日本翻訳連盟主催の2023年翻訳祭から選りすぐった講演の抄録をお届けします。今回は、HALライティングカレッジ代表、英日・日英翻訳者の豊田憲子さんの「日本語翻訳の重要性を言語権から考える」後編です。著作権、言語権を考える上で重要なAIツールのメリットとデメリット、それを踏まえた上での正しいAI運用のあり方、業界内ガバナンス、日本語という稀少言語の未来を守るために翻訳者と翻訳業界はどう対応するべきなのか等について提言します。
●AIのデメリット――バイアスによる弊害
それでは、原点に戻りまして、AIの問題点についてです。
- ファクチュアリティーがない
- 何にもないところから情報が出てくるハルシネーション
- バイアスがどうしてもかかってしまう
- ディープフェイクの危険性がある
このあたりが代表的な問題点といわれています。その中でも、稀少言語や言語権を考えたときに私が一番重視しているのが、バイアスです。
AI開発学習段階における収集過程において、どうしてもマジョリティーの言語や文化や考え方に、マイノリティーの考え方や言語がだんだん駆逐されていく、そしてバイアスがかかっていくことが多いかと思います。そのような危険性について、グーグルにいた研究者の方が書いている論文が存在します(※4)。
バイアスがかかるとどうなるか。例えばAI画像で「飯テロ」と検索をすると、「テロ」のイメージとしてある特定の民族の男性の顔が出てきて、それと一緒にいろいろなご飯の画像が出てきます。これは非常に差別的な生成結果です。
生成結果が間違っていることがわかるうちはまだいいのですが、わからないうちにだんだん刷り込まれていくのがとても怖いと私は考えています。
収集方法やその生成結果、そのフィルタリングなどにおいて、常に検証作業や検証結果について考えていかなければいけない。「飯テロ」と指定したらどのような結果が出てきたかを考えれば、好ましくない結果についてどう対処しているのかなどについて、私たちは考えていかなければいけないのではないかと思います。
今、わかりやすく画像についてお話しましたが、文書の生成結果、例えば翻訳の生成結果でも同じです。「何だ!これは」みたいなものが生成されたときに、間違った結果をどうやって見つけていくのか。そのまま放置されているとそれがまた再生産され、拡散されてしまいます。好ましくない結果の放置状態を非常に怖いと感じています。
例えば、最初にお話したガーナの体験についていえば、ガーナだけを見ても、60種類の言語とそれだけの民族がいるのですが、日本で調べると、アカン(チュイ)語しか出てきません。チャンバ語で、「こんにちは」「ご機嫌いかがですか」に相当するのは「カナラフィア」ですが、「こんにちは」に相当する言葉として私が予習していったのはアカン(チュイ)語の「マーハ」という言葉でした。日本で、AIで「ガーナで『こんにちは』どういうふうに言いますか」と検索したら「マーハ」しか出てこないので、もし私がブログか何かで「ガーナで『こんにちは』は『マーハ』です」と言い切ってしまって、それを見た誰かがどんどん拡散していったら、チャンバ語は消えてしまいますよね。
このようなことがクラウドではすごく起こりやすいのではないかと思います。ですからやはり意識して稀少言語を大事にしなければ怖いと感じます。
●AIに対する世界と日本の動向
次に、AIに対する世界と日本の動きを簡単にお話します。
欧米では、まずはしっかりと制限をかけて、その中から順次緩めていくほうがいい、という考えが大原則になっていると思います。
特に厳しいのはヨーロッパです。やはり個人が大事にされている故かなと思いますが、いったん緩めかけたところも著作権および個人情報保護に関する旧来法を適用するようになっています。
アメリカでも、連邦レベルでAIガイダンスを作成し、倫理を大事にして規制する動きになっています。マイクロソフトのトップも、AIが暴走することがあってはならない、「AIは常に管理下に置くべきである」「そのガバナンスが大切である」と話しています。
一方、日本では、先ほど詳しくお話したように、著作権法第30条の4項で著作者の権限が少し制限され、「頑張れ日本のAI」といった風潮がどうも先に立っている感じがしています。
(2023年)5月1日、日本ディープラーニング協会(JDLA)からJDLA理事長である東京大学の松尾豊教授を中心に作成された「生成AIの利用ガイドライン」(初版)が公表されました。これについて私が気になったのが、「(生成AIの利用に際して)法令違反を避けてもらう、という最低限の目的を達成するために必要な事項を盛り込んだ」という文言です。かなり後ろ向きのレベルにとどまっている印象を受けました。
去年(2022年)から私が松尾先生の講演などを聞いてきた中で、松尾先生はAIの社会的な倫理責任やガバナンスをきちんとキープしなければならないということをおっしゃっていました。しかし、今回のガイドラインで出てきたのが「最低限の目的」というギリギリの表現で、そこさえ押さえていればよいという受け取り方をされる恐れがあるように思います。これは、欧米の方針と比べると全く遅れていて、非常に危険かなという感じがしています。
実際、こんな事案が最近ありました。生成AIを利用して書いたあるウェブメディアの記事が、他の報道機関の記事とそっくりそのままで、盗用だと主張する報道機関側が物申したわけです。このときは相手のウェブメディア側も盗用を認めたのですが、中には、素直に盗用を認めずもめることだってあるでしょう。他社や他人の記事を盗用剽窃することは社会的、倫理的にも大問題ですが、どのくらいの人がこの問題を意識してチェックしているでしょうか。
このような事案を見ると、今後は自分が書いたものが他人の著作物と被っていないか、訴えられないようにチェックの必要性も出てくるように思います。
ニューヨークタイムズは、AI学習のために同社の記事や画像などのコンテンツを許可なく収集、利用することを禁じる条項をサービス利用規約に追加しました。ニューヨークタイムズに限らず、今後、少なくともメディア関連企業は同様の方針を打ち出して明文化、宣言し、予防措置を取っていくところが増えると思いますし、この動きは当然であろうと私は考えています。
ただし、大企業はいいのですが、個人がどうやって自己防衛していくかという問題があります。翻訳力という自己研鑽の結果が勝手に取られてしまうのは悔しいですから、自己防衛の対策も考えていかなければならないと思います。
●翻訳業界に関連する論点
こうした動きを踏まえて、翻訳業界に関連する注目すき論点を挙げてみます。
(1)AI学習用データとして著作物の収集認識
まず、AIの学習用データとして自分の著作物が収集されているという認識があるかどうかです。
(2)契約書に学習データ源とされることに対する同意不同意
今後は契約書に、「あなたの翻訳結果を学習データ源として利用することに同意するかどうか」という条項の追加を考えていかなければいけない時代なのではないかと思います。現段階でそういう契約がどの程度交わされているのかわかりませんが、このあたりは、言語権を考えるにあたってはやはり必要かと思います。
(3)知的財産権の保護(侵害されたときどうするか)
知的財産権を侵害されたときに実際どうするか。原則論として、誰もあなたの著作権が侵害されていますとは教えてくれません。ですから、自分で見つけて自分で申告し、自分で訴えなければいけない。この大変な作業にどう対応するかということも、頭の片隅に置いておかないといけないと思います。
(4)二次使用、学習データ使用(権利と使用料)に関する認識と契約文言
二次使用、学習データ使用の権利と使用料に関する認識、またはそれを契約書に反映するかしないか。例えば、映像関係では、一度劇場公開された映像をDVDや他の媒体にする際の二次使用料などを契約書にどう反映するのか。こうしたことも認識していかないといけないときがいずれは来ると思います。
(5)生成結果のチェックと評価は妥当か
好ましくない生成結果をどのように処理していくか。生成結果のチェックをどうするか。今もいろいろなアプリやAIサービスが出ていますが、その評価が妥当なのかどうかというチェックが、今のところ第三者機関または政府ではなされていません。機械言語処理ツールの開発企業側が自社ツールの性能をアピールすることはあっても、客観的な評価がないのは問題だと思います。そのあたりをしっかり見ていく必要があります。
●言語権を守るために必要な自由裁量権
日本語が今後どのように変化していくのか。やはり日本語の長所を良い形で残していかなければいけないと思います。言語権を維持し守っていくために、「自由裁量権」が必要なのではないかと私は考えています。
企業であれ個人であれ、まずは他人のデータを収集しているという認識があるかどうか。または自分の著作物がデータとして収集されているという認識があるかどうか。データ学習への同意、生成結果のチェックと評価、学習データ使用料などが著作権保護の考え方に絡んでくると思います。
例えば翻訳者が学習データを提供した結果、ポストエディットの単価が下がるという現状には合理性がありません。データ収集に貢献したならばそれに対する対価という形での経済的保護や、知的財産を守るための経済的保護も必要になってくるのではないでしょうか。そのためには著作権保護が必要ですし、言語権を守る、自由裁量権を守るにあたって大企業と個人の格差が出ないようなガバナンスのあり方も必要だと思います。
7月に参加したある著作権の代表的な団体のセミナーで、「今後のAIの規制に関して、政府はどう考えているのでしょうか。また今日の主催団体はどうお考えですか」と質問したところ、「まだ政府が何とも言ってないので、今後数年はどうなるかわかりません」という答えでした。失礼ながら専門的な団体がこんなことでいいのか、政府見解決定は何年後なのか、「今後対応」では遅いのではないかという思いが強かったです。
やはり欧米がやっているように、まずはきちんと規制をした上で、実際は小出しに緩和していくなど、少なくとも経済的保護と法的保護の両輪で回していくような形にしないと大変なのではないかと懸念しています。
●言語権を外来種問題から考える
言語権関連の問題を考えるうちに、何かに本質が似ているという思いがあったのですが、行きついたのが外来種の問題です。環境省自然観光局が出している「日本の外来種対策」(※5)の中に、「外来種の問題点」として次のような文言があります。
生態系は、長い期間をかけて食う・食われるといったことを繰り返し、微妙なバランスのもとで成立しています。ここに外から生物が侵入してくると、生態系のみならず、人間や、農林水産業まで、幅広くにわたって悪影響を及ぼす場合があります。もちろん全ての外来種が悪影響を及ぼすわけではなく、自然のバランスの中に組み込まれ、大きな影響を与えずに順応してしまう生物もいます。しかし、中には非常に大きな悪影響を及ぼすものもいます。 |
外来種問題からAIと言語権について考えてみると、やはりバランスが必要です。バランスを考えず、「開発は日本の将来のために大事」という考えだけで突っ走っていると大変なことになるのではないか、非常に悪影響を及ぼすこともあるのではないかと思います。
この「日本の外来種対策」の中で、「外来種被害予防三原則」として「入れない、捨てない、拡げない」が掲げられています。この三原則は言語と文章にも重なるところがあると思います。
悪影響を及ぼす恐れのある生成結果は入れない。またはその生成結果はその開発企業の中で処理をして、拡散をさせないということが大事ではないかということです。
●開発者の倫理的責任
AIの問題はまた、公害にも通じるところがあると思います。私が子どもの頃にちょうど日本の工業が発展していきました。私は九州出身なのですが、私が生まれる前に水俣病という公害問題が起きました。工業の開発や発展を推し進める中で、人体に悪影響を及ぼす公害をずっと放置してきたためです。
このことを鑑みると、AIについても開発・発展のメリット、デメリット両方の視点で常にバランスを考えていかないと、後々になって悪影響が出てくるのではないかと思います。
そこで、先ほども言ったガバナンスや開発側の倫理責任が大事になってきます。
この点に少し関連して、最近映画にもなったオッペンハイマーの話をしたいと思います。オッペンハイマーというと、まず「原爆の父」という冠がつきますけれども、本来、彼は、宇宙物理で最先端の研究をしていた科学者でした。ところが、結局は政治に翻弄されてしまったんですね。アメリカは第二次世界大戦に勝つために、科学者や技術者を総動員して原子爆弾の開発・製造を行いました。オッペンハイマーはそのマンハッタン計画を主導し、アメリカは1945年7月にトリニティ実験と呼ばれる原爆実験を実施しました。
オッペンハイマー自身はトリニティ実験で原爆の破壊力を知らしめて「使ってはいけない」ということを示したかったけれども、結局は政治に負けて、その後アメリカは広島、長崎に原爆を投下しました。この原爆投下を彼は非常に後悔して、戦後、核軍縮や水爆開発反対の活動をしました。彼なりの科学者としての倫理責任を持っていたということなんですね。
●言語権を守るための相関関係
では、言語権を守るにはどうすればよいのか。
- 知的財産の保護
- 翻訳またはその言語権に関する仕事をしている人たちの労働条件保護
- どのようにAIを開発しているかという説明責任
- 企業・業界のガバナンス
- すべての言語を差別なく守っていくという社会倫理
- 正しいAI教育
上記すべての項目を、「個人」「政府・企業」「社会・世界」の三者が相関関係をもって進めていくことが、ひいては機械語に駆逐されない人間言語、言語権を守ることにつながると思います。
先ほど言ったように、後手後手では困ります。そしてやはり大きいところが動いてくれないとなかなか力になりづらいので、当業界団体にも働きかけて、よい形で言語権を守っていきたいと思います。
●個人レベルで言語権を守るには
もう一つ、個人レベルで言語権を守るにはどうすればよいかについてお話します。
(1)他人の著作権を尊重する
意外にも自分の著作権を主張する人に限って、平然と「他人の著作物を借りました」といった驚くような事案がけっこうあるのですが、自分の著作権を守りたければ、まずは他人の言語、他国の言語や文化を尊重しましょう。
(2)不用意にウェブに流さない
一旦ウェブに流したら、流した内容はデータ学習される危険性をはらんでいると考えたほうがいいと思います。私は最近、本当に大事な内容についてはアナログ回帰になっています。
(3)著作権許諾に関する文言、二次使用料
今後の契約には、自分の著作権許諾に関する文言、二次使用がある場合の使用料に関する文言のほか、AIに収集される可能性も考慮していかなければいけないと考えます。
(4)オプトアウトについて
ChatGPTなどを利用している方はすでに対策をうっていると思いますが、オプトアウトしているからOKかというと、そうはいきません。利用している中での制限規定もありますし、私が一番怖いと思っているのは、「個人情報を守ります」と言っても、クラウドのようなところから漏れる危険性は絶対ゼロではないということです。
個人レベルでもご説明した重要点をぜひ考えていただきたいと思います。以上で本日の私の話を終わります。ありがとうございました。
(2023年10月27日 第32回JTF翻訳祭2023講演より抄録編集)
注:本講演では、「令和5(2023)年10月初旬」までの文化庁や政府の見解を前提条件としてお話ししています。
※4 https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
※5 https://www.env.go.jp/nature/intro/2outline/invasive.html#sec3
< 日本語翻訳の重要性を言語権から考える(前編)1ページ
< 日本語翻訳の重要性を言語権から考える(前編)2ページ
◎講演者プロフィール
豊田憲子(とよだ・のりこ)
大学卒業後、外資系企業勤務を経てフリーランス翻訳者35年。主に学術論文や企業レポートの翻訳、原稿草案作成などに携わる。後進指導として翻訳学校指導歴25年、クリティカルライティング研究会15年でプロ翻訳者を約50名育成。2023年1月からHALライティングカレッジと名称を変えて翻訳サービスおよび翻訳ライティング人材指導を本格的に始動。