第8回AAMTセミナー「AAMT若手翻訳研究会」聴講者募集
第8回AAMTセミナーはは、「AAMT若手翻訳研究会」と称し、次世代の研究者・開発者・利用者の育成を目的とし、若手研究者に発表の機会を提供し、聴講者による評価を行うイベントを開催します。
通訳・翻訳・機械翻訳に関する発表が13件寄せられました。若手の斬新な研究に触れるチャンスでもあります。
聴講は無料ですので、ぜひお申込みください。
聴講は無料です。最新の若手研究を聞くチャンスですので、ぜひご参加申し込みをお待ちしています。
■日時
2024年3月22日(金)14:00~17:35
(講演後2週間のオンライン配信)
■発表プログラム
●14:00-14:05
オープニング
●14:05-14:20
(1)英語映画の日本語字幕翻訳における 「男性語」「女性語」使用実態の分析
永岡由之 (東京工業大学)
映画の日本語字幕には、日常会話では昨今用いる機会が少ない、「女性らしさ」を強調した「女性語」や「男性らしさ」を強調した「男性語」が頻繁に登場するとされている。本研究では、直近10年以内に製作された英語映画の日本語字幕、特に登場人物が発する会話文の文末詞における「男性語」と「女性語」の使用実態の記述を試みる。その第一歩として、いくつかの「男性語」と「女性語」の使用パターンを記述することができた。また、本研究で観察された「男性語」と「女性語」の使用パターンを先行研究と比較し、日本語字幕ひいては和訳文における「男性語」と「女性語」の使用実態について、直近の変化を踏まえた仮説を提案することができた。
●14:20-14:35
(2)「Web3通訳」の役割と課題 – 現役通訳が日本のWeb3業界の発展に貢献するには
大谷かなこ (0x Consulting Group PTE.LTD.)
本研究では日本の「Web3」業界における通訳者の現状に焦点を当てる。インターネット黎明期を彷彿とさせるWeb3の技術は新たなサービスを生み出し、また資本経済に代わるトークンエコノミクスは拡大する経済格差の是正が期待できると現在注目されている。英語の一次情報が主流の本業界では通訳の需要が高まっているが、次々と新しいコンセプトが生まれていく中で単なる直訳では対応しきれない。Web3知識を持つ通訳者を増やし、Web3技術の進歩を促進するためには、既存の通訳者へのWeb3教育に注力する必要がある。2022年から「Web3通訳」として活動している発表者が、通訳者へのWeb3教育における課題を発表する。
●14:35-14:50
(3)日本の少年漫画における振仮名を使用した表現の英語翻訳: 『青の祓魔師』をケーススタディとして
角田かのん (藤女子大学)
日本語の表記における振仮名には、漢字で書かれた語(「親文字」と呼ぶ)の読みを示す一般的な用法に加え、「表現」としての用法がある。これは、例えば、(「学校」に「がっこう」ではなく)「ここ」や「うち」と振るなど、漢字を使って複線的な表現が作られており(今野 2009)、五つのタイプに分類できる(cf. Lewis 2010)。本発表では、この用法の振仮名がつけられた語はどのように翻訳されるのかについて考察する。ケーススタディとして加藤(2009)の少年漫画からデータを収集し、その英語翻訳版と比較、五つのタイプ別に分析した結果、親文字の語ではなく、振仮名のみが訳出される傾向にあることが分かった。
●14:50-15:05
(4)日英間の機械翻訳による受容化と異質化について
木内晶基 (東京工業大学)
ヴェヌティは翻訳者の存在が読者に分かるような異質的翻訳こそ他文化理解への契機となり, 受容的翻訳は自文化中心主義を促すと論じた. 近年の機械翻訳の発展は著しくその用途は幅広いが, 機械翻訳がいかに受容的・異質的な翻訳を行うのかは分かっていない. 本研究は, 日英間の機械翻訳における文化的情報の翻訳に注目し, 受容化と異質化の現れ方を調査する. Transformerベースのモデルにより機械翻訳タスクを行い生成文のテクスト分析を行った. 結果, 機械翻訳は人間による翻訳よりも一般的に異質さを残した翻訳を行い, またその傾向は英語よりも日本語を目標言語とする翻訳において強くなることが示唆された.
●15:05-15:20
(5)ドメイン特化型機械翻訳エンジンの活用実態について
古谷慶之 (株式会社アスカコーポレーション)、早川威士 (株式会社アスカコーポレーション)
ドメイン特化型を含めた複数の機械翻訳(MT)モデルが使える環境下で、ユーザーのMT利用にどのような選好性があるのかを明らかにするために、アンケート調査を行いました。その結果をもとに、汎用モデルとドメイン特化型モデルのそれぞれの選好性と、ユーザー特性との関連性について考察します。
●15:20-15:35
(6)人手翻訳からMTPEへ: 一翻訳者の所感
海老原仁美 (レッドハット株式会社)
新卒から一貫して人手翻訳に従事し、9年目にして初めてMTPEの世界に飛び込んだ翻訳者として、MTPEに関する所感を述べる。まず、人手翻訳時代の経験と、当時抱いていたMTPEに対するイメージについて簡単に共有する。次に、MTPEに従事するようになって半年が経過した現時点での所感を、MTの性能や翻訳力に及ぼす影響等に触れつつ述べる。最後に、MTPEの普及に向けて必要なアプローチについて考察する。
●15:35-15:50
(7)キャラクターの性格と人間関係情報を付加した映像翻訳データセットの構築
大嶽匡俊 (東京大学)、加藤大地 (東京大学)、野崎優斗 (東京大学)、廣岡聖司 (東京大学)、宮尾祐介 (東京大学)、金崎朝子 (東京工業大学)
映像作品に登場するキャラクターの性格や人間関係の情報を付加した、映像機械翻訳のためのデータセットを生成する手法を提案する。映像翻訳において翻訳者は、テキスト情報だけではなくキャラクターの性格・人間関係など作品のメタな情報を考慮した上で翻訳を行うことが知られているが、映像機械翻訳ではそのようなアプローチが十分に試されていない。そこで本研究では、外部から収集した脚本と字幕のデータをクリーニングし、発話者とセリフの情報を分離・整理することで、発話者のメタデータと発話者名を含む日英対訳データセットを構築する手法を提案する。この手法によって構築されたデータは十分な精度を持つことが確認された。
●16:00-16:15
(8)Document Alignment based on Overlapping Fixed-Length Segments using Optimal Transport
王小天 (筑波大学)、宇津呂武仁 (筑波大学)、永田昌明 (NTT)
ニューラル機械翻訳における対訳文書の収集手法として、ウェブクローリングによって大規模なパラレルコーパスを取得する方式がよく知られている。ウェブクローリングによって収集された多様な言語の文書に対して二言語間の文書対応付けを行う手法として、最適輸送理論に基づくSentence Movers' Distance (SMD)が知られてきた。この手法では、文単位で文書を分割するが、これに対して本論文では、重複ありの固定長で文書を分割する方式によって二言語間文書対応付けの性能が有意に改善されることを示す。
●16:15-16:30
(9)大規模言語モデルに対する対訳データを用いた継続事前訓練による翻訳精度評価
近藤海夏斗 (筑波大学)、宇津呂武仁 (筑波大学)、森下睦 (NTT)、永田昌明 (NTT)
多くの自然言語処理タスクで大規模言語モデルが高い性能を達成しているが,パラメータ数が100億前後の大規模言語モデルでは,既存手法であるencoder-decoderモデルより翻訳精度が大きく劣る.そこで本論文では,対訳データを用いた継続事前訓練を提案する.対訳データで大規模言語モデルを継続事前訓練した後,少量の人手作成対訳データでsupervised fine-tuningし,WMT22のテストデータをはじめとする12種のテストセットで評価した.その結果,対訳データで訓練されたencoder-decoderモデルに対して,BLEU・COMETの両方で統計的に有意な改善を達成した.
●16:30-16:45
(10)言い換えとリランキングに基づく機械翻訳のドメイン不適合の緩和
惟高日向 (愛媛大学)、梶原智之 (愛媛大学)、藤田篤 (NICT)、二宮崇 (愛媛大学)
機械翻訳(MT)の品質は、学習データと異なる特性を持つテキストを翻訳する際に著しく低下する。従来の研究では、対象ドメインの対訳データを用いてMTを適応させることに焦点が当てられてきたが、対象ドメインの対訳データがない場合やブラックボックス型のMTを利用する場合には適用できない。そこで本研究では、対象ドメインの対訳データに依存することなく、ドメイン不適合の問題を緩和する手法を提案する。具体的には、入力文から複数の言い換えを生成し、それぞれを翻訳した後、得られた翻訳をリランキングして、最良の翻訳を選択する。3ドメインにおける日英翻訳の実験の結果、2ドメインにおいて翻訳品質を改善できた。
●16:45-17:00
(11)CVAEに基づく潜在変数を考慮した機械翻訳
小倉知也 (愛媛大学)、二宮崇 (愛媛大学)
Transformerでは同一入力文に対し単一のベクトルに従って機械翻訳を行うため,多様な翻訳文を得ることが難しいという問題がある.本研究では,多様性に富んだ機械翻訳を実現するために,確率分布に従う潜在変数をTransformerに導入した機械翻訳手法を提案する.確率分布に従う潜在変数は潜在変数モデルCVAE(Conditional Variational AutoEncoder)に基づいて与え,潜在変数をTransformerに導入する.英語から日本語への機械翻訳における評価実験の結果,翻訳性能の向上は見られなかったが,多様性の向上は確認された.
●17:00-17:15
(12)吹き出しよりも長い文脈情報を用いた漫画の機械翻訳
戒能大翔 (愛媛大学)、杉原壮一郎 (愛媛大学)、梶原智之 (愛媛大学)、二宮崇 (愛媛大学)、Tanner Joshua(Mantra株式会社)、石渡祥之佑 (Mantra株式会社)
漫画の機械翻訳においては,吹き出しは単体では翻訳に必要な情報を充分に持っていないため,他の吹き出しを文脈として利用することで翻訳品質の改善を期待できる.先行研究では直前の吹き出しを考慮する手法やコマ単位で翻訳する手法が提案されているが,これらの手法は他のコマにある情報を考慮できない.また,作者やジャンルごとに漫画の作風が異なるというスタイルの問題にも対処したい.本研究では,直前のコマを用いてコマ単位で翻訳する手法および作者やジャンルなどの漫画の属性を考慮することでスタイルを制御する手法を提案する.日本語から英語への漫画の機械翻訳における評価実験の結果,提案手法によって翻訳品質を改善できた.
●17:15-17:30
(13)サブセット探索を用いた高速なkNNニューラル機械翻訳
出口祥之 (NAIST/NICT)、渡辺太郎 (NAIST)、松井勇佑 (東京大学)、内山将夫 (NICT)、田中英輝 (NICT)、隅田英一郎 (NICT)
kNN機械翻訳は,翻訳時に用例検索を組み込むことで,モデルを追加学習することなくニューラル機械翻訳(NMT)の精度を改善する.しかし,翻訳中の各時刻で,対訳データの全目的言語トークンに対して近傍探索を行うため,翻訳速度は通常のNMTの100~1000倍ほど低下する.本研究では検索対象を入力文の近傍事例に絞ることでkNN-MTの高速化を図る.また,ルックアップテーブルを用いた効率的な距離計算法により,さらなる高速化を目指す.複数の翻訳実験で従来法と比較したところ,提案法は翻訳速度を最大134.2倍高速化しただけでなく,翻訳精度も最大1.6 BLEU改善することを確認した.
●17:30-17:35
クロージング
■実施形式
Zoomオンライン
■参加費:発表・聴講ともに無料
■表彰
発表内容が特に優秀と認められた発表に関しては表彰し、以下の通り副賞を進呈いたします。
副 賞:最優秀賞1名(20,000円相当)、優秀賞3名(10,000円相当)
審査方法:聴講者による投票を考慮し、AAMTセミナー委員会が判定し、決定(投票数及び選考基準等は公表致しません)。優秀賞の発表は、集計結果と審査の上、3月中にAAMTのウェブサイトに公開します。
■聴講者(審査員)募集
若手研究者による最新の研究成果を知ることができます。また聴講した発表が優れていると思われる場合には、優秀賞への推薦を行うことができます。直前までお申し込みが可能ですので、ぜひご参加ください。
詳細は:https://aamt.info/event/seminar/20240322
ご質問:aamtseminar@aamt.info までメールにてお問い合わせください。