情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
機械翻訳のいま 統計的手法を中心に
隅田 英一郎
著者情報
ジャーナル フリー HTML

2014 年 57 巻 1 号 p. 12-21

詳細
著者抄録

本稿では,半世紀を越える歴史があり,現在,巷(ちまた)にあふれる自動翻訳システムの2014年の到達点を紹介する。自動翻訳に対する人々の印象はさまざまである。翻訳対象の言語・分野・文長などによって,翻訳品質が大きく違うからである。たとえば,日本語と英語の間では,汎用で高精度な自動翻訳システムは現存しない。一方,日本語と韓国語の間では,汎用で高精度な自動翻訳システムが手軽に利用できる。技術に立ち返って,現在の自動翻訳の真の姿を共有することを目的として,中核技術になっている統計翻訳について詳しく説明する。統計翻訳は,対訳データから翻訳に必要なモデルを導出し,これに基づく確率を最大化するように翻訳する。統計翻訳は,①専門分野の高精度翻訳を実現できる,②多言語化が容易である等の従来技術にない特徴を有する。統計翻訳を旅行会話に適用した音声翻訳と特許に適用したテキスト翻訳を例に,高精度の自動翻訳について紹介する。

1. はじめに

機械翻訳とは,ソフトウェアでテキストを第1の言語(原言語という)から第2の言語(目的言語という)に翻訳することを指し,自動翻訳とも呼ばれる。

簡単に機械翻訳の歴史を振り返る。1954年にはGeorgetown大学とIBM社による機械翻訳の人類初の実験が行われた。実験は人々に強い衝撃を与え,米国政府は実用システムを目指し多額の研究予算を投じた。1954年のシステムは,当時最先端の計算機であったIBM701(2KHzの演算装置と9KBの記憶装置)に,250単語の対訳辞書と6個の(原言語側の単語を参照して,目的言語側の単語・語順を制御する)構文変換の規則とからなるロシア語から英語への翻訳システムであった。これは規則に基づく翻訳1)と呼ばれる手法であって,その後,半世紀にわたって,さまざまな工夫が加えられ,現在も商用システムの基本技術として広く活用されている。

ハードウェアが格段に進化したこと,言語に関するデータが大量に計算機上に集積されるようになったこと,音声認識で言語データを統計的にモデル化する手法が大成功したこと,記憶に基づく推論を使ったコンピュータープログラムがチェス名人を破ったこと,などを受けて,2000年以降,機械翻訳の研究において,対訳データに基づく翻訳手法1)が急速に進展した。1つは用例翻訳(Example-based Machine Translation: EBMT)2)と呼ばれ,類似した対訳データを修正して翻訳を行うものであり,2つ目は統計翻訳(Statistical Machine Translation: SMT)3)と呼ばれ,対訳データから翻訳に必要なモデルを導出し,これに基づく確率を最大化するように翻訳するものである。本稿では,後者の統計翻訳を中心に説明する。

2. 統計翻訳の基本のアイデア

統計翻訳(SMT)では,対訳データから二言語間の単語や句の対応関係を抽出した翻訳モデル(確率付きの対訳辞書と確率付きの語順変換表)と訳文の言語らしさを表現する言語モデル(英日翻訳であれば,並びの自然さを表す確率付き日本語の単語連鎖データ)を導出し,これらの確率の積を最大化する訳文候補を出力する。

1は,対訳データから,確率付きの対訳辞書が学習されることを示している。「どこですか」は「Where is」に確率60%で対応することが自動的に取得される。

図1 統計翻訳の基本

3. 統計翻訳の特徴

統計翻訳の特徴は,規則に基づく翻訳に比べて,①専門分野向けの高精度の翻訳システムを構築できること,②翻訳システムの多言語化が容易であること,である。

具体的な事例である旅行会話音声翻訳と特許テキスト翻訳を用いて説明する。2つの分野は後述するように,日本国民にとって,外国語の通訳・翻訳が必要となる典型的な分野となっているが,従来の方式では高精度なシステムを構築することができなかったこともあり,統計翻訳が採用された。

3.1 多言語翻訳(旅行会話音声翻訳)

3.1.1 背景

成長戦略,「日本再興戦略-JAPAN is BACK-」(平成25年6月14日閣議決定)注1)の中で,「クールジャパンの推進及び訪日外国人旅行者や対内直接投資の受入れ拡大により、徹底したグローバル化を進める」ことが求められ,「訪日外国人旅行者は2030年に3,000万人超を目指す」という目標が立てられている。

外国人旅行者の主たる不満は,言葉の壁であったり,宿泊施設など接客側も言葉の問題から外国人旅行者を積極的に受け入れられないという現実によるものである。

人間の通訳はコストが高く時間の制約などがあることから,この問題の解消に対する,コンピューターシステムによる自動音声翻訳への期待が大きい。

3.1.2 スマホ用音声翻訳アプリVoiceTra

このような「言葉の壁」を克服するため,情報通信研究機構(NICT)では,多言語音声翻訳ソフトウェアの研究・開発を進めている。その成果として,音声翻訳ソフトウェア注2)をスマートフォン用に公開した。このアプリケーションを使えば,たとえば23の組み合わせで示したような日本語と英語の対話ができる。電話するときのようにスマートフォンを耳元に近づけると短時間振動するので,これを合図に音声を入力すると,翻訳結果が音声で返る。2の1番目の窓はシステムが認識した(聞き取った)結果,3番目の窓が翻訳結果である。2番目の窓は,「逆翻訳」(翻訳文をもとの言語に逆に翻訳する)の結果で,これを見て正しく翻訳できたかを確認できる。

図2 VoiceTraの画面表示例(日英翻訳)
図3 上図の応答例(英日翻訳)

3.1.3 旅行会話音声翻訳の事業化

NICTと成田国際空港株式会社(NAA)は2010年10月4日~2011年2月25日,商用化検証実験を実施した。成田国際空港に関連する固有名詞(エアライン名,観光地名,駅名,商品名等)1,600件を追加し,従来,語彙の不足から「穴のカウンターはどこですか?」と誤認識されていた音声も「ANAのカウンターはどこですか?」と正しく認識・翻訳することが可能となった。NAAは,「音声翻訳技術」が外国人との「言葉の壁」解消のソリューションになると判断して事業化に着手し,2011年12月末にアプリケーションを旅行者のスマートフォンにダウンロードするサービスを開始した。これを契機にVoiceTraは多数の会社に技術移転された。

3.1.4 翻訳ソフトウェアの性能

VoiceTraは旅行会話を対象としているが,その翻訳能力としては,おおよそTOEIC600点の人の能力に相当する。

VoiceTraの特徴には,このように高品質な点に加えて多言語対応が容易な点がある。これは,SMTが多言語のN個の言語からなる多言語対訳データを用意すれば,すべての組み合わせであるN(N-1)個の翻訳システムが自動的に構築できることによる。VoiceTraは,すでに旅行会話の分野で多言語対訳データ(N=21)を構築し,すべての組み合わせである420通りの翻訳システムを実現し,それらが十分に実用レベルの翻訳品質を達成していることを確認している。

4のグラフは,20の外国語から日本語への翻訳について,NICTのVoiceTra(濃い灰色で表示)と広く利用されている多言語ソフトウェア(淡い灰色で表示)とを,翻訳率(翻訳者が評価した意味が通じる率)で比較したものである。

図4 VoiceTraと広く利用されている多言語ソフトウェアとの翻訳率の比較

3.2 高精度専門分野用翻訳(特許テキスト翻訳)

3.2.1 背景

アイデアは,特許制度がなければ,他人に簡単に盗まれてしまう。特許制度は,こういったことが起こらないよう,発明者には一定期間,独占的な権利を与えて保護を図るものであり,日本の特許法第1条には,「この法律は、発明の保護及び利用を図ることにより、発明を奨励し、もつて産業の発達に寄与することを目的とする」とある。逆に,製品を作り販売するためには,他人の特許を侵害しないように,あらかじめ調査をしておく必要がある。これを怠ると,膨大な補償金を払うことになりかねない。

特許制度は国ごとに定められており,日本では日本語,中国では中国語で,各国政府に申請することになっている。一方,経済はグローバル化しているから,たとえば,日本の企業が中国に製品を輸出するためには,中国の特許の調査が不可欠になる。中国は今や世界第2位の経済大国であるので,日本企業も中国市場への進出が今後の発展の要になる。一方で,最近の中国では特許の出願数も急速に伸びており,今や世界第2位である。実際に侵害・訴訟事案が増加している4)

困ったことに,中国語を日本語に翻訳できる翻訳者の数は限られるし,人間による翻訳はコストと時間がかさむ。そこで,中国語特許文書の高精度の自動翻訳システムの開発が焦眉の課題となっていた。英語でも,従来の特許用の自動翻訳システムの精度は十分でない場合が多く,高精度の自動翻訳システムが求められていた。

3.2.2 特許翻訳の難しさ

特許文を翻訳することは大変難しい。実際,高度な技能が必要とされることから,翻訳会社の翻訳費用の単価も他の分野の文書より大幅に高額になっている。

理由の1つ目は1文の長さが非常に長いこと,そのことによって,解釈が困難になり翻訳誤りが増えること(5),2つ目は専門用語が膨大で,これを十分カバーする対訳辞書が存在しないし,専門用語はどんどん新規に作られるため追補が追い付かないことである。

さらに,中国語・英語と日本語は文法がまったく異なることから,従来の自動翻訳技術では翻訳精度が低い状況だった(6)。1の従来技術AおよびBに示したように,意味不明な翻訳が出力されることが少なくない。

図5 1文の長さ(単語数)と翻訳率
図6 言語対と翻訳率
表1 従来技術の翻訳品質

3.2.3 フォーラムNTCIRと自動翻訳

本項で,統計翻訳(SMT)がこの状況を打開したことを説明する。

NTCIR(NII Testbeds and Community for Information access Research)5)という国際的共同研究のフォーラムで催された特許の自動翻訳に関する評価ワークショップを軸にしながら,SMTによる特許翻訳の急速な進展に関して紹介する。NTCIRは,情報アクセスシステムの評価を国内外の多数の研究者が共同実施するオープンイノベーションのためのフォーラムであり,1998年の立ち上げ以降1年半ごとに,多様なタスクの評価結果について議論するために国際ワークショップを開催している。2008年12月開催の第7回のNTCIRの会議からは,特許を対象とした自動翻訳に関する評価も行われている。この中で,従来技術とSMTの比較が重要なテーマの1つになっていた。

(1)翻訳品質と検索精度

第7回のNTCIRで,はじめて特許の自動翻訳の従来技術とSMTの比較が行われた。

まず,翻訳品質に関して比較した。英日翻訳において,従来技術とSMTの訳文を意味が通じるか(adequacy)と流暢か(fluency)の2つの観点6)で5段階評価し,平均をとった尺度で比較したところ,従来技術を使ったシステムがSMTのすべてのシステムより,品質がよかった。

次に,異言語検索の精度と翻訳品質の関係を調べた。異言語検索とは,日本語の特許文献を英語の検索キーワードで検索するなど,検索対象と検索キーワードの言語が異なる検索のことである。この言語の差を対訳辞書や自動翻訳で解消する。検索の精度にはMAP(Mean Average Precision)7)と呼ばれる標準的な評価尺度があり,翻訳の品質にはBLEU(Bilingual Evaluation Understudy)6)と呼ばれる標準的な評価尺度がある。実験では,BLEUとMAPには強い相関(相関係数0.936)があり,BLEUが高ければ高いほど,MAPが高くなることがわかった。SMTはこのBLEUを目的関数にして最適化することから,研究の進捗にともない年々BLEUが改善されるので,同時にMAPも改善されていることになる。一方,従来技術は,BLEUもMAPも低かった。さらに,理屈のうえからも,経験的にも,従来技術を改良しても,BLEUは大きく変化しないし,MAPも大きく改善しないと想定しても間違う可能性は低い。

まとめると,検索の側面から考えると従来技術は有効性が低く改良の期待も薄いが,逆に,SMTはすでに従来技術を圧倒しており,その後の進展も急速であり,性能が飽和する兆しもまだみえないので,軍配は明らかであった。

一方で,翻訳品質の面では,当時は,従来技術がSMTを上回っていたが,後述のように,その後のSMTのアルゴリズムの進展と,対訳データの増量によって逆転することになり,SMTが翻訳品質でも検索性能でも最終的には優位に立つことになった。

(2)統計翻訳の急成長

言語対によって翻訳の難しさは違い,自動翻訳,特に統計翻訳の研究開発や翻訳性能の状況は異なる。英日のように語順が大きく異なる言語では翻訳品質が低く,年々,精度の改善を示しつつも長い間,従来技術の翻訳品質を上回ることができなかった。

2010年前後に提唱された一連の語順変換と訳語選択を分離する技術(3.2.3(4))が奏功し,英日の場合,2013年6月開催の第10回NTCIR8)では,統計翻訳の翻訳品質が従来法の品質を上回ることが確認された。

日英の場合は,毎回,性能が改善しているものの,現時点では,まだ統計翻訳の翻訳品質は従来法の品質を下回っている。

(3)大規模実験での翻訳品質

ただし,これはNTCIRで利用された300万文という限定された対訳データを使った評価の結果である。一方,SMTは,対訳データの量が多ければ多いほど,翻訳品質がよくなることがわかっているので,対訳データの量は増やすことによって品質向上が確実に可能であり,SMTの優位性に疑いを差し挟む余地は少ない。実際,独自に,NICTは自動文対応技術9)を駆使して2,700万文の日英対訳データを構築し,これを使った日英・英日のSMTは従来技術によるシステムを品質で圧倒していることを確認した。

(4)SMTでの構文を使った語順変換

同じデータ量でもアルゴリズムによる性能差が大きく変わるので,与えられたデータで,より高精度を実現する良いアルゴリズムの研究が重要になる。

日本語と英語のように,文法が異なる言語間の翻訳を高精度化するための新しい技術が盛んに研究開発されている。

たとえば,英日翻訳では,英語文の構文を計算し,主辞が必ず後置されるという日本語の特性を利用して英語の構文構造を日本語のそれに変換した後,自動学習による確率付き対訳辞書などを用いて訳語を選択する手法で,翻訳の精度を大きく改善できることが示されている10)

さらに,NICTは,英日翻訳に限定することなく適用可能となるように,語順制御を自動的に学習する手法(新技術)を提案し(7),これによって,特許文書のような長文の文書においても高精度な翻訳を可能とした。

平均約25語のテストセットで,中国語特許文書を翻訳率80%,英語特許文書を翻訳率85%という高精度で日本語に翻訳できた。1のサンプル入力に対する提案システムの訳文を2に示す。

図7 NICTの新方式の統計翻訳
表2 NICTの新方式による統計翻訳例

3.2.4 統計翻訳の事業化

NICTは3.2.3の最後に述べた技術をただちに事業化した。

日本特許情報機構(Japio)と共同で開発した,「中日自動翻訳ソフトウェア」の翻訳者が判定した翻訳率は,従来技術の3倍以上の値を達成している。8のように,この「中日自動翻訳ソフトウェア」によって,Japioは中国の特許文献を日本語に翻訳し,データベース化し,特許検索事業としてサービスを開始した11)9に「センサ配設構造」に対する検索結果の中国語特許と自動翻訳の一部を例示する。

また,日本発明資料株式会社(以下「ニッパツ」)と共同で開発した英日の「自動翻訳ソフトウェア」では,(特許要約1件あたりの)訳語誤り数を従来技術と比べて,約12分の1に削減するという高い品質を実現した。ニッパツは,今回開発した「自動翻訳ソフトウェア」によって,英語特許を対象にして同様のサービスを事業化した12)

これらの自動翻訳システムは企業の知財部や弁理士や審査官の調査のための特許検索で役立つだろう。

図8 自動翻訳を活用した中国語特許の検索システム
図9 中日自動翻訳ソフトウェアによる検索例:「センサ配設構造」に対する検索結果の中国語特許と自動翻訳の一部

4. 統計翻訳の周辺の話題

4.1 統計翻訳が適用しやすい文献とそうでない文献はあるのだろうか?

文長は短いほうがよく,言語対は類似した言語間がよいのだが,これらの側面は盛んな研究によって,どんどん改善されている。

より本質的には,対訳データが入手しやすいかどうかが死活的に重要である。特許の統計翻訳が成功した理由の1つには大規模な対訳データが比較的簡単に入手できることがある。大量の対訳データの存在を前提にしている手法なので,データ量が少ないと十分な翻訳精度が出ない。この限界に挑戦する研究も盛んに行われている。

4.2 統計翻訳は英日だけでなく,中日や韓日など他の言語対への適用は可能か?

統計翻訳は(翻訳精度に差は出るが)原則言語対を選ばず適用できる手法である。英日だけでなく,中日で成功していることから,言語が似ている韓日などは少ないデータ量でも十分な翻訳性能が出るだろう注3)

4.3 Webサイトの翻訳サービスはどのような技術を使っているか?

Webサイトにより異なり,規則翻訳も統計翻訳も利用されている。前者の代表は「YAHOO!翻訳」で,後者の代表は「Google翻訳」である。

Google翻訳は統計翻訳を採用しているが,1つのサービスですべての分野をカバーしようとしていることと,日本語に特化した工夫がないであろうことから,高い翻訳精度が実現できていない注3)

4.4 機械が翻訳しやすい日本語文章の作り方はあるか?

この点については,クリアに述べることは難しい。産業日本語研究会はこの点に興味をもって毎年シンポジウムを開催してきたので,Webサイト注4)を参照すると関連情報が入手可能である。

機械に限定してではないが,翻訳しやすい日本語について,調査研究された結果がいくつか出版されているので,参考にされたい13)14)

5. おわりに

本稿では,性質がまったく異なる旅行会話と特許の2分野において,統計翻訳(SMT)技術によって,従来技術を大きく上回る高精度の自動翻訳システムを実用化できたことを述べ,さらに,統計翻訳技術と従来技術を比較対照して説明した。

さらにSMTが適用可能な分野は上記の2分野に限定されるわけではなく,電子通販の商品説明,コンピューターマニュアル,論文,SNSなど多様な分野ですでに成功したり,トライアルが始まったりしている。

統計翻訳は,英語・フランス語間という似た言語対から始まったが,現在では,英語・日本語間という最難関の言語対でも有効であることが証明された。ステークホルダーはこのBIG WAVEをうまくつかむことが重要だろう。

今後は,要素技術である解析の分野適応を改善することなど,より長文の正確な翻訳を実現するための技術や文章全体での訳語の一貫性を実現する文脈処理技術の創出などが課題になる。

なお本稿は,統一したテーマの下,著者による過去の複数の資料(たとえば,参考文献15)など)に加筆したものである。

謝辞

本研究開発を推進したNICTの関係者,NICTの技術を評価し実用化してくださったATR-Trek,フィート,KDDI,バオバブ,Japio,日本発明資料の関係者に深く感謝する。

本文の注
注1)  http://www.kantei.go.jp/jp/singi/keizaisaisei/pdf/saikou_jpn.pdf

注2)  現在はNICTからFEAT社にライセンスされ,VoiceTra+という名前で運用されている。詳細はhttp://voicetra-plus.jp/index.htmlを参照。

注3)  ただし,同翻訳システムは,開発者のたゆまざる努力で,毎年翻訳精度が改善されていることにも言及しておきたい。

注4)  産業日本語研究会. http://www.tech-jpn.jp/xoops/html/

参考文献
  • 1)   隅田 英一郎. "機械翻訳". 言語処理学事典. 言語処理学会 編. 共立出版, 2009, p. 262-263.
  • 2)   黒橋 禎夫. "用例に基づく翻訳". 言語処理学事典. 言語処理学会 編. 共立出版, 2009, p. 264-265.
  • 3)   塚本 元. "統計に基づく翻訳". 言語処理学事典. 言語処理学会 編. 共立出版, 2009, p. 266-269.
  • 4)  特許庁. 知的財産立国に向けた新たな課題と対応. https://www.jpo.go.jp/shiryou/toushin/shingikai/pdf/tizai_bukai_18_paper/siryou_01.pdf, (accessed 2014-02-04)
  • 5)  NTCIR. http://ntcir.nii.ac.jp/jp/about/, (accessed 2014-02-04).
  • 6)   安田 圭志,  隅田 英一郎. 機械翻訳の研究・開発における翻訳自動評価技術とその応用. 人工知能学会誌. 2008, vol. 23, no. 1, p. 2-9.
  • 7)   岸田 和明. 情報検索における評価方法の変遷とその課題. 情報管理. 2011, vol. 54, no. 8, p. 439-448.
  • 8)  Patent Machine Translation Task at NTCIR-10. http://ntcir.nii.ac.jp/PatentMT-2/, (accessed 2014-02-04).
  • 9)   Utiyama Masao;  Isahara Hitoshi. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, p. 72-79.
  • 10)   Isozaki,  Hideki;  Sudoh,  Katsuhito;  Tsukada,  Hajime;  Duh,  Kevin. "Head Finalization: A Simple Reordering Rule for SOV Languages". Proceedings of WMT-2010 (ACL 2010 Joint Fifth Workshop on Statistical Machine Translation and Metrics MATR), 2010, p. 244-251.
  • 11)  独立行政法人情報通信研究機構, 一般財団法人日本特許情報機構. NICTの高精度な中日自動翻訳ソフトウェアがJapioのサービスに. 2013-03-28. http://www.nict.go.jp/press/2013/03/28-1.html, (accessed 2014-02-04)
  • 12)  独立行政法人 情報通信研究機構, 日本発明資料株式会社. “英語特許文”の高精度「自動翻訳ソフトウェア」を開発. 2013-03-21. http://www.nict.go.jp/press/2013/03/21-1.html, (accessed 2014-02-04)
  • 13)  一般財団法人日本特許情報機構. 特許ライティングマニュアル(初版). 2013-8-29. http://japio-tjp.org/topsubs/pwmdls1.htm, (accessed 2014-02-04).
  • 14)  日本翻訳連盟標準スタイルガイド検討委員会. JTF日本語標準スタイルガイド(翻訳用). http://www.jtf.jp/jp/style_guide/pdf/jtf_style_guide.pdf, (accessed 2014-02-04)
  • 15)   隅田 英一郎. 特許を対象とする高精度な自動翻訳技術の異言語検索における実用化. Japio YEAR BOOK. 2013, p. 280-285.
 
© 2014 Japan Science and Technology Agency
feedback
Top