2010-05-20

グーグル機械翻訳責任者の講演記録@東大福武ホール



ちょっと前に、こんなニュースがありました。


グーグル携帯アプリに翻訳機能を追加、まずは5言語から 2010年05月07日
http://www.afpbb.com/article/environment-science-it/it/2723829/5724843


外国でレストランにいったときにスマートフォンのカメラで現地のメニューを撮影すると、機械翻訳が自分の国の言語に直してくれるという未来的なサービスです。


今のところ日本語は対応外ですが、そもそも機械翻訳って将来的にどの程度までイケそうなのか、気になっている人は多いと思います。


ちょうど今日、東大の福武ホールで、グーグルで機械翻訳研究の責任者をしているFranz Och 氏(http://research.google.com/pubs/och.html)の講演があったので、聞きに行ってきました。


講演のお題は
『Statistical Machine Translation: Challenges and Opportunities』
『統計的機械翻訳 : 課題と機会』
http://www.tsuhon.jp/wordpress/?p=151


結論を言うと、「十分なデータさえあれば機械翻訳はうまくいく。ただし、日本語を除いて。」というお話でした。


以下、内容の正確性は保証できませんが、講演の要旨メモを公開いたします。


Machine Translation(MT)をめぐる 4つのトレンド


1. Much better quality


依然として急速に改善が進んでいる。
統計的機械翻訳のための対訳データ数(parallel data)が増えれば増えるほど良い結果が出るが、天井も見えてきた?


文章数が100万~1億までは、データ数に応じて精度が右肩上がりに改善される。
1億~10億になると、少ししか改善しなくなる


2.Many More Languages


Google翻訳の目標は100カ国語(現在57カ国語)
100カ国語の翻訳システムには、100×100=10,000ペアの対訳データが必要


3. More Sophisticated Models


いろいろ研究中ということで・・
    詳しく知りたい人はこの辺の論文を読んでください
    → Model Combination for Machine Translation


4. MT Everywhere


検索結果への連動
Andoroidなどのスマートフォンアプリ
chrome ブラウザ
youtubeのキャプション
さまざまなgoogle サービスに連動


10 grand challenges for MT research - 機械翻訳研究に関する10大課題


1. Long distance (intra-sentence & inter-sentence)
└ 主語と動詞が遠く離れているような長い文章とか、離れた文章にある代名詞の関係とか
└ 特に、English-Japanese verb reordering(英語、日本語の動詞の並べ替え)には課題多い


2. Morphology(形態素解析)
└ Arabic to English (意外に簡単、simple normalization + lots of dataがあればいける)
└ English to Japanese (はるかに難しい)


3. Discriminative traning with millions of features
└ Machine LearningのFeatureが何百万にも増えたときに、今のモデルはスケールするか?


4. Reliability(信頼性)
└ いくつかの翻訳ミスは致命的になることもある
eg. hotel(english) - montreal(french)
   Heath leader(english) - Tom Cruise (spanish)


5. Evaluation - challenge (評価方法)
└ Evaluation is critical to make progress
 "You can only improve what you measure"


BLEU(機械翻訳の一般的な評価基準)の限界 - 翻訳されなかったものは評価できない


solution ?
1. Better automatic metrics → 本質的にBLEUと同じ問題を抱える
2. Subjective evaluation →  コスト大きい、システム改善が遅くなる
3. Problem - oriented test sets →  複雑、多次元評価


6. Resource - poor language 

現在のgoogle translationの対象範囲: 57カ国語
目標とする翻訳対象言語: 100カ国語


ハイチクレオールやモンゴル語などの、対訳文のテストセットがあまりないような言語をどうするか?


7. Hard language


十分なデータさえあれば機械翻訳はうまくいく。ただし、日本語を除いて。


statistical machine translation works very well
if:
We have enough training data
Target language is not Japanese ( or Korean , German , Russian )


これらの困難な言語の課題
long distance , morphology , particles , data fragmentation


8. Learning from usage


Google translationサービスに対するユーザーフィードバックなどについて。
伝統的な対訳文のテストセットに比べて、これらのユーザーフィードバックは使えるか?


9. More data


Data likely to remain main driver of quality improvements
 翻訳品質改善のカギは、依然としてデータ。


Main sources for data (now)
- translatede web pages
- translated books
 現在の機械翻訳データのメインソースは、翻訳されたウェブページと書籍


今後の課題
- 機械翻訳のweb pagesが増えることで、それ自体がノイズとなる可能性


Is it possible to improve MT by large-scale-data-annotation?
What type of annotation gives the biggest bang for the buck?
 大規模な注釈つきのデータによって、機械翻訳を改善することは可能だろうか?
 どういったタイプの注釈が、もっとも大きな改善をもたらすのだろうか?


10. MT++ MT part of a 'universal' NLP system


今は関連するアプリケーション、利用可能なデータが相互に独立している。
組み合わせて利用して、シナジーを得られるようにする必要がある


- 独立したアプリケーション
machine transltion
spell checker
grammer cheker
sentiment analysis
information extraction
search ( synonyms, web search )


- 言語や単語に関する多様なソース
annotated corpora
monolingual corpora
parallel corpora


--- 講演の要旨メモ終わり。




個人的には、現在のグーグル機械翻訳の学習データとして、ウェブページのほかに翻訳された本が使われていると言っていたのが印象的でした。


たぶん、グーグルブックスプロジェクトを通じて世界中で何百万冊もスキャンした書籍が、こういったところでも使われて、グーグルにしかできない機械翻訳を生み出している(いく)んだろうなと感心しました。


あと、日本人としては「日本語―英語」の機械翻訳でグーグルでも超えられない壁があるというのが、残念ですね。韓国語、ドイツ語、ロシア語なんかも、日本語と同じように難しいようですが。




Google 機械翻訳(http://translate.google.com/?hl=ja#)の精度を試してみると・・・


「進は博史とロンドンに行った」
Hiroshi went to London with progress
 # 進(susumu)という人名が、progressという前向きな意訳に!


これは「と」という言葉が、andに解釈されるおそれがあるという、機械翻訳の教科書的な例題ですが、この例に関して言うと文法構造的な解釈はうまくいっているようです。(12時間前にやったときは、もっとひどい結果でしたが・・・。)


いずれにしても日本語―英語の機械翻訳が実用レベルになるためには、何か大きいブレークスルーが必要なようですね。


参照: この講演内容をtwitterで実況中継をしていた方もいたようです。
http://twitter.com/jtf_trafes2010



よければ、こちらも参考にしてください。

0 件のコメント:

コメントを投稿