こんにちは。前回は、現時点での機械翻訳の欠点を知って、機械諸氏に追いつかれないようにするヒントを考えてみましょう…ということで、1)ときどき、恐ろしいほどすっ飛ばす、2)ときどき、否定を肯定で訳したりする、3)バランスがよろしくない、という機械翻訳の特徴を挙げたところで終わりました(あくまでも現時点では、ですが)。今回は、恐らくこれが解決されれば機械翻訳の次のブレイクスルーになるだろうと思われる、4)文脈を考慮できない、点について考えてみます。

4)文脈を考慮できない
以前の機械翻訳は、例えば原文ではtheyを「それら」の意味で使っているのに、すべて「彼ら」としてしまうようなケースもありましたが、最近ではそのあたりをきちんと訳してくることがあり、感心するやらぞっとするやらです。先行詞もかなり正確に読み取れるようになっていまして、「解釈」という点で、人間との差が縮まっていることは間違いないようです。AIは本当の意味で「理解」しているわけではないのでしょうが、きちんと日本語に移し替えている以上、我々ユーザーにとってそれは問題ではありません。

ただ、この講座の第32回「原文の流れに沿った訳を作る」でお話した通り、同じ英文、同じ解釈でも、個々の日本語表現や語句の順序によっては、まるで流れない文章になることがあり、今の機械翻訳は、まさにこの部分で足踏みをしている状態だろうと思います。また、「ここは誰でもちょっと否定的に訳すよなあ」みたいなところでも、平気で(?)前向きに明るく訳してしまったりしますので、やはり真の意味で話の流れを理解していないことが致命的なのかもしれません。

さらに大きなポイントとなるのが、その文章の「背景」。つまり、1)誰が書き、2)誰が読み、3)どんな媒体でいつ公表されるのか、という二次的な部分です。

我々人間の翻訳者は、それを自然に判断しています。例えば新聞記事を訳す時に、子ども向けのようには訳しませんし、論文を訳す時に、エッセイのような柔らかい表現は使いません。漢字とひらがなの割合も、ある程度自然に判断しているはずです。

また、「日本に長く暮らしている人であれば持っているであろう常識」まで過度に補足することはしませんし、逆に言えば、外国では常識的なことでも、「日本に長く住んでいる人の大半は知らないであろう部分」は、原文にその情報がなくても補うよう努めます。