« 今朝のSBAS(MSAS S137)のSatellite Level History(GIF) | トップページ | 添付フォルダをCドライブ直下に? »

2020年3月27日 (金)

DeepLに"It's raining cats and dogs."を翻訳させてみると・・・

 昔(20年位前)、安い(といっても\10K程度しましたが)翻訳ソフト(英→日)をいくつか使ったことがありますが、あまり実用的ではありませんでした。
 それでも、同じ英単語は同じ日本語に訳してくれるので、用語の不統一は防止できました。
 長文を翻訳していると、前にどのように訳したのか忘れてしまうことがあるのこれは便利でした。
 用語の統一をあまり意識しないで翻訳すると、transistorがトランジスタ/トランジスターとなったり、calibrationが較正/校正になったりします。
 また、長文で類似の文章で始まる複数の段落が連続する場合は、目視で文章を追っていると途中の段落を読み飛ばしてしまうという致命的な翻訳ミスをする恐れがありますが、機械翻訳の場合はこのようなミスはありません。

 最近のオンライン機械翻訳は非常に進歩していて、翻訳エンジンの中に人間の翻訳者が隠れているのではないかと思うほど、自然な日本語が出力されます。
 また、かなり難しい文章も正確に訳してくれることが多いです。
 ところが、不思議なことに、初級英語の教科書に出てくるような非常に簡単な表現が、まともに翻訳できないことが結構あります。


 下記の記事によれば、"DeepL"という翻訳サービスは日本語への翻訳精度が非常に高いようです。

  DeepL翻訳が日本語と中国語を習得
  2020年3月19日
  https://www.deepl.com/blog/20200319.html

  Gigazine
  2020年03月23日 12時13分レビュー
  めちゃくちゃ精度が高いと話題の機械翻訳「DeepL翻訳」に日本語の翻訳機能が登場したので実際に使ってみた
  https://gigazine.net/news/20200323-deepl-translator-japanese/

  DeepL
  https://www.deepl.com/ja/translator


 今までの機械翻訳の経験から、機械が苦手そうな例題(引っ掛け問題?)をいくつか試してみました。

【例題1】It's raining cats and dogs.
      → 「犬猫の雨が降っています。」

Deepl-screenshot

 予想していたような翻訳になりました。意味不明です。

  英辞郎 on the WEB
      cats and dogsとは
      https://eow.alc.co.jp/search?q=cats+and+dogs&ref=sa


  Why do we say: It's Raining Cats and Dogs?
  Nov 25, 2013
  https://www.youtube.com/watch?v=DaJo05eQ5MU

 

他の翻訳エンジンの訳を一括翻訳で確認してみました。

  キュート007横断翻訳
  https://trans.cute007.com/CuteTrans.html

Google:「大雨です。」
Daidu:「雨が降っている.」
eXcite:「それは猫と犬を雨のように降らせている。」
Bing Beta:N/A
@nifty:「それは猫と犬を雨のように降らせている。」
Fresh:「どしゃ降りです。」

 更に他の翻訳エンジンで試してみました。

Bing:「雨が降っている猫や犬。」
みらい:「どしゃ降りです。」


 Freshとみらいが「どしゃ降り」で、Googleが「大雨」です。
 個人的な好みかもしれませんが、「大雨」では一寸パンチが弱いような気がします。

 

【例題2】 the trial's long-awaited smoking gun failed to surface
      → 「懐かしの決定的証拠が出なかった」
  (ソース)
  LEXICO
  Home > US English > smoking gun
  https://www.lexico.com/en/definition/smoking_gun

 trialはどこに? 「懐かしの」?
 実際の文章で「懐かしの」と「決定的証拠」が隣接して出てくる可能性は殆どゼロであるような気がします。


 これも他の翻訳を参照してみました。

Google:「裁判の待望の喫煙銃は浮上できませんでした」
Daidu:「待望の禁煙銃が表面化しなかった」
eXcite:「トライアルの待望の喫煙銃は、浮上することに失敗した」
Bing Beta:N/A
@nifty:「トライアルの待望の喫煙銃は、浮上することに失敗した」
Fresh:「試みの待ちに待った決定的証拠は浮上しませんでした」
Bing:「裁判の待望の喫煙銃が浮上しなかった」
みらい:「裁判で長く待たれた決定的証拠は浮上しなかった」


 みらい翻訳が正解です。
 他の翻訳で、「喫煙銃」とか「禁煙銃」とか、存在しない日本語が出てくるのが不思議です。
 「喫煙銃」は直訳ということで理解できないこともありませんが、「禁煙銃」は不可思議です。


 普通は直訳しないことが多い慣用句をいくつかDeepLに翻訳させてみました。

【例題3】 a piece of cake
    →  「一切れのケーキ」
https://eikaiwa.weblio.jp/column/phrases/natural_english/a-piece-of-cake


【例題4】 white elephant
    → 「白い象」
https://ejje.weblio.jp/content/white+elephant

 直訳だと意味が判りません。
 


 最後に、一寸トリッキーな例文です。
  DeepLとGoogleを比較してみました。

【例題5】 I arrived at the bank after crossing the street.
DeepL:「川を渡って土手に到着しました。」
Google:「通りを渡って銀行に着いた。」

【例題6】 I arrived at the bank after crossing the river.
DeepL:「川を渡って土手に着きました。」
Google:「川を渡って岸に着いた。」

 bankをどう訳すかが胆ですが、そ」れ以前に、例題5のDeepL翻訳では、streetが川と訳されているのが不思議です。
 「到着しました」と「着きました」の使い分けもよくわかりません。
 Google翻訳では、「street→銀行」、「river→岸」という連想をして、現実的な状況に近い訳を選択しているようです。

 

 上記の例題5、6は当方が考えた訳ではなくて、以下の記事の中に書いてあったものです。

  両義的な文の機械翻訳で正しい訳語をガイドするGoogleのTransformerシステム
  2017年9月01日 by Devin Coldewey
  https://jp.techcrunch.com/2017/09/01/20170831googles-transformer-solves-a-tricky-problem-in-machine-translation/

 この記事によれば、単語間の関連性のスコアに基づいて訳語が選択されるようですが、スコアはどのようにしているのでしょうか?
 複数キーワードによる情報検索の場合には、単語間の距離(何文字離れているか)が短いと関連性が強いと推定してスコアをつけることがありますが、このような単純なアルゴリズムが使われることもあるのでしょうか?
 あるいは、世界中の映像、音声、文章のデータをコンピュータにぶち込んで、あとはHeuristically programmed ALgorithmic 的な仕掛けでスコアをつけるとか・・・

 技術系の文章は機械翻訳でかなりレベルの高い翻訳ができるようですが、小説や映画の翻訳はもう少し進歩が必要であるような感じがします。
 素人考えでは、教科書の例文、辞書、評価が高い映画のスクリプトや小説の用例を機械に覚えさせれば、ある程度改善されるような気がしますが、そんなに簡単な話ではないのかもしれません。

 "It's raining cats and dogs."を「どしゃ降りです。」で辞書に単語登録すれば、例題1の問題は解決?





|

« 今朝のSBAS(MSAS S137)のSatellite Level History(GIF) | トップページ | 添付フォルダをCドライブ直下に? »

パソコン・インターネット」カテゴリの記事

コメント

この記事へのコメントは終了しました。