« Weeping Angel | トップページ | デコネイル用LEDでスマホのNFC磁界パターンをチェック »

2017年3月14日 (火)

誤訳されそうな用語をGoogle翻訳してみました

 かなり旧聞になりますが、Google翻訳が進化したということです。

  Google Research Blog
  The latest news from Research at Google
  A Neural Network for Machine Translation, at Production Scale 
  Tuesday, September 27, 2016
  https://research.googleblog.com/2016/09/a-neural-network-for-machine.html

  Google 翻訳が進化しました。 
  2016年11月16日水曜日
  https://japan.googleblog.com/2016/11/google.html

 10年以上前のことになりますが、長文翻訳のためにWindows用の安い(1~2万円)翻訳ソフト(英→日)は、いくつか使ったことがありますが、初期状態の辞書ではまともな翻訳はできませんでした。
 しかし、長文を翻訳する場合は、同じ単語を異なる日本語に翻訳してしまうことがあるので、翻訳用語の統一には役に立ちました。
 また、定型文が多い場合には、数行分をまとめてユーザ辞書に登録することにより、翻訳作業が少し楽になった記憶があります。

 新Google翻訳による翻訳例を見てみるとかなり自然になってきているようですが、翻訳例がIT系(コンピュータ系?)に偏っているような気がします。

 ということで、単語自体は非常に簡単で、かつ、単語数も少ないけれども、単純な機械翻訳では誤訳されそうな用語をGoogle翻訳で試してみました。
 なお、比較のために他の翻訳サイトでも翻訳してみました。

【原文】
    water that is hot
    bread and butter
   white elephant
   smoking gun
   absolute alcohol
  trigger happy

-------------------------------------------
【Google翻訳】https://translate.google.com/
  暑い水
  パンとバター
  白象
  禁煙銃
  絶対アルコール
  トリガーハッピー

 「?」です。
  「パンとバター」、「白象」は単語単位の直訳ですが、適切な訳とは言えないと思われます。
 「禁煙銃」とは何でしょうか? 「喫煙銃」ならまだ理解できるのですが・・・
 カタカナで「トリガーハッピー」と言われても多分普通の人は判らないでしょう。

-------------------------------------------
【Excite翻訳】http://www.excite.co.jp/world/
    熱い水
    バター付きパン
   白いゾウ
   喫煙銃
   絶対のアルコール
  幸福に引き起こしなさい

 「喫煙銃」が出てきました。
 「幸福に引き起こしなさい」は意味不明です。

-------------------------------------------
【Bing翻訳】http://www.bing.com/translator/?MKT=ja-JP

  熱い水
  パンとバター
  白象
  動かぬ証拠
  無水アルコール
  トリガーハッピー

  「動かぬ証拠」と「無水アルコール」はOKです。

-------------------------------------------
【Infoseek翻訳】http://translation.infoseek.ne.jp/
    熱い水
    バター付きのパン
   始末に困る物
   動かぬ証拠
   無水アルコール
  すぐに銃を撃ちたがる

 「熱い水」は一寸引っかかりますが、他はOKのような感じです。
-------------------------------------------

 
  サンプル数が非常に少ないので、全体的な翻訳精度は判りませんが、短い熟語のレベルではInfoseek翻訳が結構いい線をいっているような気がします。
 コンピュータ関係の文を翻訳するとどうなるでしょうか?

【原文】
 Table 1 shows the contents of the IPL bootstrap records as the system supplies them. Each bootstrap record has a count area and a four-byte key area.

 上記原文は以下のサイトから抜粋引用
  IPL bootstrap record contents
  http://www.ibm.com/support/knowledgecenter/SSB27U_6.3.0/com.ibm.zos.v2r1.ickug00/ick40741.htm

【Infoseek翻訳】
 「システムが彼らを供給して、表1はIPLつまみ革記録の内容を示します。各々のつまみ革記録は、カウント・エリアと4バイトの重要な地域があります。」

 かなり悲惨な日本語になります。

【Google翻訳】
 「表1は、システムがIPLブートストラップ・レコードを供給するときの内容を示しています。各ブートストラップレコードには、カウント領域と4バイトのキー領域があります。」

 自然な日本語で違和感がありません。
 "as"とか"them"の翻訳が機械翻訳とは思えないです。
 誰かが翻訳して辞書に登録したのではないかと邪推しそうになります。

 この翻訳結果と最初の簡単な用語の翻訳結果のギャップが非常に大きいですが、学習分野が偏っているのでしょうか?

 Google Research Blogには以下のように書いてありました。

  "Machine translation is by no means solved. GNMT can still make significant errors that a human translator would never make, like dropping words and mistranslating proper names or rare terms, and translating sentences in isolation rather than considering the context of the paragraph or page."

【Google翻訳】
 「機械翻訳は決して解決されません。 GNMTは、言葉を削除したり、適切な名前やまれな用語を誤って翻訳したり、段落やページの文脈を考慮するのではなく、孤立して文章を翻訳するなど、人間の翻訳者が決してしない重大な誤りを引き起こす可能性があります。」
 
(GNMT:Google Neural Machine Translation system)

 最後に"Big Spender"の歌詞を新旧のGoogle翻訳で比較してみました。

【原文】(http://petitlyrics.com/lyrics/868796 から抜粋引用)
 So let me get right to the point. I don't pop my cork for every man I see.

【Google翻訳(2013.02)】
  だから私はポイントの権利を得ることができます。私が参照してくださいすべての人のために私のコルクをポップしないでください。

【Google翻訳(2017.03)】
  だから、私はポイントに右に行こう。 私は私が見るすべての人のために私のコルクをポップしない。

 どちらも意味不明です。
 さすがのGNMTもまだ学習が足りないのかもしれません。

【教科書的翻訳例?】
「それでは単刀直入に言うと、私は、私が会う全ての男性に夢中になるわけではありません。」

 現時点ではこの種の文章の翻訳は未だ不得意のようですが、学習が進むと、"What A Diff'rence A Day Made"を「縁は異なもの」と翻訳するようになるかもしれません。

|

« Weeping Angel | トップページ | デコネイル用LEDでスマホのNFC磁界パターンをチェック »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/117933/65015826

この記事へのトラックバック一覧です: 誤訳されそうな用語をGoogle翻訳してみました:

« Weeping Angel | トップページ | デコネイル用LEDでスマホのNFC磁界パターンをチェック »