« JTF翻訳セミナー 行ってきた | トップページ | イートレ#40 【同意後/新たに発現/悪化/重大な所見/電子症例報告書(eCRF)/有害事象/記録する】 »

2018年3月10日 (土)

機械翻訳(MT)の話になると、いつも疑問に思うこと

機械翻訳(MT)の話になると、いつも疑問に思うこと。

MTには対訳コーパスが必要だということはわかります。

情報通信研究機構(NICT)も翻訳バンクというものを作って、民間企業や政府機関に対訳の無償提供を求めている様子です。

奈良の大仏に匹敵する国家的プロジェクトなので、協力してほしいとのことですw。

http://h-bank.nict.go.jp/index.html

先日のJTF翻訳セミナーでは、

当面は、翻訳データの品質よりも量を増やすことに力を入れたい。対訳コーパスを高品質に維持することは訳文の品質のためにも大切なので、ある程度の量が確保できたら、翻訳データのセレクションに取り組みたい。

とかなんとか、そんな意味のようなことを言っていた。

http://h-bank.nict.go.jp/about.html

「当面の目標としては1億文の翻訳データの集積を目指しています。」

そんな膨大な量の翻訳データをだれが品質チェックするのだろう?

NMT自体に品質チェックする機能があるの?

情報通信研究機構(NICT)の内部で品質チェックをやるの?

それとも外部の翻訳会社にでも依頼するのだろうか?

外部の翻訳会社に依頼する場合、翻訳データの無償提供と同様、品質チェックも無償で依頼するのだろうか?

別に自動で品質チェックするシステムでも作るのだろうか?

んー、わからない。

ゆきちゃん、わかる?

Pet8

イートモ対訳データの場合ですけど、以下のフローチャートに示すように、現在は④の工程を強化しています。

いつも書いているように、イートモ対訳の見直し作業ということです。

イートモが特に医薬系の英訳でパワーを発揮するようにと考えています。また、まったく白紙ですが、将来的にMTの対訳コーパスに利用される可能性がないわけではありませんので、そのためにも④の工程は大事だろうと。

①から③までの工程、つまり対訳を作成するのは大変な作業ではありません。8割レベルの対訳でいいなら大量に作れます。大変なのは④の工程です。Medical Translator NARITA自身が痛感していますから。

Iitomoflowchart

情報通信研究機構(NICT)が、後々、品質をチェックする予定だよ~なんて言っているけど、大変さをわかっているのかな?

« JTF翻訳セミナー 行ってきた | トップページ | イートレ#40 【同意後/新たに発現/悪化/重大な所見/電子症例報告書(eCRF)/有害事象/記録する】 »

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/600303/66481144

この記事へのトラックバック一覧です: 機械翻訳(MT)の話になると、いつも疑問に思うこと:

« JTF翻訳セミナー 行ってきた | トップページ | イートレ#40 【同意後/新たに発現/悪化/重大な所見/電子症例報告書(eCRF)/有害事象/記録する】 »

フォト

医学翻訳の友

サイト内検索
ココログ最強検索 by 暴想