機械翻訳(MT)の話になると、いつも疑問に思うこと
機械翻訳(MT)の話になると、いつも疑問に思うこと。
MTには対訳コーパスが必要だということはわかります。
情報通信研究機構(NICT)も翻訳バンクというものを作って、民間企業や政府機関に対訳の無償提供を求めている様子です。
奈良の大仏に匹敵する国家的プロジェクトなので、協力してほしいとのことですw。
http://h-bank.nict.go.jp/index.html
先日のJTF翻訳セミナーでは、
当面は、翻訳データの品質よりも量を増やすことに力を入れたい。対訳コーパスを高品質に維持することは訳文の品質のためにも大切なので、ある程度の量が確保できたら、翻訳データのセレクションに取り組みたい。
とかなんとか、そんな意味のようなことを言っていた。
http://h-bank.nict.go.jp/about.html
「当面の目標としては1億文の翻訳データの集積を目指しています。」
そんな膨大な量の翻訳データをだれが品質チェックするのだろう?
NMT自体に品質チェックする機能があるの?
情報通信研究機構(NICT)の内部で品質チェックをやるの?
それとも外部の翻訳会社にでも依頼するのだろうか?
外部の翻訳会社に依頼する場合、翻訳データの無償提供と同様、品質チェックも無償で依頼するのだろうか?
別に自動で品質チェックするシステムでも作るのだろうか?
んー、わからない。
ゆきちゃん、わかる?
イートモ対訳データの場合ですけど、以下のフローチャートに示すように、現在は④の工程を強化しています。
いつも書いているように、イートモ対訳の見直し作業ということです。
イートモが特に医薬系の英訳でパワーを発揮するようにと考えています。また、まったく白紙ですが、将来的にMTの対訳コーパスに利用される可能性がないわけではありませんので、そのためにも④の工程は大事だろうと。
①から③までの工程、つまり対訳を作成するのは大変な作業ではありません。8割レベルの対訳でいいなら大量に作れます。大変なのは④の工程です。Medical Translator NARITA自身が痛感していますから。
« JTF翻訳セミナー 行ってきた | トップページ | おかしいと思ったよ »
コメント