2009年1月15日木曜日

翻訳と語彙

このエントリは書きかけです。

webページを人手で翻訳。そのときの語彙。辞書。ページ専用辞書。全体辞書。辞書の統合。当然同じ語彙がある、ページ間で。語彙からページを引くと例文(生きた)になる。最終的に翻訳先の言語(日本語訳なら日本語)、がなんだっけ? あ、そうそう。翻訳先の言語から元の言語をえ、ちがうな。翻訳先の文章が単語単位に変換できる場合と、出来ないとは言わないまでも難しい、例えば、、といってここで例が上げられない苦しさ。意訳とか、そこまで行かなくても「〜したことがある」的な訳とか。やっぱり例が必要だな。

ここに例を書くつもり。


1つの文章(たぶん句読点の単位)が、単語単位に訳せる場合から、複数の単語がセットになって訳される場合とが出てくる。そうすると、翻訳という文脈における「文章の構成」が現れてくる。つまり、10の単語からなる文章が、2つの単語の組 x 5 で構成される、という感じになる。

ここでいう2つ(というのは暗喩)の単語の組が語彙として載る。「言い回し」的なものか。

こうして翻訳からその過程で辞書が構成され、語彙が累積され、逆リングとして例文が蓄積され、良自己循環型膨張システムとなる。か?

そのときの概念体としては、
・元のフリーテキスト
・文章の構成による構造体化(言い回し?)
・元言語 vs 先言語
・単語
・元言語 vs 先言語(無い場合もある)
・言語一覧(元、先(先は複数))
・単語一覧(元、先())

これをURIで記述する。URIはファイルだけではなく、DBのレコードを指す場合もあり得る。
DBのレコードの場合、例えばそれを処理するサービスへのRESTfulインタフェースとなる。

面白いのは、元のフリーテキスト以外の構成要素が静的展開されてなくても良い点。つまり、要求がある度に、動的に結果を返しても良い。ただし文章の構成は手動で行うことを想定しており、
(1)この間の待ち時間が月単位以上になることもある。
(2)もし文章の構成を自動で行うことができれば、それは機械翻訳となる。
(3)単語一覧に語尾の変形を含めようとするなら、そこだけでも動的にしたほうが良いだろう。



0 件のコメント: