2008年12月4日木曜日

百マス単語帳

一人芝居の中で、twitterでフォローしまくるよう、社員に指示を出したところ、

「いやぁぁ英語ばっかりですねぇぇ」
「いいじゃん別に」
「いや、英語話せないんですよ。。」
「だから? 俺だって話せないよ」
「何か言われたらどうするんですか?」
「言われないよ、twitterなんだから」
「いや、でも、名指しで来られたりすると」
「こないでしょそんな〜(笑)それって心配性ですらないじゃん」
「いやぁぁぁでもですねぇぇぇ」
「いいじゃんじゃ相丼脳イングリッシュで」
「それってスペルこう( I don't know english )です?」
「それでいいんじゃない?自信ないけど」
「understandとかじゃなくていんですか?」
「...おまえさ、先週一週間で、一体何人のアメリカ人がunderstandって単語使ったんだよ。使わないよ今時understandなんて難しい単語」
「まじですか」
「さあ。数えてみな」

ということで、まずは私が愛用させて頂いているNativeCheckerさんで単純に「i don' know」と「i don't understand」の数を比較してみることに。

i don't know : 521,000,000
i don't understand:    55,800,000

その差は歴然。

まあ、単純比較ですからね。学術的、科学的根拠が乏しいことは言わずもがなでしょう。

私がやってみたいのは、webにおける単語の統計を取ることです。
さらにこれを時系列で見ていけば、言葉の移り変わりもある程度見えて面白そうだなと。
他にもいろんな枠組み(系統)で見ていけば、使用頻度の高い専門用語なんかも見えてきそうですね。

日本語でもやりたいんですけど、単語の区切りがめんどくさそう。よく何とか法って聞きますけどね。まあでも単語だったら時間さえあれば辞書と比較するでも良いですしね(前から比較して長い単語を取るとか)。『Wikipediaの見出しと実際のWeb』とか。これなら確かAPIも何かあったと思うので、面白いのができそう。とりあえず、タグ分類 Top 10 vs 見出し語 top 10の百マス単語帳でも作ってみるかな。

0 件のコメント: