【コーパスメモ】イディオムの頻度とMIスコア
イディオムの頻度とMIスコアの算出方法
頻度の算出方法
①COCA の List に品詞を指定してレマで検索
例:[bang].[v*] the [drum].[nn*]
・[ ]で囲むとレマ(bang, banged , banging など、すべての動詞活用)で
検できる
・.[v*] をつけると動詞のみを検索
・.[nn*] を付けると、普通名詞のみを検索
※必要な形式だけで検索するよりも、レマで出して後からいるものを選別したほうが楽です。COCAであれば、1つずつ検索することになるので。
②以下のような結果が出るので、エクセルにはりつける

③ Bang a drum 等、ほかの形式の可能性があるのであれば、a をいれる場合と、冠詞はなしのパターンを検索して結果をコピペしてエクセルに貼り付ける
MIスコアの算出方法
①イディオムを構成する単語を、List で品詞を指定してレマで検索する
例:[bang].[v*] で検索。[drum].[nn*] で検索
※品詞を指定しないと、頻度が過剰に大きくなりすぎてしまう可能性
②頻度をコピペしてエクセルに貼り付ける
③以下の式で計算する
log2 ((イディオムの頻度×コーパスの総語数) / (構成語Aの頻度×構成語Bの頻度))
以上、自分用メモでした。