表1は,文書A〜文書F中に含まれる単語とその単語の発生回数を示す。ここでは問題を簡単にするため,各文書には単語1,単語2,単語3の3種類の単語のみが出現するものとする。各文書の特性を,出現する単語の発生回数を要素とするベクトルで表現する。文書Aの特性を表すベクトルは となる。また,ベクトル のノルムは, と計算できる。
2つの文書Xと文書Y間の距離を(式1)により算出すると定義する。2つの文書の類似度が高ければ,距離の値は0に近づく。文書Aに最も類似する文書はどれか。
表1 文書と単語の発生回数
文書A | 文書B | 文書C | 文書D | 文書E | 文書F | |
単語1 | 7 | 2 | 70 | 21 | 1 | 7 |
単語2 | 3 | 3 | 3 | 9 | 2 | 30 |
単語3 | 2 | 0 | 2 | 6 | 3 | 20 |
文書Xと文書Yの距離 = (式1)
(式1)において,, であれば,
,
,
① 文書B
② 文書C
③ 文書D
④ 文書E
⑤ 文書F
解答・解説
解答
③
解説
文書Dの各単語数は,文書Aのちょうど3倍になっているため,ベクトルの向きが同じになります。つまり距離空間が0になります。
念のため各文書について,与式をもとに計算すると,次の通りになります。
① 文書B
1 − ( 7 × 2 + 3 × 3 + 2 × 0 ) ÷ {√( 49 + 9 + 4 ) ×√( 4 + 9 + 0 )}
= 1 − 23 ÷ √806
≠ 0
② 文書C
1 − ( 7 × 70 + 3 × 3 + 2 × 2 ) ÷ {√( 49 + 9 + 4 ) ×√( 4900 + 9 + 4 )}
= 1 − 503 ÷ √304606
≠ 0
③ 文書D
1 − ( 7 × 21 + 3 × 9 + 2 × 6 ) ÷ {√( 49 + 9 + 4 ) ×√( 441 + 81 + 36 )}
= 1 − 186 ÷ √34596
= 0
④ 文書E
1 − ( 7 × 1 + 3 × 2 + 2 × 3 ) ÷ {√( 49 + 9 + 4 ) ×√( 1 + 4 + 9 )}
= 1 − 19 ÷ √868
≠ 0
⑤ 文書F
1 − ( 7 × 7 + 3 × 30 + 2 × 20 ) ÷ {√( 49 + 9 + 4 ) ×√( 49 + 900 + 400 )}
= 1 − 179 ÷ √83638
≠ 0
参考情報
過去の出題
なし
オンラインテキスト
(準備中)