F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

テキストデータの検索(データベースと情報管理第4回)

検索の方法は一般常識として把握した方が良さそう。

 

森本容介。
テキスト検索とは?情報検索。利用者が検索条件を示して。検索結果を。様々な方式が。検索条件の与え方と結果の求め方。検索条件の与え方。検索語、検索式など。検索語。キーワードからなるテキスト。検索語。指定は多くのシステムで使われる。検索エンジン。検索式による。式を使って。論理式を使ってなど。セレクト文も。自然言語を使った。人間が普段使っている。人工言語。SQLなどのプログラム言語。情報処理系の資格。渋谷駅の近くで水槽を。インターネット上のQ&Aサイト。解答をコンピュータで行う。音声で質問したり。その他。検索条件として画像を。類似した画像を。uploadしたり。歌の一部を歌う。曲名や歌手名などを。最も基本的な検索語によるものを扱う。文書。テキストデータ。文書集合。テキスト検索とは文書集合から適合する文書を探し出す。予め収録しておく。探したい条件をシステムに。検索語を使って検索条件を。文書集合の文書と比較して。文字列一致、索引による、など。文字列一致。索引語による比較。文書の内容を特徴づける。予め抜き出しておいて比較をする。ベクトルによる比較。双方をベクトルにしてその距離を。距離の比較も複数の方法がある。事例。文書集合。索引語による比較。予め抜き出す。前処理。ここでは文書中の名詞を。検索語で検索。索引語に国会があるかどうか。ベクトルによる比較。文書のベクトルの計算。次元を3などに。検索語もベクトルに変換。コサインCosine類似度。数値が高いほど一致度が高い。数学的処理をして求める方法が。ベクトルによる比較では順位をつけることができる。類似度をすべての文書において求めることができる。含まない文書も。閾値を設定して結果から外したりもする。テキスト検索を定義。文書集合から探し出す。全文検索。
テキスト検索の基本的方法。検索語として複数のものが。すべて含むものか一部を含むものか。and検索とOr検索。1語ずつに分ける。2つの楕円が重なり合う。双方を含む。and検索では共通部分が結果。Or検索と違う。どちらと解釈されるかは検索システムにより異なる。指定もできる。文書に検索語が含まれているか効率的に調べる。すべての文を先頭から。逐次検索。文書の先頭から、検索語があれば結果に追加。前処理は不要だが時間がかかる。数十万件では実用的ではない。スコアリング。それも困難。予め前処理や計算を。検索時に行うので時間がかかので現実的ではない。検索インデックスの利用。書籍では索引を用いるとある語の場所がわかる。検察インデックス。検索語として国会が。検索インデックスを調べて検索結果に。逐次検索と比べて時間を高速に。少ない手順で辿り着ける。検索インデックスの作成。すべての文書から索引語を抽出。それぞれの文書について含まれるかどうかを考える。行列を作っておく。行が文書で列が索引語。あると1、それと0。行方向に読んで。行列を転置。行と列を入れ替える。転置した行列。行列は索引語から文書を索引している。転置インデックス。転置ファイル。検索インデックスを作るためには。索引語を抽出。キーワードとなる重要な語を。書籍よりも多くの語を。抽出する。N-gram。形態素解析。最小単位に分解。区切り方や品詞の解析。辞書により結果が異なることも。形態素を索引にすることができる。全てではなくてもよいが。助詞などは登録しないと判断する。名詞だけを登録するなど。N-gram。連続するN個の文字。バイグラムなど。文字単位の。文章中の連続する文字を抜き出す。文字の並びそれぞれを検索インデックスに。文法は考慮されない。「私は」という文字の並びなど。繋がった形を。放送と送大と大学すべてが含まれるなど。正しく検索するには文字が繋がっているかの判定を。文書の先頭から。バイグラムにより。文書のIDと出現位置を。文書から抽出する。どちらも広く使われているが一長一短。形態素解析では検索漏れが。検索インデックスを探しても見つからない。

 

データベースと情報管理 (放送大学大学院教材)

データベースと情報管理 (放送大学大学院教材)