Web検索は毎日のように使っているけれど、背後の技術についても使いこなすのに知っておいた方が良さそう。
黒橋禎夫。言語処理としては比較的浅いが、膨大な文書からの情報検索。若干大げさで、情報そのものではなく文書を検索。古くは論文などにKEYWORDを人手で入力していた。KEYWORDを自動抽出する。重要度を考慮しつつ全文検索に。90年代からはウェブの全文検索、いわゆるサーチエンジンの研究が加速度的に。ウェブ検索は判断の拠り所や1種の社会基盤に。生活に欠かせない。Web検索の基本的な仕組みを。
情報検索の基本的な仕組み。書籍の索引。関連するページに。文書集合の全文検索の場合も同様。あらゆる語が事前に調べ索引を。転置インデックスと呼ぶ。例で5つの文書を検索対象に。表のような転置インデックスを作っておけば、単語の出現が一目瞭然。「言語」「コンピュータ」。語が各文書に出現するかを。実際では各語の出現位置などもインデックスしている。出現位置の関係を調べることで2つの語が隣接しているかが分かり、複合語などの検索が可能になる。表現内容の語の集合。クエリー。大規模な文書集合。クエリーの中の語が「コンピュータ」などは1000万件を超えたりする。クエリーに対する関連度、レベバンスでランキングする。関連度の計算は語の重要度について行うことが出来る。ある語が多数出現すれば関連性が高いと考える。重要度の基本は頻度。TF。ターム。クエリーが「言語」と「問題」の場合、どちらが重要か。「言語」の方が意味内容を限定する。絞り込む効果が。IDF。違いを表現する尺度が。文書頻度。言語のような限定的な語では比較的小さく、問題のような語だと比較的大きい。文書頻度の逆数に基づく値をもう一つの尺度にする。語の重要度を2つの積とするのをTF-IDF法と。文書中の各語の頻度が。TF-IDFが計算される。各列は各文書についてそこに含まれる語と重要度についてベクトルで。クエリーについても同様に。ベクトル間の類似度。ベクトル空間モデル。文書にはベクトルを。クエリーはベクトルで。クエリーのベクトルと文書のベクトル。どれほど関連するかをベクトルのcosineの値で。検索のランキングが割り出せる。ベクトル空間モデルでは内容を近似。分かちされない語を除き。情報検索において言語の深い解析結果を利用するのは今後の課題。
情報検索の結果をそのように評価するか。検索対象の文書が20個。あるクエリーについて5個が関連する文書とする。関連する文書は3文書であると、適合率、再現率、F値という3つの尺度を。適合率。選択文書の内関連文書の割合。F値は適合率と再現率の。システムがすべての文書を選択する。検索の意味がなくなる。1文書のみを選択。適合率は高いが再現率が低くなる。トレード・オフの関係にある。バランスを見るのが調和平均であるF値。6つの文書を選択するF値の方が高い。関連するかしないの尺度では意味がない。適合率再現率F値の考えは固有表現認識など何かを抽出する場合でも。あるクエリーに対して文書が関連するかしないかの判断を。情報検索ではランク付きで結果を返すのが一般的。複数のクエリーに対する平均で測る。情報検索の評価ワークショップでも用いられるのがMAP。あるクエリーQに対する適合率を計算。NはQに関連する文書数。20個の文書がありクエリーに対し20文書をランキング。関連文書は5つ。適合度を算出する。最上位に返したときなど。適合率の平均を計算している。N個の評価クエリーを。MAPは平均適合率を計算してクエリー全体で平均したもの。情報検索においても評価型のワークショップを。研究が推進。トレックが代表的な。検索評価セットが整備されている。検索対象が100万規模に成ると生体データは不可能。文書集合の和に全て含まれていると考える。情報検索の評価セットを用いたときは仮想的なもの。
Web検索はサーチエンジンと呼ばれる。情報検索の基本的仕組みに加え考慮すべきもの。誘導型と調査型に。誘導型の。存在することを知っている予想されているページを探す。クエリーは企業名など。クエリーとページの中身のマッチングより重要度を、企業名を含んでいるだけでなく、トップページを。そのための尺度もある。調査型。そもそも何を調べたいのかわからない場合も含まれる。体力低下に対する対策など。クエリーとページの関連度がまずは重要。しかし玉石混淆。ページの重要度も考慮。Webページの収集を。クローラー。ハイパーリンクで繋がる集合体。全体の地図はない。ハイパーリンクを抽出し先のページを解析。Webページが何ページある?難しい。日本語で100億ベージ、全言語なら1桁多い。ページの誕生と消滅更新が。フレッシュなページを。様々な方法があるが。
Webは玉石混淆。大量にページが。クエリーとは独立にハイパーリンクなどの構造を。ページランク。重要なページは重要なページからリンクされている。重要度を。リンクしているページの集合、リンク数。計算対象とするページ数の総数。ウエイト。全てのページに均一のスコアを与える。ページをリンクするページランクを加える。リンクされているページ。与えられる。ページランクを計算。それをリンクしている他のページのランクから再帰的に。繰り返し計算で求める。ページランクの意味。ハイパーリンクをランダムに。任意に移動する場合の確率。ページランクの総和は1。ブリンとペイジによる。Googleの原動力。ページランクはクエリーとは別に。URLの深さ、リンク数、サイトのランク、クリック数や滞在時間など。クエリーと文書の関連度。ページタイトルとのマッチングや計算方法が。クエリーページ関連度を合せて100以上の。多数の手がかりを1つのランキング尺度とする。重み付けを線形結合させる。機械学習によって。LearningToRank。表紙データ。人手で作成したランキングデータや検索結果に対してユーザのクリックなど。マイクロソフトにより構築されたデータ。
情報検索の基本的アルゴリズムとWeb検索。更に高度にテキストを分析。東北大学の犬井犬太郎へのInterview。黒橋禎夫と同世代。有名な研究として大規模なTwitterの解析。人々の声を分析。まず研究室は自然言語処理を専門として。意味解析や省略解析など基本的な。blogやTwitterなどのソーシャルメディア。多くの人が考えたこと感じたことをどんどん書く。人々が何に関心を持つかなど、調査なしにもニーズが満たせるように。違う分野からの期待が。まさに今、自然言語処理の専門家が他の専門家と組んで色んな事をできるように。Twitterの分析は1つの例だが。13年の参議院選挙のときにどういう関心を集めているかなどを調べる。TPPの反対の理由。Tweetを数えて関心分野を生の形で調べる。Jリーグの制度など。新しい取材の種に。福島原発の風評被害。福島産の桃の。具体的には食べたりするのに肯定的な。センチメント分析。3年間の間に少しずつ肯定的Tweetが増えるなど。肯定的な態度と否定的な態度の双方の交流はなかった。意見を変えた人も殆どいなかった。感覚として思っていることをデータを使い客観的に示す意味は大きい。大量のデータを分析して論点を掘り下げたり、取材で得られない解釈を。データジャーナリズム。自然言語処理の貢献は大きい。災害時に情報を整理するのに自然言語処理を。災害対策の現場に情報検索や情報抽出を入れて災害時の情報の整理を技術の側から支援。警察消防自治体避難所から情報がどんどん入って災害対策本部は解析して全体像を把握し指示を。情報検索や情報抽出の技術を利用。対応情報システムに自然言語を入れると解析してユーザに。最新の情報などを。マンホールの対処。問題への対応が完了したなどの情報が。最初に発生した時点で入力していたかも。情報を結びつけて対応中を対応済にする。断片的情報から結びつけて対処。情報を整理して蓄積すれば教訓を引き出せ訓練にも役立つ。この20年に自然言語処理は大きな進歩を。行間を読む。がっかりしている情景など。言葉に現れない行間を把握しながら。単語や文法の知識だけでなく膨大な量の常識や経験が必要。それまでのコンピュータには入っていなかった。知識獲得の現実味が最近は出てきた。雨が降るとどうなるかの常識を集めることができる。大量に集まった常識的事柄をどのように使いこなすかが問題。研究は佳境に入ってきている。自然言語処理の社会の実状況への応用を。毎日Web検索に世話に。背後の技術を。次回は音声対話システム。