情報抽出と知識獲得(自然言語処理第11回）

常識をコンピュータが得ることが出来れば、人間なしに勝手に賢くなって人間を攻撃したりはしないのだろうか。ううみゅ。

黒橋禎夫。情報抽出と知識獲得。文脈解析。代名詞など。照応解析。日本語では代名詞などが省略されるゼロ照応が度々。談話関係を。修辞構造理論。照応関係や談話関係の解析は50％から70％。これまでは形態素解析など自然言語処理の基本的タスクについて。自然言語処理の応用としての記述をこれからは。情報抽出と知識獲得。共に構造化されていない普通のテキストから情報を自動的に取り出す。違いは？区別は明確ではない。情報抽出は出来事に関する情報を。知識獲得はより一般的な知識を。出来事の間の関係やスクリプトについて。情報や知識は人間にとり当たり前、常識なことも多いが、コンピュータに与えることで常識を必要とする照応解析が。言語解析や言語理解が進み本格的支援を。
情報抽出について。構造化されていない不定形のテキストから固有名の属性などを表の形などで処理。固有名を特徴づける属性。例えば会社については社長や所在地など。属性値を考える。会社D商事。属性値がそれぞれ決まる。固有名の属性はカテゴリーで異なる。製品の場合はメイカー価格など。人の場合は出身地など。固有名とその属性値は、一つの関係がある。固有名に対する属性値の抽出は関係抽出とも呼ぶ。イベントについても、感染症の流行では病名などの事項が。企業買収などは合併先など。それらの項目を取り出すのがイベント抽出。感染症流行について、東南アジアでテング熱の。表のように鳥インフルエンザなど。いつ流行したかも。イベント情報抽出なども高精度に行えれば表の形にまとめることが出来、それ自体に価値が。その結果を使用して、情報の利用活用を高度に支援できる。情報抽出の研究はアメリカのマックと呼ばれる評価型ワークステーションで。抽出すべき情報のテンプレートやパターンも人手で用意していた。しかしテンプレートや表現のパターンを手で与えるのは大変。表現パターンやテンプレートを自動学習する方向に進む。
上位下位関係など。典型的な表現パターンを用意し、上位語と下位語である関係を。鳥やスズメやカラス。一般にはある関係を表現するパターンは多数。人手で用意するのは容易ではない。自動学習する方法が色々と。一般にある関係について様々な表現パターンを。具体的なペアを用意するのは難しくない。インスタンス。シードとして与えコーパスで。獲得されたパターンを用いて新たなインスタンスを。ブートストラップ法。インスタンスを種として与える。コーパス内で表現があれば、パターンを取り出す。このパターンにマッチする別のインスタンスを抽出。これらを繰り返しパターン集合とインスタンス集合が。誤ったものになる可能性があるので食い止める方法も色々。エスプレッソ。良いパターンは良いインスタンスを取り出す。その逆も。信頼度を相互に計算する。大文字Iはその時点で取り出されたインスタンス集合。インスタンスIとパターンの自己相互情報量。分布類似度にも用いる。パターンTが。取り出されることが大きければ大きな値を。パターンの信頼度はその時点での各インスタンスで重みをつけてパターン化。インスタンスとパターンを逆にも計算する。最初に人手で与えられる種となるインスタンスの信頼度は1とする。パターンとインスタンスの評価で良いものを抽出する。
イベント情報抽出ではあるトピックのイベントにどのような重要な情報があるかのテンプレートを。自動学習する試みも。表現パターンはたくさんあるので同時に獲得することがポイント。文章を大量に収集し類似する文章を。複数の新聞記事など。固有表現の重なりなどで。感染症流行に関する文書集合を。2つの文の固有表現の対応を取る。同義表現パターンであることを推定する。重要な項目は高頻度なものであると考える。高頻度であれば病名場所が重要な項目であると考えテンプレートを。表現パターンも獲得されているので他も抽出できる。テンプレートとパターンが分かれば。組織人物などの属性情報をWikipediaなどで抽出する試みも。Wikipediaを基本的情報源として20億を超える情報を。項目に対する様々な情報が整備。Infobox。属性と属性値を取り出す。PDペディアは多言語。日本語版の構築も。スリーベースもデータベース化するProject。Wikipediaなどの様々な情報源を。wikiにより個人が情報を登録できる。グーグルが10年に買収。検索の高度化を。自然言語処理の観点ではデータとして利用できるので。ディスタントスーパービジョン。
知識獲得。これまでに説明した同義語類義語や各フレームも。出来事の情報やその関係。事態と呼ぶ。事態間の関係。同義と類似。まず名詞に対して関連語を取り出す。文脈に基づく同義類似の計算。一般に用言は曖昧性が強い。解決策は用言単体ではなく句として出現を調べる。「落ち込む」「冷え込む」など。景気という同一の項を加えると同義と考えることが出来る。句の同義性を求める。同じ項を持つ比較的単純な。文体が大きく異る同義表現も。大流行していると、感染が広がっている、のような同義表現。文や文章を収集。情報源は他にも？同じ用語の複数の定義文や翻訳文を用いる。事態間の関係として、因果関係。転ぶと骨折する。時間経過の関係。コーパスでよく表記する。自己情報。共有がありそれを抽出して事態間の関係を。転ぶと骨折の動作主格が同じ。この問題に対して英語は代名詞の照応関係を。大切なのは主語と目的語。誰が誰を逮捕し告発したか。両方とも主語と目的語が同じ。文の並列構造からわかる。代名詞のhimがJonを指す。英語の場合には代名詞があって解析も上手くいく。逮捕すると告発する、という項の対応知識を含む。日本語の場合には文脈が明確だと省略される。財布を拾ったので警察に届けた。代名詞が省略されていると解析精度は高くない。自動解析で省略された項を補完することは誤りが多数含まれるので出来ない。述語構造を含む格フレーム。格フレームを抽出してどの程度似ているかを。それぞれ類似していることがわかるので、項が対応付けられるのではと分かる。事態間知識を得ることが出来る。
ある状況において典型的に起こる現象をスクリプトと名付ける。レストランでの食事。料理を食べるなど一連の出来事で。人工知能の研究ではこのような知識が必要と。スクリプトを人手で与えることも研究されているが困難というか不可能。大規模なテキストコーパスが。自己学習を。2つの事態間の関係を抽出。項の類似度を考慮しつつ統合する。ある種のスクリプト的知識を得られる。犯人や容疑者が弁論したり刑を宣告したりする知識が。獲得されたスクリプトはwebで公開されている。一般に自然言語処理における知識獲得の対象は、常識レベルの知識が中心。常識の自動獲得がどのように？昔はコンピュータに常識を与えるのは人手でしかできなかった。大規模コーパスの使用などで知識獲得の研究が進展。本質的な難しさが。コンピュータに常識を与えなければならないが一定の知識が必要。鶏と卵の関係。事態間知識の獲得もこのような状態。ゼロ照応解析が出来れば容易だが、事態間関係がなければ難しい。知識獲得の研究は進展しているが、スクリプトなどの高度に構造化されている知識を獲得するのは難しい。基本的な仕事をしてもらう。クラウドワークス。クラウドソーシングで。今後の進展が。現代の知識獲得の対象は常識レベルだが、その辺りが難しさのピークでは？常識レベルのレベルの知識が獲得されれば関係の分析がある程度可能になり、個々の文章から複雑な知識を得られるのでは。小学生中学生高校生大学生のように複雑な文章を。コンピュータが進化する。研究の進展次第だが。
情報抽出と知識獲得。抽出の方法。コンピュータが賢くなるための常識の。常識を備えたコンピュータが自動的に賢くなる。希望的観測が入るが、研究というのは少し楽観的に。楽しんで。批判的に自分ならこう思うと考えて欲しい。次回は情報検索について。社会基盤になっているので、それを基盤になる技術を。第一線の人のInterviewも。