F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

文脈の解析(自然言語処理第10回)

その内に飛躍的に解析が発達するかも、と思うと面白く聴ける。

 

黒橋禎夫。文章の解析。文章の単位で考えてきたが、単独の文ではなく複数の文からなる文章が対象。照応関係や談話関係など。文脈解析。
本題の前に用語の整理を。文というのは言語表現における基本的な単位。句点で終わる。単文。複数の述語を。複文。複文を構成する節。節の内、主節や従属節。日本語では文末の節が主節。文章というのは1つまたは複数の文からなる。情報などを表現する完成した表現。論文など。文章に関する自然言語処理を扱う。
文脈、context。物事の環境などを。狭い意味では文章のつながり具合を。まとまった情報や意図を。コヒーレンスなど。結束性。同じ、関連する物事が繰り返し。一貫性。文や説が様々な意味関係を持ち整合している。文章と言えないものも。文章には結束性や一貫性があるはずだと解釈するので、小説の冒頭ではそれを探すことに。結束性と一貫性がある場合。太郎に関するものという結束性。理由があるので一貫性がある。繋がりが連結語などで繋がれている。意味的には結束性と一貫性を持つ文章でも表現が異なる場合。結束性を持つとしても繰り返しは避けられ、代名詞を使ったり省略したりする。一貫性についても簡潔なものに。通常の自然な文章をコンピュータが理解するには、分間の関係の処理などが必要。文脈解析。ContextAnalysis。
太郎と彼。同一の対象を。共参照。実態を共に参照する。太郎と彼の関係。彼、それのような代名詞。外界を参照。照応関係。彼のように他を参照する表現を照応詞、先行詞。典型的な照合は参照される前方照応。それが後方にある得点を。後方照応。文章中にあるのを文脈照応。文章の中にないものを外界照応と。その車、など。直示表現とも言う。我社のような表現も。書き手話し手などの一人称二人称なども。照応関係の分類。文章中に参照されるものがあるかで文脈照応と外界照応に。
照応詞が参照する先行詞を探す。Itの場合にも述語との関係から食べるものが先行詞と推定。文章の上下関係も。タクシーやトラックなどを。手がかりだけで一意に決まらない場合は先行詞と照応詞の距離などで。構造的関係の手がかり。照応詞の前。形態素解析や構文解析と同様に統合の問題。英語に関してマックシックスなどが広く利用されている。手ががりが有効でなく知識が必要な場合も。2文からなるコーパス。先行詞を求める。日本語に翻訳する。代名詞だけでは解けない、他の問題のバイアスがないように。データセットには面白いというか知識を要する問題が。入れ物にものを入れる場合の大きさや常識などをコンピュータが持たなければならない。知識の獲得の問題。
照応詞。日本語の場合には代名詞などが頻繁に省略される。太郎はのどが渇いた、水を飲んだ。ゼロ代名詞。ゼロ照応詞。ゼロ照応の多さ。日本語のコミュニケーションの特徴。ヨーロッパの街角で驚いた場合にもItを使う。省略の多さはコンピュータの処理では頭が痛い。省略は中国語などにも。省略された項を求めることをゼロ照応解析。省略解析という。照応詞が存在していないので先行詞の手がかりがない。述語の項が省略されているのを発見する必要。格フレームを利用。彼が手を焼いている。格解析で探しに行く。格フレームの知識が利用できたとしても、ゼロ照応解析は難しい。様々な手がかりを統合。京大テキストコーパス。ゼロ照応の情報が付与。述語構造が。訓練評価データとした精度は50%程度。
照応に関する話題の最後。間接照応。これまでの説明は同一の内容を。家を見つけた。屋根が白かった。屋根と家の関係が。関節照応。家の屋根と言える関係で。の、で繋がる。意味を考えると全体部分の。他の例として。りんごを買った。値段は百円。属性という関係。値段がりんごの属性。色なども。橋渡し指示とも呼ばれる。間接照応も結束性を捉えるのに重要。名詞に関する知識を整理する必要。語の意味。全体部分関係はWordnetでも。語釈文から。述語の格フレーム解析を。名詞句が関係として多い。文章の結束性を捉えるのは重要な研究課題。
一貫性に関する問題。文章は一貫性を持つ。意味関係を持って繋がる。談話単位。談話構造。談話構造のモデルと解析について。談話構造のモデルとしてマンとトンプソンによって。修辞構造理論。談話単位の間に背景、根拠などの20程度の関係を。主従の関係。核と衛星satellite。RFT。例えばある主張を示す文に続き根拠を。根拠関係。核と衛星。談話単位に優劣がない場合はいずれも核とする。主辞と就職語。文の句構造を。関係と核を決めて範囲を。核をその代表とする。再帰的に繰り返すことで文章全体の談話構造の分析が出来る。3分からなる文章のRFTによる解析。核と衛星。理由の関係。背景の関係。図にも出来る。談話構造が求まれば文章の要約が出来る。全体の核を中心として談話関係を長さに応じて選択。RFTのモデルに基づき自動解析を。手がかり表現、談話マーカー。手がかり表現以外にも距離や語句の重複などの手がかりがあるので、談話構造の注釈付与コーパスを。重みを学習。談話構造解析の難しさは注釈付与コーパスの作成の難しさにある。人によっても難しい。一貫性をもたせるのは簡単ではない。
RFTのように文章全体ではなく、表現に紐付けされた単位でのコーパス。接続表現と2つの項を見つける。明示される場合とされない場合。従属節接続詞である場合は主節をR1とする。前後するだけでなく埋め込まれる場合も。接続表現に下線を引いている。並列接続詞など。接続表現が明示されていない場合は?読み手の推論により談話関係があると判断する場合は、becauseなどを補う。太郎は水を飲んだ。喉が乾いていた。抽象的な談話関係を考える前に接続表現を補うことで一貫性を向上させる。談話関係を持つ2つの項を。3階層に整理された。時間関係。様々な論理関係を。原因論拠条件仮定。対比などの比較関係。言い換えなど。明示的な接続表現でも不明確な場合が。Sinceなど。100万語のテキストに談話関係があるコーパスも。機械学習による談話解析の研究も。
文という単位でコンピュータの解析を。文脈の解析。文章の。照応関係や談話関係。文章の解析になって本格的に文章を扱う。精度はあまり高くない。文を単位とする構文解析は90%にもなるが、談話関係などは高くて70%。どのような文章に適用するかとも深く関係している。次回からは応用として人々の情報利活用やコミュニケーションの支援を。情報抽出や固有名の特性。主要な項目を発見。知識獲得。関係の獲得やスクリプト。

 

自然言語処理〔改訂版〕 (放送大学教材)

自然言語処理〔改訂版〕 (放送大学教材)

  • 作者:黒橋 禎夫
  • 出版社/メーカー: 放送大学教育振興会
  • 発売日: 2019/03/20
  • メディア: 単行本
 

 

 

自然言語処理概論 (ライブラリ情報学コア・テキスト)

自然言語処理概論 (ライブラリ情報学コア・テキスト)