コーパスに基づく自然言語処理（自然言語処理第4回）

日常的に自然言語処理はバックグラウンドで使われているはず。その原理を学ぶのは必須なのかもしれない。

黒橋禎夫。コーパスに基づく自然言語処理。文を単語に分解する形態素解析。単語辞書に登録されていない二次語をどう扱うか。系列の処理。前提となる重要な話を。自分の言語直感によってが昔。限界があった。90年以降はコーパスを作り意味を与えるという方法論が。自然言語処理の大きな進展が。
コーパスとはある作者の文章を集めたもの。シェイクスピアの作品のコーパス。現在ではデータを集め情報を付与したものを。注釈付与コーパス。まずは単に文書を集めたコーパスから。生コーパス、ローコーパスとも。60年代のブラウンコーパス。新聞書籍雑誌などからバランス良く収集。80年代から。言葉を分析して数億語規模のコーパスが。ブリティッシュナショナルコーパスなど。今ではWeb上の多様性の観点からも有用な。Web文書コーパスは数兆語にも。コンピュータが自動抽出が出来る。フェアユース。公正な利用なら著作権の侵害にあたらない。カーネギーメロン大学のコーパス。日本では以前は法律が整っておらず収集することも違法だった。10年施行の著作権法改正によってWeb文書収集が合法化。それを配布して共通利用することが出来ない。日本語話し言葉コーパスなど。言語の注釈も付与されているが。生コーパスの中で対訳コーパス、パラレルコーパスが。自動翻訳の精度の向上。パラレルコーパスの利用を。
単に文書を収集しただけに対して、注釈付与コーパス。人手で付与する、タグ。与える注釈としては固有名詞、語の意味など様々。最も有名なのはペンツリーバンク。500万語に情報を。約300万語に構文情報が。注釈の見直しなどが。品詞と文の構造。入れ子構造。文全体を。名詞句の部分と動詞句の部分に。構文の解析。指揮したのはマーカス教授。ペンシルバニア大学。論文を国際会議に投稿したが不採択に。非常に先駆的だったのだが世間がついていかなかった。意義は歴史が証明。機械学習などに。他の様々な言語においても形態素などの。中国語なども。日本語では京都大学テキストコーパス。毎日新聞95年の記事100万語を対象。自動解析したものを人により修正。各行が1単語の情報。係り受け関係を。注釈付与コーパスの意義は？自然言語処理の問題の明確化。どのような品詞と文の構造が適切か、1つの正解があるわけではない。ある程度の規模のテキストを観察し注釈を付与することで問題として適当な仕様を定めることが出来る。詳細な仕様書やマニュアルが。問題の明確化。注釈付与コーパスには共通のデータ評価が。独自のデータで評価がされたのでは本当の問題点は分からない。注釈を正解と考えて精度を出すことでどのような特徴があるかなどを。機械学習の表紙データとして。文脈中の手がかりを統合して曖昧さを解消する。組み合わせ方を考える。機械学習の手法を。評価型ワークショップ。注釈付与コーパスを構築してタスクを明確化する。様々な手法についての評価。情報検索のワークショップ。定期的に新たなタスクを、コネル。評価型ワークショップで構築された注釈付与コーパス。継続的に利用され新手法に。
生コーパスから抽出。言語モデル。大げさ？非常にシンプル。確からしさを。出現確率はより妥当な出力を。準備としてマルコフモデルを。天気を予測する問題。一日ごとに今日までの天気から明日の天気を。明日が晴れである、条件付き確率。今日と明日の天気の確率変数。今日の天気が曇りという条件がある時に明日の天気が晴れとなる確率。長い期間を考慮することが必要だが。N日以外は依存しないとする。マルコフモデル。転機の問題を1階マルコフモデル。過去の履歴を限定して。過去1年間の毎日の天気。最尤推定。観測されたデータのパラメーターの推定。相対頻度を求めれば良い。今日が曇りで明日が晴れになる確率。曇り晴れが20階。曇りが100階。確率0.2。マルコフモデルによる天気予測。言語の並びについても。Nグラム言語モデル。出現確率が決まる。Nの値が。直前の1単語のみを。天気の場合と同様。単語の並びの頻度を頻度で割る。単語並びのデータ、生コーパスから。1つ前の単語。具体的な単語について計算。私の次に「は」。生コーパス。日本語などでは単語分割が必要。形態素解析を行う必要がある。Nグラム言語モデル。ある表現や単語の出現確率を求めることが出来る。文の確率は文頭という条件で。「私は本を買った」。掛け算を行う。文の出現確率を計算。マルコフ過程の近似。長い履歴を見ることは大規模コーパスでも難しいので、短い履歴でも日本語の特徴を捉えている。「を」の後には自動詞より他動詞を。それなりに大きな値を。言語モデルは単独ではある単語列の出現確率を与えるだけだが、組み合わせて大きな威力を。音だけを頼りにすると、ドミソの和音と多かった。話者の発音が明確でなかったり雑音があったりすると。日本語の妥当な解釈は相対的に大きな出現確率を持つはず。正しい解釈を選択することが可能。Nをどのような値にしたら良いか。長い履歴を、より高い確率が。逆にデータスパークネスの問題が深刻に。生コーパスに関係。Googleが日本語ファイルグラムを公開して有効とされる。ニューラルネットワークを用いた計算も。大規模な生コーパスがあれば言語モデルという文の出現確率が。様々な知識を。
まず生コーパスの利用法を。注釈付与コーパスの利用に。構築され整理される。分類問題。注釈付与コーパスを表紙データとして機械学習の手法が。英語の品詞タグ付け。わかりやすい。日本語分の単語分割。区切るか区切らないか、適切な単語列に分割できる。多くの問題は分類問題として、機械学習を。分類問題の基本的考え方を具体例で。毒キノコの問題。見分ける未知の分類問題。組成。色や発見場所など4種類に。傘の形や柄の形。あくまで機械学習のための例。あるきのこが組成の束、組成ベクトルで表現できる。事例を幾つか既に知っているとする。表紙データ。各行が1つの事例に対応。赤、丸、長く、地面であるきのこ、毒キノコではない。8個の事例を知っているとする。未知のきのこを分類することを学習。分類技、ラベル。比較的素朴な方法で充分に高い精度が。ナイーブベイズ。入力の組成ベクトルとラベル。最も確率が高いラベル。最大となるYを。アーブマックス。変数。Y。変数の値に応じて様々な値を。式が最大となる。条件付き確率。表紙データでない未知の組成ベクトルの場合は？実際の問題では非常に沢山の組成が。未知の事例を如何に分類するかが機械学習のポイント。ベイズの定理。アーグマックス。関係のない項を除去。ラベルに対して各組成が独立であるという近似。毒の有りなしを。それぞれの組成の確率を考えその積で近似。ラベル有りと無し。各々の組成の確率を掛け合わせる。組成ベクトルとラベルで問題を表現。非常に多くの問題を。顔の認識。誰であるかをラベルと。病名を診断する。組成ベクトルとラベルで。機械学習は応用範囲が広く自然言語処理にも寄与。英語の品詞付与の問題に。前後にどのような単語があるかが組成になる。
コーパスに基づく自然言語処理。言語モデル。機械学習の利用の導入として。言葉は多様。コーパスを用いて評価を統一。コンピュータが機械学習するように。