F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

自然言語処理の概要と歴史(自然言語処理第1回)

訳が分からないながらも楽しかった。術語についてはついていけなかったけれど。

 

自然言語処理システム。
言語の働きと特徴。難しさ。基本問題。応用システムの内容。歴史。
言語の働きと特徴。社会を支える根幹。3つの働き。Communication、思考、記録。物事に名前をつけ、関係を示す。概念と名前は恣意的。必然性がない、根拠がない。言語が異なれば名前も異なる。翻訳の難しさ。言語は社会の慣習。用法は慣習であるとしか説明できないものも。りんごは1個、猫は1匹。言語の到るところに。言語の語彙用法は時代により変化しうる。専門分野により異なる。新語もどんどんできる。意味内容はネットワーク構造を持つ。しかし言語は1次元。語、句、節、複数の意味を持つ。多義性や曖昧性、両義性。文脈を考慮するのは大変。コンピュータで扱う時。恣意性、社会の慣習。語の用法などをコンピュータに与えなければならない、人によることは出来ない。コーパス。言語が構造を持つ。様々な曖昧性を。注釈コーパス。基本的なところについてはかなり出来るようになっている。
基本解析と応用システム。語。語の並び。文。複数の文、文章。形態素解析。固有表現認識。構文解析。文節を単位とすることが多い。修飾関係。意味関係を捉える。格助詞の解析、格解析。文章に対する解析。省略解析。談話構造解析。節文間の関係。応用システム。情報抽出。基本解析。Webのサーチエンジンを支える技術。音声対話システム。機械翻訳。
仕組やアルゴリズムの説明の前に、歴史を。40年代なかばから60年代なかばまで。コンピュータは46年に誕生。翻訳に使える?52年に翻訳Project。スプートニク・ショック。ロシア語から英語への翻訳。構造文法。構文トランスファー方式。検索する試みも。情報検索システム、スマート。ベクトル空間モデル。人工知能。56年にマッカーシーによって。言語の理解や質問応答にも関心。黎明期。ロマンの時代?
60年代半ばから90年、忍耐期。自然言語処理の難しさが分かり、ブレークする理論が育たず。コンピュータの処理能力が上がり、パソコンも普及。データベースの発展も。仮名漢字変換方式のワープロの誕生。コンピュータでテキストを扱えるようになる。自然言語処理は人手であるのが主流。
1990年代から発展期に。Internet。90年。WWW。98年にGoogle社が。大規模コーパス。数億個規模の。92年。LDC。言語資源の構築。95年にエルダ。03年に言語資源協会。コーパスと言語解釈。超大規模。Wikipediaなどの集合知。大量に収集し翻訳を行う。80年代後半から雑音のある通信路モデル。90年代後半から環境が整う。2000年頃から研究が爆発的に。IBMのWatson。クイズ番組で人間に勝利。2011年に東ロボ君。入試問題を解かせる。

 

自然言語処理 (放送大学教材)

自然言語処理 (放送大学教材)

 

 放送大学の書きなぐりのまとめページは、https://blog.kaname-fujita.work/openuniversity