F-nameのブログ

はてなダイアリーから移行し、更に独自ドメイン化しました。

自然言語処理の概要と歴史(自然言語処理第1回)

訳が分からないながらも楽しかった。術語についてはついていけなかったけれど。

 

自然発生的に。在る目的で人工的に、人工言語。コンピュータに指令を与えるプログラミング言語。Web検索などに。仕組みや難しさ、今後の展開。自然言語処理システム。
言語の働きと特徴。コンピュータで扱う難しさ。基本問題。応用システムの内容。歴史。自然言語を言語と呼ぶ。
言語の働きと特徴。母国語の習得。無意識の内に。社会を支える根幹。3つの働き。Communicationの道具、思考の道具、記録の道具。後継に引き継ぐ。文明を築き上げる。言語の根本的な働き。物事に名前をつけ、関係を示す。コンピュータ処理を意識。物事、概念と名前は恣意的。必然性がない、根拠がない。水と呼ばなければならない必然性がない。言語が異なれば切り出し方や名前も異なる。翻訳の難しさ。日本語での「お湯」。HotWater。言語は社会の慣習。用法は論理的でなく慣習であるとしか説明できないものも。日本語の物の数え方。りんごは1個、猫は1匹。こういう例は言語の到るところに。少数の規則では無理。言語の語彙用法は時代により変化しうる。専門分野により語の使い方が異なる。新語もどんどんできる。柔軟に対応する必要がある。意味内容は物事の複雑な関係。ネットワーク構造を持つ。しかし言語は1次元。人は変換を行う事ができるがコンピュータには難しい。語、句、節、多対多の関係。複数の意味を持つ。複数の表現。多義性や曖昧性、同義性。両義性。文脈を考慮するのは大変。コンピュータで扱う時。言語の特徴に対応させて。コンピュータの扱いの難しさ。恣意性、社会の慣習。時代により変化。新語を含めて語の用法などをコンピュータに与えなければならない。膨大なので人によることは出来ない。大規模なテキスト集合によりある程度解決されつつ在る。コーパス。言語が構造を持つ。様々な曖昧性を。解消して柔軟に意味を。言語解釈を付与した注釈コーパス。機械学習。難しさは解決されつつある?人間には遥かに及ばないが、基本的なところについてはかなり出来るようになっている。その先にもっと面白く難しい問題が在る。
基本解析と応用システム。言語における意味の基本単位。語。語の並び。性質などを表現。文。複数の文、因果関係など。文章。表現される処理は段階的。形態素解析。固有表現認識。文を単語に分解し品詞などの認識を。固有名の認識も。太郎、など。文が語に分割され、文中の語句の修飾関係を。構文解析。文節を単位とすることが多い。修飾関係。矢印で表現。修飾の関係を求める。文中の述語と名詞の関係を。格助詞で表現される格関係を。格解析。意味関係を捉える。格助詞の解析、格解析。基本的な情報が一応は理解。文章に対する解析。文を跨る語の結びつき。照合省略解析。主語の省略などを。意味的な結びつきを解析、談話構造解析。理由など。節文間の関係。コンピュータの中で理解しようとすると一連の分析が必要。基本的な処理を説明。コンピュータのテキスト文字列をどう扱うか。コーパスの利用と機械学習の初歩。各コンポーネントは複雑に関係している。説明の依存関係。ここ20年で劇的に進歩。応用システムの登場。情報抽出。式獲得。基本解析。知識獲得。相乗効果。Webのサーチエンジンなどを支える技術。携帯端末での音声対話システム。機械翻訳。コンピュータによる自動的な翻訳。キラーアプリ。研究を牽引。どうしてこんなに賢い機能が実現されるのか。基本的な解析から。
仕組やアルゴリズムの説明の前に、自然言語処理の歴史を。40年代なかばから60年代なかばまで。黎明期。コンピュータは46年に誕生。ペンシルバニア大。弾道計算や暗号解読。翻訳に使える?米国で機械翻訳への関心。52年に翻訳Project。直接置き換える。小規模な翻訳実験。スプートニク・ショック。ソ連の科学技術の実態を。ロシア語から英語への翻訳。大きな研究予算が。MITを中心に構造文法が。句構造で解析。構文トランスファー方式。テキストデータを蓄積し、検索する試みも。重要な語は中頻度の語。60年代なかばには情報検索システム、スマート。ベクトル空間モデルなどの重要な概念。人工知能。56年にダートマス会議でマッカーシーによって。人間同様の知能を。言語の理解や質問応答の自然言語に関することにも関心。自然言語主義の黎明期。処理能力が充分ではなかったこともあって、研究者がロマンを膨らませた。ロマンの時代?
60年代半ばから90年、自然言語処理については忍耐期。研究が進むにつれて自然言語処理の難しさが分かり、機械翻訳、難しさが。現状と将来を。66年にダルパック報告書。機械翻訳の実現は困難。基礎的研究を行うべき。機械翻訳に殆ど研究費が出ないことが長らく続く。素朴な対話システム。積み木の世界の対話システム。進展とともに難しさが明白に。チェスなどの探索に関心が。67年のコーパス。100万語規模の。新聞書籍雑誌などからテキストをバランスよく収集。68年に格文法の考えが。英仏のモントリオール大学。76年からは天気予報に限定された翻訳システムが。ECの多言語機械翻訳システムの開発は78年から。日本では。論文の機械翻訳システムの開発が82年から4年間。民間に戻った開発者がブレークする理論が育たず。コンピュータの処理能力が上がり、基本的な環境が。パソコンも普及。データベースの発展も。関係データベースの概念が。検索サービス。78年にJIS漢字。東芝が仮名漢字変換方式の日本語ワープロの誕生。日本語処理環境の整備。テキストデータベース。コンピュータでテキストを扱えるようになる。データベース検索のスピードが。自然言語処理は人手での解析が主流。
テキスト処理技術が整い、1990年代から発展期に。Internetの普及や社会基盤化。90年。WWW。98年にGoogle社が設立。90年代以降の発展をささえたのは大規模コーパスなどの言語資源。数億個規模の。92年。LDC。言語資源の構築。95年にエルダ。03年に言語資源協会。09年にアラジン。テキスト集合、コーパスと注釈としての言語解釈。超大規模コーパス。Wikipediaなどの集合知、辞書知識。人手でなく大量に収集し翻訳を行う。対訳コーパスによる。81年に長尾が発端。80年代後半からIBMなどが雑音のある通信路モデル。統計的機械翻訳の研究。当時は処理速度やコーパスの不足があったが、90年代後半から環境が整う。米国が諸国の把握の為に巨額の開発予算を。ATRにおいて音声自動翻訳システム、通訳システム。実用化が視野に。20年のオリパラを目指した実用システムの開発に。2000年頃から研究が爆発的に。IBMのWatson。クイズ番組で人間に勝利。300個のCPUの並列コンピュータ。Wikipediaのコーパスを。ニューロン。10年代に入り画像認識音声認識の精度向上。言語資源の充実と機械学習、ニューラルネットワーク。機械翻訳質問応答などの人間支援の応用システムを。
言葉の働き、自然言語のコンピュータでの扱いの難しさや課題。自然言語処理の問題。劇的な進歩。更に本格化する。どのようにしてコンピュータが言葉を扱うか。文字やテキストがどう扱われているか。2011年に東ロボ君。入試問題を解かせる。

 

自然言語処理 (放送大学教材)

自然言語処理 (放送大学教材)