辞書やシソーラス、Wikipediaに関する話は興味深く聞けた。数式が出るとなかなか理解はしづらいけれど。
黒橋禎夫。意味の解析。英語のタグ付方法。隠れマルコフモデル。コーパスの情報を。条件付き確率バー。数式の理解が大変。与えた情報を活用。計算の技法。
文の処理の流れ。文の構造を求める。その前に意味の問題を。
言語における意味の基本単位は語。語の意味をどのように定義するか。同義性や多義性の問題。分布類似度の計算。語義曖昧性解消。
基本単位は語。語の意味の定義。一連の対象に語を。区別が可能に。語は世界の対象を分節する。概念が作られる。日本語の世界では侘び寂びという語が。概念が中に形作られる。英語の世界には対応する語はないので概念もない。説明しようとすると対応する概念が無いからかなり大変。侘び寂びがどのように説明されているかを。語の意味や概念はどのように定義されるか。概念は内包と外延により定義。ある概念に含まれるもの、属するもの全てを外延と。集合を定義するにも2通りの方法。内包的定義は性質などを。10以下の奇数、など外延的定義。要素を列挙。1,3,5,7,9。実際には全く同じ集合を。概念はその関係を階層化して考えることが出来る。上位の階層を類、上位概念と呼ぶ。下位を種、下位概念と。内容的定義は本質的性質を。最も近い類を示すことで。最近類の他の種と区別。種差。植物。生物。動物と植物。光合成。具体例を列挙。種を示すことに対応。種子植物、シダ植物など。内包的定義の後で外延的定義が。光合成を。内包的定義と外延的定義以外の定義の観点。どのような要素から?どのようなものの合製要素となっているか。機能目的の。
言語の使い方や意味は常に変化。語の意味の拡張や想像的な。比喩。比べて喩える。新たなことや抽象的なものを記す時に具体的なものとつなげる。比喩の例文。例文。「のようだ」などを直喩と呼ぶ。輝くという特徴。顕現性。比喩を明示しない。メタファー。隠喩。意味が拡張される。人々の中で慣習化すれば意味として定着することも。スター。星の意味が拡張されて輝くもの、という意味が定着。日本語の星も。鍋を食べる。漱石を読む。作者と作品などの。換喩。意味の一部として定着するものも。鍋の中の食べ物を食べる。鍋料理に拡張。説明されて初めて元々は。語の創造的使用は人間の本質に。
シソーラス。意味の上位下位関係、同義関係を中心に語を。最初のものはイギリスの医師、ロジェによる。Web上にもある。最も広く。米国のプリンストン大学の80年代から継続して、Wordnet。同義語の集合が基本単位。上位語など。複数のシンセット。carという単語。多義性解消に利用。12万シンセット。他の言語に拡張も。日本語など。国立国語研究所。分類語彙法。日本語語彙体系。人の手だと高品質だが拡張に限界が。Wikipediaを利用する方法を。内包的定義は種差プラス最近類で。説明文書から自動抽出する、上位下位関係を。大規模コーパスから分布類似度の計算で同義関係を。
語の意味と表現の間には同義性と多義性の関係が。同義性。ある意味を持つ語が複数ある。自然言語処理で難しい問題。同義性。形が異なり意味がほぼ同じ語を同義語と。形の異なりは様々。そもそも語が異なる場合も。スペリングバリエーション。同じ語で表記が異なる。綴や送り仮名の違いなど。表記の異なりの中にはnet表現など崩れたものも。あっつい。あつ~い。日本語の形態素解析で?一方そもそも異なる語が同じ意味を。コンピュータと計算機。翻訳語。略記。美しいと綺麗。類義語も広い意味の。ニュアンスの違いや強調などの付加情報の違いは?正確に扱うことは重要な課題。当面の問題としてほぼ同じ意味と分かることが重要。美しい額縁。きれいなフレーム、の情報も。シソーラスはガバレッジが高くない。落ち込むと冷え込む。景気の場合は類義語。
類義語の関係を。分布類似度。文脈の似ている語は類似している、という考え方による類似語の尺度とする。共起。ある範囲で共に出現。同一文書内、同一文内、前後10語以内など。共起の強さ。自己相互情報量。比のlogを取る。コーパス中での出現確率。ある範囲に共起する確率。XとYに関係がなければ共起はほぼランダム。PMIはほぼ0。関連があればPMIは正の値に。関連が強いほど大きい。類似している。関連語の選択や一致度の計算には様々。PMIの正のものを。ジャカード係数など。「医者」の語。宣告される、などの関連語が。医師、ドクター、主治医が類義語であると分かる。カバレッジが高い類義語の。反義語との区別がしづらい。ニューラルネットワークで。
語の意味に関する多義性。複数の異なる意味を。同音異義語。多義語。まとめて多義語と。英語には多数の。Bankなど。日本語では?表意文字である漢字では多くない。しかし同音の多義語。こうえん。複数の漢字表記に。音声認識やかな漢字変換で問題に。カタカナ語も英語の多義性を保持しているものがある。銀行と土手。漢字表記ではメタファーによる意味の多義性が殆ど。食べ物としての鍋。人間用の辞書。各語についての。応用システムで語義の区別をどうするか。漢字表記であっても固有名詞では明確。実態に対応する多義として考える。京橋。東京と大阪など。日中、米。一般語と固有名詞で。分野により意味が違う。木。データ構造。木材を用いる構造。
語の語義セットは難しい。何らかの基準で与えられたとして語義を選択する問題を。語義曖昧性解消。語の多義性解消。WSD。辞書などの語義を用いる。最も素朴な方法、辞書の最初の語義を選ぶ。Bank。銀行の意味。次に土手の意味。常に1つ目の選択をする。辞書では最も重要で高品質の語義があるはずという経験則。荒っぽい。手法と呼べる程ではないが。精度の比較対象になる。辞書の語釈文との重複が最も大きい。最も初期に。デスク法。Bank。moneyという語の重複。これもベースライン。注釈付与コーパスがあれば機械学習によって解くことも出来る。人が判断して。分類木を。品詞などの。各語について。語義注釈付与コーパスはコストがかかる。品詞のセットを。汎用的な利用価値が。語義セットの場合は難しい。それを利用する応用システムに依存。応用システムごとに作るのは大変。語義注釈付与コーパスは幾つか。岩波国語辞典タグ付きコーパス。セムコア。固有名や専門用語による語義セットなど。Wikipedia。多義の固有名や専門用語について見出し語があるのでそれを語義セットとして使う。WBC。複数の意味があるがそれぞれが見出し語に。一覧の曖昧さ回避ページを。テキスト中に見出し語となっている語にリンクが付与。語義の注釈に。野球のページのWBC。ボクシングのページの。注釈の付与と考える。
意味の解析。語の意味。どのように定義?辞書やシソーラス。自然言語。同義性と多義性。言語表現を豊かにし効率的だがコンピュータにとって厄介。分布類似度。語彙曖昧性解消。語の意味という難しい問題に対する自然言語処理のアプローチ。