【数理的言語知識】
□文書のSyntax上の構造は、文書⊃文章⊃文⊃連文節⊃文節⊃形態素 となる。
・「包含関係や入れ子構造」になっていることに注目すると、位相部分集合族に展開されるので言語空間を位相空間Topologyとして扱える。すなわち、SyntaxからContextそしてSemanticという異空間の中で開集合や近傍/族などで意味が構築されていることに気付く。
・これがCohomologyという複体のアーベル群の列である形態素列や文列に展開され、意味理解ができることになる。これが単語ベクトルを正則化した概念ベクトルが加群になっている根拠にもなっている。
・その上、入れ子構造が「係り受け=射の構造」になっているので、意味概念位相空間を表現するには圏論が最適であることが判る。圏論が使えれば、関手を射とするメタ概念へ昇華できるので意味理解を「意味素」の構造上の分類/連結というタグ化にできる。これが「意味タグ」である。
□Syntax構造の内容は、
①形態素Morphemeは、意味ある最小単位
②文節Phraseは、語彙の単位 (主語、述語、修飾語、接続語、独立語)
③連文節Clauseは、
・主部(主語を含む句) 例:「新しいパソコンは、…」
・述部(述語を含む句) 例:「…すぐに壊れた。」
・修飾部(修飾語を含む句) 例:「…六本木の新会社で…」
・接続部(接続語を含む句) 例:「寒くなると、…」
・独立部(独立語を含む句) 例:「ああ小さな野ばらよ、…」
という5つのブロックに分かれる句構造
(注意:英文法では句Phrase、節Clauseといい、概念がまったく違う)
④文Sentenceは、事柄を表す知識の単位
⑤文章は、段落ParagraphというTopicの単位
⑥文書Docは、主題Subjectの全体情報の集合 (Subject∋Topic)
<解説>
・主題は、見出しIndexなどで主旨を表し、トピックは、その中の話題を指す。
・Indexingは、要約の要素技術である重要語/文の抽出から文生成をすること。
□言語解析は、
①形態素解析とは、「分ち書き」と「品詞付与」処理
・文字列から統計的bi-gram法で”区切り”を付けても82%の精度が出るが、99%を目指す為にLattice品詞列で精度を上げる。
・英文法では、単語の「活用変化」を特定する処理のこと(例:be,was,were,been)
②構文解析とは、「連文節統合」と「文節結合」そして「係り受け」処理
・文節結合は、形態素間の品詞列に依存される。 例:名詞(太郎)+助詞(は)
・係り受けは、文節間の三原則に沿った修飾関係
例:太郎は(主語)→行った(述語)
・係り受けの三原則とは、「非交差」「一意性」「不逆性」
「非交差」とは、係り受け関係が交差しない
「一意性」とは、係り側は複数の受け側に係れない
「不逆性」とは、係り受け関係は逆方向に係れない
・連文節は、文節単位の句構造➡文節の品詞列パラメータに依存される
③文脈解析とは、「照応解析」と「共参照」処理
・照応解析には、前方照応Anaphoraと後方照応Cataphoraがある
・前方照応とは、照応詞から係る先行詞が前方文に存在する場合
・後方照応とは、照応詞から係る先行詞が後方文に存在する場合
・文脈解析はContextなのでSyntaxとSemanticの中間層処理が必要
・人称代名詞と指示代名詞並びにゼロ代名詞(省略)の特定
・照応詞に合った先行詞(文節、連文節、文)の特定
例:「飲食店内では禁煙だ。そういうことはマナーの問題だ。」
・共参照とは、普通名詞の固有名詞化と特定
例:「犬は吠える。:普通名詞」、「犬が吠えた。:固有名詞=ポチ」
④意味解析とは、「意味概念CT付与」と「意味タグST付与」処理
・∀形態素の概念を定義からCT付与➡概念ベクトルから概念構造を構築
・名詞だけの固有表現を∀形態素に拡張して構造化した意味概念CT
・意味タグSTとは、意味概念CT間の係り受け関係に存在するメタな「意味素」