★機械学習的文脈解析の定義と処理☆
【定義】文脈解析Contextとは、
・「照応解析」
・「共参照解析」
・「結束性解析」
・「結束構造解析」
以上の四つの解析を指す。すべて「文間関係」で処理される。
□照応解析Anaphora/Cataphora
・照応詞と先行詞との連結性である
・照応詞とは、代名詞やゼロ照応詞(ゼロ代名詞)のこと
・先行詞とは、照応詞が指し示す形態素や文節、連文節、文のこと
・代名詞には、人称代名詞や指示代名詞がある
例文:「太郎は公園へ行った。彼はそこでベンチに座った。」
→「彼」人称代名詞と「そこ」指示代名詞が照応詞になって、先行詞が「太郎」と「公園」になる
例文:「太郎は公園へ行った。そこでベンチに座った。」
→ゼロ照応詞φが「太郎は」になり、(S:太郎は、P:座った)のSP主述関係になる。
例文:「狭い飲食店でタバコを吸うのは禁止です。そのようなことはマナーの問題です。」
→照応詞「そのようなこと」の先行詞は前文すべてである。
◎代名詞の距離関係(こそあど)
距離 事物 場所 方角 連体詞
近称 これ ここ こちら この(公園)、こういう(公園)
中称 それ そこ そちら その(公園)、そういう(公園)
遠称 あれ あそこ あちら あの(公園)、ああいう(公園)
不定称 どれ どこ どちら どの(公園)、どういう(公園)
□共参照Coreference
・文間の非代名詞に対する形態素、文節、連文節、文単位の「相関関係」のこと
例文:「ポチは尾が白い。犬には尾がある。」
→「ポチ」が固有名詞で、「犬」が普通名詞なので共参照ではない。
例文:「ポチは尾が白い。おとなしい犬だ。」
→「ポチ」も「犬」もどちらも「ポチ」という固有名詞なので共参照。
□結束性Coherenceとは
・文間の「文単位」の意味的有向関係性(因果関係など)のこと
例:「太郎はカレーライスを食べた。腹が減っていたのだ。」
→後文のゼロ代名詞(主語:太郎は)の処理は、「文節単位」であるので、照応解析になる
が、「腹が減ったから、カレーライスを食べた」という「文単位」の因果関係になっているの
で、この二文は「結束性」になっている。前文が結果(事象)、後文が原因(理由)。
表現法は、文単位の有向グラフ構造で表される。上記例:「前文」→(原因)→「後文」
□結束構造Cohesion
・文間の「文単位」の包含関係を持った結束性の集合で、木構造で表される。
例:「経済産業省は日本経済の発展をはかる行政機関である。商務情報政策局には情報技術利用
促進課や情報産業課がある。」
→前文は後文を包括しているので結束構造が成立する。
※従来は、「結束性」や「結束構造」のようなことを「修辞構造」といっていたが、機械学習的自然言語処理と照らし合わせると従来の修辞構造理論は機械学習には不向きな理論であるので、機械学習理論向けに結束性や結束構造を定義している。
※結束処理は、表記された文書から推測するわけなので、その最小単位は形態素になり、その形態素に付与されている概念タグCTと形態素間、文節間、連文節間、文間に付与されている意味タグSTを基にして、結束性や結束構造の解析処理を行う。単なる表記単語の特徴抽出やパターン分類などでは不可能である。