AL日本語意味解析エンジン開発プロジェクト | cTag

プロジェクト概要

AL日本語意味解析エンジンと知識自動構築モジュールの知識構造化開発プロジェクトです。

知識構造化プロジェクト

【話題のテキスト構造処理法】

□文書や会話などのテキストをWord2Vecで「注目した単語の周辺単語」をベクトル化して、頻度を頼りに対数/指数関数などで正則化して「類似度や距離」で分類やクラスタリング処理(文脈解析/照応解析…)を求める手法は、昔からあった技術であるが、深層学習やビックデータ、パラレル処理が安直になった近年、これが話題になった。しかし、テキストデータを食わせれば食わせる程、精度が揺らぐ現象が出てディープラーニング法を疑問に思う専門家まで現れた。

□W2Vを構成している単語の「意味概念ベクトル」であるが、ユークリッド空間上では高次元(200次元～)のベクトルでなければ精度の高い「意味概念構造」を表現できないと思われていたが、それをあっさり非ユークリッド空間の「双曲空間」で低次元(５次元程度)のベクトルだけで精度の高い意味概念構造をWordNetを使って表現できることを示した発表があった。これはPoincaré DiskやLorentz Modelへの埋め込みでのことで、理論的にも技術的にも未成熟の感があるが、今後のAI_NLU分野の新理論/技術の方向性を示したことは大きい。これからの意味概念空間モデルや知識構造化モデルなどは、ディープラーニングDeep Learningの中に双曲幾何学Hyperbolic Geometricや位相幾何学Topology、層CategoryやコホモロジーCohomologyなどの手法を取り込むのが主流になるでしょう。

【意味概念空間は曲がっている】

□そもそも類似性や意味的距離とは意味の概念空間上でのことで、単語間や文間の意味的距離を単語ベクトルや文ベクトルなどで距離を測ることが、本当に「最短距離」なのか？ベクトル間の内積などを使って距離を算出する法は、メルカルト図法で作成された世界地図(緯度と経度が座標)のようなユークリッド空間での「直線」を最短距離としていることと等価である。しかし、意味概念空間は三角形の内角の和が180度にならない、直線が最短距離にならない曲がった空間であることは、ビッグデータ処理でも精度が出ないことなどで判ってきた。例えば、東京からロサンゼルスまでの最短航路は世界地図(緯度、経度図)上の直線にはならない。地球の中心と東京、ロサンゼルスの三角平面で地球を切ったときにできる「曲がった航路」(測地線という)が最短距離(最短線という)になる。単語間や文間の類似度や意味的距離を測るにも、曲がった空間「非ユークリッド空間」である意味概念空間上で算出することが精度を向上することになる。ちなみに精度82％～92％では製品検証に不合格になる。98％以上が合格といえる。

【曲がり具合という曲率】

□テキストを言語空間(ユークリッド空間)から意味概念空間(非ユークリッド空間)への写像や埋め込み処理などをして、曲がった空間上で類似度や距離を測ることが必要になってきた。では、どこがどのくらい曲がっているのかを調べなくてはならない。結論だけをいうと局所的な曲がり具合(曲率という)は、曲面上の曲線の二次導関数を分割した法曲率ベクトルと測地的曲率ベクトルで測れる。大局的な曲率は、直截線を使った「ガウス曲率」で求めることができ、これは第一基本量Ⅰと第二基本量Ⅱという2次実対称行列Ⅰ^-1Ⅱの固有値が主曲率になっているので便利である。三角形に対するガウス-ボンネの定理とは、

により、楕円型非ユークリッド幾何では内角の和が180度より大きくなったり、双曲型非ユークリッド幾何では小さくなったりする。そして、主曲率は、

で、になる。

この平均曲率はとして定義され、固有値はになる。

【曲がった空間のモノサシ】

□曲率が判れば、曲がった空間で距離などを測る際の基準となるモノサシ(定規)が必要である。曲がった空間へ「計量」というモノサシを入れる。フビニスタディ計量やポアンカレ計量などがあるが、ここでは接空間上の内積である「リーマン計量」を入れる。その理由は、上記の基本量Ⅰ、Ⅱという簡単な曲面上の接ベクトルの長さだけで、曲面の曲がり方が判るという「ガウスの驚愕定理」に由来する。すると、リーマン多様体(文書のこと:リーマン計量が入った空間だからリーマン多様体になった)の各点で距離が測れることになる。

【双曲空間モデルでスッキリ】

□しかし、手に入るテキストデータは限られた量なので、偏りやゴミなどが混じっている。

そこでスパース性を解消するパラメトリック法も考慮して、「曲がった空間」を「双曲空間」Hyperbolic spaceにするのはごく自然なことである。従って、リーマン計量の双曲空間版である「双曲計量」に拡張し、少ないテキストデータでも精度の高い類似度や距離が測れるようになる。ユークリッド空間の内積はであったが、Hyperbolicの内積はとなる。曲線の長さは、となる。軸に近づくほど内積は大きくなるので下位概念構造は無限大になり、狭かったユークリッド空間よりも広々と表現が可能になる。これが「リーマン計量」と言われるもので、アインシュタインの特殊相対性理論でミンコフスキー空間の双曲面定義にも使われている。

□双曲面から立体射影法やケーリー変換などを使って開円板やポアンカレ円板へ射影して測地線を得ることができる。

の計量上の計量へ変換が簡単にできるので、測地線も上記の式で簡単に求めることができる。

【シソーラス/知識構造化が簡単】

□双曲空間は木構造を自然に表現する性質を持っていることがメリットである。木構造の下位構造を無限に広げることができる。すなわち、リーマン計量や双曲空間を使えば、単語シソーラスや知識構造化が低次元ベクトルで精度良く表現できる。意味概念空間内の単語ベクトル(分布)は、ノードどうしの接続を許す複雑な「木構造」になっている。簡単な二分木でも個のように指数的に増える下位ノードを持つ構造を双曲面への埋め込みで比較的簡単に表現できる。では、何故低次元ベクトルで精度良く表現できるのかは、リーマン計量の「ノルム」を使うことがカギになるのだが、まず上位語や上位概念語がベクトルに含まれていなければならない。注目される単語をポアンカレ円板の中心とした場合、この単語をトピックや話題の語彙を原点としてその周辺の単語のノルムの計算に同義性/類義性/関連性の情報が必要になる。低次元でまとめるテクニックは、これらの情報を有向非巡回グラフ的なベクトル化が必要になってくる。

【知識生成とは…】

□最後に文書から知識を生成したり、上位概念を抽出するにはどうするか…。テキスト群を意味概念空間へ写像して「曲がった行列」で表現された「半正定値非対称行列」にリー群でエイシックリックな構造を入れてから加群の知識を抽出していくことになる。有向非巡回グラフは、この行列から表現できるので、ここから知識の候補を生成していく。そして商空間(剰余)でイデアルを抽出して、視点View Point別な独立な知識を生成していく。この処理をディープラーニングで行うことが重要である。位相空間の族や近傍系、閉集合系、閉包作用素を使ったり、文の完全系列や圏論の関手での切断(section)による茎(stalks)や芽(germs)での視点を見極めていくことになる。最小知識はsimplex、その複合知識はcomplexになり、これらの知識の連結を創って上位概念や上位語を生成していく。

NLP-数理モデル比較表

NLPモデル	解析項目	数理モデル	例文
形態素解析Morpheme
最長一致法字種結合	分ち書き Chunking	N-gram、ベイズ定理 Latticeアルゴリズム DP（動的計画法） CRF（条件付き確率場） HMM（隠れマルコフ） VA（ビタビアルゴリズム）有限オートマトン…	太郎/は/会社/へ/行っ/た/。彼/は/５G/の/スマホ/を/買/った/。
助詞探索法品詞列文法文法依存法	品詞付与基本品詞詳細品詞活用型活用形		太郎(名詞)は(助詞)会社(名詞)へ(助詞)行っ(動詞)た(助動詞)。(記号) 彼(人称代名詞)は（助詞）５G（未知語；名詞）の（助詞）スマホ（名詞）を（助詞）買（動詞）った（助動詞）。（記号）
辞書品詞文法	基本言語処理	線形代数統計学、確率論	有償・無償の形態素解析ソフト多々品詞種の相違が特徴になっている
構文解析Syntax
文脈自由文法句構造文法	連文節統合文節結合	カーネル法 Polynominal kernel 多項式モデル系列モデル…	主部（（大きな）主語（太郎は））修飾部（修飾語（会社へ））述部（（すぐに）述語（行った））
LFG GPSG	係り受け付与	カーネル法 Polynominal kernel 多項式モデル系列モデル…	SP主述（太郎は，行った） MP修述（会社へ，行った）
国文法に依る処理系	形態素解析+構文解析＝統語解析Parse	解析幾何学微分幾何学	構文解析ソフトは数が少ない精度に問題が残る
文脈解析Context
談話表示理論	照応付与	HMM、ベイズの定理 Kalman’s filter Attention（BERT） Transformers…	彼（太郎）はそこ（会社）で会議をした。
概念依存論	共参照付与		そこ（会社=意味研㈱）
シャンク概念	結束性付与		会議（原因=コロナ休暇）因果関係
フレーム意味	結束構造		会議（∈会社）包含関係
意味概念論に依る処理系	文の意味解釈には重要なファクター	微分幾何学線形代数	文脈解析ソフトはほとんどない世界中が研究中である
意味解析Semantic
カテゴリー文法語用論	概念タグ付与固有表現	Clusetring Classification…	太郎=固有名詞∈人名⊂人間会社=組織∈機能
格文法概念依存文法	意味タグ付与意図タグ付与	Heuristic method …	AgentMoveOrg（太郎行った会社） AgentDiscuss(topic)（参加者?会議）
カテゴリーや概念に依る処理系	アプリ用タグ	線形代数ユークリッド空間凸系近傍処理	Googleなど世界中でトライ中スマートスピーカーやChatbotなどのアプリの命令系に使う意味タグ
知識化Knowledge
モンタギュ文法述語論理	知識生成	半正定値対称行列 …	地球は太陽を中心に公転している。地球は地軸を中心に自転している。
様相論理	知識構造化	意味概念包含双曲幾何学	KE1⊂KE2、KE3∈KE4
記号論理学	知識推論	組合せ最適化	newKE←Inference（KE５、KE６）
論理系形式論理学	NLPの最終目的知識構造体	組合せ論微分幾何学	クラウドに全ての分野の専門知識をアップして自動更新
クラスタリングと分類
空間認知状況表現	クラスタリングClustering	凝集型ｋ-平均法混合正規分布 EMアルゴリズム…	Sim（疫病、新型コロナウイルス）ユークリッド空間ベクトル空間上での類似や距離
概念依存法	分類 Classification	ナイーブベイズ SVM カーネル法対数線形モモデル …	CF（品詞｜単語） CF(ジャンル｜文書) 同型同相
シーン表現	トピック抽出	トピックモデル	V_{topic_viewpoint}（トピック｜文書）
概念構造	要約生成	特徴抽出モデル TF-IDF	「ズバリ要約」「SP-Summary」抄録、ダイジェスト、アブストラクト
概念構造	分類系	統計学	語彙系の辞書作りに活用
DATA処理
	素性Feature特徴	Heuristic method TF-IDF…	頻度（単語｜ジャンル）
	スパース性	線形回帰、Lasso ℓ₁ノルム…
	連続性と離散性	多様体論…
	汎化性と近似	深層学習直交補空間…
	相関性と類義性	情報幾何学…
	階層化シソーラス Ontology	Poincare embeddings Lorentzモデル…
	有向非巡回グラフ	層、コホモロジー
		数学全分野

AL日本語意味解析エンジンは、

形態素解析（分ち書き+品詞付け+概念タグ付与）
概念タグは固有表現を詳細化、階層化（数千種類）されたタグ
構文解析（連文節文節間の係受関係と関係子付与）
関係子は独自の構文関係子
文脈解析（照応解析：代名詞代入とゼロ代名詞補完）
（ゼロ）照応詞と先行詞（形態素∈文節⊂連文節⊂文）の特定
意味解析（意味タグ付与）
全ての係受関係子へ意図を明示化する意味タグ付与

知識自動構築モジュールは、

知識生成モジュール
文書から独立な知識を生成する
拡張された意味フレーム
知識構築モジュール
知識の上下階層化（包含関係）
知識の因果関係（従属関係）
新知識推論モジュール
既存知識構造から仮説検証で新知識の生成