潜在意味解析のトピックと共起性
□潜在的とは、言語的集合に現れた動的意味のカテゴリ分布 (=潜在トピック、トピック)
☞単語ごとにトピック分布がある
☞トピック(⊂カテゴリ⊂ジャンル)は、単語の上位概念
☞単語集合のトピックは、概念ベクトルの加法性で求める
□共起性とは、文書の顕在的共起単語と潜在的共起単語分布
☞単語の意味概念ベクトル から抽出
□定式化は、特異値分解 による低ランク近似行列 による潜在的相関関係抽出
☞k次元への次元削減は、下界 (x≦0.8(v))の最大値
◇潜在意味解析の経緯 (潜在パラ)
・1988年頃 行列分解(LatentSemanticAnalysis/Indexing:LSA)
・1998年頃 確率モデル(ProbabilisticLSA:PLSA)
・2003年頃 階層ベイズモデル(LatentDirichletAllocation:LDA)
・2007年頃 機械学習 と拡張モデル
・2011年頃 ビッグデータと深層学習(DeepLearning:DP)
・2015年頃 潜在知識構造モデル
・2018年頃~ 意味概念位相モデルと自律型推論
◇潜在意味解析の有用性(例題)
・「マグネシウムの欠乏によって偏頭痛が起こる」という医学上の発見を、たくさんの医学論文から潜在意味解析によって発見した。 ☞顕在化されていない相関性を抽出する