人間のあるべき姿の探索

思索・人形・エンジニアリング

Tsallis統計と人間理解

概要

以下の論文を読んでTsallis統計という分野があることを少し前に知った.簡潔にいうと,Boltzman-Gibbs統計ではデータ間の独立性を仮定していたが,Tsallis統計は統計力学の背景から導かれる適応的パラメータqを用いて仮定を緩和する. これによって,カオス・マルチフラクタルなどの自然現象に見られる長期記憶や長距離相関の特徴を捉えられるのではないかと考えられている.

この特徴は人間の理解における問題にも適用できるのではないか?と思い,この文章を書くことにした.例えば,心理学*1や人間・ロボットのインタラクションにおいて,人間の特性を特定の軸から捉えることで特徴付ける.しかし,これらの軸は独立に評価されることが多いが,実際には軸ごとに関係しており,ある軸において良いとされる特徴が別の軸においては逆相関になることも考えられる.問題の例とともに,それがどのようにTsallis統計の概念によって解かれそうかについて述べる.

q-VAE for Disentangled Representation Learning and Latent Dynamical Systems

https://arxiv.org/pdf/2003.01852.pdf

目次

  • Tsallis統計について
  • 人間理解に向けて
  • 終わりに

Tsallis統計について

Boltzmann-Gibbs統計においてはデータ間の独立性を仮定している*2.具体的な例として,よく見かける尤度関数p(X) : \boldsymbol{x_i} \in Xは以下のように表現される*3

 \begin{align} p(X) = p(x_1) p(x_2) … p(x_n) \end{align}

また,対数関数は以下に示すような加法性を満たす為,尤度に対数をかけることで項を分割でき,計算を簡易化できる.

\begin{align} \log(xy) = \log(x) + \log(y) \end{align}

ここで,各データx_1 ~ x_nが生成される確率は独立かつ同じ分布から生成されることを前提として,計算が進んでいく.その為,各データ間の相互作用が考慮されず,相互作用に多くの情報を含む現象を捉えることができない.(この伏線はすぐに回収される)

Tsallis統計は以下の非線形微分方程式を解くことから考える.

\begin{align} \frac{d y}{dx} = y^q \end{align}

この式を解くと,以下の式に変形される.ここで現れる,exp_qをq-指数関数と呼ぶ.

\begin{align} \frac{y}{\exp _{q}(C)}=\exp _{q}\left(\frac{x}{\left(\exp _{q}(C)\right)^{1-q}}\right) \end{align}

また,導出の過程で以下の式を導入する.ここで現れるlog_qをq-対数関数と呼ぶ.

 \begin{align}\ln_q(x) = \begin{cases} \ln(x) & q = 1 \\ \frac{x^{1 - q} - 1}{1 - q} & q \neq 1 \end{cases}\label{eq:q_log} \end{align}

 Tsallis統計はq-指数関数及びq-対数関数の二つによって特徴付けられ,これらはそれぞれ指数関数及び対数関数のパラメータqによる拡張とみなされる.また,これらの関数を用いた計算にはq-積が導入され,i.i.dが緩和される.まず,q-積\otimes_qを用いた演算 x \otimes_q yは以下のように表される.

\begin{align}
x \otimes_q y =
\begin{cases}
(x^{1-q} + y^{1-q} - 1)^\frac{1}{1 - q} & x^{1-q} + y^{1-q} > 1
\\
0 & \mathrm{otherwise}
\\
\end{cases}
\label{eq:q_mul}
\end{align}

これを用いて,p(x)及び\log (xy)は以下のように変形される.

\begin{align}
\ln_q(xy) = \ln_q(x) + \ln_q(y) + (1 - q) \ln_q(x) \ln_q(y)
\label{eq:p_add}
\end{align}

 この式を見てみると,加法性は仮定されず,第三項に相互作用の項が追加される.要するに,i.i.dの仮定を緩和して相互作用を表現できる.また,内容は省くが,q-積\otimes_qというものを導入することで[tex:\log_q (xy)などの計算を簡易化した表現に書き直すことが可能である.

ここで具体的にTsallis統計が役に立つ状況を紹介する*4 q \neq 1における利点はVAEの変分下限の例を見ると非常にわかりやすい為,論文の趣旨でもあったVAEにおけるq-対数関数の適用を考える.

VAEに関して,詳細はそれぞれQiitaなどの記事を見た方が良いが*5,データ群Xを表現するような潜在空間\boldsymbol{z}を学習することを目的とする.VAEにおいては以下の式を最大化する.

\begin{align}
\log{p(X)} &= \sum_{n=1}^N \log \int p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta}) p(\boldsymbol{z}) d\boldsymbol{z}
\nonumber\\
&= \sum_{n=1}^N \log \int \frac{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})} p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta}) p(\boldsymbol{z}) d\boldsymbol{z}
\nonumber\\
&\geq \sum_{n=1}^N \mathbb{E}_{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}\left [ \log{\frac{p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta}) p(\boldsymbol{z})}{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}} \right ]
\nonumber\\
&=: \mathcal{L}(X)
\label{eq:derive_elbo_vae}
\end{align}

これを変換し,

 \begin{align}
\mathcal{L}(X) &= \sum_{n=1}^N \mathbb{E}_{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}[\log{p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta})}]
\nonumber\\
&- \mathrm{KL}(\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi}) \mid \mid p(\boldsymbol{z}))
\nonumber\\
&\simeq \sum_{n=1}^N \log{p(\boldsymbol{x}_n \mid \boldsymbol{z}_n ; \boldsymbol{\theta})} - \mathrm{KL}(\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi}) \mid \mid p(\boldsymbol{z}))
\label{eq:elbo_vae}
\end{align}

概念的には,第一項の再構成誤差項はより入力データXを表現するよう潜在変数\boldsymbol{z}を学習させ,第二項の正則化項は正則化によって潜在表現の各軸の独立性を高める.

これの拡張である\beta-VAEでは,パラメータ\betaを用いてこの損失関数を拡張する.

\begin{align}
\mathcal{L}^{\beta}(\boldsymbol{x}, \boldsymbol{z})=\mathbb{E}_{q(\mathbf{z} \mid \mathbf{x})}[\log p(\boldsymbol{x} \mid \boldsymbol{z})]-\beta D_{K L}[q(\mathbf{z} \mid \boldsymbol{x}) \| p(\boldsymbol{z})]
\end{align}

しかし,これは\betaの調整によってどちらの項を優先するかを決めることができるが,トレードオフを避けることができないことが問題となっている

この損失関数にTsallis統計ベースのパラメータqを用いることで,トレードオフを解決する.以下の式は上の式の対数関数をq-対数関数に変換したものである.

\begin{align}
\ln_q p(X) &= \sum_{n=1}^N \ln_q \int p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta}) p(\boldsymbol{z}) d\boldsymbol{z}
\nonumber\\
&\geq \sum_{n=1}^N \mathbb{E}_{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}\left [ \ln_q{\frac{p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta}) p(\boldsymbol{z})}{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}} \right ]
\nonumber\\
&=: \mathcal{L}_q(X)
\label{eq:derive_elbo_qvae}
\end{align}

これを変換し,

 \begin{align}
\mathcal{L}_q(X) &= \sum_{n=1}^N \mathbb{E}_{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}\bigg[
\ln_q{p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta})}
\nonumber\\
&+ \ln_q{\frac{p(\boldsymbol{z})}{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}}
\nonumber\\
&+ (1 - q) \ln_q{p(\boldsymbol{x}_n \mid \boldsymbol{z} ; \boldsymbol{\theta})} \ln_q{\frac{p(\boldsymbol{z})}{\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi})}} \bigg]
\nonumber\\
&\simeq \sum_{n=1}^N
\ln_q{p(\boldsymbol{x}_n \! \mid \! \boldsymbol{z}_n ; \! \boldsymbol{\theta})}
\! \left \{ \! 1 \! + \! (1 \! - \! q) \ln_q{\frac{p(\boldsymbol{z}_n)}{\rho(\boldsymbol{z}_n \! \mid \! \boldsymbol{x}_n ; \! \boldsymbol{\phi})}} \right \}
\nonumber\\
& - \mathrm{KL}_q(\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi}) \mid \mid p(\boldsymbol{z}))
\nonumber\\
&= \sum_{n=1}^N
\frac{\ln_q{p(\boldsymbol{x}_n \mid \boldsymbol{z}_n ; \boldsymbol{\theta})}}{\beta_q(\boldsymbol{x}_n, \boldsymbol{z}_n)} - \mathrm{KL}_q(\rho(\boldsymbol{z} \mid \boldsymbol{x}_n ; \boldsymbol{\phi}) \mid \mid p(\boldsymbol{z}))
\label{eq:elbo_qvae}
\end{align}

元々の損失関数と見比べると,対数関数がq-対数関数に置き換えられていることに加え,第一項の再構成誤差項にパラメータqによって決定される定数\beta_qがかけられている. q \lt 1において,この定数は第一項の情報量が大きい場合にのみ情報を捨てるよう制約をかける.よって,どちらかの項目を優先することによるトレードオフを解消することができる

人間理解に向けて

課題と展望を最初に述べると,人間の行動の理解のための研究においても,Boltzmann-Gibbs統計のように今まで各軸を独立として扱っていて,その各軸の関係が問題となりうる,そしてTsallis統計はVAEの例と同様にそれを記述できるのではないか?ということである.

 

僕はHRI周りの研究しか知らないが,課題感として持っているのが,ユニットテストの研究は多いが結合テストはあまりされていないんじゃないか?ということ.例えとして二つの架空の研究を並べる.「1.ロボットの見た目がリアルであればあるほど,人間の印象がよくなる」,「2.ロボットの動きがリアルであればあるほど,人間の印象がよくなる」両方同時に観測された場合には傾向が変わるかもしれなくて,見た目はリアルでも動きはデフォルメされていた方が印象が良くなるかもしれない.\ln_q(xy) = \ln_q(x) + \ln_q(y) + (1 - q) \ln_q(x) \ln_q(y)の第三項の影響が生じるのではないか?と考えている.

これは人間の行動分析などでも同様に起こりうる問題ではないか?と思っている.人間の行動を分析する際,典型的には特定の条件に注目し,可能であれば他の条件を統制する.例えば,「会議の直前に甘いものを食べた時とそうでない時で,会議中に厳しい発言をするかどうか」.実際様々な要因が含まれるものを実験条件として統制しているが,統制された諸要素はある特定の条件のはずである.具体的には気温がちょうど良いかどうかとか.条件間で室温は仮に24度で設定されていたとして,甘いものを食べた場合に厳しい発言が減ったとする.しかし,試していなかった室温条件10度では,甘いものを食べていない時の方が(何かしらの要因で)厳しい発言が減るかもしれない.

こういった条件を人間の知見ベースで変えていくのではなく,条件設定を明示的にせずにデータを収集し,各軸の表現を自動的に獲得できると良いのではないかと,理想論かもしれないが,そう思っている.人間の知見で問題を単純化するのではなく,仕組みによって問題の特徴うまくを捉えてやれると良い気がする.

終わりに

人間理解に向けた課題として,問題を切り分け単純化した軸で扱うが,単純化した軸ごとの相関などの関係が問題になるのではないかと考えた.また,Tsallis統計はBoltzmann-Gibbs統計における相互作用の問題を解決しており,人間理解に向けても同様に適用できるのではないかということを述べた.

しかし,概念的にこうというだけでは足りないので,実際に人間をより複雑の状況設定で,簡単な軸に切り分けずに表現できることを実証する必要がある.

そして,推考する中で高次元の統計学みたいな結論になってしまったな…と思う.

参考文献

須鎗弘樹. "Tsallis 統計力学の背景と新展開." 日本物理學會誌 63.6 (2008): 450-454.

Kobayashi, Taisuke. "q-VAE for Disentangled Representation Learning and Latent Dynamical Systems." arXiv preprint arXiv:2003.01852 (2020).

須鎗弘樹. ”Tsallis統計の基礎数理". http://www.ne.jp/asahi/hiroki/suyari/suyari's_manuscript_mathphys2009_revised_v1.1.pdf

 

*1:詳しくない 

*2:i.i.d(独立同分布)を仮定

*3:Boltzmann-Gibbs統計について詳しく書ける知識がない…本来はShannonエントロピーを例に取り,Tsallis統計ではパラメータqによるShannnonエントロピーの拡張としてTsallisエントロピーが導出される過程を紹介した方が良いとは思う.

*4:というか,論文の主張である

*5:

qiita.com