計算統計学の最近の動向

共分散構造分析の理論と応用

 

伊藤武彦 人間関係学部助教授

はじめに

 筆者が学生時代に統計学とデータ解析の手ほどきを受けた頃は、関数電卓がちょうど学生の手の届く価格になった時であった。大学では紙テープにプログラムとデータを入れる時代であった。今から考えると簡単な統計計算でも、当時は手間のかかる大変な作業であった。一九八○年代から九○年代にかけてパーソナルコンピュータが普及し、高性能の計算機が比較的安価で購入できるようになった。現在のパソコンは一○年前の大型電子計算機よりも機能が上であろうと言われている。高性能化だけでなくマッキントッシュやウインドウズ95など、マウスを利用するGUI(グラフィック・ユーザー・インタフェース)が進み、利用者が以前とは比べものにならないくらいに使いやすい道具となってきた。例えばSPSSという統計ソフトウェアでは、一九九四年にウインドウズ版が発売されてから、それまでコマンド言語によるプログラムを一行ごとに書かねばならなかったのが、因子分析や重回帰分析などの高度な統計手法をマウスのクリックだけで実行できるという、夢のような事態になった。

 また、インタネットの発展も著しく、グラフィックな環境で手軽に世界中の情報を得ることができるようになった。水田(一九九六、九七)は、統計ソフトウェアを自分のWWW(インタネットのホームページ)で公開し、遠隔地にあるデータを、自宅で手軽に計算するということも可能になっている。今回の論文もSEMNET(共分散構造分析利用者のメールリスト)や統計関係のWWWの情報を参考にすることができた。ここ二・三年で、データ解析や統計利用の環境が一変した感がある。

 統計手法も、コンピュータ技術の発展によって、めまぐるしい展開を見せている。そのうちの一例として、本論文ではコンピュータソフト利用による「共分散構造分析」の手法と適用例について紹介する。

一、新しい統計手法としての共分散構造分析

1 共分散構造分析とは

「共分散構造分析」というのは、「直接観察できない潜在変数を導入し、その潜在変数と観測変量の間の因果関係を同定する事により、社会現象や自然現象を理解する為の統計的アプローチ」である(狩野、一九九六)。この共分散構造分析を行なう為に導入されたモデルが「共分散構造分析モデル」である。

 共分散構造分析は別名、構造方程式モデル、因果構造モデル、LISRELモデルとも呼ばれている。

2 共分散構造分析とパス図

共分散構造分析を理解するためには、基本的に、「パス図」を理解する必要がある。それには、いくつかルールがあり(豊田、一九九二)、先ず、第一に、観察されるデータ、実験のデータとか質問紙の答えは四角形で囲むというルールがある。第二に、それらの背後にあるだろうと予測される因子や潜在変数は円または楕円で囲む。第三に、誤差変数は、小さな円または楕円で囲む場合と囲まない場合がある。第四に、因果的な影響を与える変数から与えられる変数に単方向の矢印を書き、矢印に共分散を付与する。第五に、共変動を示す二つの変数に因果関係を仮定しないときは双方向の矢印を書き、矢印に共分散を付与する。

 この五つのルールにしたがって示されたパス図は、モデルの特徴を直観的に伝達するという特長をもっている。すなわち、矢印は因果の方向を表わし、単方向の矢印をもらっていない変数は外生変数であり、パス係数をたどることにより直接的効果、間接的効果、総合効果を知ることができる。これらは、パス図を発明した生物統計学者Wright(一九二一)以来の手法であるが、潜在変数(因子)がパス図に導入されることにより、複雑な関係が視覚的・具体的に表現・理解できるという長所を持つ。

 しかも、共分散構造分析のパソコン用ソフトウエアの中にはAMOS等のように、パス図を書くことにより、自動的にプログラムを記述するというビジュアルなGUIを用いることができるようになった。

3 共分散構造分析の特徴

 共分散構造分析の特徴の一つは、回帰分析に潜在変数を導入したということである。また、伝統的な因子分析は探索的因子分析であるが、このモデルの場合は、検証的とか確証的因子分析と呼ばれる。要するに、因子分析に因果関係 (パス解析)を導入したともいえるのである。

 共分散構造分析の長所として、豊田(1992,pp iv-v)を参考にまとめてみると、先ず、第一に、仮説に基づく構成概念の関係を表わせるということある。すなわち、構成概念相互の関係の仮説を検証できるということである。それが正しいかどうかは、モデルの〈当てはまりのよさ〉と、パス係数の〈強さ〉でみることができる。

 第二に、モデルの比較ができるということである。適合度の指標には、(1)モデルが母数の推定に利用したデータの振る舞いをどの程度説明しているかという「説明力」と、(2)同様なデータを何度も収集し、そのたびに同一のモデルで母数の推定を行なうと仮定した場合の推定値のばらつきが小さいかという「安定性」の二つの観点がある。適合度指標をみることにより、モデルのあてはまりの良さが評価できるとともに、競合するモデル間の優劣をつけることができる。

 第三に、モデル表現が豊かなことである。双方向因果とか制約つき母数、間接相互効果などのモデル表現が豊かである。豊田・前田・柳井(一九九二)、豊田(一九九二)などに、いろいろな実例が載っている。

 第四に、誤差を、因果関係の誤差・独立変数の誤差・従属変数の誤差と三種類に区分し、誤差変数間の相関を認める ということである。これにより、相関の希薄化の修正(後述)をすることができるのである。また、重回帰分析にはできないこととして、変数間の誤差が相関していることを認めることができる。これは、同じ被験者に時間をおいて何度もデータをとる縦断的な研究を行なう場合に有効である。 

二、共分散構造分析の例:大学生の平和意識の構造

 統計の手法には、発見的方法(探索的分析)と仮説検証的方法との二種類があるが、共分散構造分析は主に仮説検証型の統計的手法として位置づけられている(もちろん、探索的に用いることもできる)。ここでは、仮説検証的に共分散構造分析を用いた研究例を紹介する。諸観察変数間の関係に基づき、「人間性の信念」という因子が大学生「平和希求の傾向」の因子にどれくらい影響しているかというモデルを検証する研究である。

1 問題:人間性の信念と平和希求傾向の関連

 心理学とその関連分野では、フロイトの時代から人間は何故戦争を起こすのかについて長く議論されてきた。文化人類学者のマーガレット・ミードは、なぜ戦争が起こるのかについて、生物的な要因と社会的な要因を重視する二つの対立する立場において、〈人間は戦争を発明した〉と説明している。戦争は人間の本能であるとか、人間は戦争を避けられないとか、人間は戦争をする遺伝子を持っているとかいった、いわば〈誤った生物学的な装いを持った信念、神話〉が、平和意識に対してマイナスの影響を与えているのではないかという危惧がある。この問題意識から、一九八六年に、心理学者、社会科学者、人文学者が一堂に会し、『暴力についてのセビリア声明』(アダムズ、一九九六)が採択された。

 次いで、これは、一九八九年にユネスコで採決された。このユネスコの暴力に関するセビリア声明には、五つの命題が示されている。それらは、(1)「動物であったわれわれの先祖から戦争をする傾向を受け継いでいるという考えは、科学的に不正確である」、(2)「戦争あるいはその他の暴力行動は、人間の本性の中に遺伝的にプログラムされているという考えは科学的に不正確である」、(3)「人間の進化の過程では、攻撃行動は他の種類の行動より選択される傾向が強かったという考えは科学的に不正確である」、(4)「人間は脳の中に〈暴力中枢〉を持っているというのは科学的に不正確である」、(5)「戦争は〈本能〉あるいは何か単一の動機によって引き起こされるという考えは科学的に不正確である」というものである。

2 目的と方法

【目的】 一九八六年のセビリア声明(アダムズ、一九九六)は、戦争が人間に遺伝的に組み込まれているのではなく、人間の「発明」であることを宣言した。一方で戦争は人間の本能であるという非科学的信念が現代青年の考え方の中に根をはっている。本報告では、セビリア声明に示されたような人間性に関する信念が、青年の平和希求の意識と行動傾向に、どのように影響を与えるかについて、質問紙調査を行ない、共分散構造モデルによる因果構造分析を試みる。

【方法】平和意識の質問項目を杉田・伊藤・中川(一九九四)を下敷きに、新たに作成した。

被験者:二二三名のW大学生。男子一一八名女子一○五名。年齢の範囲は一八歳から二六歳まで、平均年齢一九・三歳(SD=1.46歳)。一九九五年六月に大学での授業時間内において集団実施による質問紙調査法により回答を得た。調査項目のうち「人間性についての信念」(セビリア声明項目)として、(1)平和への努力、(2)反本能論、(3)弱肉強食、の三つの尺度と、「平和希求傾向」について(1)戦争と平和についての意見と(2)平和に関する行動への意志の、五分野について五件法による回答を分析した。

3 共分散構造分析の結果と考察

 上記の五つの分野の得点の相関を表1に示す。また、多重指標モデルによる共分散構造分析の結果を図1に示す。

 今回の目的は、どれが高い低いではなく、むしろ独立変数と従属変数それぞれの関係を見る事である。図1はEQS(Bentler,1995)で計算とパス図の出力をおこなった(図2はAMOSを用いて作成した)。なお、ソフトによって欠損値の扱いが、異なっている。今回は生データーからListwiseで欠損値を処理した。

 共分散構造分析というのは、共分散の構造を分析する方法である。共分散は、多変量の場合、変数同士の行列の形式(共分散行列)で表わす。共分散を標準化したものが、相関係数であり、変数間の関係を表示したものが表1のような相関行列である。相関係数の相関の強弱の関係がどのようなモデルで説明できるかを明らかにする方法として、共分散構造分析を特徴づけることができる。

 相関係数の関係を共分散構造分析によって潜在変数を加えて簡潔に縮約すると、図1になる。我々の仮説は、セビリア声明が批判した人間性に対する悲観的傾向が少なければ少ない程、平和を希求する傾向が強いのではないかという事である。この図は、楕円が潜在変数であり因子分析の因子に相当し、四角形で囲まれたのが観測変数であり、これは質問紙の結果から直接導き出されるものである。質問紙から直接に観察された変数があり、その関係が二つの潜在変数(構成概念)に仲介されることにより、変数間の関係がはっきりする。矢印に添えられているのは標準化されたパス係数である。それぞれの数値は、重回帰分析でいうと、標準回帰係数にあたり、因子分析においては、因子負荷量に相当する。絶対値は、0から1の値をとり、1であれば一方の分散が他方の分散と一○○%関連があるという事である。人間性の信念(F1)から平和的傾向(F2)に矢印がでている。この矢印のパス係数は、.789である。これを二乗したものを決定係数とよび、相手の変数の分散をどれだけ説明しているかという割合を示す。これは、DとかEとかといった誤差項目以外で説明できる割合に相当する。F2のばらつきの六割以上をF1で説明でき、残りの三十数%は他のもの(誤差項目Dに相当)から説明できる。平和希求傾向は、人間性の信念から、その分散のかなりの部分が説明できることがわかった。

 図2は重回帰モデルをAMOSを用いてパス図にしたものである。図1のパス係数よりも図2のパス係数の値が小さいことがわかる。例えば、図2のx1からy2のパス係数は.36であり五つの矢印の中では最大であるが、図1のパス係数と比べると小さい。図1は、X1からY2の経路にF1とF2があり、パス係数をたどると、.689、.789、.594となっている。これは相関の「希薄化」が、重回帰分析では修正されず、共分散構造分析によって修正されたことを示している。

三、共分散構造分析についての考察

 以上の例のモデルは、それほど複雑なものではないが、質問紙調査から仮説検証的な研究が可能であることを示している。相関(共分散)のデータによって因果関係を導くことは慎重でなくてはいけないが、仮説によるモデルがどのくらいデータに当てはまるかということと、変数相互の関連の強さが数量的に表わしうることを示した。以下では共分散構造分析の長所と問題点について考察する。

1 共分散構造分析の利点

 多変量解析では、複雑な多変数の間をなるべく縮約する事と、相互の因果の関係を明らかにする事で、いろいろな手法が発達してきた。これに加えて共分散構造分析では、潜在変数間の因果関係、相互関係を計算できるということで、より高いレベルの分析ができる、非常に大きな可能性をもった手法ではないかと思う。なお、これまでの手法は、共分散構造分析の下位モデルとして位置づけられるし、共分散構造分析のソフトでも計算が可能である。

(1)変量間の因果や相関の関係が簡潔に表現できる:パス解析と潜在変数(要因)の結合

 多数の観測変数を少数の因子すなわち潜在変数に縮約して整理するという因子分析の特徴と、変数と変数との関係をパス図を用いて視覚的に表わすというパス解析との両者の特長を結合することにより、複雑な因果関係や相関関係を簡潔に表わすことができることが、共分散構造分析の大きな長所である。共分散構造分析は、回帰分析に潜在変数(因子)を導入した手法とも言える、因子分析の因子間に相関や因果関係を導入したものとも言える。

 共分散構造分析モデルによる因子分析は「確認的(あるいは検証的)因子分析」と呼ばれ、Spearman(一九○四)以来の伝統的手法である「探索的因子分析」とは区別される。確認的因子分析では、関連の薄い観察変数と因子間の母数を0に固定することにより、因子構造の仮説を検証することができる。これは、探索的因子分析データから帰納して因子を抽出するのと対照的である。

(2)相関の希薄化が修正できる:測定誤差の分離

 前節の、共分散構造分析による因果モデルと、重回帰分析モデルとで、標準化されたパス係数を比較すると、共分散構造モデルでのパス係数の値が高くなっている。共分散構造分析では独立変数の誤差の分離、構成概念間の誤差、従属変数の測定誤差を分離することにより、観測変数間の「相関の希薄化」を克服することができたためである。

(3)モデルの「検証」が可能である:モデルの改良の容易さと適合度指標

 従来の多変量解析では、因果モデルがデータとどの程度適合しているかの指標がなかったためモデル間の比較が統計的に不可能であった。

 豊田(一九九七)は共分散構造分析と重回帰分析によるパス解析の相違点として、パス解析では、

[1]正確な推定値が報告されないことが多い

[2]モデルとデータの適合を吟味できない

[3]分析者の仮説を表現する自由がきわめて少ない

という三点で共分散構造分析に劣っているとのべ、『教育心理学研究』論文のパス解析モデルを共分散構造分析で分析し直してモデルの改善例を示している。

 このように、原論文の共分散行列や相関行列を利用して再分析できるのも共分散構造分析の大きな特徴である。

2 共分散構造分析の問題点

 共分散構造分析は長所の多い統計分析方法であるが、問題点もないわけではない。筆者が気づいたことを述べてみよう。

(1)潜在変数と構成概念の実体化の問題

 豊田(一九九二、一○○頁)が言うように「メンデルが導入した遺伝子は二○世紀初頭までは構成概念であったが、現在ではDNAという形で実在することが確認されている。しかし共分散構造モデルで扱われる構成概念は、ほとんどの場合に実在するものではないし、測定 ― 構造方程式はデータの真の発生機構でもない。共分散構造モデルは、複雑にからみ合いすぎて、データの振る舞いを完全に予測することなど到底不可能な社会 ― 人文 ― 行動科学分野における実用的な因果関係を発見するための手段、あるいは思考の経済のための記述の域を出ない」。心理学的な構成概念は抽象的な概念であるにもかかわらず、それらを実体として具象化する誤りを、これまで心理学者は犯してきた。グールド(鈴木・森脇訳一九八九)は知能研究における知能指数遺伝論と因子分析という統計的手法によって知能を一つの実体として具象化(reification:抽象的概念を具象に変える傾向)してきた歴史を批判的に検討した。ゴダード、ターマン、ヤーキーズの知能遺伝論・生得性説とスピアマン、バート、ジェンセンなどの因子分析における因子(潜在変数)としての知能概念の具象化の言説を批判的に検討している。優れた因子分析家たちが陥ったのは、構成概念である「知能」・「因子」が生物学的な実体として存在する「もの」であるという具象化の誤りであった。

 共分散構造分析においても、潜在変数(因子)をモデルの中にとりいれることと、それが現実世界に実体として存在するとみなすこととは峻別しなければならない。

(2)標本数の問題

 共分散構造分析における最適化計算が成功するかどうかに関わる問題として、標本数の問題がある。共分散構造分析をおこなうには、粗い目安として一○○以上の標本が必要だといわれている(Loehlin, 1992;服部&海保、一九九六)。Hair, Rolph. Anderson, Tatham &Black.(1995,p637)は最尤法での目安を一○○標本数とし、標本数の絶対最小値を五○とし、また、一推定母数あたり五標本は最低必要だとしている。心理学研究の場合、質問紙調査などでは問題にならないかもしれないが、実験的研究や縦断的な観察にもとづく発達研究などでは、五○〜一○○名以上の被験者を得るのは困難な場合がある。これは、共分散構造分析を適用する場合の大きな制約である。

 何名の被験者が必要かという問題は検定力(検出力)powerに基づいて、実験や調査の計画を立てる段階で検討する(検定力分析)ことが望ましいとされている。共分散構造分析における検出力分析の理論は発展してきている(Kaplan,1995)とはいえ、共分散構造分析ソフトウェアから結果が自動的に出力するというまでには至っていないようである。

(3)PLSとの比較

 また、共分散構造分析によく似た因果モデルを計算する方法としてHerman Woldが開発したPLS(Partial Least Squares:Wold,1980)が代案として考えられる。PLSの共分散構造分析に勝る特徴として、Fornell& Cha(1994)は、PLSが(1)因子得点の不定性、(2)不適解の可能性、(3)分布の仮定、の三つを避けて推計学的因果関係を明らかにできるとしている。従ってPLSモデルでは被験者数が二○名程度でもモデル構成による母数推定が可能であるという。表2はPLSモデルと共分散構造分析モデルを比較したものである。

 共分散構造分析では、潜在変数と観測変数との関係(測定方程式)が通常、因子分析モデルである(いわゆる多重指標モデル)のに対して、PLSでは、潜在変数が観測変数の合成変数であってもよい(主成分分析モデル)。すなわち、共分散構造分析(LISRELモデル)では、基本的に観測変数が外生変数(一方向の矢印を受け取らない変数)にはなれないが、PLSモデルでは独立変数に当たる観察変数が外生変数となり、それを合成したものを潜在変数と扱うことができる。共分散構造分析の下位モデルとしてのPLSモデルについては豊田(一九九二)、豊田・前田・柳井(一九九二)、石村(一九九五)を参照されたい。

 豊田(一九九二)はPLSモデルを共分散構造分析の下位モデルとして扱っているが、LVPLSというDOSベースの統計ソフトがあり、現在はカルガリー大学のWynne Chin がウインドウズ版(PLS-Graph)を開発中であるということである。

 Bagozzi & Yi (1992,pp18-19)も、[1]多変量正規分布が成立しないとき、[2]標本数が小さいとき、[3]非収束あるいは不適解が起こりそうなとき(例えば母数の多い複雑なモデル)のPLSモデルが有利であると述べている。しかしPLSの問題点として、(因子)負荷量を過大に推定しパス係数を過小に推定する傾向にある、母数推定値の解釈が難しい、統計的検定ができず多標本の分析ができない、等を指摘している。

(4)適合度指標の問題

 標本数は共分散構造分析の適合度指標の問題とも関わっている。Hu & Bentler (一九九五)はGFIの問題点として、母数推定法として最尤法または一般化最小二乗法を用いた場合標本数が二五○以下では.90というGFIの目安は当てにならず、正しいモデルを偽として棄却してしまいがちだとしている。逆に、検定力を高めようとして標本数を大きくするとカイ二乗検定が有意になりやすく、「構成されたモデルが正しい」という帰無仮説が棄却され、正しいモデルが棄却される可能性が高くなる。これに対し、標本数を少なくすればいい加減なモデルでも棄却されないというカイ二乗検定の問題点を、豊田(一九九二)は指摘している。豊田(一九九二)は、共分散構造分析の適合度の指標として、モデルの絶対的評価にはGFI(適合度指標)とAGF(修正適合度指標)、モデル間の比較にはAIC(赤池情報量基準)の三つを提唱している。

 狩野 (一九九六)も、カイ二乗検定の問題点を指摘し、数多くの適合度指標が生み出されて来ているが、どの指標も理論的背景が脆弱だとして、一○○%満足できるものはないが、「標本数Nが数百程度であればカイ二乗検定、N=1000前後以上であればGFI,CFIを指標にするのが妥当であろうと思われます」としつつ、モデル間の比較にはAICもしくはCAIC(consistent AIC)を勧めている。これが日本の(少なくとも心理学の)研究者の間では標準的な見解になっているようで、学会誌などでも、この三つが記述してあることが多いようである。

 AMOSやEQSで共分散構造分析を行なうと二○種類以上もの適合度指標が出力されてくる。煩雑であるし初心者にとっては分かりにくい。今後の研究の進展を望みたいものである。

3 共分散構造分析の今後の展望

 Tremblay &Gardner(1996)は一九八七年から九四年までの心理学論文をPsycLitで検索・分析し七年間で約三倍に論文数が増え、九四年は全体の論文の0.5%で共分散構造分析が用いられていることを示し、今後の更なる増加を予想している。日本でも、一九九○年代になってから共分散構造分析による解析が心理学分野での学会発表や学会誌論文で多く見られるようになった。学部学生に対する教育も立教大学などで行なわれ始めてきている。心理学以外の分野でも今後ますます利用される手法であると思う。