| 統計に関するミニ知識中級編 | |
|---|---|
|
初級編のポイントである2乗和の分解について 例題で解説します。 |
直交表の割付に必要な線点図について直交表L8の 例題で解説します。 |
|
直交表の割付技法の一つであるダミー法について 直交表L18の例で解説します。 |
直交表の割付技法の一つである組合せ法について 直交表L18の例で解説します。 |
|
1つの要因(変数)の実験や調査データを解析する 方法を例題で解説します。 |
直交表のデータ解析における補助表の作成方法を 直交表L18の例で解説します。 |
|
直交表のデータ解析におけるStとSmの計算方法を 直交表L18の例で解説します。 |
直交表のデータ解析における因子変動の計算 方法を直交表L18の例で解説します。 |
|
直交表のデータ解析における分散分析法の作成 方法を解説します。 |
統計に関するミニ知識初級編・中級編の知識を もとに品質工学にチャレンジします。 |
初級編のまとめ・・・2乗和の分解■パソコンの処理時間を改善するには
解析君は、インターネット経由によるデータのダウンロード時間の短縮を検討しています。現在所有しているA社のパソコンで同一のデータを5回ダウンロードし、それにかかった処理時間を測定してみました。
![]()
処理時間を見ると、最短160秒で最長170秒、平均165.2秒でした。この時間値の差は、回線の混雑度やプロバイザーの利用状況など、使用環境によるものが考えられます。
次に、パソコンを通信処理速度の高いB社製に変えて、同じデータをダウンロードしてみました。
![]()
処理時間は最短153秒、最長169秒、平均160.4秒で、A社製より平均処理時間は4.8秒(165.2-160.4)短縮しました。しかし、B社製でも5回の処理時間には差が見られます。
この結果をみて、解析君は悩んでいます。通信処理速度の高いB社製に変えると、平均処理時間は4.8秒短縮できるが、使用環境によっては169秒かかることもあるので、現状の最長時間170秒と大差がない。パソコンを変えるべきなのか、使用環境を変えるべきなのか?
この意思決定を行うためには、「処理時間の差をパソコンによる違いと使用環境による違いに分ける必要がある」と考えた解析君は、データ解析の研究を開始しました。
■目標値からの差を2乗する
解析君は、ダウンロード時間を150秒まで短縮したいと考えています。
![]()
そこで現状の処理時間と目標処理時間(150秒)の差を計算しました。
![]()
A社の1回目は、166秒−150秒=16秒となります。このようなある値(目標値、最大値、最小値や平均値)と測定値との差を偏差と呼びます。
解析君がまず考えたことは、全体で目標値からどれだけの差があるかです。目標値150秒からの全体の偏りは、偏差の平均により求められます。これを y バーとすると目標値の150秒に対して全体では12.8秒の差があることが分かります。
![]()
ここで解析君は、偏差の平均である y バーは10個の偏差の共通データなので、各偏差からこの共通データ( y バー)を分ければ、各偏差の固有データが発見できるのではないかと考えました。
目標値からの偏差は2行5列のデータです。この偏差をyij(iは行、jは列)で表すと、10個の偏差はy11〜y25となります。例えばA社の一回目の偏差16は、y11で表せます。
この偏差を全体の偏り(y バー)とそれ以外の固有偏差に分けると以下の式で表せます。
16 = 12.8 + 3.2 … (2)
10個の偏差を全体の偏り(y バー)とそれ以外の固有偏差に分けた結果が以下の表です。
![]()
ここでそれ以外の偏差(yij-yバー)は、一つ一つの違いを表し個体差とも呼ばれています。この場合の個体差は、パソコンの処理能力やダウンロード時における使用環境の違いなどによるものです。
解析君は10個の偏差を合計してあることを発見しました。偏差を合計した行に着目してください。個体差は全体の偏りからの差なので、合計すると0になり、パソコンや使用環境の違いによる偏差が消えてしまいます。
そこで考えられたのが偏差を2乗するという考え方で、偏差の2乗を変動と呼びます。上表の左辺(yij)の2乗の合計は、目標値からの偏差の2乗和であり、全変動といい記号STで表します。
実際に計算すると、次のようになります。
全変動(ST)=16×16+20×20+18×18+12×12+10×10+8×8+12×12+19×19+10×10+3×3=1902 (f=10)…(3)
この全変動(ST)1902は、10個の2乗データの合計です。変動の計算における2乗の個数を自由度と呼び、記号fで表します。
上表の右辺第1項は、全体の偏りですから2乗の合計は偏りの大きさの総量となります。取上げているデータの平均の大きさですから一般平均の変動といい、記号ではSmで表します。
![]()
一般平均の変動は、合計の2乗をデータ数で割って求めるので、2乗の数は1なので自由度は1となります。
次に上表の右辺第2項の2乗の合計は、個体差の2乗和で誤差変動といい、記号ではSeで表します。
![]()
(3)、(4)、(5)式の結果より、(6)式になっていることがわかります。
St = Sm + Se …(6)
1902 = 1638.4 + 263.6
(6)式を文章でかけば、次のようになります。
全変動 = (一般平均の変動) + (誤差変動)
ST = Sm + Se
このように、データを2乗することにより、データは平均値の2乗の集まり(一般平均の変動:Sm)と平均値からの偏差の2乗和(誤差変動:Se)に分解することができます。
直交表L8のの見方・使い方■直交表L8
図は直交表L8と呼ばれているものです。Noは、実験番号またはわりつけ番号と呼ばれ、1から8まであります。一方、縦の列は直交表の列と呼ばれどの列も、1と2という数字2個ずつから構成されています。したがってある列と別の 列の数字の組合せは1と2の数字の組合せなので、4通りということになります。
![]()
2つの列がいずれも1と2という数字を含んでいて、4通りの組合せ(1,1)、(1,2)、(2,1)、(2,2)が同じ回数表れている場合、その2列はバランスしているとか、直交しているなどと呼びます。直交表L8の7列のなかから、任意の2列をとって(1,1)、(1,2)、(2,1)、(2,2)の組合せの数を数えてみれば、いずれも直交していることがわかります。直交表の各列に因子を割当てると、1と2という数字は因子の水準を表しています。
■因子間の交互作用と線点図
直交表L8に4つの因子A、B、C、Dを割付けると3列あまることになります。その場合あまった3列には、大きい効果をもつと思われる因子の交互作用が求められるように割付けることができます。このとき利用するのが線点図です。直交表L8には、二つの線点図が付随しています。
![]()
![]()
線点図(1)は、1列と2列の交互作用は3列になり、2列と4列との交互作用は6列になり、1列と4列の交互作用は5列になることを示しています。7列が三角形からはずれていて、独立な点となっています。
4つの因子A、B、C、Dの中で最も効果が小さいと考えられる因子Dを除いて、他の因子間の交互作用が求められるように割付けるには、Aを1列に、Bを2列に、Cを4列に対応させると、
交互作用A×Bは3列から、A×Cは5列から、B×Cは6列から求まることを示しています。
直交表の割付・・・ダミー法直交表L18には、2水準が1列、3水準が7列あります。もし、2水準が2因子、3水準が6因子あった場合は、どのように直交表L18を活用したら良いでしょうか。これに応える方法にダミー法があります。
ダミー法では、3水準の列に2水準の因子を対応させるのに、形式的に3水準にします。例えば因子A、Bが2水準、CからHが3水準とします。これを直交表L18に割付けるには、Aは1列に対応させ、Bは2水準のうち重要なほうを重複させ、形式的に3水準とします。
たとえば、2水準のBのうち、B1が重要だとしたら、B1=B1、B2=B2、B3=B1とします。直交表の水準は3水準のままでもよいですが、ダミーであることを示すために1'とすることもあります。
![]()
直交表の割付・・・組合せ法組合せ法は、ダミー法の対象になる因子が複数あるときに用いる方法です。例えば、2水準の因子A、Bがあるとき、ダミー法なら3水準の2列が必要です。
A、Bの4通りの組合せのうち、次の3通りだけを取り上げることにすれば、3水準の列が1列ですみます。
(AB)1=A1B1、(ab)2=A2B1、(AB)3=A1B2
この(AB)を組合せ因子といい、組合せ因子を作って割付ける方法が組合せ法です。
![]()
しかし、組合せに用いた因子どうしは直交しないので、全変動をすべての要因変動に分解できません。したがって、組合せ法はやむを得ず使う方法です。
2乗和の分解・・・1元配置初級編のまとめでは、全変動(ST)を一般平均の変動(Sm)と誤差変動(Se)に分解しました。
次に解析君は、全変動の中にパソコン間の差があるにちがいないと考え、パソコン別の偏りを求めることにしました。A社の変動P1、B社の変動をP2とすると、パソコン間の変動に差が見られます。
![]()
![]()
この
A社の変動の平均P1バー(15.2)と全体の偏りyバー(12.8)との差2.4
B社の変動の平均P2バー(10.4)と全体の偏りyバー(12.8)との差-2.4
はパソコン間の違いになります。
この違いを考慮すると目標値からの偏差をyij(iは行、jは列:y11は16)とすると、yijは以下の(11)式で表すことができます。
![]()
y11では、(12)式のようになります。
16 = 12.8 + 2.4 + 0.8 … (12)
10個の偏差の計算結果が以下の表です。
![]()
パソコン間の偏りの2乗和は、パソコンによる変動(Sp)といい、(13)式で求められます。(13)式は、(P1-yバー)と(P2-yバー)が5個ずつあるのでの[ ]内が5倍されています。
![]()
(13)式は、整理すれば(14)式のように書き表せます。証明は、各自でお願いします。実際に計算した結果を(16)式に示します。既に求めた全変動(ST;1902)の中で、57.6がパソコン間の違いになります。
![]()
![]()
次にパソコン間の差を除いた誤差変動は、(16)式の右辺第3項の2乗和で、以下のようになります。
![]()
以上の解析により、ダウンロード時間の全変動(ST)は、一般平均の変動(Sm)、パソコン間の変動(SP)、誤差変動(Se)に分解することができます。
直交表のデータ解析・・・補助表下図の直交表L18は、5種類の因子A、B、C、D、Eに対してそれぞれ3水準を設定し、測定をN1とN2と2回行った結果です。データは目標値からの差として表しています。因子A、B、C、D、Eは、2、3、4、5、6列に割付け、余った1、7、8列は誤差の役割をしています。
![]()
直交表にわりつけられた因子の水準別合計をもとめます。例えば、Aの第1水準ならは、1、2、3、10、11、12行がこれに相当します。
![]()
Aの第2水準ならは、4、5、6、13、14、15行、Aの第3水準ならは、7、8、9、16、17、18行がこれに相当します。
![]()
同じ計算をB、C、D、Eについて行えば、次の水準別補助表が求まります。
![]()
この補助表により要因別の最適水準が決定できます。
データは目標値からの差なので、ゼロに近いほど良いことになります。要因Aでは、1水準が-0.67、2水準が0.66、3水準が1.84なので、2水準が最適になります。
同じように、要因Bは2水準、要因Cは1水準、要因Dは3水準、要因Eは2水準が最適になります。
直交表のデータ解析・・・STとSm全変動STはもとの個々のデータから求めます。
![]()
![]()
一般平均の変動Smは、以下の式で求まります。
![]()
直交表のデータ解析・・・因子の変動補助表で求めた因子Aの水準別傾向が下図です。
![]()
因子Aの水準間の変動SAは、(20)式で求められます。
![]()
(20)式第1項の係数の分母は、A1のデータが、6×2=12個のデータの和であることを表しています。この式は、「2乗和の分解・・・1元配置」の(14)式と本質的には同じです。
つまり、A1、A2、A3の平均値A1バー、A2バー、A3バーについて、全平均値Tバーよりの差を求めたものが、それぞれ6×2個ずつあると考えればよいのです。
![]()
■練習問題
因子B、C、D、Eの変動(SB、SC、SD、SE)を求めてください。解答は、このページのどこかにあります。
直交表のデータ解析・・・分散分析表「直交表のデータ解析・・・因子の変動」のような2乗和の分解を行った場合、誤差変動は(22)式のようになります。
![]()
“直交表のデータ解析・・・補助表”、“直交表のデータ解析・・・STとSm”、“直交表のデータ解析・・・因子の変動”の計算過程をまとめたものが以下の分散分析表です。
![]()
分散分析表で新しく出てきた純変動(S')と寄与率(ρ)について解説します。
上記分散分析表は、36個の実験結果なので、目標値からの差は36個なければつじつまが合いません。ところが、誤差変動Seの中には目標値からの差が25個(自由度:f=25)しか含まれていません。残りの11個は、Sm、SA、SB、SC、SD、SEの中に自由度分ふくまれています。
そこで、Sm、SA、SB、SC、SD、SEのなかから自由度の数だけ誤差分散(1個分の変動)を引かなければ本来の変動は求められません。これを純変動と呼びダッシュをつけて表します。
純変動(S')=変動(S)-自由度(f)×誤差分散(Ve)・・・(23)
SA'の場合は次の(24)式のように計算します。
SA'=SA-2×Ve=0.263-2×0.0445=0.1738・・・(24)
SDのように、SD'がマイナスになる要因は、変動の中身が誤差変動であることを示しているので、純変動は計算しません。つまり、SDの0.060はすべて誤差変動で、要因Dの変動はゼロということになります。
このようにして求めた純変動の比率がρ(寄与率)になります。