Lineární regrese

 

Statistické modelováni závislosti

Získáme-li v našem výzkumném šetření proměnné, mezi nimiž lze zdůvodnit hledání vzájemného lineárního vztahu, můžeme použít metodu lineární regrese. Regresní analýza je statistická metoda pro modelování závislosti jedné nebo několika (nejlépe měřitelných spojitých) vysvětlovaných náhodných veličin (závisle proměnných) Y1, Y2, …, YG na jedné nebo více vysvětlujících veličinách (nezávisle proměn­ných) Xl, X2, …, XK. Základním úkolem regresní analýzy je pomocí matematické funkce vysvětlit proměnné Y pomocí vysvětlujících proměnných X.

Příčinnost nemůže být statistickou analýzou prokázána, dostáváme totiž jen informaci o závislosti mezi proměnnými. K prokázání příčinnosti je potřeba sestavit komplexní výzkumný plán, ve které budeme minimalizovat všechny aspekty vyplývající z předmětné oblasti. V hierarchii plánů výzkumu z hlediska validity závěru vzhledem k průkazu příčinnosti stojí nejvýše randomizované klinické studie a metaana1ytické studie (Hendl, 2004 s. 75). Analýzu nikdy nelze prová­dět bez obsahového významu proměnných a jen na základě případové studie, i s např. rozsáhlým výběrovým souborem. Statistický popis závislosti dvou proměnných neznamená přítomnost příčinného vztahu (Hebák a kol., Vícerozměrné statistické metody 2, s. 11).

Lineární - funkce lineární v parametrech či funkce, které lze na lineární v parametrech převést vhodnou transformací (např. logaritmováním)

 Příklady regresních funkcí

a) Y = b0 + b1X + b2Z + … + bkQ

b) Y = b0 + b1X + b2X2

c) Y = b0 b1X b2Z, kterou lze přepsat do lineárního tvaru (lineárního v parametrech)
ln(Y) = ln(b0) + X ln(b1) + Z ln(b2)

Nelineární - do této skupiny budeme zařazovat funkce nelineární v parametrech (a linearitu nelze dosáhnout ani vhodnou transformací)

 Příklady regresních funkcí

a) Y = b0 + b1 b2 X

b) Y = b0 + b1X 

 

Regrese a korelace

Pojem regrese pochází z prací antropologa a meteorologa Francise Galtona, které předložil veřejnosti v letech 1877 až 1885. Galton se zabýval obecnými otázkami dědičnosti a konkrétně se zajímalo vztah mezi výškou otců a jejich prvorozených synů. Pozorováním a analýzou údajů došel k rovnici, ze které vyplývá, že vysocí otcové sice mají i vysoké syny, ale v průměru jsou větší než jejich synové, a podobně i malí otcové mají i malé syny, ale v průměru jsou menší než jejich synové. Tuto tendenci návratu následující generace směrem k průměru nazval Galton regresi (původně tomuto jevu říkal reversion, což později změnil na regression = krok zpět). Současné pojetí regresní analýzy má sice jen málo společného s původním záměrem Galtona, nicméně myšlenka přístupu k empirickým údajům zůstala zachována a pojem regrese se natolik vžil, že se používá dodnes (Hebák a kol., Vícerozměrné statistické metody 2, s. 20).

Korelace znamená vzájemný vztah mezi dvěma procesy nebo veličinami. Pokud se mezi dvěma procesy ukáže korelace, je pravděpodobné, že na sobě závisejí, nelze z toho však ještě usoudit, že by jeden z nich musel být příčinou a druhý následkem. To samotná korelace nedovoluje rozhodnout.

V určitějším slova smyslu se pojem korelace užívá ve statistice, kde znamená vzájemný lineární vztah mezi znaky či veličinami x a y. Tento vztah může být kladný, pokud (přibližně) platí y = kx, nebo záporný (y = -kx). Míru korelace pak vyjadřuje korelační koeficient, který může nabývat hodnot od −1 až po +1.

Hodnota korelačního koeficientu −1 značí zcela nepřímou závislost, tedy čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků, např. vztah mezi uplynulým a zbývajícím časem. Hodnota korelačního koeficientu +1 značí zcela přímou závislost, např. vztah mezi rychlostí běhu a běžeckou frekvencí kroků sprintera. Pokud je korelační koeficient roven 0, pak mezi znaky není žádná statisticky zjistitelná lineární závislost. Je dobré si uvědomit, že i při nulovém korelačním koeficientu na sobě veličiny mohou záviset, pouze tento vztah nelze vyjádřit lineární funkcí, a to ani přibližně. Může jít např. o nelineární závislost. Z nekorelovanosti náhod­ných veličin striktně nevyplývá jejich nezávislost, ale naopak z jejich nezávislos­ti vyplývá i jejich nekorelovanost (Zvonař a kol, 2010).

Mezi nevýhody korelačního koeficientu patří jeho citlivost k náhodné chybě. Proto se používá ve srovnávacím experimentu. Je též citlivý také k rozmezí měření. Zvětšením rozsahu měření lze zvýšit hodnotu korelačního koeficientu blízko k 1. Závažná je skutečnost, že korelační koeficient neodhaluje ani přítomnost proporcionální chyby ani chyby konstantní (Hendl, 2004, s. 285). Doporučuje se nahradit/doplnit posouzení korelačního koeficientu, který je pouze mírou lineární závislosti výsledků, jinými postupy, např. Bland-Altmanovým rozdílovým grafem.

Jednoduché, dílčí, vícenásobné i podmíněné korelační koefici­enty jsou mírami vzájemné lineární závislosti náhodných veličin. Rozdíl mezi nimi je v tom, zda vyjadřují vzájemný lineární vztah dvou náhodných veličin při neuvažování všech ostatních veličin (jednoduché), závislost mezi jednou náhodnou veličinou a lineární funkcí všech nebo některých ostatních veličin (vícenásobné), vzájemný lineární vztah dvou náhodných veličin při statistickém vyloučení všech nebo některých ostatních veličin (dílčí) nebo vzájemný vztah dvou nebo více veličin pro dané hodnoty jiných veličin (podmíněné). (Hebák a kol., Vícerozměrné statistické metody 2, s. 24).

 

Regresní modely a jejich klasifikace

Obtížnost konstrukce regresního modelu souvisí s řadou nejistot zcela zásad­ního charakteru. Z věcné analýzy i z konkrétních dat můžeme získat mnoho informací, ale nakonec je nutné předpokládat:

  • součtový nebo součinový vliv uvažovaných i neuvažovaných činitelů;
  • určitý typ regresní funkce;
  • pravděpodobnostní chování a rozdělení rušivé složky;
  • konkrétní okruh rozhodujících vysvětlujících proměnných Xl, X2, …, XK.

Většinou se předpokládá, že zkoumanou závislost znaku Y na znaku X popisuje aditivní regresní model

            Y = f(X, b) + e,                                                                                                 (2.1)

kde vektor Y = (y1, y2, …, yn je náhodný vektor pozorovaných hodnot, X = (x1, x2, …, xn)´ je nenáhodný vektor vysvětlujících hodnot, funkce f(X,b) je teoretická regresní funkce, vektor b = (b0, b1, …, bp)´ je vektor regresních koeficientů (parametrů) a e = (e1, e2, …, en)´ je vektor chyb, čili vektor nezávislých náhodných veličin s rozdělením N(0, s2).

Regresní model (2.1) vyjadřuje, že empirické údaje yi se budou více či méně lišit od teoretických hodnot Yi, čili platí

                        ,                                                          (2.2)

Z předpokladů o rozdělení rušivých složek ei bezprostředně vyplývá, že pozorované hodnoty yi náhodné veličiny Y mají normální rozdělení N(Yi, s2). Nejsou tedy zatížené systematickými chybami, měření jsou prováděna se stejnou přesností a jsou nekorelované.

Popíšeme nejpoužívanějších typy jednorovnicových regresních modelů se zvláštním zaměřením na modely lineární:

Lineární model

V line­árním modelu se předpokládá součtový vliv všech činitelů a regresní funkci

                         Y = b0 + b1X1 + b2X2 + … + bkXk + e                                                                      (2.3)

ve kterém b0 je absolutní člen a b1 … bk jsou dílčí regresní koeficienty. Například parametr bl je interpretován jako očeká­vaná změna veličiny Y při jednotkovém růstu veličiny X1 za předpokladu už uvažovaného, a tudíž statisticky konstantního vlivu vysvětlujících proměnných X2, X3, …, XK, a analogicky je hodnocen význam ostatních dílčích regresních koeficientů.

Racionální celistvé a lomené funkce

Velmi často se používá regresní model, který je lineární z hlediska všech parametrů, ale nelineární z hlediska vysvětlujících proměnných. Oblíbené jsou především modely s jednou vysvětlující proměnnou. V této skupině je asi nej­známější model regresní paraboly s-tého stupně

Y = b0 + b1X + b2X2 + … + bsXs + e

a zvláště regresní parabola druhého stupně, kdy s = 2.

Modely převoditelné transformací na lineární model

Pro exponenciální, mocninné, různě kombinované a další regresní funkce je rozumnější předpokládat obecně součinový (multiplikativní) typ regresního mo­delu ve tvaru

Y = h e

ve kterém h je regresní funkce a e rušivá složka. Časté je použití lineární exponenciální regresní funkce h = b0 bX. Oblíbené jsou rovněž různé formy mocninných regresních funkcí nebo další kombinace uvedených i jiných typů.

Modely nelineární z hlediska parametrů

V opačném případě, kdy regresní funkce má tvar rozdílný od (2.3), mluvíme o nelineární regresní funkci. Podle toho, zda regresní funkce f(X,b) je či není lineární funkcí regresních parametrů, rozlišujeme lineární a nelineární regresi. Rozdíl mezi oběma typy spočívá především ve způsobu výpočtu bodových odhadů regresních parametrů. Lineární modely jsou pro svou jednoduchost velmi oblíbené, ale skutečné vztahy mezi veličinami bývají většinou nelineární. V přírodních, technických i společenských vědách se používa­jí nejrůznější typy nelineárních modelů. Například v ekonomické literatuře na­jdeme téměř 20 věcně zdůvodněných nelineárních produkčních funkcí a podobně je tomu v oblasti spotřeby, poptávky, investic a dalších. Touto problematikou se však zabývat nebudeme.

 

Vyrovnávací kritéria

Vyrovnáním experimentálních dat se rozumí proložení regresní funkcí takovou, při kterém je celková chyba nejmenší. Celkovou chybou můžeme popsat jako:

  • Minimalizace kritéria nejmenšího součtu čtverců
  • Minimalizace maximální hodnoty rezidua
  • Minimalizace součtu absolutních hodnot reziduí

Nemusí být automaticky nejlepší výsledek, který získáme použitím nejznámější a nejpoužívanější metody nejmenších čtverců. Tato metoda vychází z požadavku, aby součet čtverců odchylek pozorovaných hodnot  od hodnot  ležících na regresní křivce byl minimální, čili hledáme minimum funkce

               ,                                               (2.4)

kde

b)                                                                                                    (2.5)

je odhad teoretické regresní funkce (2.1) a rozdíly

, i = 1, …,n,                                                                               (2.6)

jsou tzv. rezidua.

Rezidua ei považujeme za odhady chyby ei. Součet (2.4) se nazývá reziduální součet čtverců a funkce (2.5) se nazývá empirická (výběrová) regresní funkce.

Lineární regresní model má tedy tvar

Y = + e                                                                                    (2.7)

kde jsou neznámé parametry, regresory, j = 0, 1, …, p, jsou známé funkce proměnné X a e =  je vektor nezávislých náhodných veličin s rozdělením .

Mezi nejužívanější lineární regresní funkce (2.7) patří přímka (2.11) a parabola (2.12), které jsou vlastně nejjednodušší případy polynomické regrese s regresní funkcí

 Y =.                                                                            (2.8)

Další regresní funkce lineární z hlediska parametrů je logaritmická funkce

,                                                                                                          (2.9)

která představuje logaritmickou regresi.

Bodové odhady a intervaly spolehlivosti

 

Bodové odhady v lineárním regresním modelu

Ve statistické literatuře věnované bodovým odhadům mají tradičně některé požadavky přednost před jinými. Na prvním místě se požaduje nezkreslenost (nestrannost, nevychýlenost) odhadu s nejmenším rozptylem. Například při platnosti podmínek klasického lineárního modelu je nejlepším lineárním nezkresleným odhadem odhad b pořízený metodou nejmenších čtverců. Kvalita zvolené statistiky je dána nejen oprávněností učiněných předpokladů a podmínek, ale i volbou hodnotícího kritéria.

Základní metodou odhadu parametrů lineárních regresních funkcí je metoda nejmenších čtverců, tj. požadavek, aby reziduální součet (2.4) byl minimální. Dostaneme soustavu (p+1) lineárních (normálních) rovnic

¶ SR / ¶ b0 = 0, ¶ SR / ¶ b1 = 0, ¼, ¶ SR / ¶ bp = 0.                                     (2.10)

Řešením soustavy (2.10) získáme odhady b0, b1, ¼, bp parametrů b0, b1, ¼, bp. Při výpočtu odhadů parametrů regresní přímky a regresní paraboly řešíme následující soustavy rovnic:

přímka                              ,                          (2.11)

parabola                ,         (2.12)

logaritmická funkce                (2.13)

 

 

Intervaly spolehlivosti pro regresní parametry

100(1-)%- ní dvoustranný interval spolehlivosti pro regresní parametr  je vymezen nerovnostmi

, j = 0, 1, 2,…, p,                       (2.14)

kde bj je bodový odhad parametru bj,  je kvantil t-rozdělení s  stupni volnosti a s(bj) je směrodatná chyba bodového odhadu bj, pro kterou platí

,                                                                                               (2.15)

 je reziduální rozptyl

,                                                                                          (2.16)

a hjj je diagonální prvek matice

H = (X´X)-1,                                                                                                     (2.17)

kde matice X je tzv. matice regresorů,

                                                                         (2.18)

Většina statistických programů počítá vedle reziduálního rozptylu (2.14) také směrodatnou odchylku reziduí sR, tj.

                                                                                                      (2.19)

 

 

Testy hypotéz o hodnotách regresních parametrů

Individuální t-test o nulové hodnotě regresního parametru testuje hypotézu

     H:  = 0, j = 1, 2, …, p, proti alternativě A: 0.                                             (2.20)

Testovým kritériem je náhodná veličina

,                                                                                                        (2.21)

kde bj je bodový odhad regresního koeficientu bj a s(bj) je směrodatná chyba (2.15) tohoto odhadu.

Kritický obor  je vymezen nerovností

|tj| > ,                                                                                          (2.22)

kde je kvantil t-rozdělení s n – c = n – (p+1) stupni volnosti.

Celkový F-test je test hypotézy

H: b0 = k, b1 = b2 = …= bp = 0 proti A: , j = 1, 2, …, p.                     (2.23)

Testovým kritériem je náhodná veličina

,                                                                        (2.24)

kde

                                                                                             (2.25)

je teoretický součet a součet  je reziduální součet (2.4).

Kritický obor  je vymezen nerovností

,                                                                                             (2.26)

kde  je kvantil F-rozdělení s  a stupni volnosti, c = p + 1.

Vede-li celkový F-test k zamítnutí hypotézy H a většina t-testů rovněž, považujeme zvolenou regresní funkci za vyhovující. Při vyšetřování regresní závislosti konstruujeme často takzvané pásy spolehlivosti. Statistické programy většinou kreslí kolem regresní přímky dva pásy: Užší pás pro podmíněnou střední hodnotu a širší pás spolehlivosti pro predikci.

 

 

 

Interval spolehlivosti pro podmíněnou střední hodnotu

100(1-a)%-ní dvoustranný interval spolehlivosti pro podmíněnou střední hodnotu Yi (pás spolehlivosti kolem regresní funkce) je vymezen nerovnostmi

,                                                   (2.27)

kde  je hodnota regresní funkce odpovídající zvolené hodnotě xi vysvětlující proměnné X,  je kvantil t-rozdělení s  stupni volnosti a  je směrodatná chyba (2.28) bodového odhadu .

Směrodatná chyba bodového odhadu

,                                                                                            (2.28)

kde  je reziduální rozptyl (2.16), vektor

 = [ 1, , , …, ]                                                         (2.29)

je vektor hodnot regresorů pro danou hodnotu xi, xi je vektor transponovaný k  a matice  je matice (2.17).

 

 

 

Interval spolehlivosti pro individuální předpověď

100(1-a)%- ní dvoustranný interval spolehlivosti pro predikovanou hodnotu proměnnéYi0, odpovídající dané hodnotě  vysvětlující proměnné X (pás spolehlivosti pro predikci), je vymezen nerovnostmi

,                                                    (2.30)

kde je hodnota regresní funkce odpovídající zvolené hodnotě vysvětlující proměnné X,  je kvantil t-rozdělení s  stupni volnosti a  je směrodatná chyba (2.31) odhadu individuální hodnoty.

Směrodatná chyba odhadu individuální hodnoty

,                                                                                (2.31)

kde  je reziduální rozptyl (2.16),  je vektor (2.29),  je vektor transponovaný k  a matice H je matice (2.17).

 

 

 

Analýza rezidui a vlivná pozorování

Rezidua jsou základním diagnostickým nástrojem, a to nejen při hodnocení kvality regresní funkce, ale i obecněji při posuzování oprávněnosti předpo­kladů zvoleného regresního modelu. Jakákoli systematičnost (nenáhodnost) zjištěná u rezidui indikuje nějaký (zatím neidentifikovaný) nedostatek odhadnutého regresního modelu. Může to být chybně zvolený typ regresní funkce, nevhodný plán expe­rimentu, nenáhodný výběr, nesprávně zvolené vysvětlující proměnné, nesplnění předpokladů metody, špatné představy o modelu, chybná nebo příliš vlivná po­zorování, silná vzájemná závislost vysvětlujících proměnných, ale i jiná narušení regresní úlohy (Hebák a kol., Vícerozměrné statistické metody 2, s. 92).

Klasická rezidua

popisují rozdíly mezi skutečnými a odhadnutými hodnotami vysvětlované pro­měnné.

,

kde  je experimentální hodnota a  je vyrovnaná hodnota.

Rezidua ei by měla především vyhovovat předpokladu normality a nezávislosti.

Nejpoužívanější test, jímž ověřujeme nezávislost reziduí v modelu, je Durbinův-Watsonův test autokorelace. Durbinův-Watsonův test používá statistiku

,                                                                      (2.32)

kde  je reziduum (2.6).

Statistika (2.32) nabývá hodnot z intervalu (0; 4). V případě, že hodnota DW se pohybuje kolem 2, nelze zamítnou hypotézu o nezávislosti náhodných poruch. Blíží-li se hodnota DW 0 nebo 4, jsou rezidua závislá.

Všechny programy nabízejí grafy reziduí. Rezidua ei zobrazená v závislosti na hodnotách xi umožňují zhruba ověřit nezávislost reziduí. Je-li regresní funkce správně určena, pak jsou body náhodně rozmístěny kolem vodorovné osy. Jestliže rezidua vykazují určitý trend, je to známka nesprávně zvolené regresní funkce.

Detekce vlivných bodů

Vlivné body zkreslují odhady a zvyšují rozptyl. Lze je rozdělit do dvou skupin:

  • odlehlé body, které se liší od ostatních v y-ové složce a
  • extrémy, které se liší od ostatních v x-ové složce.

Tyto body ovlivňují výrazně výsledky regrese a uživatel musí rozhodnout, zda jde o hrubé chyby, které je třeba vyloučit, nebo naopak o body, které zlepšují kvalitu a stabilitu regrese.

Statistické programy při identifikaci vlivných bodů využívají vedle klasických reziduí (2.6), která obecně nemají stejný rozptyl, následující rezidua:

Standardizovaná rezidua eSI mají tvar

,                                                                                            (2.33)

kde ei je klasické reziduum (2.6), SR je reziduální směrodatná odchylka (2.19) a pii jsou diagonální prvky projekční matice (2.34).

Projekční matice P má tvar

P = X(X´X)-1X´,                                                                                              (2.34)

kde X je matice (2.18).

Poněkud lepší diagnostické vlastnosti než standardizovaná rezidua mají Jackknife rezidua eJI.

,                                                                                         (2.35)

kde ei je klasické reziduum (2.6),  je reziduální směrodatná odchylka (2.19) při vynechání i-tého pozorování a je prvek matice (2.34).

 

 

 

Kvalita modelu

Vystihneme-li průběh závislosti regresní funkcí (2.5), zajímají nás velikosti odchylek experimentálních hodnot yi od vyrovnaných hodnot  (hodnot ležících na výběrové regresní křivce). Přichází-li v úvahu více typů regresní funkce, můžeme při výběru využít následující kritéria:

  • Reziduální rozptyl  (2.16)

,                                                                                          (2.36)

Za vhodnější se považuje ta regresní funkce, u níž má reziduální rozptyl menší hodnotu.

  • Index determinace 

,                                                                                          (2.37)

kde součet  je teoretický součet (2.25) a součet

                                                                                            (2.38)

je celkový součet.

Výběrovou regresní funkci považujeme za tím výstižnější, čím je index determinace bližší jedné. Vztah (2.37) pro malé výběry odhad indexu determinace nadhodnocuje. Navíc index závisí na počtu parametrů regresní funkce. Proto statistické programy uvádějí upravenou hodnotu indexu determinace , kde

,                                                                                   (2.39)

kde n je počet pozorování a c = p + 1 je počet parametrů regresní funkce.

V některých statistických programech je index determinace označován jako výběrový koeficient determinace R2. Odmocnina z výrazu (2.37) je v programech označována jako vícenásobný korelační koeficient R.

.                                                                             (2.40)

Některé statistické pakety uvádějí Akaikeho informační kritérium

AIC = ,                                                                                    (2.41)

kde n je rozsah výběru, SR je reziduální součet čtverců (2.4) a c = p+ 1 je počet parametrů regresní funkce. Za vhodnější je považován ten model, pro který je AIC minimální.

 

 

 

Výběr vysvětlujících proměnných

V mnoha případech je účelné zmenšit množinu vysvětlujících proměnných a to např. pro ulehčení interpretace. Metody hledání nejlepšího modelu na základě postupného přidávání proměnných do regresní funkce (forward a stepwise) vycházejí z přírůstku regresního součtu čtverců, jehož velikost je hodnocena pomocí sekvenčních F-testů nebo na základě zvýšení indexu determinace, přičemž použít lze ekvivalentně i hodnoty a testy dílčích korelačních koeficientů. Metoda forward se od používanější metody stepwise liší jen tím, že při metodě stepwise se po každém zařazení nové proměnné zkoumá, zda by se dříve zařazené pro­měnné dostaly do modelu při obráceném pořadí zařazování. Při použití metody backward je postup obrácený. Začíná se od modelu se všemi vysvětlujícími proměnnými, pak se na základě velikosti poklesu regresního součtu čtverců, indexu determinace nebo pomoci dílčích korelačních koeficientů zkoumá, které proměnné lze z modelu vypustit (Hebák a kol., Vícerozměrné statistické metody 2, s. 105).

Postup při lineární regresní analýze:

  • Návrh modelu, kdy volíme vhodný tvar regresní funkce, která respektuje teoretický model závislosti. Není–li teoretický model znám, provádíme analýzu bodového diagramu a grafu podmíněných průměrů.
  • Odhad regresních parametrů a testy jejich významnosti.
  • Regresní diagnostika, kdy provádíme analýzu reziduí a identifikaci vlivných bodů.
  • Konstrukce zpřesněného modelu, kdy vycházíme z výsledků regresní diagnostiky, např. vyloučíme vlivné body a podobně.
  • Zhodnocení kvality modelu vychází ze statistických charakteristik, testů a regresní diagnostiky. Výsledkem je buď přijetí navrženého modelu, nebo návrh modelu dalšího.

 

* * * * * * * * * * * * * * * * * * * * *
* * * * * * * * * * * * * * * * * * * * *
* * * * * * * * * * * * * * * * * * * * *

Otázky k procvičení (přístupné v informačním systému)

Vstoupit

* * * * * * * * * * * * * * * * * * * * *
* * * * * * * * * * * * * * * * * * * * *
* * * * * * * * * * * * * * * * * * * * *


Příklad 1 Korelace

Máme k dispozici data 50 nejlepších světových výkonů desetibojařů (a k nim přepočtené body). Vypočítejte matici korelací mezi všemi proměnnými a určete, která disciplína nejvíce koreluje s celkovým bodovým ziskem.

Tab. 18 Vstupní data

100 m

dálka

koule

Výška

400 m

110m př.

disk

tyčka

oštěp

1500 m

celkem

943

1089

810

915

919

985

827

849

892

798

9026

966

1035

899

840

905

1010

836

880

925

698

8994

992

1081

894

868

885

977

840

910

777

667

8891

989

1063

834

831

960

932

799

910

817

712

8847

929

1000

877

868

907

965

857

880

736

814

8832

1001

908

800

878

889

1007

928

910

898

613

8832

952

967

784

831

997

924

734

1035

844

747

8815

847

1007

870

831

888

891

799

957

926

776

8792

987

1017

810

794

903

993

830

972

859

625

8790

910

1050

869

963

899

958

784

972

749

630

8784

885

932

811

887

939

975

806

849

900

778

8762

975

876

854

906

927

998

864

880

743

711

8735

975

1012

847

887

968

978

905

790

671

692

8725

870

952

851

776

875

984

829

880

924

768

8709

952

1079

704

840

893

1044

768

849

842

735

8706

870

918

766

840

900

953

868

998

843

749

8705

890

915

853

896

826

907

895

880

845

791

8698

1020

1000

816

973

860

972

938

790

762

563

8694

931

1030

788

896

911

958

745

941

708

772

8680

956

1010

819

803

907

985

778

790

836

784

8667

845

915

752

887

926

955

789

819

1004

762

8654

883

1002

809

840

809

978

867

941

824

691

8644

947

935

933

776

934

986

920

849

642

722

8644

874

866

811

831

933

869

871

849

867

863

8634

947

1066

724

850

874

995

755

880

757

779

8627

810

990

909

776

876

878

931

880

908

668

8626

892

1035

722

944

935

968

657

910

803

751

8617

924

957

815

944

998

931

807

819

657

751

8603

924

1002

740

896

953

977

754

910

659

759

8574

931

1043

806

831

827

903

826

957

722

728

8574

919

960

853

831

926

944

825

941

734

641

8573

938

915

831

831

878

978

799

972

686

743

8571

867

950

853

896

896

934

754

972

697

747

8566

943

871

834

973

903

865

780

804

792

791

8554

959

952

817

944

922

895

782

790

756

731

8548

943

987

847

813

898

871

882

731

850

726

8547

839

970

840

831

836

867

812

910

870

760

8534

872

932

891

878

802

950

838

941

797

627

8528

924

922

763

731

904

997

790

910

819

766

8526

971

955

821

794

880

969

887

895

749

605

8526

850

940

742

803

809

913

760

1067

874

766

8524

943

1073

749

749

828

948

728

910

799

796

8522

845

945

796

925

858

857

878

790

763

862

8519

850

898

838

803

905

905

913

790

764

840

8506

812

967

834

944

872

815

807

849

818

782

8500

892

816

818

831

857

894

956

941

802

692

8497

888

900

882

896

872

965

746

849

860

638

8496

867

871

792

878

888

890

789

819

883

814

8491

913

970

773

982

830

965

796

910

808

544

8490

839

990

805

822

855

926

781

880

774

814

8485

Statistiky → Základní statistiky/tabulky → Korelační matice

Tab. 19 Korelační matice

Závěr:

Můžeme konstatovat, že s celkovým bodovým ziskem nejvíce korelují 3 proměnné (tab. 19): běh na 100 m, skok do dálky a 110 m př. s hodnotou korelačního koeficientu 0,45-0,46.


Příklad 2 Parciální a mnohonásobná korelace

Jevy vedle sebe neexistují izolovaně, ale téměř vždy na naše sledované proměnné působí další proměnné, o kterých nevíme nebo které neumíme změřit. Naše sledované proměnné jsou tak ovlivněny dalšími proměnnými. Může se jednat např. o výšku a váhu. Korelace ostatních proměnných budou pravděpodobně pozitivní. Po jejich vyloučení se směr závislosti může zcela otočit. Ke zjištění použijeme výpočet parciálních korelačních koeficientů.

Známe-li všechny tři korelační součinitele mezi třemi parametry téhož souboru, které označíme rxy, rxz, ryz, pak můžeme stanovit částečnou (parciální) korelaci mezi kterýmikoliv dvěma parametry s vyloučením vlivu třetího, tedy za předpokladu, že třetí parametr je konstantní. Vzorce pro parciální korelační součinitele jsou

Příklad: u skupiny dětí byly vypočítány korelační součinitele mezi

tělesnou výškou a hmotností

rxy = 0,91

výškou a výkonem ve skoku vysokém

rxz = 0,86

hmotností a výkonem ve skoku vysokém

ryz = 0,69

Korelace mezi hmotností a výkonem ve skoku vysokém je překvapivě vysoká a kladná. Uvědomíme-li si ale, že těžší dítě bývá také vyšší, je zřejmé, že vazbu hmotnost/výkon zprostředkuje tělesná výška, kterou bychom měli vyloučit. Pak parciální korelační součinitel mezi hmotností a výkonem ve skoku vysokém tuto vazbu vylučuje:

Místo původní kladné korelace jsme dostali zápornou parciální korelaci, protože byl vyloučen zprostředkující vliv tělesné výšky. S rostoucí hmotností při stálé tělesné výšce výkon ve skoku vysokém klesá.

Mnohonásobný koeficient korelace se používá v situacích, kdy chceme zjistit celkovou sílu vztahu mezi zvolenou proměnnou na jedné straně a několika dalšími (predikujícími) proměnnými X2, X3, …, Xk na straně druhé. Hodnotí se jím význam kumulativního vlivu více proměnných na zvolenou cílovou proměnnou. Mnohonásobný korelační koeficient, který pro tři proměnné značíme rx.yz je roven

Mnohonásobný korelační koeficient mezi výkonem ve skoku vysokém jako cílovou proměnnou a dvěma prediktory má hodnotu 0,96.


Příklad 3 Kanonická korelace

Zadání: Na základě údajů z příkladu 1 zjistěte vztah mezi vektory x(X1, X2) a y(X4, X5).

Statistiky → Vícerozměrné průzkumné techniky → Kanonická analýza

Řešení:

V kanonické korelační analýze se zkoumá povaha vztahů mezi dvěma množinami proměnných. Vztahy vyjadřujeme pomocí komponent, což jsou lineární kombinace proměnných z dané množiny proměnných. Komponenty hledáme po dvojicích. V dvojici odpovídá vždy jedna komponenta jedné množině z obou skupin proměnných. První dvojice má mít největší možnou korelaci. Druhá dvojice je tvořena nezávislými (ortogonálními) komponentami k první dvojici a má druhou největší možnou korelaci. Tak postupujeme, až jsou obě množiny proměnných i jejich vzájemné vztahy popsány dvěma systémy nezávislých komponent. V této analýze podobně jako při popisu vztahu jednoduchým korelačním koeficientem se nerozlišuje mezi nezávislými a závislými proměnnými (Hendl, s. 422).

Kanonické korelace tedy měří intenzitu lineární závislosti mezi dvěma skupinami lineárních funkcí vektorů x a y. Pomocí programu STATISTICA 10 byly zjištěny kanonické korelační koeficienty a koeficienty kanonických proměnných pro vektor x a vektor y.

Tab. 20 Výsledky kanonické korelace pro vektor x

Koeficienty kanonických proměnných pro vektor x:

X1

-1,68621

-2,80160

X2

2,46221

 2,15170

Tab. 21 Výsledky kanonické korelace pro vektor y

Koeficienty kanonických proměnných pro vektor y:

X4

0,49269

-1,12142

X5

0,63102

 1,04982

Lineární kombinace složek náhodného vektoru x = (X1, X2) jsou kanonické proměnné

U1 = - 2,46239 X1 + 1,68645 X2

a

U2 = 2,15149 X1 - 2,80145 X2.

Lineární kombinace složek náhodného vektoru y = (X4, X5) jsou kanonické proměnné

V1 = - 0,492771 X4 - 0,630966 X5

a

V2 = 1,12131 X4 - 1,04978 X5.

Tab. 22 Souhrn kanonické korelace

Intenzitu lineární závislosti mezi dvěma skupinami lineárních funkcí vektorů x a y, tj. mezi kanonickými náhodnými proměnnými u a v měří kanonický korelační koeficient RXY = 0,88041.

Závěr:

Z lineárních rovnic

-1,68621 X1 + 2,46221 X2 = 0,49269 X4 + 0,63102 X5

- 2,80160 X1 + 2,15170 X2 = -1,12142 X4 + 1,04982 X5

získaných metodou kanonických korelací plyne, že při zvýšení počtu členů domácnosti a nepatrném snížení veličiny X2 (počet dětí) vede ke snížení veličiny X4 (příjem) a zvýšení veličiny X5 (vydání).

Hodnota skupinového korelačního koeficientu = 0,88 signalizuje silnou lineární závislost mezi vektory x a y. Uvedené rovnice tedy popisují 78% variability dat.


Příklad 4 Vícerozměrný lineární model

Zadání: U dvaceti vybraných domácností byly zjištěny údaje o čtvrtletních výdajích na potraviny a nápoje (y), čtvrtletním příjmu domácnosti (x1), počtu dětí (x2), průměrném věku vydělávajících členů domácnosti (x3) a počtu členů domácnosti (x4). Rozhodněte, které proměnné významně přispívají k vysvětlení variability hodnot čtvrtletních výdajů a zkonstruujte lineární regresní model s nejlepší podmnožinou vysvětlujících proměnných.

Data: n = 20, xj = vysvětlující proměnná, y závislá proměnná.

Tab. 23 Vstupní data

příjem [Kč]

počet dětí

průměrný věk

počet členů

výdaje [Kč]

x1

x2

x3

x4

y

11172

0

55

1

3464

8868

0

21

1

1982

17414

0

49

1

3228

10730

0

22

1

3034

24110

0

62,5

2

10146

38530

0

57

2

8202

22902

0

54,5

2

9332

25448

0

57,5

2

7096

20326

0

28

2

6248

39186

1

38,5

3

13816

28758

1

45,5

3

10328

33658

1

28,5

3

4786

24272

1

36

3

9710

30386

2

35

4

10778

31750

2

30,5

4

10568

39456

2

32,5

4

14260

48458

2

38

4

10934

37990

2

37

4

6388

24920

2

33,5

4

8584

40064

3

47

5

16950

Řešení:

1. Nejprve zařadíme do regresního modelu všechny vysvětlující proměnné. Klasickou metodou nejmenších čtverců byla určena regresní funkce (tab. 24).

Statistiky → Vícenásobná regrese

Tab. 24 Výsledky regrese

neboli

 = - 4027 + 0,042063 x1 - 1348,3 x2 + 84,188 x3 + 3353,4 x4

s upraveným koeficientem determinace, který bere v potaz počet nezávislých proměnných, = 0,629 a reziduální směrodatnou odchylkou sl = 2448,5.

Podle výsledků t -testů nemůžeme zamítnout žádnou z hypotéz H0: bj = 0 pro j = 1, 2, 3, 4. Podle výsledků F - testu naopak alespoň jeden z regresních koeficientů je nenulový. Příčinou je existence multikolinearity mezi proměnnými. Párové korelační koeficienty (tab. 25) mezi dvojicemi vysvětlujících proměnných signalizují, že silná závislost je především mezi proměnnými x2 a x4, tedy mezi počtem dětí a členů domácnosti. (r24 = 0,9581) a rovněž mezi proměnnými x1 a x4, tedy mezi příjmem a počtem členů domácnosti (r14 = 0,7884). Na druhé straně je závislost velmi slabá mezi věkem a počtem členů domácnosti (r34 = - 0,17322).

Tab. 25 Korelační matice

2.      O tom, které z proměnných v modelu ponecháme rozhodneme pomocí dopředné krokové regrese (tab. 26).

Statistiky → Vícenásobná regrese → Detailní nastavení → Další možnosti (kroková nebo hřebenová regrese)

Tab. 26 Výsledky dopředné regrese

3. Byly vybrány 2 proměnné x3 a x4. Dostaneme tak regresní rovnici ve tvaru

 = - 3063,8 + 2648,92 x3 + 105,65 x4

s upraveným koeficientem determinace = 0,655 a reziduální směrodatnou odchylkou sl = 2360,3.

Závěr: Ze srovnání jednotlivých modelů plyne, že nejlepším modelem popisujícím závislost výdajů za potraviny na příjmu, počtu dětí, věku a počtu členů domácnosti je model

 = - 3063,8 + 2648,92 x3 + 105,65 x4


Příklad 5 Validizace nové metody

Zadání: Osm respondentů se zúčastnilo experimentu spojeného s diagnostikou a analýzou složení lidského těla pomocí 2 přístrojů různých výrobců. Zjistěte, zda mezi výsledky uvedených přístrojů je podstatný rozdíl. Uvedená data představují procentuální zastoupení tělesného tuku.

Tab. 27 Výsledky dopředné regrese

Číslo

metoda 1 - (x)

metoda 2 - (y)

1

18,6

18,58

2

27,6

27,37

3

27,5

27,27

4

25,0

24,64

5

24,5

24,10

6

26,8

26,33

7

29,7

29,33

8

26,5

26,63

Řešení:

Pokud obě metody poskytují stejné výsledky, bude závislost y na x lineární y = b1x + b0 s jednotkou směrnicí b1 = 1 a nulovým úsekem b0 = 0.

Pro porovnání výsledků y vůči výsledkům x určíme odhady b0 a b1 a zkonstruujeme 95% -ní interval spolehlivosti pro úsek i pro směrnici.

1. Protože rozsah výběru je malý (n = 8), omezíme se na grafickou analýzu, tj. na histogram a krabicový graf

Obr. 9 Histogram a krabicový graf

Krabicový graf (obr. 9) ukazuje, že vlivným bodem je bod č. 1. Po vynechání vlivných bodů jsme získali následující odhady - viz tab. 28.

Tab. 28 Změna úseku a směrnice

 

b0

s(b0)

b1

s(b1)

původní data

0,3333

0,61184

0,97761

0,023568

vynechání č. 1

-0,43952

1,37251

1,00611

0,051121

Srovnáme-li hodnoty z tabulky 6 s odhadem úseku b0 = 0,3333 (± 0,61184) a s odhadem směrnice b1 = 0,97761 (± 0,023568) vidíme, že bod č. 1 ovlivňuje úsek i směrnici původní regresní přímky.

2. Metodou nejmenších čtverců byly vypočítány odhady parametrů a směrodatné odchylky odhadů. Odhad úseku b0 = 0,3333 (± 0,61184), b1 = 0,97761 (± 0,023568). Určíme jednoduché 95% -ní intervaly spolehlivosti pro parametry b0 a b1.

b0 - t1-a/2 (n-m) s(b0) £ b0 £ b0 + t1-a/2 (n-m) s(b0),

po dosazení

0,3333 - 2,447 · 0,61184 £ b0 £ 0,3333 + 2,447 · 0,61184

a po vyčíslení

-1,16387 £ b0 £ 1,83047

Protože 95% interval spolehlivosti pro úsek regresní přímky zahrnuje nulu, nelze úsek b0 považovat za významně odchýlený od nuly. Změny úseku regresní přímky vynecháním vlivného bodu leží v uvedeném intervalu spolehlivosti, proto je považujeme za statisticky nevýznamné.

Analogicky určíme 95% -ní interval spolehlivosti pro parametr b1.

b1 - t1-a/2 (6) s(b1) £ b1 £ b1 + t1-a/2 (6) s(b1),

po dosazení

0,97761 - 2,447 · 0,02357 £ b1 £ 0,97761 + 2,447 · 0,02357

a po vyčíslení

0,91993 £ b1 £ 1,03529.

Protože 95% interval spolehlivosti pro směrnici regresní přímky obsahuje jedničku, můžeme směrnici b1 považovat za jednotkovou. Rovněž změny směrnice z tabulky 6 leží v uvedeném intervalu spolehlivosti a jsou také statisticky nevýznamné.

Závěr: Intervaly spolehlivosti úseku a směrnice indikují, že úsek regresní přímky lze považovat za nulový, tj. b0 = 0 a také směrnice b1 se významně neliší od jedničky. Rozdíly mezi výsledky získanými oběma přístroji jsou statisticky nevýznamné a přístroje můžeme považovat za rovnocenné.


Příklad 6 Porovnání dvou regresních přímek

Zadání: U dvaceti prodaných ojetých automobilů určité značky byla zjištěna cena, stáří auta a počet ujetých kilometrů. Závislost ceny na stáří automobilu popište regresní přímkou. Rovněž závislost ceny automobilu na počtu ujetých kilometrů charakterizujte regresní přímkou a obě přímky porovnejte.

Data: n = 20, y = cena auta [tis. Kč], x1 = stáří auta [roky], x2 = ujeté kilometry [tis. km]

Tab. 29 Vstupní data

i

xi1

xi2

yi

i

xi1

xi2

yi

1

0,6

1,1

55,0

11

5,0

36,0

34,0

2

1,0

2,5

54,6

12

5,1

66,2

31,0

3

1,1

10,4

50,6

13

5,2

44,5

29,0

4

2,0

4,5

51,1

14

5,6

42,0

31,6

5

2,3

31,4

47,0

15

5,9

36,4

34,0

6

2,5

8,6

50,0

16

6,0

82,6

25,6

7

3,0

32,4

43,6

17

6,1

64,5

28,0

8

4,1

25,3

41,3

18

6,3

70,8

24,6

9

4,4

16,0

43,0

19

6,8

78,7

27,0

10

4,8

54,0

39,9

20

7,5

90,2

17,6

Řešení:

1.    Určíme obě regresní přímky.

Statistiky → Vícenásobná regrese

Tab. 30 Odhady parametrů, reziduální součty čtverců, odhady reziduálních rozptylů.

 

b0j

b1j

RSCj

sj2

stáří

59,952

-5,1647

173,50

9,639

ujeté km

52,554

-0,3666

310,14

17,230

Mezi stářím automobilu a jeho cenou je velmi těsná nepřímá lineární závislost, kterou charakterizuje regresní přímka

y´ = 59,952 (± 1,6177) - 5,1674 (± 0,3426) x1

a korelační koeficient R1 = -0,9626

Závislost ceny automobilu na počtu ujetých kilometrů je rovněž nepřímá a velmi těsná. Tuto lineární závislost mezi naměřenými hodnotami charakterizuje regresní přímka

y´ = 52,559 (± 1,63) - 0,3666 (± 0,0336) x2

a korelační koeficient R2 = -0,9321

2. Před vlastním testováním úseků a směrnic regresních přímek ověříme rovnost reziduálních rozptylů pomocí F - testu. Hodnotu statistiky

porovnáme s kvantilem F0,95(18,18) = 2,23.

Protože 1,7875 < 2,23 nezamítáme předpoklad rovnosti rozptylů.

3. Za předpokladu homoskedasticity testujeme hypotézu o homogenitě úseků, tzn.

H0: b01 = b02 proti HA: b01 ¹ b02.

Nejprve určíme podle vztahu (6.132) v Meloun, Militký (2004, s. 607) váhové koeficienty wB1 a wB2 odpovídající úsekům obou přímek.

Ze vztahu (6.138) v Meloun, Militký (2004, s. 609) vypočítáme sdružený odhad úseku.

Dosadíme do testační statistiky FI - viz (6.140) v Meloun, Militký (2004, s. 609)

Protože kvantil F0,95(1,36) = 4,128 je menší než FI = 9,562, nelze na hladině významnosti a = 0,05 považovat úseky regresních přímek za shodné.

4. Zda mají uvažované regresní přímky stejnou směrnici ověříme testem homogenity směrnic. Platí-li hypotéza H0: b11 = b12, pak hodnota testační statistiky FS < F0,95(1,36).

Podle vztahu (6.143a) v Meloun, Militký (2004, s. 610) určíme sdružený odhad celkové směrnice

Testační statistika FS - viz (6.144) v Meloun, Militký (2004, s. 610) má hodnotu

Protože hodnota testačního kritéria je podstatně větší než kvantil F0,95(1,36) = 4,128, nelze na hladině významnosti a = 0,05 považovat regresní přímky za rovnoběžné.

Závěr:

Výsledky testů homogenity úseků a homogenity směrnic ukázaly, že rozdíly u srovnávaných regresních přímek jsou statisticky významné. Tento závěr také potvrzuje test shody regresních přímek, čili regresní přímky nelze pokládat za totožné.

Odhad ceny ojetého auta na základě stáří je odlišný od odhadu ceny na základě ujetých kilometrů. Na odhady mají vliv další vysvětlující proměnné.


Příklad 7 Kvadratický regresní model

Zadání: Bylo změřeno procentuální zlepšení startovní reakce (r) v závislosti na počtu tréninkových jednotek (t). Sestavte regresní model, a vyjádřete přesnost modelu.

Tab. 31 Vstupní data

Pořadové číslo

počet tréninků

reakce

1

0

1,000

2

10

1,000

3

20

0,997

4

30

0,996

5

40

0,993

6

50

0,985

7

60

0,983

8

70

0,978

9

80

0,973

10

90

0,961

11

100

0,958

 

Řešení: 1. Sestavení regresního modelu

Nejprve byl určen ze všech 11 bodů lineární model (tab. 32)

Tab. 32 Výsledky regrese

r = 1,006 (± 2,23.10-3) - 0,00044 ± 3,7.10-5 t

s koeficientem determinace R2 = 0,93815, střední kvadratická chyba MEP = 0,17.10-5, se = 0,00395. Testování kvality modelu však ukázalo, že rezidua vykazují trend. Tento závěr potvrdil také p-graf reziduí (obr. 10). Trend v reziduích signalizuje potřebu zavedení kvadratického členu.

Obr. 10 P-graf reziduí

Klasickou metodou nejmenších čtverců byl ze všech 11 bodů určen kvadratický regresní model (tab. 33).

Statistiky → Pokročilé lineární/nelineární modely → Obecné lineární modely → Polynomická regrese →

Tab. 33 Výsledky kvadratické regrese

r = 1,0005 (± 1,3982.10-3) - 3,64.10-6 (6,3.10-7) t2

s koeficientem determinace R2= 0,98813, MEP = 5,0464.10-6, se = 1,8353.10-3

Závěr:

Použitím kvadratického modelu došlo nejen ke zlepšení statistických charakteristik, než při použití lineárního modelu