{"id":1487,"date":"2016-06-16T15:30:12","date_gmt":"2016-06-16T14:30:12","guid":{"rendered":"http:\/\/www.venco.com.pl\/~cozy\/blog\/?p=1487"},"modified":"2016-06-16T15:30:12","modified_gmt":"2016-06-16T14:30:12","slug":"statystyki-podstawowe","status":"publish","type":"post","link":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/2016\/06\/16\/statystyki-podstawowe\/","title":{"rendered":"Statystyki podstawowe"},"content":{"rendered":"<p>&nbsp;<\/p>\n<div class=\"scrollk\">\n<div class=\"estcontent\"><center><span style=\"color: #aa0000; font-size: x-large;\"><b>Statystyki podstawowe<\/b><\/span><\/center><\/p>\n<hr size=\"1\" \/>\n<ul>\n<li><a href=\"#Descriptive statistics\">Statystyki opisowe<\/a>\n<ul>\n<li><a href=\"#Descriptive statisticsa\">Prawdziwa \u015brednia i przedzia\u0142 ufno\u015bci<\/a><\/li>\n<li><a href=\"#Descriptive statisticsb\">Kszta\u0142t rozk\u0142adu; normalno\u015b\u0107<\/a><\/li>\n<\/ul>\n<\/li>\n<li><a href=\"#Correlations\">Korelacje<\/a>\n<ul>\n<li><a href=\"#Correlationsa\">Wprowadzenie (co to s\u0105 korelacje?)<\/a><\/li>\n<li><a href=\"#Correlationsb\">Korelacja liniowa prosta (r Pearsona)<\/a><\/li>\n<li><a href=\"#Correlationsc\">Jak interpretowa\u0107 warto\u015b\u0107 korelacji<\/a><\/li>\n<li><a href=\"#Correlationsd\">Istotno\u015b\u0107 korelacji<\/a><\/li>\n<li><a href=\"#Correlationse\">Obserwacje odstaj\u0105ce<\/a><\/li>\n<li><a href=\"#Correlationsf\">Podej\u015bcie ilo\u015bciowe do obserwacji odstaj\u0105cych<\/a><\/li>\n<li><a href=\"#Correlationsg\">Korelacje w grupach niejednorodnych<\/a><\/li>\n<li><a href=\"#Correlationsh\">Nieliniowe powi\u0105zania pomi\u0119dzy zmiennymi<\/a><\/li>\n<li><a href=\"#Correlationsi\">Pomiar relacji nieliniowych<\/a><\/li>\n<li><a href=\"#Correlationsj\">Eksploracyjna analiza macierzy korelacji<\/a><\/li>\n<li><a href=\"#Correlationsk\">Usuwanie brakuj\u0105cych danych przypadkami lub parami<\/a><\/li>\n<li><a href=\"#Correlationsl\">Jak wykrywa\u0107 b\u0142\u0119dy spowodowane usuwaniem brakuj\u0105cych danych parami<\/a><\/li>\n<li><a href=\"#Correlationsm\">Usuwanie brakuj\u0105cych danych parami a zast\u0119powanie \u015bredni\u0105<\/a><\/li>\n<li><a href=\"#Correlationsn\">Korelacje pozorne<\/a><\/li>\n<li><a href=\"#Correlationso\">Czy wsp\u00f3\u0142czynniki korelacji s\u0105 addytywne<\/a><\/li>\n<li><a href=\"#Correlationsp\">Jak okre\u015bli\u0107 istotno\u015b\u0107 r\u00f3\u017cnic pomi\u0119dzy dwoma wsp\u00f3\u0142czynnikami korelacji<\/a><\/li>\n<\/ul>\n<\/li>\n<li><a href=\"#t-test for independent samples\">Test t dla pr\u00f3b niezale\u017cnych<\/a>\n<ul>\n<li><a href=\"#t-testa\">Przeznaczenie, za\u0142o\u017cenia<\/a><\/li>\n<li><a href=\"#t-testb\">Spos\u00f3b rozmieszczenia danych<\/a><\/li>\n<li><a href=\"#t-testc\">Wykresy dla test\u00f3w t<\/a><\/li>\n<li><a href=\"#t-testd\">Por\u00f3wnania bardziej z\u0142o\u017cone<\/a><\/li>\n<\/ul>\n<\/li>\n<li><a href=\"#t-test for dependent samples\">Test t dla pr\u00f3b zale\u017cnych <\/a>\n<ul>\n<li><a href=\"#t-test for dependenta\">Zmienno\u015b\u0107 wewn\u0105trzgrupowa <\/a><\/li>\n<li><a href=\"#t-test for dependentb\">Przeznaczenie<\/a><\/li>\n<li><a href=\"#t-test for dependentc\">Za\u0142o\u017cenia<\/a><\/li>\n<li><a href=\"#t-test for dependentd\">Spos\u00f3b rozmieszczenia danych<\/a><\/li>\n<li><a href=\"#t-test for dependente\">Macierze test\u00f3w t<\/a><\/li>\n<li><a href=\"#t-test for dependentf\">Por\u00f3wnania bardziej z\u0142o\u017cone<\/a><\/li>\n<\/ul>\n<\/li>\n<li><a href=\"#Breakdown: Descriptive statistics by groups\">Analiza przekrojowa: statystyki opisowe w grupach<\/a>\n<ul>\n<li><a href=\"#Breakdown:a\">Przeznaczenie<\/a><\/li>\n<li><a href=\"#Breakdown:b\">Spos\u00f3b rozmieszczenia danych<\/a><\/li>\n<li><a href=\"#Breakdown:c\">Testy statystyczne w analizie przekrojowej<\/a><\/li>\n<li><a href=\"#Breakdown:d\">Inne pokrewne techniki analizy danych<\/a><\/li>\n<li><a href=\"#Breakdown:e\">Por\u00f3wnania \u015brednich post-hoc<\/a><\/li>\n<li><a href=\"#Breakdown:f\">Analiza przekrojowa a Analiza dyskryminacyjna<\/a><\/li>\n<li><a href=\"#Breakdown:g\">Analiza przekrojowa a Tabele liczno\u015bci<\/a><\/li>\n<li><a href=\"#Breakdown:h\">Metody graficzne w analizie przekrojowej<\/a><\/li>\n<\/ul>\n<\/li>\n<li><a href=\"#Frequency Tables\">Tabele liczno\u015bci<\/a>\n<ul>\n<li><a href=\"#frequency tablesa\">Przeznaczenie<\/a><\/li>\n<li><a href=\"#frequency tablesb\">Zastosowania<\/a><\/li>\n<\/ul>\n<\/li>\n<li><a href=\"#Crosstabulation and stub-and-banner tables\">Analiza tabel wielodzielczych i tabel zbiorczych<\/a>\n<ul>\n<li><a href=\"#Crosstabulationa\">Przeznaczenie i zastosowanie tabel<\/a><\/li>\n<li><a href=\"#Crosstabulationb\">Tabele 2 x 2<\/a><\/li>\n<li><a href=\"#Crosstabulationc\">Liczno\u015bci brzegowe<\/a><\/li>\n<li><a href=\"#Crosstabulationd\">Procentowe liczno\u015bci kolumnowe, wierszowe i ca\u0142kowite<\/a><\/li>\n<li><a href=\"#Crosstabulatione\">Graficzna prezentacja tabel wielodzielczych<\/a><\/li>\n<li><a href=\"#Crosstabulationf\">Tabele zbiorcze<\/a><\/li>\n<li><a href=\"#Crosstabulationg\">Interpretacja tabeli zbiorczej<\/a><\/li>\n<li><a href=\"#Crosstabulationh\">Tabele wielodzielcze ze zmiennymi kontrolnymi<\/a><\/li>\n<li><a href=\"#Crosstabulationi\">Graficzna prezentacja tabel wielodzielczych dla tabel zbiorczych<\/a><\/li>\n<li><a href=\"#Statistics in crosstabulation tables\">Statystyki w tabelach wielodzielczych <\/a><\/li>\n<li><a href=\"#Multiple responses-dichotomies\">Wielokrotne odpowiedzi\/dychotomie <\/a><\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p><span style=\"color: navy; font-size: large;\">Statystyki opisowe <\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Prawdziwa \u015brednia i przedzia\u0142 ufno\u015bci. <\/span>Prawdopodobnie najcz\u0119\u015bciej u\u017cywan\u0105 statystyk\u0105 opisow\u0105 jest \u015brednia. Warto\u015b\u0107 \u015brednia jest szczeg\u00f3lnie u\u017cyteczn\u0105 miar\u0105 tendencji &#8222;centralnej rozk\u0142adu&#8221; rozpatrywanej zmiennej, je\u015bli jest podawana wraz z odpowiadaj\u0105cym jej przedzia\u0142em ufno\u015bci. Jak zosta\u0142o to wspomniane wcze\u015bniej, badacz zainteresowany jest warto\u015bciami r\u00f3\u017cnych statystyk (takich jak na przyk\u0142ad \u015brednia) tylko o tyle, o ile pozwalaj\u0105 one wyci\u0105ga\u0107 wnioski na temat parametr\u00f3w populacji generalnej. <i>Przedzia\u0142 ufno\u015bci<\/i> dla \u015bredniej okre\u015bla zakres warto\u015bci wok\u00f3\u0142 \u015bredniej, co do kt\u00f3rego spodziewamy si\u0119, \u017ce zawiera on z pewnym prawdopodobie\u0144stwem prawdziw\u0105 (tzn. w populacji) warto\u015b\u0107 \u015bredniej (zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n). Je\u015bli na przyk\u0142ad w naszej pr\u00f3bce \u015brednia wynosi 23, a dolna i g\u00f3rna granica przedzia\u0142u ufno\u015bci na poziomie 95% wynosz\u0105 odpowiednio 19 i 27, to mo\u017cemy wnioskowa\u0107, \u017ce z prawdopodobie\u0144stwem 95%, \u015brednia warto\u015b\u0107 w populacji jest zawarta w przedziale (19;27). Gdyby\u015bmy zmniejszyli warto\u015b\u0107 \u03b1, w\u00f3wczas przedzia\u0142 uleg\u0142by poszerzeniu, zwi\u0119kszaj\u0105c tym samym pewno\u015b\u0107 estymacji (i na odwr\u00f3t). Jak wiemy powszechnie z codziennych prognoz pogody, im mniej konkretna jest prognoza (tzn. im szerszy przedzia\u0142 ufno\u015bci), tym bardziej mo\u017cemy by\u0107 pewni, \u017ce si\u0119 ona sprawdzi. Dodajmy jeszcze, \u017ce wielko\u015b\u0107 przedzia\u0142u ufno\u015bci zale\u017cy od wielko\u015bci pr\u00f3bki oraz od zmienno\u015bci badanej cechy. Im wi\u0119ksza pr\u00f3bka tym bardziej wiarygodna jest ocena warto\u015bci \u015bredniej, natomiast im wi\u0119ksza zmienno\u015b\u0107 cechy, tym ocena \u015bredniej jest mniej wiarygodna (zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n). Obliczanie przedzia\u0142\u00f3w ufno\u015bci opiera si\u0119 na za\u0142o\u017ceniu, \u017ce rozk\u0142ad zmiennej w populacji generalnej jest rozk\u0142adem normalnym. Ocena mo\u017ce nie by\u0107 dok\u0142adna, je\u015bli to za\u0142o\u017cenie nie jest spe\u0142nione, chyba \u017ce pr\u00f3bka jest wystarczaj\u0105co du\u017ca (oznacza to <i>n<\/i>=100 lub wi\u0119cej).<br \/>\n<span style=\"color: navy; font-size: medium;\">Kszta\u0142t rozk\u0142adu; normalno\u015b\u0107.<\/span> Wa\u017cnym elementem opisu zmiennej jest kszta\u0142t jej rozk\u0142adu, kt\u00f3ry informuje o liczno\u015bci wyst\u0119powania warto\u015bci tej zmiennej w r\u00f3\u017cnych obszarach jej zmienno\u015bci. Najcz\u0119\u015bciej badacz jest zainteresowany tym, jak dobrze analizowany rozk\u0142ad mo\u017ce by\u0107 przybli\u017cony rozk\u0142adem normalnym (zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n). Proste statystyki opisowe mog\u0105 dostarczy\u0107 pewnych informacji maj\u0105cych znaczenie dla tej kwestii. Na przyk\u0142ad je\u015bli <a href=\"gloss.html#Skewness\"><i>sko\u015bno\u015b\u0107<\/i><\/a><br \/>\n(miara asymetrii rozk\u0142adu) jest wyra\u017anie r\u00f3\u017cna od 0, w\u00f3wczas badany rozk\u0142ad jest <a href=\"glosr.html#Asymmetrical Distribution\">asymetryczny<\/a><br \/>\npodczas gdy rozk\u0142ad normalny musi by\u0107 dok\u0142adnie <a href=\"glosr.html#Symmetrical Distribution\">symetryczny.<\/a><br \/>\nJe\u017celi <a href=\"glosi.html#Kurtosis\"><i>kurtoza<\/i><\/a><br \/>\n(miara &#8222;smuk\u0142o\u015bci&#8221; rozk\u0142adu) jest wyra\u017anie r\u00f3\u017cna od zera, w\u00f3wczas rozk\u0142ad jest albo bardziej sp\u0142aszczony ni\u017c rozk\u0142ad normalny, albo bardziej wysmuk\u0142y, kurtoza rozk\u0142adu normalnego wynosi bowiem dok\u0142adnie 0.<\/p>\n<p><img decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/graphics\/anima2.gif\" alt=\"\" border=\"0\" \/><\/p>\n<p>Bardziej precyzyjn\u0105 informacj\u0119 uzyskamy przeprowadzaj\u0105c jeden z <i>test\u00f3w normalno\u015bci<\/i>. Testy takie informuj\u0105 nas, jakie jest prawdopodobie\u0144stwo, \u017ce pr\u00f3bka pochodzi z populacji o rozk\u0142adzie normalnym (np. test Ko\u0142mogorowa-Smirnowa lub test W Shapiro-Wilka). \u017baden z tych test\u00f3w nie zast\u0105pi jednak ca\u0142kowicie wizualnej oceny rozk\u0142adu przy pomocy <a href=\"glosh.html#Histograms, 2D\">histogramu<\/a><br \/>\n(wykresu pokazuj\u0105cego rozk\u0142ad cz\u0119sto\u015bci danej zmiennej) ani na odwr\u00f3t; test i ogl\u0105d histogramu wzajemnie si\u0119 uzupe\u0142niaj\u0105.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup1.gif\" alt=\"\" width=\"350\" height=\"279\" border=\"0\" \/><\/p>\n<p>Wykres taki u\u0142atwia ocen\u0119 normalno\u015bci rozk\u0142adu empirycznego, poniewa\u017c na <a href=\"glosh.html#Histograms, 2D\">histogram<\/a><br \/>\nzostaje na\u0142o\u017cona dopasowana krzywa g\u0119sto\u015bci rozk\u0142adu normalnego. Pozwala on tak\u017ce zbada\u0107 <i>jako\u015bciowo<\/i> r\u00f3\u017cnorakie aspekty rozk\u0142adu. Rozk\u0142ad mo\u017ce by\u0107 na przyk\u0142ad dwumodalny (posiada\u0107 dwa maksima). Taka sytuacja mo\u017ce sugerowa\u0107, \u017ce pr\u00f3bka nie jest jednorodna i by\u0107 mo\u017ce jej elementy pochodz\u0105 z dw\u00f3ch r\u00f3\u017cnych populacji, z kt\u00f3rych ka\u017cda w mniejszym lub wi\u0119kszym stopniu mo\u017ce zosta\u0107 scharakteryzowana za pomoc\u0105 rozk\u0142adu normalnego. W takim przypadku, aby zrozumie\u0107 natur\u0119 badanej zmiennej, nale\u017cy zastanowi\u0107 si\u0119 nad sposobem rozdzielenia obydwu pr\u00f3bek sk\u0142adowych.<\/p>\n<p>&nbsp;<\/p>\n<hr size=\"1\" \/>\n<p><span style=\"color: navy; font-size: large;\">Korelacje<\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Wprowadzenie (co to s\u0105 korelacje?).<\/span> Korelacja (wsp\u00f3\u0142czynnik korelacji) jest miar\u0105 powi\u0105zania pomi\u0119dzy dwiema zmiennymi. Skale pomiarowe, jakich u\u017cywa si\u0119 w takiej analizie, powinny by\u0107 co najmniej <a href=\"gloss.html#Interval Scale\">skalami przedzia\u0142owymi<\/a><br \/>\n, lecz zdefiniowano tak\u017ce takie wsp\u00f3\u0142czynniki korelacji, kt\u00f3re umo\u017cliwiaj\u0105 analiz\u0119 danych innych typ\u00f3w. Wsp\u00f3\u0142czynniki korelacji przyjmuj\u0105 warto\u015bci z przedzia\u0142u od -1 do +1. Warto\u015b\u0107 -1 reprezentuje doskona\u0142\u0105 <a href=\"glosi.html#Negative Correlation\">korelacj\u0119 <i>ujemn\u0105<\/i><\/a><br \/>\n, a warto\u015b\u0107 +1 doskona\u0142\u0105 <a href=\"glosi.html#Positive Correlation\">korelacj\u0119 <i>dodatni\u0105<\/i><\/a><br \/>\n. Warto\u015b\u0107 0 wyra\u017ca brak korelacji.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup2.gif\" alt=\"\" width=\"308\" height=\"289\" border=\"0\" \/><\/p>\n<p>Najcz\u0119\u015bciej u\u017cywanym typem wsp\u00f3\u0142czynnika korelacji jest tzw. wsp\u00f3\u0142czynnik korelacji <i>r Pearsona<\/i>, nazywany r\u00f3wnie\u017c wsp\u00f3\u0142czynnikiem korelacji liniowej.<br \/>\n<span style=\"color: navy; font-size: medium;\">Korelacja liniowa prosta (r Pearsona).<\/span> Wsp\u00f3\u0142czynnik korelacji liniowej Pearsona (dalej nazywany po prostu wsp\u00f3\u0142czynnikiem <i>korelacji<\/i>) wymaga, aby dwie zmienne zosta\u0142y zmierzone co najmniej na <a href=\"gloss.html#Interval Scale\">skali przedzia\u0142owej<\/a><br \/>\n(patrz <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n). Okre\u015bla on stopie\u0144 proporcjonalnych powi\u0105za\u0144 warto\u015bci dw\u00f3ch zmiennych. Warto\u015b\u0107 korelacji (wsp\u00f3\u0142czynnik korelacji) nie zale\u017cy od jednostek miary, w jakich wyra\u017camy badane zmienne, np. korelacja pomi\u0119dzy wzrostem i ci\u0119\u017carem b\u0119dzie taka sama bez wzgl\u0119du na to, w jakich jednostkach (<i>cale<\/i> i <i>funty<\/i> czy <i>centymetry<\/i> i <i>kilogramy<\/i>) wyrazimy badane wielko\u015bci. Okre\u015blenie <i>proporcjonalne<\/i> znaczy <i>zale\u017cne liniowo<\/i>, to znaczy, \u017ce korelacja jest silna, je\u015bli mo\u017ce by\u0107 opisana przy pomocy linii prostej (nachylonej do g\u00f3ry lub na d\u00f3\u0142).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup3.gif\" alt=\"\" width=\"350\" height=\"275\" border=\"0\" \/><\/p>\n<p>Linia, o kt\u00f3rej mowa, nazywa si\u0119 <i>lini\u0105 regresji<\/i> albo <i>lini\u0105 szacowan\u0105 metod\u0105 najmniejszych kwadrat\u00f3w<\/i>, poniewa\u017c jej parametry okre\u015blane s\u0105 w ten spos\u00f3b, by suma <i>kwadrat\u00f3w<\/i> odchyle\u0144 punkt\u00f3w pomiarowych od tej linii by\u0142a minimalna. Zwr\u00f3\u0107my uwag\u0119, \u017ce fakt podnoszenia odleg\u0142o\u015bci do <i>kwadratu<\/i> powoduje, i\u017c wsp\u00f3\u0142czynnik korelacji reaguje na spos\u00f3b rozmieszczenia danych (jak to zobaczymy w dalszej cz\u0119\u015bci opisu).<br \/>\n<span style=\"color: navy; font-size: medium;\">Jak interpretowa\u0107 warto\u015b\u0107 korelacji. <\/span>Jak wspomnieli\u015bmy wcze\u015bniej, wsp\u00f3\u0142czynnik korelacji (r) wyra\u017ca liniow\u0105 zale\u017cno\u015b\u0107 mi\u0119dzy dwiema zmiennymi. Je\u015bli podniesiemy jego warto\u015b\u0107 do kwadratu w\u00f3wczas otrzymana warto\u015b\u0107 r<sup>2<\/sup> &#8211; <a href=\"glosu.html#Coefficient of Determination\">wsp\u00f3\u0142czynnik determinacji<\/a><br \/>\n&#8211; wyra\u017ca proporcj\u0119 wsp\u00f3lnej zmienno\u015bci dw\u00f3ch zmiennych (tzn. si\u0142\u0119 lub wielko\u015b\u0107 powi\u0105zania). Aby oceni\u0107 korelacj\u0119 pomi\u0119dzy zmiennymi, nale\u017cy zna\u0107 jej si\u0142\u0119\/wielko\u015b\u0107, jak te\u017c <i>istotno\u015b\u0107<\/i> wsp\u00f3\u0142czynnika korelacji.<br \/>\n<span style=\"color: navy; font-size: medium;\">Istotno\u015b\u0107 korelacji. <\/span>Poziom istotno\u015bci obliczany dla ka\u017cdego wsp\u00f3\u0142czynnika korelacji jest zasadniczym \u017ar\u00f3d\u0142em informacji o wiarygodno\u015bci korelacji. Jak t\u0142umaczyli\u015bmy to ju\u017c wcze\u015bniej (zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n), istotno\u015b\u0107 wsp\u00f3\u0142czynnika korelacji o zadanej warto\u015bci b\u0119dzie si\u0119 zmienia\u0107 w zale\u017cno\u015bci od liczno\u015bci pr\u00f3bki, na podstawie kt\u00f3rej zosta\u0142 on obliczony. Test istotno\u015bci wsp\u00f3\u0142czynnik\u00f3w korelacji opiera si\u0119 na za\u0142o\u017ceniu o normalno\u015bci rozk\u0142adu warto\u015bci resztowych (odchyle\u0144 od linii regresji) zmiennej <i>y<\/i>, oraz o r\u00f3wno\u015bci wariancji warto\u015bci resztowych dla wszystkich warto\u015bci zmiennej niezale\u017cnej <i>x<\/i>. Jednak\u017ce analizy wykonywane metod\u0105 Monte Carlo wskazuj\u0105, \u017ce rygorystyczne spe\u0142nienie tych warunk\u00f3w nie jest rzecz\u0105 najistotniejsz\u0105, je\u015bli pr\u00f3bka nie jest du\u017ca. Jest rzecz\u0105 niemo\u017cliw\u0105 sformu\u0142owanie \u015bcis\u0142ych wskaz\u00f3wek wynikaj\u0105cych z analiz Monte Carlo, lecz wielu badaczy przestrzega regu\u0142y, \u017ce je\u015bli wielko\u015b\u0107 pr\u00f3bki wynosi 50 lub wi\u0119cej, w\u00f3wczas wyst\u0105pienie silnych nieprawid\u0142owo\u015bci jest ma\u0142o prawdopodobne, je\u015bli za\u015b pr\u00f3bka liczy 100 lub wi\u0119cej, w\u00f3wczas za\u0142o\u017ceniem o normalno\u015bci nie nale\u017cy si\u0119 praktycznie przejmowa\u0107. Istniej\u0105 jednak inne zagro\u017cenia co do wiarygodno\u015bci wniosk\u00f3w wyci\u0105ganych na podstawie wielko\u015bci wsp\u00f3\u0142czynnika korelacji. Zosta\u0142y one opisane w tematach <i>Wprowadzenia do analizy korelacji<\/i>.<br \/>\n<span style=\"color: navy; font-size: medium;\">Obserwacje odstaj\u0105ce. <\/span>Obserwacjami odstaj\u0105cymi nazywamy obserwacje nietypowe (z definicji), rzadko wyst\u0119puj\u0105ce. Ze wzgl\u0119du na metod\u0119 wyznaczania linii regresji (polegaj\u0105c\u0105 na minimalizowaniu sumy kwadrat\u00f3w odchyle\u0144 a nie sumy <i>zwyk\u0142ych odchyle\u0144<\/i>), obserwacje odstaj\u0105ce maj\u0105 du\u017cy wp\u0142yw na nachylenie linii regresji, a w konsekwencji na warto\u015b\u0107 wsp\u00f3\u0142czynnika korelacji. Pojedyncza obserwacja odstaj\u0105ca jest w stanie bardzo zmieni\u0107 nachylenie linii regresji i w konsekwencji warto\u015b\u0107 wsp\u00f3\u0142czynnika korelacji, tak jak zaprezentowano to na poni\u017cszej animacji. Zauwa\u017cmy, \u017ce jedna obserwacja odstaj\u0105ca mo\u017ce znacz\u0105co wp\u0142ywa\u0107 na wysok\u0105 warto\u015b\u0107 wsp\u00f3\u0142czynnika korelacji, kt\u00f3ry w przeciwnym wypadku (bez tej obserwacji odstaj\u0105cej) by\u0142by bliski zeru. W zwi\u0105zku z tym oczywistym staje si\u0119 fakt, \u017ce nie nale\u017cy wyci\u0105ga\u0107 istotnych wniosk\u00f3w jedynie na podstawie warto\u015bci wsp\u00f3\u0142czynnika korelacji (tj. zalecane jest obejrzenie odpowiedniego wykresu rozrzutu).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/graphics\/anima3.gif\" alt=\"\" width=\"366\" height=\"255\" border=\"0\" \/><\/p>\n<p>Zwr\u00f3\u0107my uwag\u0119, \u017ce je\u017celi liczno\u015b\u0107 pr\u00f3bki jest relatywnie ma\u0142a, wtedy uwzgl\u0119dnianie lub nieuwzgl\u0119dnianie poszczeg\u00f3lnych obserwacji, kt\u00f3re nie s\u0105 w tak oczywisty spos\u00f3b odstaj\u0105ce jak pokazane w poprzednim przyk\u0142adzie mo\u017ce mie\u0107 r\u00f3wnie\u017c du\u017cy wp\u0142yw na nachylenie linii regresji (i wsp\u00f3\u0142czynnik korelacji). Ilustruje to poni\u017cszy przyk\u0142ad, w kt\u00f3rym nieuwzgl\u0119dniane punkty nazywamy obserwacjami odstaj\u0105cymi, aczkolwiek mo\u017cna traktowa\u0107 je r\u00f3wnie\u017c jako obserwacje ekstremalne.<\/p>\n<p><img decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/graphics\/anima1.gif\" alt=\"\" border=\"0\" \/><\/p>\n<p>Na og\u00f3\u0142 wierzymy, \u017ce obserwacje odstaj\u0105ce wyra\u017caj\u0105 losowy b\u0142\u0105d, kt\u00f3ry chcieliby\u015bmy m\u00f3c kontrolowa\u0107. Niestety nie istnieje powszechnie stosowana metoda automatycznego usuwania odstaj\u0105cych obserwacji (warto jednak zapozna\u0107 si\u0119 z nast\u0119pnym paragrafem &#8211; Podej\u015bcie ilo\u015bciowe do obserwacji odstaj\u0105cych), w zwi\u0105zku z czym jeste\u015bmy zdani na analiz\u0119 <a href=\"glosu.html#Scatterplot, 2D\"><i>wykres\u00f3w rozrzutu<\/i><\/a><br \/>\ndla ka\u017cdej istotnej warto\u015bci wsp\u00f3\u0142czynnika korelacji. Nie ma potrzeby dodawania, \u017ce obserwacje odstaj\u0105ce mog\u0105 nie tylko sztucznie zwi\u0119kszy\u0107 wsp\u00f3\u0142czynnik korelacji, lecz r\u00f3wnie\u017c mog\u0105 zani\u017cy\u0107 jego prawdziw\u0105 warto\u015b\u0107.<\/p>\n<p>Zob. <a href=\"glose.html#Ellipse, (Confidence)\">elipsa obszaru ufno\u015bci<\/a><br \/>\n.<br \/>\n<span style=\"color: navy; font-size: medium;\">Podej\u015bcie ilo\u015bciowe do obserwacji odstaj\u0105cych. <\/span>W przypadku post\u0119powania z obserwacjami odstaj\u0105cymi niekt\u00f3rzy badacze u\u017cywaj\u0105 podej\u015bcia ilo\u015bciowego. Na przyk\u0142ad wykluczaj\u0105 obserwacj\u0119, kt\u00f3ra wychodzi poza przedzia\u0142 obejmuj\u0105cy \u00b12 <a href=\"gloso.html#Standard Deviation\">odchylenia standardowe <\/a><br \/>\n(lub nawet \u00b11,5 odchylenia standardowego) od warto\u015bci \u015bredniej grupowej lub \u015bredniej obiektowej. W niekt\u00f3rych dziedzinach bada\u0144 takie czyszczenie danych jest absolutnie niezb\u0119dne. Na przyk\u0142ad w badaniach z zakresu psychologii poznawczej dotycz\u0105cych czasu reakcji, nawet je\u015bli prawie wszystkie wyniki le\u017c\u0105 w przedziale 300-700 <i>milisekund<\/i>, to kilka &#8222;roztargnionych&#8221; reakcji rz\u0119du 10-15 <i>sekund<\/i> mo\u017ce kompletnie rozmaza\u0107 obraz ca\u0142ego pomiaru. Niestety, zdefiniowanie tego, co uznajemy za obserwacj\u0119 odstaj\u0105c\u0105, jest spraw\u0105 subiektywn\u0105 (i tak\u0105 musi pozosta\u0107) i decyzj\u0119 o identyfikacji odstaj\u0105cych obserwacji musi badacz podejmowa\u0107 indywidualnie opieraj\u0105c si\u0119 na swoim do\u015bwiadczeniu oraz powszechnie akceptowanej praktyce w danej dziedzinie bada\u0144. Nale\u017cy wszak\u017ce zaznaczy\u0107, \u017ce w pewnych rzadkich przypadkach mo\u017cna zbada\u0107 cz\u0119sto\u015b\u0107 wzgl\u0119dn\u0105 wyst\u0119powania obserwacji odstaj\u0105cych w obr\u0119bie pewnej liczby grup lub obiekt\u00f3w do\u015bwiadczalnych i analiza tego typu mo\u017ce dostarczy\u0107 interpretowalnych wynik\u00f3w. Obserwacje odstaj\u0105ce mog\u0105 na przyk\u0142ad wskazywa\u0107 na wyst\u0105pienie w danej pr\u00f3bie pewnego nietypowego zjawiska, jako\u015bciowo odmiennego od zazwyczaj obserwowanego lub oczekiwanego. W takim wypadku cz\u0119sto\u015b\u0107 wzgl\u0119dna wyst\u0119powania obserwacji odstaj\u0105cych mo\u017ce dostarczy\u0107 dowodu na wyst\u0119powanie odst\u0119pstw od typowego dla wi\u0119kszo\u015bci przypadk\u00f3w przebiegu analizowanego procesu lub zjawiska w obr\u0119bie danej grupy. Zob. <a href=\"glose.html#Ellipse, (Confidence)\">elipsa obszaru ufno\u015bci<\/a><br \/>\n.<br \/>\n<span style=\"color: navy; font-size: medium;\">Korelacje w grupach niejednorodnych. <\/span>Brak jednorodno\u015bci w pr\u00f3bce, w kt\u00f3rej obliczono korelacje mo\u017ce by\u0107 r\u00f3wnie\u017c czynnikiem wp\u0142ywaj\u0105cym na warto\u015b\u0107 wsp\u00f3\u0142czynnika korelacji. Wyobra\u017amy sobie sytuacj\u0119, w kt\u00f3rej obliczamy wsp\u00f3\u0142czynnik korelacji z danych pochodz\u0105cych z dw\u00f3ch r\u00f3\u017cnych grup do\u015bwiadczalnych, ale fakt ten jest pomijany w obliczeniach. Za\u0142\u00f3\u017cmy dalej, \u017ce warunki eksperymentu zosta\u0142y tak dobrane, \u017ce spowodowa\u0142y wzrost warto\u015bci obydwu korelowanych zmiennych w jednej z grup do\u015bwiadczalnych i w zwi\u0105zku z tym obie grupy obserwacji tworz\u0105 oddzielne &#8222;chmury&#8221; punkt\u00f3w na <a href=\"glosu.html#Scatterplot, 2D\">wykresie rozrzutu<\/a><br \/>\n.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup4.gif\" alt=\"\" width=\"350\" height=\"248\" border=\"0\" \/><\/p>\n<p>W takim wypadku rezultatem oblicze\u0144 mo\u017ce by\u0107 du\u017ca warto\u015b\u0107 wsp\u00f3\u0142czynnika korelacji spowodowana rozmieszczeniem dw\u00f3ch oddzielnych grup punkt\u00f3w, mimo \u017ce prawdziwy wsp\u00f3\u0142czynnik korelacji jest bliski lub r\u00f3wny zeru (gdyby\u015bmy analizowali ka\u017cd\u0105 grup\u0119 oddzielnie, co mo\u017cna zaobserwowa\u0107 na poni\u017cszym wykresie).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup5.gif\" alt=\"\" width=\"350\" height=\"248\" border=\"0\" \/><\/p>\n<p>Je\u015bli potrafimy rozpozna\u0107 tak\u0105 sytuacj\u0119, to powinni\u015bmy odseparowa\u0107 obie grupy i przeprowadzi\u0107 obliczenia oddzielnie dla ka\u017cdej z nich. Je\u015bli nie potrafimy zidentyfikowa\u0107 hipotetycznych podzbior\u00f3w danych, to nale\u017cy spr\u00f3bowa\u0107 jednej z technik wielowymiarowej eksploracji danych (np. <a href=\"stcluan.html\">Analiza skupie\u0144<\/a><br \/>\n).<br \/>\n<span style=\"color: navy; font-size: medium;\"> Nieliniowe powi\u0105zania pomi\u0119dzy zmiennymi. <\/span>Innym potencjalnym \u017ar\u00f3d\u0142em problem\u00f3w w przypadku stosowania korelacji liniowej (<i>r Pearsona<\/i>) jest kszta\u0142t zale\u017cno\u015bci. Jak wspomnieli\u015bmy o tym poprzednio, wsp\u00f3\u0142czynnik korelacji <i>r Pearsona<\/i> mierzy liniow\u0105 zale\u017cno\u015b\u0107 mi\u0119dzy zmiennymi. Odst\u0119pstwa od liniowo\u015bci spowoduj\u0105 wzrost sumy kwadrat\u00f3w odchyle\u0144 od linii regresji, nawet je\u015bli reprezentuj\u0105 one prawdziwy i \u015bcis\u0142y zwi\u0105zek dw\u00f3ch zmiennych. Okoliczno\u015b\u0107 ta powoduje, \u017ce analizowanie <a href=\"glosu.html#Scatterplot, 2D\">wykres\u00f3w rozrzutu<\/a><br \/>\njest niezb\u0119dnym elementem analizy przy obliczaniu korelacji. Na poni\u017cszym wykresie prezentujemy bardzo siln\u0105 zale\u017cno\u015b\u0107 mi\u0119dzy zmiennymi, kt\u00f3rej nie mo\u017cna dobrze opisa\u0107 za pomoc\u0105 funkcji liniowej.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup6.gif\" alt=\"\" width=\"350\" height=\"248\" border=\"0\" \/><br \/>\n<span style=\"color: navy; font-size: medium;\">Pomiar relacji nieliniowych. <\/span>Jak nale\u017cy post\u0105pi\u0107 w sytuacji gdy korelacja jest silna lecz wyra\u017anie nieliniowa (jak wynika to z analizy wykresu rozrzutu)? Niestety, na pytanie to nie ma prostej odpowiedzi, poniewa\u017c nie zosta\u0142 zdefiniowany uniwersalny odpowiednik wsp\u00f3\u0142czynnika korelacji <i>r Pearsona<\/i> dla relacji nieliniowych. Je\u015bli krzywa jest monotoniczna (rosn\u0105ca lub malej\u0105ca), w\u00f3wczas mo\u017cna pr\u00f3bowa\u0107 przekszta\u0142ci\u0107 jedn\u0105 lub obydwie zmienne tak, aby usun\u0105\u0107 nieliniowo\u015b\u0107, a nast\u0119pnie ponownie obliczy\u0107 wsp\u00f3\u0142czynnik korelacji. Typow\u0105 transformacj\u0105 u\u017cywan\u0105 w takich przypadkach jest funkcja logarytmiczna, kt\u00f3ra \u015bcie\u015bnia warto\u015bci na ko\u0144cach przedzia\u0142u. Inn\u0105 mo\u017cliwo\u015bci\u0105 w przypadku monotonicznej zale\u017cno\u015bci jest u\u017cycie korelacji nieparametrycznych (np. <i>R<\/i> Spearmana, zob. <a href=\"stnonpar.html\"><i> nieparametryczne i rozk\u0142adowe dopasowanie<\/i><\/a><br \/>\n), kt\u00f3re uwzgl\u0119dniaj\u0105 jedynie <a href=\"gloss.html#Ordinal Scale\">uporz\u0105dkowanie<\/a><br \/>\nwarto\u015bci i z definicji ignoruj\u0105 efekty monotonicznej nieliniowo\u015bci. Jednak\u017ce korelacje nieparametryczne s\u0105 z natury mniej czu\u0142e i taka metoda mo\u017ce nie wykaza\u0107 istotnego efektu. Tak si\u0119 sk\u0142ada, \u017ce dwie najdok\u0142adniejsze metody nie s\u0105 \u0142atwe w u\u017cyciu i wymagaj\u0105 nieco eksperymentowania z danymi. Mo\u017cna zatem:<\/p>\n<ol type=\"A\">\n<li>Pr\u00f3bowa\u0107 dopasowa\u0107 wybran\u0105 funkcj\u0119 do danych. Po znalezieniu odpowiedniej funkcji mo\u017cna przeprowadzi\u0107 test dobroci jej dopasowania.<\/li>\n<li>Jako podej\u015bcie alternatywne mo\u017cliwe jest podzielenie jednej ze zmiennych na pewn\u0105 liczb\u0119 przedzia\u0142\u00f3w (np. 4 lub 5) o r\u00f3wnej d\u0142ugo\u015bci i potraktowanie nowej zmiennej jako <a href=\"glosx.html#Grouping Variable\">zmiennej grupuj\u0105cej<\/a><br \/>\ni przeprowadzenie na danych analizy wariancji.<\/li>\n<\/ol>\n<p><span style=\"color: navy; font-size: medium;\">Eksploracyjna analiza macierzy korelacji. <\/span>W analizie danych, w kt\u00f3rej mamy do czynienia z wieloma zmiennymi, powszechnie stosowan\u0105 praktyk\u0105 jest obliczanie macierzy korelacji i szukanie oczekiwanych (i nieoczekiwanych) istotnych zale\u017cno\u015bci. Badacz musi by\u0107 \u015bwiadomy, \u017ce z natury istotno\u015bci statystycznej (zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n) wynika, i\u017c je\u015bli przeprowadza si\u0119 du\u017c\u0105 liczb\u0119 test\u00f3w naraz (w tym przypadku oceniaj\u0105c wiele wsp\u00f3\u0142czynnik\u00f3w korelacji) w\u00f3wczas warto\u015bci statystycznie istotne mog\u0105 zdarza\u0107 si\u0119 zaskakuj\u0105co cz\u0119sto. Na przyk\u0142ad, z definicji wsp\u00f3\u0142czynnik istotny na poziomie 0,05 mo\u017ce zdarzy\u0107 si\u0119 przez przypadek (losowo) raz na 20 wsp\u00f3\u0142czynnik\u00f3w. Nie istnieje \u017caden automatyczny spos\u00f3b odsiania prawdziwych korelacji. Badacz powinien zatem wszystkie wyniki nie przewidziane i nie zaplanowane traktowa\u0107 ze szczeg\u00f3ln\u0105 ostro\u017cno\u015bci\u0105 i analizowa\u0107 je pod k\u0105tem zgodno\u015bci z innymi, niezale\u017cnymi wynikami. W skrajnym (cho\u0107 bardzo kosztownym) wypadku kontrola takich przypadk\u00f3w powinna polega\u0107 na powt\u00f3rzeniu pomiar\u00f3w. Jest to uwaga natury og\u00f3lnej i dotyczy wszystkich sytuacji, w kt\u00f3rych mamy do czynienia z wieloma por\u00f3wnaniami i istotno\u015bci\u0105 statystyczn\u0105. Problem ten poruszany jest te\u017c w kontek\u015bcie <a href=\"#Post-Hoc\"><i>por\u00f3wna\u0144 \u015brednich post-hoc <\/i><\/a><br \/>\ni opcji <a href=\"#Breakdown: Descriptive statistics by groups\">przekrojowych<\/a><br \/>\n.<br \/>\n<span style=\"color: navy; font-size: medium;\">Usuwanie brakuj\u0105cych danych przypadkami lub parami. <\/span>Domy\u015blnym sposobem usuwania brakuj\u0105cych danych podczas obliczania macierzy korelacji jest wykluczanie takich przypadk\u00f3w, w kt\u00f3rych brakuje pomiaru dla cho\u0107by jednej zmiennej. Spos\u00f3b taki nazywamy <i>usuwaniem brakuj\u0105cych danych przypadkami<\/i>. Jedynie ten spos\u00f3b zapewnia otrzymanie prawdziwej macierzy korelacji, w kt\u00f3rej wszystkie wsp\u00f3\u0142czynniki otrzymano na podstawie tego samego zbioru danych. Je\u015bli jednak przypadki brakuj\u0105ce s\u0105 roz\u0142o\u017cone losowo pomi\u0119dzy r\u00f3\u017cne obserwacje, to metoda ta potrafi znacznie zmniejszy\u0107 liczno\u015b\u0107 pr\u00f3bki, a w kra\u0144cowym przypadku nawet zredukowa\u0107 j\u0105 do zera. Rozwi\u0105zaniem dla takich sytuacji jest metoda <i>usuwania brakuj\u0105cych danych parami<\/i>. W metodzie tej wsp\u00f3\u0142czynnik korelacji dla ka\u017cdej pary zmiennych jest obliczany na podstawie wszystkich poprawnych danych. W wielu sytuacjach metoda taka mo\u017ce zosta\u0107 uznana za w\u0142a\u015bciw\u0105, zw\u0142aszcza wtedy, gdy danych brakuj\u0105cych jest ma\u0142o (np. 10%) i gdy s\u0105 one r\u00f3wnomiernie roz\u0142o\u017cone pomi\u0119dzy przypadki i zmienne. Niekiedy jednak metoda usuwania parami mo\u017ce prowadzi\u0107 do powa\u017cnych komplikacji.<\/p>\n<p>Na przyk\u0142ad w wyniku ukrytego systematycznego rozmieszczenia brakuj\u0105cych danych mo\u017ce powsta\u0107 tendencyjne odchylenie wynik\u00f3w, poniewa\u017c r\u00f3\u017cne wsp\u00f3\u0142czynniki tej samej macierzy korelacji obliczone s\u0105 na podstawie r\u00f3\u017cnych podzbior\u00f3w danych. Opr\u00f3cz tego, \u017ce mo\u017cna wysnu\u0107 fa\u0142szywe wnioski z oceny takiej macierzy korelacji, to mog\u0105 powsta\u0107 r\u00f3wnie\u017c powa\u017cne problemy w sytuacji, gdy macierzy takiej u\u017cyjemy jako wej\u015bciowej do innych analiz (np. <a href=\"stmulreg.html\"><i>regresja wielokrotna<\/i><\/a><br \/>\n, <a href=\"stfacan.html\"><i> analiza czynnikowa<\/i><\/a><br \/>\nczy <a href=\"stcluan.html\"><i>analiza skupie\u0144<\/i><\/a><br \/>\n), gdzie zak\u0142ada si\u0119, \u017ce macierz korelacji jest macierz\u0105 &#8222;prawdziw\u0105&#8221; o zagwarantowanym poziomie wewn\u0119trznej zgodno\u015bci zmiennych. Je\u015bli zatem kto\u015b stosuje metod\u0119 usuwania brakuj\u0105cych danych parami, to powinien zbada\u0107 rozk\u0142ad brakuj\u0105cych danych w macierzy obserwacji na okoliczno\u015b\u0107 wyst\u0119powania jakich\u015b systematycznych uk\u0142ad\u00f3w.<br \/>\n<span style=\"color: navy; font-size: medium;\">Jak wykrywa\u0107 b\u0142\u0119dy spowodowane usuwaniem brakuj\u0105cych danych parami. <\/span>Je\u017celi metoda usuwania brakuj\u0105cych danych parami nie wprowadza szczeg\u00f3lnych zak\u0142\u00f3ce\u0144 do macierzy korelacji, to wszystkie statystyki opisowe dla danej zmiennej powinny by\u0107 do siebie zbli\u017cone. Je\u017celi za\u015b wyst\u0119puj\u0105 mi\u0119dzy nimi r\u00f3\u017cnice, to mo\u017cna podejrzewa\u0107, \u017ce mamy do czynienia z odchy\u0142kami. Je\u017celi na przyk\u0142ad \u015brednia warto\u015b\u0107 (lub odchylenie standardowe) zmiennej A obliczona na podstawie podzbioru wsp\u00f3\u0142czynnik\u00f3w korelacji ze zmienn\u0105 B jest znacznie ni\u017csza ni\u017c \u015brednia tej zmiennej obliczona na podstawie podzbioru wsp\u00f3\u0142czynnik\u00f3w korelacji ze zmienn\u0105 C to mo\u017cna podejrzewa\u0107, \u017ce obydwa podzbiory danych (A-B i A-C) r\u00f3\u017cni\u0105 si\u0119 znacznie i \u017ce mamy do czynienia z odchyleniami spowodowanymi rozmieszczeniem brakuj\u0105cych danych.<br \/>\n<span style=\"color: navy; font-size: medium;\">Usuwanie brakuj\u0105cych danych parami a zast\u0119powanie \u015bredni\u0105. <\/span>Inn\u0105 powszechnie stosowan\u0105 metod\u0105, pozwalaj\u0105c\u0105 unikn\u0105\u0107 utraty danych, w przypadku usuwania brakuj\u0105cych danych przypadkami, jest tzw. <i>zast\u0119powanie brakuj\u0105cych danych za pomoc\u0105 \u015brednich<\/i> (zast\u0119powanie \u015bredni\u0105). Zast\u0119powanie warto\u015bci\u0105 \u015bredni\u0105 posiada zar\u00f3wno wady, jak i zalety w por\u00f3wnaniu z usuwaniem parami. G\u0142\u00f3wn\u0105 zalet\u0119 stanowi fakt, \u017ce pozwala ono na generowanie wewn\u0119trznie sp\u00f3jnych wynik\u00f3w (macierzy prawdziwych korelacji). Do podstawowych wad zaliczy\u0107 nale\u017cy:<\/p>\n<ol type=\"A\">\n<li><i>Zast\u0119powanie \u015bredni\u0105<\/i> sztucznie zmniejsza zmienno\u015b\u0107 wynik\u00f3w, a relatywny procent tego zmniejszenia jest proporcjonalny do tego, ile obserwacji brakuje dla danej cechy (tzn. im wi\u0119cej przypadk\u00f3w brakuje, tym wi\u0119cej warto\u015bci odpowiadaj\u0105cych dok\u0142adnie \u015bredniej jest dodawanych do zbioru danych);<\/li>\n<li>Poniewa\u017c braki danych zast\u0119powane s\u0105 sztucznie utworzonymi obserwacjami, odpowiadaj\u0105cymi \u015bredniej, wi\u0119c <i>zast\u0119powanie \u015bredni\u0105<\/i> mo\u017ce w istotny spos\u00f3b zmieni\u0107 warto\u015bci korelacji, zw\u0142aszcza zawy\u017cy\u0107 je.<\/li>\n<\/ol>\n<p><span style=\"color: navy; font-size: medium;\">Korelacje pozorne. <\/span>Chocia\u017c w oparciu o warto\u015bci wsp\u00f3\u0142czynnik\u00f3w korelacji nie mo\u017cna dowie\u015b\u0107 istnienia zwi\u0105zku przyczynowego (zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n), to jednak mo\u017cna zidentyfikowa\u0107 tzw. korelacje <i>pozorne<\/i>, to znaczy takie korelacje, kt\u00f3re powstaj\u0105 g\u0142\u00f3wnie w wyniku wp\u0142ywu innych zmiennych. Na przyk\u0142ad nietrudno si\u0119 domy\u015bli\u0107, \u017ce istnieje korelacja pomi\u0119dzy wielko\u015bci\u0105 strat zwi\u0105zanych z po\u017carem a liczb\u0105 stra\u017cak\u00f3w bior\u0105cych udzia\u0142 w gaszeniu. Jednak\u017ce nie mo\u017cna z tego wyci\u0105gn\u0105\u0107 wniosku, \u017ce je\u015bli wezwiemy mniej stra\u017cak\u00f3w, to straty b\u0119d\u0105 mniejsze. Decyduj\u0105cy wp\u0142yw ma tu trzecia zmienna (mianowicie <i>wielko\u015b\u0107<\/i> po\u017caru), kt\u00f3ra ma decyduj\u0105cy wp\u0142yw zar\u00f3wno na straty, jak i na liczb\u0119 stra\u017cak\u00f3w. Je\u015bli byliby\u015bmy w stanie kontrolowa\u0107 t\u0119 zmienn\u0105 (to znaczy rozpatrywa\u0107 jedynie po\u017cary o ustalonej wielko\u015bci), w\u00f3wczas korelacja wspomniana na wst\u0119pie albo w og\u00f3le zniknie albo nawet mo\u017ce zmieni\u0107 znak. G\u0142\u00f3wny problem z korelacjami pozornymi jest taki, \u017ce w zasadzie nigdy nie wiemy, co jest tym ukrytym czynnikiem. Je\u015bli jednak znamy przyczyn\u0119, to wtedy mo\u017cemy obliczy\u0107 <i>korelacje cz\u0105stkowe<\/i>, kt\u00f3re uwzgl\u0119dniaj\u0105 (<i>usuwaj\u0105<\/i>) wp\u0142yw okre\u015blonych zmiennych.<br \/>\n<span style=\"color: navy; font-size: medium;\">Czy wsp\u00f3\u0142czynniki korelacji s\u0105 addytywne.<\/span> Nie s\u0105. Na przyk\u0142ad \u015brednia warto\u015b\u0107 wsp\u00f3\u0142czynnik\u00f3w korelacji z wielu pr\u00f3bek nie b\u0119dzie r\u00f3wna \u015bredniej korelacji w tych wszystkich pr\u00f3bkach. Poniewa\u017c wsp\u00f3\u0142czynnik korelacji nie jest liniow\u0105 funkcj\u0105 si\u0142y relacji mi\u0119dzy zmiennymi nie mo\u017cna u\u015brednia\u0107 wsp\u00f3\u0142czynnik\u00f3w korelacji. Je\u015bli taka potrzeba zachodzi, w\u00f3wczas nale\u017cy wpierw wsp\u00f3\u0142czynniki korelacji zamieni\u0107 na inne, addytywne mierniki. Mo\u017cna na przyk\u0142ad bra\u0107 kwadraty wsp\u00f3\u0142czynnik\u00f3w korelacji &#8211; tzw.<i> wsp\u00f3\u0142czynniki determinacji<\/i>, kt\u00f3re s\u0105 addytywne (jak to zosta\u0142o wyja\u015bnione w temacie: Jak interpretowa\u0107 warto\u015bci korelacji), lub zamieni\u0107 je na tzw. warto\u015bci <i>z-Fishera<\/i>, kt\u00f3re r\u00f3wnie\u017c s\u0105 addytywne.<br \/>\n<span style=\"color: navy; font-size: medium;\">Jak okre\u015bli\u0107 istotno\u015b\u0107 r\u00f3\u017cnic pomi\u0119dzy dwoma wsp\u00f3\u0142czynnikami korelacji.<\/span>Dost\u0119pny jest test sprawdzaj\u0105cy istotno\u015b\u0107 r\u00f3\u017cnic pomi\u0119dzy dwoma wsp\u00f3\u0142czynnikami korelacji w dw\u00f3ch pr\u00f3bkach (zob. <i>Inne testy istotno\u015bci<\/i>). Wynik tego testu zale\u017cy nie tylko od bezwzgl\u0119dnej wielko\u015bci r\u00f3\u017cnicy tych wsp\u00f3\u0142czynnik\u00f3w, ale tak\u017ce od wielko\u015bci pr\u00f3bek, jak r\u00f3wnie\u017c od samych warto\u015bci tych wsp\u00f3\u0142czynnik\u00f3w. Zgodnie z wcze\u015bniej omawian\u0105 zasad\u0105, im wi\u0119ksza liczno\u015b\u0107 pr\u00f3bki, tym mniejsze efekty mo\u017cna na jej podstawie wykry\u0107. W og\u00f3lno\u015bci, z powodu faktu, \u017ce wiarygodno\u015b\u0107 wsp\u00f3\u0142czynnika korelacji ro\u015bnie wraz z jego bezwzgl\u0119dn\u0105 warto\u015bci\u0105 to relatywnie ma\u0142e r\u00f3\u017cnice pomi\u0119dzy du\u017cymi wsp\u00f3\u0142czynnikami korelacji mog\u0105 by\u0107 istotne. Na przyk\u0142ad r\u00f3\u017cnica r\u00f3wna 0,10 mo\u017ce okaza\u0107 si\u0119 nieistotna w przypadku dw\u00f3ch wsp\u00f3\u0142czynnik\u00f3w r\u00f3wnych 0,15 i 0,25, a w tak samo licznych pr\u00f3bkach b\u0119dzie ona wysoce istotna, je\u015bli wsp\u00f3\u0142czynniki s\u0105 r\u00f3wne 0,80 i 0,90.<\/p>\n<table align=\"RIGHT\">\n<tbody>\n<tr>\n<td><a href=\"#index\"><span style=\"font-size: xx-small;\">Indeks<\/span><\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<hr size=\"1\" \/>\n<p><span style=\"color: navy; font-size: large;\">Test t dla pr\u00f3b niezale\u017cnych<\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Przeznaczenie, za\u0142o\u017cenia. <\/span>Test <i>t<\/i> jest najbardziej powszechnie stosowan\u0105 metod\u0105 oceny r\u00f3\u017cnic mi\u0119dzy \u015brednimi w dw\u00f3ch grupach. Mo\u017cna go na przyk\u0142ad u\u017cy\u0107 do sprawdzenia r\u00f3\u017cnicy w te\u015bcie <i>t<\/i> przeprowadzanym na grupie pacjent\u00f3w poddanych dzia\u0142aniu jakiego\u015b leku w stosunku do grupy otrzymuj\u0105cych placebo. Teoretycznie test t mo\u017ce by\u0107 stosowany tak\u017ce w przypadku bardzo ma\u0142ych pr\u00f3b (np. o liczno\u015bci 10, za\u015b niekt\u00f3rzy badacze twierdz\u0105, \u017ce nawet mniejsze liczno\u015bci s\u0105 dopuszczalne); jedynym warunkiem jest normalno\u015b\u0107 rozk\u0142adu zmiennych oraz brak istotnych r\u00f3\u017cnic mi\u0119dzy wariancjami (patrz tak\u017ce <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n). Jak zosta\u0142o to wspomniane wcze\u015bniej, za\u0142o\u017cenie o normalno\u015bci mo\u017cna sprawdzi\u0107 przez analiz\u0119 rozk\u0142adu danych (przy pomocy <a href=\"glosh.html#Histograms, 2D\">histogram\u00f3w<\/a>) lub przy pomocy testu normalno\u015bci. Za\u0142o\u017cenie o r\u00f3wno\u015bci wariancji sprawdzamy za pomoc\u0105 testu <i>F<\/i> lub te\u017c przy pomocy mocniejszej opcji okre\u015blonej jako <i>test Levene&#8217;a<\/i>. Je\u017celi warunki, o kt\u00f3rych mowa nie s\u0105 spe\u0142nione, w\u00f3wczas pozostaje u\u017cycie jednego z test\u00f3w nieparametrycznych alternatywnych w stosunku do testu <i>t<\/i> (zob. <a href=\"stnonpar.html\"><i>Statystyki nieparametryczne<\/i><\/a><br \/>\n).<\/p>\n<p>Podawana w wynikach testu <i>t<\/i> warto\u015b\u0107 <i>p<\/i> reprezentuje prawdopodobie\u0144stwo b\u0142\u0119du zwi\u0105zanego z przyj\u0119ciem hipotezy o istnieniu r\u00f3\u017cnic mi\u0119dzy \u015brednimi. Ujmuj\u0105c to j\u0119zykiem bardziej technicznym jest to prawdopodobie\u0144stwo pope\u0142nienia b\u0142\u0119du polegaj\u0105cego na odrzuceniu hipotezy o braku r\u00f3\u017cnicy mi\u0119dzy \u015brednimi w dw\u00f3ch badanych kategoriach obserwacji nale\u017c\u0105cych do populacji generalnej (reprezentowanych przez badane grupy) w sytuacji, gdy stan faktyczny w populacji jest taki, i\u017c hipoteza ta jest prawdziwa. Niekt\u00f3rzy badacze uwa\u017caj\u0105, \u017ce je\u015bli znak r\u00f3\u017cnicy \u015brednich jest zgodny z przewidywaniami, to mo\u017cna do testowania u\u017cywa\u0107 jedynie po\u0142owy (jednego &#8222;ogona&#8221;) rozk\u0142adu prawdopodobie\u0144stwa i dzieli\u0107 warto\u015b\u0107 <i>p<\/i> podawan\u0105 w te\u015bcie <i>t<\/i> (prawdopodobie\u0144stwo wyznaczone przez obydwa &#8222;ogony&#8221; rozk\u0142adu) przez dwa. Inni badacze uwa\u017caj\u0105 takie post\u0119powanie za b\u0142\u0119dne i zalecaj\u0105 u\u017cywa\u0107 dwustronnego obszaru krytycznego.<\/p>\n<p>Zob. <a href=\"glosr.html#Student's t Distribution\">rozk\u0142ad t-Studenta<\/a><br \/>\n.<br \/>\n<span style=\"color: navy; font-size: medium;\"> Spos\u00f3b rozmieszczenia danych. <\/span>Do przeprowadzenia testu <i>t<\/i> dla pr\u00f3b niezale\u017cnych wymagana jest jedna niezale\u017cna <i>grupowa<\/i> zmienna (grupuj\u0105ca &#8211; np. P\u0142e\u0107: <i>m\u0119\u017cczyzna\/kobieta<\/i>) oraz przynajmniej jedna zmienna zale\u017cna (np. wynik testu). Warto\u015bci \u015brednie zmiennej zale\u017cnej b\u0119d\u0105 por\u00f3wnywane w grupach identyfikowanych (kody grupuj\u0105ce np. <i>m\u0119\u017cczyzna<\/i> i <i>kobieta<\/i>) przez warto\u015bci zmiennej niezale\u017cnej. Za pomoc\u0105 testu <i>t<\/i> por\u00f3wnuj\u0105cego \u015brednie warto\u015bci <i>LBC<\/i> (Liczba bia\u0142ych cia\u0142ek) u <i>m\u0119\u017cczyzn<\/i> i <i>kobiet<\/i> mo\u017cna analizowa\u0107 pokazane poni\u017cej dane:<\/p>\n<\/div>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">P\u0141E\u0106<\/span><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">LBC<\/span><\/th>\n<\/tr>\n<tr>\n<th><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\nprzyp. 4<br \/>\nprzyp. 5<\/span><\/th>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">m\u0119\u017cczyzna<br \/>\nm\u0119\u017cczyzna<br \/>\nm\u0119\u017cczyzna<br \/>\nkobieta<br \/>\nkobieta<\/span><\/td>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">111<br \/>\n110<br \/>\n109<br \/>\n102<br \/>\n104<\/span><\/td>\n<\/tr>\n<tr>\n<th><\/th>\n<th colspan=\"2\" align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">\u015brednia LBC u m\u0119\u017cczyzn = 110<br \/>\nrednia LBC u kobiet = 103<\/span><\/th>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><span style=\"color: navy; font-size: medium;\">Wykresy dla test\u00f3w t. <\/span>W przypadku testu <i>t<\/i> por\u00f3wnania warto\u015bci \u015brednich i miar zmienno\u015bci w dw\u00f3ch grupach mo\u017cna przedstawia\u0107 graficznie przy pomocy <a href=\"glosu.html#Box Plots, 2D - Box Whiskers\"><i>wykres\u00f3w ramkowych<\/i><\/a><br \/>\n(na przyk\u0142ad jak na wykresie poni\u017cej).<\/p>\n<div class=\"estcontent\">\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup75.gif\" alt=\"\" width=\"380\" height=\"253\" border=\"0\" \/><\/p>\n<p>Wykresy te u\u0142atwiaj\u0105 szybk\u0105 ocen\u0119 i intuicyjn\u0105 wizualizacj\u0119 si\u0142y relacji pomi\u0119dzy zmienn\u0105 grupuj\u0105c\u0105 i zmienn\u0105 zale\u017cn\u0105.<br \/>\n<span style=\"color: navy; font-size: medium;\">Por\u00f3wnania bardziej z\u0142o\u017cone. <\/span>W praktyce badawczej cz\u0119sto zdarza si\u0119, \u017ce nale\u017cy dokona\u0107 por\u00f3wna\u0144 dla wi\u0119cej ni\u017c dw\u00f3ch grup (np. <i>lek 1<\/i>, <i>lek 2<\/i> oraz <i>placebo<\/i>) albo por\u00f3wnywa\u0107 grupy utworzone na podstawie wi\u0119cej ni\u017c jednej zmiennej niezale\u017cnej przy uwzgl\u0119dnieniu oddzielnego wp\u0142ywu ka\u017cdej z nich (np. <i>P\u0142e\u0107<\/i>,<i> typ leku <\/i>i <i>wielko\u015b\u0107 dawki<\/i>). W takich wypadkach nale\u017cy analiz\u0119 prowadzi\u0107 za pomoc\u0105 technik <a href=\"stanman.html\"><i>Analizy wariancji<\/i><\/a><br \/>\n(lub modu\u0142u Og\u00f3lne Modele Liniowe (GLM)), kt\u00f3r\u0105 mo\u017cna uwa\u017ca\u0107 za uog\u00f3lnienie testu t. Faktycznie dla por\u00f3wnania dw\u00f3ch grup ANOVA daje wyniki identyczne do testu t (zachodzi zale\u017cno\u015b\u0107:<i> t2 [df] = F[1,df]<\/i>). Je\u017celi jednak mamy do czynienia z uk\u0142adem bardziej z\u0142o\u017conym, w\u00f3wczas ANOVA oferuje znacznie wi\u0119cej mo\u017cliwo\u015bci i wi\u0119ksz\u0105 wiarygodno\u015b\u0107 wynik\u00f3w w stosunku do testu <i>t<\/i> (nawet je\u015bli test <i>t<\/i> przeprowadzamy wiele razy, por\u00f3wnuj\u0105c r\u00f3\u017cne kom\u00f3rki uk\u0142adu do\u015bwiadczalnego).<\/p>\n<hr size=\"1\" \/>\n<p><span style=\"color: navy; font-size: large;\">Test t dla pr\u00f3b zale\u017cnych <\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Zmienno\u015b\u0107 wewn\u0105trzgrupowa. <\/span>Jak zosta\u0142o to wyt\u0142umaczone w cz\u0119\u015bci <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n, si\u0142a relacji pomi\u0119dzy dwiema zmiennymi, mierzona na przyk\u0142ad r\u00f3\u017cnic\u0105 pomi\u0119dzy \u015brednimi w dw\u00f3ch grupach, zale\u017cy w du\u017cej mierze od zmienno\u015bci warto\u015bci <i>wewn\u0105trz grup<\/i>. W zale\u017cno\u015bci od tego, jak du\u017ca jest ta zmienno\u015b\u0107 w obydwu grupach, taka sama co do warto\u015bci r\u00f3\u017cnica mi\u0119dzy \u015brednimi mo\u017ce wskazywa\u0107 na siln\u0105 lub s\u0142ab\u0105 zale\u017cno\u015b\u0107 pomi\u0119dzy zmienn\u0105 zale\u017cn\u0105 a niezale\u017cn\u0105 (<i>grupuj\u0105c\u0105<\/i>). Na przyk\u0142ad je\u015bli \u015brednia LBC (liczba bia\u0142ych cia\u0142ek) wynosi 102 u m\u0119\u017cczyzn i 104 u kobiet, w\u00f3wczas r\u00f3\u017cnica jedynie 2 punkt\u00f3w musi zosta\u0107 oceniona jako niezwykle istotna w przypadku, gdyby u wszystkich m\u0119\u017cczyzn wyniki zawiera\u0142y si\u0119 w granicach od 101 do 103, za\u015b u wszystkich kobiet w granicach od 103 do 105. W takim wypadku mogliby\u015bmy precyzyjnie przewidzie\u0107 warto\u015b\u0107 LBC przy pomocy zmiennej P\u0142e\u0107. Je\u015bliby jednak\u017ce taka sama r\u00f3\u017cnica r\u00f3wna 2 zosta\u0142a uzyskana w pr\u00f3bach o du\u017cej zmienno\u015bci (np. o zakresie zmienno\u015bci 0 &#8211; 200), w\u00f3wczas ka\u017cdy sk\u0142onny by\u0142by tak\u0105 r\u00f3\u017cnic\u0119 oceni\u0107 jako nieistotn\u0105. Mo\u017cemy zako\u0144czy\u0107 nast\u0119puj\u0105c\u0105 konkluzj\u0105: zmniejszenie <i>zmienno\u015bci wewn\u0105trzgrupowej<\/i> zwi\u0119ksza czu\u0142o\u015b\u0107 naszego testu.<br \/>\n<span style=\"color: navy; font-size: medium;\">Przeznaczenie. <\/span>Test <i>t<\/i> dla pr\u00f3b zale\u017cnych pozwala na wykorzystanie pewnego specyficznego typu uk\u0142adu eksperymentalnego, w kt\u00f3rym wa\u017cne \u017ar\u00f3d\u0142o <i>zmienno\u015bci wewn\u0105trzgrupowej<\/i> (lub tzw. b\u0142\u0119du) mo\u017ce zosta\u0107 \u0142atwo zidentyfikowane i wykluczone z analizy. W szczeg\u00f3lno\u015bci, je\u015bli dwie grupy obserwacji (kt\u00f3re maj\u0105 zosta\u0107 por\u00f3wnane) zosta\u0142y oparte na tej samej grupie obiekt\u00f3w zmierzonych <i>dwukrotnie<\/i> (np. <i>przed<\/i> i <i>po<\/i> zabiegu), to w\u00f3wczas znaczna cz\u0119\u015b\u0107 zmienno\u015bci wewn\u0105trzgrupowej w obydwu grupach wynik\u00f3w mo\u017ce zosta\u0107 przypisana pocz\u0105tkowej indywidualnej r\u00f3\u017cnicy pomi\u0119dzy obiektami. Zauwa\u017cmy, \u017ce w pewnym sensie fakt ten jest podobny do sytuacji, kiedy obydwie grupy s\u0105 ca\u0142kowicie niezale\u017cne (zob. <a href=\"#t-test for independent samples\"><i>test t<\/i> dla pr\u00f3b niezale\u017cnych<\/a><br \/>\n) i indywidualne r\u00f3\u017cnice r\u00f3wnie\u017c wnosz\u0105 wk\u0142ad do sk\u0142adnika b\u0142\u0119du. W tym ostatnim przypadku nie mo\u017cemy jednak zidentyfikowa\u0107 (lub, inaczej m\u00f3wi\u0105c, wyeliminowa\u0107) wariancji pochodz\u0105cej od indywidualnych r\u00f3\u017cnic poszczeg\u00f3lnych obiekt\u00f3w. Je\u015bli jednak ta sama pr\u00f3ba zosta\u0142a zmierzona dwukrotnie, to wariancj\u0119 t\u0119 \u0142atwo jest zidentyfikowa\u0107 (wyeliminowa\u0107). Mo\u017cna w szczeg\u00f3lno\u015bci, zamiast analizowa\u0107 oddzielnie ka\u017cdy z pomiar\u00f3w, bra\u0107 do analizy r\u00f3\u017cnice pomi\u0119dzy wynikami(przed i po) dla ka\u017cdego z obiekt\u00f3w pomiarowych. Przez procedur\u0119 odejmowania wyniku przed zabiegiem od wyniku po zabiegu i analizowania czystych r\u00f3\u017cnic dokonujemy wyeliminowania tej cz\u0119\u015bci wariancji w naszym zbiorze danych, kt\u00f3ra pochodzi od r\u00f3\u017cnic w warto\u015bciach bezwzgl\u0119dnych poszczeg\u00f3lnych obiekt\u00f3w pomiarowych. Dok\u0142adnie tak przebiega procedura w opcji test <i>t<\/i> dla pr\u00f3b zale\u017cnych i w por\u00f3wnaniu z testem t dla pr\u00f3b niezale\u017cnych daje ona zawsze lepsze wyniki (w tym sensie, \u017ce jest bardziej czu\u0142a).<br \/>\n<span style=\"color: navy; font-size: medium;\">Za\u0142o\u017cenia. <\/span>Za\u0142o\u017cenia teoretyczne wyst\u0119puj\u0105ce w przypadku <a href=\"stbasic.html#t-test for independent samples\"><i>testu t<\/i> dla pr\u00f3b niezale\u017cnych<\/a><br \/>\nmaj\u0105 r\u00f3wnie\u017c zastosowanie w te\u015bcie dla pr\u00f3b zale\u017cnych; to znaczy r\u00f3\u017cnice pomi\u0119dzy parami pomiar\u00f3w powinny mie\u0107 rozk\u0142ad normalny. Je\u015bli za\u0142o\u017cenie to jest zdecydowanie niespe\u0142nione, w\u00f3wczas nale\u017cy zastosowa\u0107 jeden z alternatywnych test\u00f3w nieparametrycznych.<\/p>\n<p>Zob. <a href=\"glosr.html#Student's t Distribution\">rozk\u0142ad t-Studenta<\/a><br \/>\n.<br \/>\n<span style=\"color: navy; font-size: medium;\">Spos\u00f3b rozmieszczenia danych. <\/span>Z technicznego punktu widzenia test <i>t<\/i> dla pr\u00f3b zale\u017cnych mo\u017cna zastosowa\u0107 do dowolnych dw\u00f3ch zmiennych ze zbioru danych. Jednak stosowanie tego testu b\u0119dzie mia\u0142o niewiele sensu je\u015bli warto\u015bci tych dw\u00f3ch zmiennych nie s\u0105 por\u00f3wnywalne w sensie logicznym i metodologicznym. Je\u017celi na przyk\u0142ad por\u00f3wnywaliby\u015bmy przeci\u0119tne warto\u015bci LBC (liczba bia\u0142ych cia\u0142ek) w pr\u00f3bie pacjent\u00f3w przed i po okre\u015blonym zabiegu, lecz wyniki podawaliby\u015bmy w innych jednostkach, to mogliby\u015bmy otrzyma\u0107 bardzo istotne r\u00f3\u017cnice w warto\u015bciach testu <i>t<\/i> spowodowane tym przekszta\u0142ceniem (to znaczy u\u017cywaniem r\u00f3\u017cnych jednostek miar). Poni\u017cej podajemy przyk\u0142ad zbioru danych, kt\u00f3re mo\u017cna analizowa\u0107 przy u\u017cyciu testu <i>t<\/i> dla pr\u00f3b zale\u017cnych.<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">LBC<br \/>\nprzed<\/span><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">LBC<br \/>\npo<\/span><\/th>\n<\/tr>\n<tr>\n<th><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\nprzyp. 4<br \/>\nprzyp. 5<br \/>\n&#8230;<\/span><\/th>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">111.9<br \/>\n109<br \/>\n143<br \/>\n101<br \/>\n80<br \/>\n&#8230;<\/span><\/td>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">113<br \/>\n110<br \/>\n144<br \/>\n102<br \/>\n80.9<br \/>\n&#8230;<\/span><\/td>\n<\/tr>\n<tr>\n<th><\/th>\n<th colspan=\"2\"><span style=\"color: blue; font-size: small;\">\u015brednia r\u00f3\u017cnica pomi\u0119dzy LBC<br \/>\nprzed i po = 1<\/span><\/th>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>\u015arednia warto\u015b\u0107 r\u00f3\u017cnicy pomi\u0119dzy warto\u015bciami przed i po jest relatywnie niewielka (<i>d=1<\/i>) w por\u00f3wnaniu do zr\u00f3\u017cnicowania oryginalnych wynik\u00f3w (od 80 do 143 w pierwszej pr\u00f3bce). Jednak\u017ce test <i>t<\/i> dla pr\u00f3b zale\u017cnych przeprowadzony jest na warto\u015bciach r\u00f3\u017cnic poszczeg\u00f3lnych par wynik\u00f3w i nie bierze pod uwag\u0119 surowych warto\u015bci LBC. Zatem otrzymana w wyniku r\u00f3\u017cnica r\u00f3wna <i>1<\/i> por\u00f3wnywana b\u0119dzie nie do zmienno\u015bci warto\u015bci w pr\u00f3bce, lecz do zmienno\u015bci tych r\u00f3\u017cnic, kt\u00f3ra jest stosunkowo ma\u0142a: <i>0,2<\/i> (od I&gt;0,9do <i>1,1<\/i>). W por\u00f3wnaniu z t\u0105 warto\u015bci\u0105 r\u00f3\u017cnica r\u00f3wna <i>1<\/i> jest wyj\u0105tkowo du\u017ca i dlatego odpowiada jej wysoka istotno\u015b\u0107 warto\u015bci <i>t<\/i>.<br \/>\n<span style=\"color: navy; font-size: medium;\">Macierze test\u00f3w t. <\/span>Test <i>t<\/i> dla pr\u00f3b zale\u017cnych mo\u017ce by\u0107 przeprowadzany dla bardzo d\u0142ugich list zmiennych i prezentowany w postaci macierzy tworzonych zgodnie z metod\u0105 usuwania brakuj\u0105cych danych <a href=\"glosu.html#Casewise MD Deletion\"><i>przypadkami<\/i><\/a><br \/>\nlub <a href=\"glosu.html#Pairwise MD Deletion\"><i>parami<\/i><\/a>, podobnie jak to ma miejsce w przypadku opcji dla <a href=\"#Correlations\">macierzy korelacji<\/a>. Tym samym wszystkie uwagi poczynione w kontek\u015bcie korelacji odnosz\u0105 si\u0119 tak\u017ce do macierzy test\u00f3w <i>t<\/i>, zob.:<\/p>\n<ol type=\"a\">\n<li>problem zniekszta\u0142ce\u0144 spowodowanych przez usuwanie brak\u00f3w danych parami w przypadku test\u00f3w <i>t<\/i> oraz<\/li>\n<li>problem przypadkowo istotnych warto\u015bci testowych.<\/li>\n<\/ol>\n<p><span style=\"color: navy; font-size: medium;\">Por\u00f3wnania bardziej z\u0142o\u017cone. <\/span>Je\u015bli mamy do czynienia z wi\u0119cej ni\u017c dwoma skorelowanymi pr\u00f3bami (np. <i>przed zabiegiem<\/i>, <i>po zabiegu 1<\/i> i <i>po zabiegu 2<\/i> ), wtedy nale\u017cy zastosowa\u0107 analiz\u0119 wariancji w wersji z powtarzanymi pomiarami. ANOVA z powtarzanymi pomiarami mo\u017ce by\u0107 uwa\u017cana za uog\u00f3lnienie testu t dla pr\u00f3b zale\u017cnych. Oferuje ona ponadto szereg udogodnie\u0144 pozwalaj\u0105cych na zwi\u0119kszenie czu\u0142o\u015bci analizy. Mo\u017cna przy jej pomocy na przyk\u0142ad nie tylko obj\u0105\u0107 kontrol\u0105 podstawowy poziom warto\u015bci zmiennej zale\u017cnej lecz tak\u017ce inne czynniki, a tak\u017ce w\u0142\u0105czy\u0107 do uk\u0142adu eksperymentalnego wi\u0119cej ni\u017c jedn\u0105 zmienn\u0105 zale\u017cn\u0105 (MANOVA; dodatkowe szczeg\u00f3\u0142y na ten temat mo\u017cna znale\u017a\u0107 w <a href=\"stanman.html\"><i>ANOVA\/MANOVA<\/i><\/a><br \/>\n).<\/p>\n<p>&nbsp;<\/p>\n<hr size=\"1\" \/>\n<p><span style=\"color: navy; font-size: large;\">Analiza przekrojowa: statystyki opisowe w grupach. <\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Przeznaczenie.<\/span> Analiza przekrojowa polega na por\u00f3wnywaniu statystyk opisowych i korelacji dla zmiennych <i>zale\u017cnych<\/i> w ka\u017cdej z grup zdefiniowanych przez jedn\u0105 lub wi\u0119cej zmiennych grupuj\u0105cych (<i>niezale\u017cnych<\/i>).<br \/>\n<span style=\"color: navy; font-size: medium;\">Spos\u00f3b rozmieszczenia danych.<\/span> W poni\u017cszym przyk\u0142adowym zbiorze danych (arkusz danych) warto\u015bci zmiennej zale\u017cnej LBC (Liczba Bia\u0142ych Cia\u0142ek) mo\u017cna zestawi\u0107 w grupach przekrojowych utworzonych przez dwie zmienne niezale\u017cne: <i>P\u0142e\u0107<\/i> (warto\u015bci: <i>m\u0119\u017cczyzna<\/i> i <i>kobieta<\/i>) oraz <i>Wzrost<\/i> (warto\u015bci: <i>wysoki<\/i> i <i>niski<\/i>).<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">P\u0141E\u0106<\/span><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">WZROST<\/span><\/th>\n<th align=\"right\"><span style=\"color: blue; font-size: small;\">LBC<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\nprzyp. 4<br \/>\nprzyp. 5<br \/>\n&#8230;<\/span><\/th>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">m\u0119\u017cczyzna<br \/>\nm\u0119\u017cczyzna<br \/>\nm\u0119\u017cczyzna<br \/>\nkobieta<br \/>\nkobieta<br \/>\n&#8230;<\/span><\/td>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">niski<br \/>\nwysoki<br \/>\nwysoki<br \/>\nwysoki<br \/>\nniski<br \/>\n&#8230;<\/span><\/td>\n<td align=\"right\"><span style=\"color: blue; font-size: small;\">101<br \/>\n110<br \/>\n92<br \/>\n112<br \/>\n95<br \/>\n&#8230;<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><br clear=\"ALL\" \/>Powsta\u0142e w wyniku tego grupy przekrojowe mog\u0142yby wygl\u0105da\u0107 nast\u0119puj\u0105co (zak\u0142adamy, \u017ce zmienna niezale\u017cna <i>P\u0142e\u0107<\/i> zosta\u0142a wybrana jako pierwsza a zmienna <i>Wzrost<\/i> jako druga):<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<td colspan=\"4\" align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Ca\u0142a pr\u00f3ba<br \/>\n\u015arednia=100<br \/>\nOdch. std.=13<br \/>\nN=120<\/span><\/td>\n<\/tr>\n<tr>\n<td colspan=\"2\" align=\"CENTER\"><span style=\"color: blue; font-size: small;\">M\u0119\u017cczy\u017ani<br \/>\n\u015arednia=99<br \/>\nOdch. std.=13<br \/>\nN=60<\/span><\/td>\n<td colspan=\"2\" align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Kobiety<br \/>\n\u015arednia=101<br \/>\nOdch. std.=13<br \/>\nN=60<\/span><\/td>\n<\/tr>\n<tr>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Wysoki\/m\u0119\u017cczy\u017ani<br \/>\n\u015arednia=98<br \/>\nOdch. std.=13<br \/>\nN=30<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Niski\/m\u0119\u017cczy\u017ani<br \/>\n\u015arednia=100<br \/>\nOdch. std.=13<br \/>\nN=30<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Wysoki\/kobiety<br \/>\n\u015arednia=101<br \/>\nOdch. std.=13<br \/>\nN=30<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Niski\/kobiety<br \/>\n\u015arednia=101<br \/>\nOdch. std.=13<br \/>\nN=30<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><br clear=\"ALL\" \/>Spos\u00f3b prezentacji po\u015brednich poziom\u00f3w drzewa grup przekrojowych zale\u017cy od kolejno\u015bci w jakiej wyst\u0119puj\u0105 zmienne niezale\u017cne. Na przyk\u0142ad w powy\u017cszej tabelce widzimy \u015brednie dla grupy wszyscy m\u0119\u017cczy\u017ani i wszystkie kobiety, a nie widzimy \u015brednich dla grupy wszyscy wysocy i wszyscy niscy. Te ostatnie zosta\u0142yby pokazane, gdyby jako pierwsz\u0105 zmienn\u0105 grupuj\u0105c\u0105 wybra\u0107 <i>Wzrost<\/i> a nie P\u0142e\u0107.<br \/>\n<span style=\"color: navy; font-size: medium;\">Testy statystyczne w analizie przekrojowej. <\/span>Analiza przekrojowa u\u017cywana jest zazwyczaj w eksploracyjnej analizie danych. Typowe pytanie, na kt\u00f3re mo\u017cna tu uzyska\u0107 odpowied\u017a, jest bardzo proste: Czy grupy utworzone przy pomocy klasyfikacji na podstawie warto\u015bci zmiennych niezale\u017cnych s\u0105 istotnie r\u00f3\u017cne pod wzgl\u0119dem warto\u015bci zmiennej zale\u017cnej? Je\u015bli interesuj\u0105 nas r\u00f3\u017cnice w warto\u015bciach \u015brednich to w\u0142a\u015bciw\u0105 metod\u0105 b\u0119dzie jednoczynnikowa analiza wariancji dla grup przekrojowych ANOVA (test <i>F<\/i>)<br \/>\n<span style=\"color: navy; font-size: medium;\">Inne pokrewne techniki analizy danych. <\/span>Chocia\u017c w przypadku eksploracyjnej analizy danych mo\u017cna u\u017cywa\u0107 wi\u0119cej ni\u017c jednej zmiennej niezale\u017cnej to procedury statystyczne analizy przekrojowej zak\u0142adaj\u0105 istnienie tylko jednego czynnika grupuj\u0105cego (chocia\u017c w rzeczywisto\u015bci grupy mog\u0142y powsta\u0107 na podstawie warto\u015bci wielu <a href=\"glosx.html#Grouping Variable\">zmiennych grupuj\u0105cych<\/a><br \/>\n). Oznacza to, \u017ce obliczane warto\u015bci statystyk nie bior\u0105 pod uwag\u0119 mo\u017cliwych <a href=\"glosi.html#Interactions\"><i>interakcji<\/i><\/a><br \/>\nmi\u0119dzy zmiennymi grupuj\u0105cymi. Na przyk\u0142ad mog\u0105 istnie\u0107 r\u00f3\u017cnice we wp\u0142ywie, jaki jedna ze zmiennych niezale\u017cnych posiada na zmienn\u0105 zale\u017cn\u0105 dla r\u00f3\u017cnych poziom\u00f3w innej zmiennej niezale\u017cnej (np. ludzie wysocy mog\u0105 mie\u0107 ni\u017csz\u0105 warto\u015b\u0107 LBC ni\u017c ludzie niscy lecz jedynie wtedy, gdy s\u0105 m\u0119\u017cczyznami (zob. drzewo danych powy\u017cej). Mo\u017cna co prawda ocenia\u0107 takie efekty przez analiz\u0119 wizualn\u0105 warto\u015bci dla r\u00f3\u017cnych poziom\u00f3w zmiennej niezale\u017cnej, lecz ich wielko\u015b\u0107 i istotno\u015b\u0107 nie jest w przypadku analizy przekrojowej oceniana przez procedury statystyczne.<br \/>\n<span style=\"color: navy; font-size: medium;\">Por\u00f3wnania \u015brednich post-hoc. <\/span>Zazwyczaj po otrzymaniu istotnych warto\u015bci statystyki testu <i>F<\/i> w ANOVA chcemy wiedzie\u0107, kt\u00f3re ze \u015brednich maj\u0105 wp\u0142yw na stwierdzony efekt (tzn. kt\u00f3re grupy r\u00f3\u017cni\u0105 si\u0119 istotnie pomi\u0119dzy sob\u0105). Mo\u017cna by oczywi\u015bcie przeprowadzi\u0107 seri\u0119 prostych <a href=\"stbasic.html#t-test for independent samples\"><i> test\u00f3w t<\/i><\/a><br \/>\ndla por\u00f3wnania wszystkich mo\u017cliwych par \u015brednich. Jednak\u017ce takie podej\u015bcie zwi\u0119ksza szans\u0119 wyst\u0105pienia efekt\u00f3w przypadkowych. Znaczy to, \u017ce obliczane warto\u015bci p b\u0119d\u0105 wykazywa\u0107 tendencj\u0119 do przeceniania istotno\u015bci r\u00f3\u017cnic \u015brednich. Bez wnikania w szczeg\u00f3\u0142y za\u0142\u00f3\u017cmy, \u017ce mamy 20 pr\u00f3bek po 10 liczb losowych ka\u017cda i obliczamy 20 warto\u015bci \u015brednich. We\u017amy nast\u0119pnie grup\u0119 o najwi\u0119kszej \u015bredniej i por\u00f3wnajmy j\u0105 z grup\u0105 o najmniejszej warto\u015bci \u015bredniej. Test <i>t<\/i> dla pr\u00f3b niezale\u017cnych b\u0119dzie sprawdza\u0142, czy te dwie \u015brednie si\u0119 r\u00f3\u017cni\u0105, przy za\u0142o\u017ceniu, \u017ce mamy do czynienia <i>jedynie z dwoma pr\u00f3bkami<\/i>. Techniki por\u00f3wna\u0144 <i>post-hoc<\/i> bior\u0105 pod uwag\u0119 fakt, \u017ce mamy do czynienia z wi\u0119cej ni\u017c dwiema pr\u00f3bkami.<br \/>\n<span style=\"color: navy; font-size: medium;\">Analiza przekrojowa a Analiza dyskryminacyjna. <\/span>Analiza przekrojowa mo\u017ce by\u0107 traktowana jako pierwszy etap w kierunku innego typu analizy r\u00f3\u017cnic mi\u0119dzy grupami: <a href=\"stdiscan.html\"><i>Analizy dyskryminacyjnej<\/i><\/a><br \/>\n. Podobnie jak w analizie przekrojowej analiza dyskryminacyjna bada r\u00f3\u017cnice mi\u0119dzy \u015brednimi w grupach utworzonych przez warto\u015bci (<a href=\"glosi.html#Codes\">kody<\/a><br \/>\ngrup) zmiennej niezale\u017cnej (<i>grupuj\u0105cej<\/i>). Jednak\u017ce w odr\u00f3\u017cnieniu od analizy przekrojowej analiza dyskryminacyjna pozwala na jednoczesne badanie wi\u0119cej ni\u017c jednej zmiennej zale\u017cnej i umo\u017cliwia zidentyfikowanie pewnych charakterystycznych uk\u0142ad\u00f3w warto\u015bci tych zmiennych. Z technicznego punktu widzenia polega to na utworzeniu kombinacji liniowej zmiennych zale\u017cnych najlepiej opisuj\u0105cej przynale\u017cno\u015b\u0107 grupow\u0105. Przy pomocy analizy dyskryminacyjnej mo\u017cna na przyk\u0142ad przeanalizowa\u0107 r\u00f3\u017cnice pomi\u0119dzy trzema grupami os\u00f3b o r\u00f3\u017cnych profesjach (np. prawnicy, lekarze i in\u017cynierowie) w zale\u017cno\u015bci od r\u00f3\u017cnych aspekt\u00f3w ich post\u0119p\u00f3w w szkole \u015bredniej. Mo\u017cna uwa\u017ca\u0107, \u017ce taka analiza wyja\u015bnia wyb\u00f3r zawodu w zale\u017cno\u015bci od okre\u015blonych talent\u00f3w ujawnianych w szkole. W tym sensie analiza dyskryminacyjna mo\u017ce by\u0107 uwa\u017cana za eksploracyjne rozwini\u0119cie prostej analizy przekrojowej.<br \/>\n<span style=\"color: navy; font-size: medium;\">Analiza przekrojowa a Tabele liczno\u015bci. <\/span>Inny podobny typ analizy, kt\u00f3ry nie mo\u017ce by\u0107 przeprowadzony bezpo\u015brednio za pomoc\u0105 analizy przekrojowej, to <a href=\"#Crosstabulation and stub-and-banner tables\">por\u00f3wnywanie liczno\u015bci przypadk\u00f3w (<i>n<\/i>) w grupach<\/a><br \/>\n. W szczeg\u00f3lno\u015bci bardzo cz\u0119sto liczno\u015bci te s\u0105 r\u00f3\u017cne poniewa\u017c przypisywanie element\u00f3w do grup nie pochodzi bezpo\u015brednio od eksperymentatora lecz jest wynikiem cech posiadanych przez dany element (obiekt) pomiarowy. Je\u015bli mimo losowego doboru ca\u0142ej pr\u00f3bki warto\u015bci <i>n<\/i> w grupach s\u0105 nier\u00f3wne, w\u00f3wczas mo\u017cna si\u0119 spodziewa\u0107, \u017ce zmienne niezale\u017cne pozostaj\u0105 ze sob\u0105 w relacji. Na przyk\u0142ad poziomy warto\u015bci zmiennych niezale\u017cnych <i>Wiek<\/i> i <i>Wykszta\u0142cenie<\/i> w tabelach wielodzielczych najprawdopodobniej nie b\u0119d\u0105 si\u0119 rozk\u0142ada\u0142y r\u00f3wno (nie utworz\u0105 r\u00f3wnolicznych grup <i>n<\/i>), poniewa\u017c wykszta\u0142cenie jest r\u00f3\u017cnie roz\u0142o\u017cone w r\u00f3\u017cnych grupach wiekowych. Je\u015bli interesuj\u0105 nas takie por\u00f3wnania, to mo\u017cemy przyjrze\u0107 si\u0119 liczno\u015bciom w grupach przy r\u00f3\u017cnej kolejno\u015bci zmiennych kategoryzuj\u0105cych. Aby podda\u0107 wyst\u0119puj\u0105ce tu r\u00f3\u017cnice ilo\u015bciowej analizie statystycznej, nale\u017cy jednak u\u017cy\u0107 tabel wielodzielczych i tabel liczno\u015bci lub Analizy log-liniowej albo Analizy korespondencji (zaawansowane metody analizy tabel wielodzielczych).<br \/>\n<span style=\"color: navy; font-size: medium;\"> Metody graficzne w analizie przekrojowej. <\/span>Wykresy cz\u0119sto pozwalaj\u0105 na odkrycie w naszym zbiorze danych efekt\u00f3w (spodziewanych i niespodziewanych) znacznie szybciej i lepiej ni\u017c jakiekolwiek inne narz\u0119dzie analityczne. Za pomoc\u0105 wykres\u00f3w skategoryzowanych (np. skategoryzowane histogramy, skategoryzowane wykresy prawdopodobie\u0144stwa, skategoryzowane wykresy ramka-w\u0105sy) mo\u017cemy zestawia\u0107 wiele wykres\u00f3w \u015brednich, rozk\u0142ad\u00f3w, korelacji itp. z rozbiciem na grupy w analizowanej tabeli. Wykres poni\u017cej przedstawia skategoryzowany histogram, kt\u00f3ry pozwala nam na szybk\u0105 ocen\u0119 i wizualizacj\u0119 struktury danych w poszczeg\u00f3lnych grupach (grupa1-kobiety, grupa2-kobiety, itd.).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup76.gif\" alt=\"\" width=\"380\" height=\"311\" border=\"0\" \/><\/p>\n<p>Skategoryzowany wykres rozrzutu (jak na rysunku poni\u017cej) pokazuje r\u00f3\u017cnice mi\u0119dzy zale\u017cno\u015bciami zmiennej zale\u017cnej w poszczeg\u00f3lnych grupach.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup77.gif\" alt=\"\" width=\"380\" height=\"355\" border=\"0\" \/><\/p>\n<p>Ponadto, je\u015bli pakiet statystyczny posiada opcj\u0119 eksploracji animowanej to mo\u017cemy wybra\u0107 (tj. pod\u015bwietli\u0107) w <a href=\"glosu.html#Matrix Plots - Scatterplot\">tablicy wykres\u00f3w rozrzutu<\/a><br \/>\nwszystkie te dane, kt\u00f3re nale\u017c\u0105 do pewnej kategorii, aby sprawdzi\u0107 jaki te wybrane obserwacje maj\u0105 wp\u0142yw na relacje mi\u0119dzy innymi zmiennymi.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/graphics\/brushing.gif\" alt=\"[Animated Brushing]\" width=\"363\" height=\"282\" border=\"0\" \/><\/p>\n<p>&nbsp;<\/p>\n<hr size=\"1\" \/>\n<p><span style=\"color: navy; font-size: large;\">Tabele liczno\u015bci. <\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Przeznaczenie. <\/span>Tabele liczno\u015bci dla jednego czynnika klasyfikacyjnego reprezentuj\u0105 najprostszy spos\u00f3b analizowania danych jako\u015bciowych (<a href=\"gloss.html#Nominal Scale\"><i>nominalnych<\/i><\/a><br \/>\n, zob. <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\n). S\u0105 one cz\u0119sto wykorzystywane w charakterze procedury eksploracyjnej (opisowej), aby sprawdzi\u0107, jak poszczeg\u00f3lne kategorie s\u0105 roz\u0142o\u017cone w pr\u00f3bce. Na przyk\u0142ad w badaniu ankietowym zainteresowania poszczeg\u00f3lnymi dyscyplinami sportowymi mo\u017cna podsumowa\u0107 zainteresowania ankietowanych pi\u0142k\u0105 no\u017cn\u0105 w nast\u0119puj\u0105cej tabeli liczno\u015bci:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">STATISTICA<br \/>\nStatystyki<br \/>\npodstawowe<\/span><\/th>\n<th colspan=\"4\" align=\"LEFT\" valign=\"top\"><span style=\"color: blue; font-size: small;\">FUTBOL: &#8222;Ogl\u0105danie futbolu ameryka\u0144skiego&#8221;<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\" valign=\"bottom\"><span style=\"color: blue; font-size: small;\">Kategoria<\/span><\/th>\n<th align=\"CENTER\" valign=\"bottom\"><span style=\"color: blue; font-size: small;\">Liczno\u015b\u0107<\/span><\/th>\n<th align=\"CENTER\" valign=\"bottom\"><span style=\"color: blue; font-size: small;\">Skumulow.<br \/>\nLiczn.<\/span><\/th>\n<th align=\"CENTER\" valign=\"bottom\"><span style=\"color: blue; font-size: small;\">Procent<\/span><\/th>\n<th align=\"CENTER\" valign=\"bottom\"><span style=\"color: blue; font-size: small;\">Skumulow.<br \/>\nProcent<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">ZAWSZE : Zawsze zainteresowany<br \/>\nZWYKLE : Zazwyczaj zainteresowany<br \/>\nCZASEM: Czasami zainteresowany<br \/>\nNIGDY : Nigdy nie zainteresowany<br \/>\nBraki<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">39<br \/>\n16<br \/>\n26<br \/>\n19<br \/>\n0<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">39<br \/>\n55<br \/>\n81<br \/>\n100<br \/>\n100<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">39.00000<br \/>\n16.00000<br \/>\n26.00000<br \/>\n19.00000<br \/>\n0.00000<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">39.0000<br \/>\n55.0000<br \/>\n81.0000<br \/>\n100.0000<br \/>\n100.0000<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><br clear=\"ALL\" \/>Powy\u017csza tabela pokazuje liczno\u015b\u0107, liczno\u015b\u0107 skumulowan\u0105, procent i procent skumulowany respondent\u00f3w, kt\u00f3rzy scharakteryzowali swoje zainteresowania pi\u0142k\u0105 no\u017cn\u0105 jako (1) <i>Zawsze zainteresowany<\/i>, (2) <i>Zazwyczaj zainteresowany<\/i>, (3) <i>Czasami zainteresowany<\/i>, (4) <i>Nigdy nie zainteresowany<\/i>.<br \/>\n<span style=\"color: navy; font-size: medium;\">Zastosowania. <\/span>Praktycznie w ka\u017cdym projekcie badawczym pierwsze spojrzenie na dane zawiera tabele liczno\u015bci. Na przyk\u0142ad w badaniach opinii publicznej tabele liczno\u015bci mog\u0105 pokaza\u0107 liczby m\u0119\u017cczyzn i kobiet bior\u0105cych udzia\u0142 w badaniu, liczb\u0119 respondent\u00f3w wed\u0142ug pochodzenia etnicznego i rasowego itd. Mo\u017cna r\u00f3wnie\u017c w tabeli liczno\u015bci \u0142adnie podsumowa\u0107 definiowan\u0105 skal\u0119 zainteresowa\u0144 (np. zainteresowanie pi\u0142k\u0105 no\u017cn\u0105). W badaniach medycznych mo\u017cemy tabelaryzowa\u0107 liczby pacjent\u00f3w wykazuj\u0105cych okre\u015blone symptomy, w badaniach przemys\u0142owych liczno\u015bci r\u00f3\u017cnych przyczyn uszkodze\u0144 produkt\u00f3w poddanych obci\u0105\u017ceniom (np. kt\u00f3re cz\u0119\u015bci s\u0105 odpowiedzialne za awari\u0119 telewizor\u00f3w w warunkach ekstremalnych temperatur?). Mo\u017cna powiedzie\u0107, \u017ce je\u015bli zbi\u00f3r danych zawiera zmienne dyskretne, to jednym z pierwszych krok\u00f3w analizy jest utworzenie tabel liczno\u015bci dla tych zmiennych.<\/p>\n<p>&nbsp;<\/p>\n<hr size=\"1\" \/>\n<p><span style=\"color: navy; font-size: large;\">Analiza tabel wielodzielczych i tabel zbiorczych. <\/span><br \/>\n<span style=\"color: navy; font-size: medium;\">Przeznaczenie i zastosowanie tabel. <\/span>Przeznaczenie i struktura tabeli. Tabela wielodzielcza stanowi kombinacj\u0119 dw\u00f3ch lub wi\u0119cej tabel liczno\u015bci u\u0142o\u017conych w ten spos\u00f3b, \u017ce ka\u017cda kom\u00f3rka tabeli reprezentuje w jednoznaczny spos\u00f3b kombinacj\u0119 konkretnych warto\u015bci tabelaryzowanych zmiennych. Dzi\u0119ki temu tabele wielodzielcze umo\u017cliwiaj\u0105 analiz\u0119 liczno\u015bci odpowiadaj\u0105cych kategoriom wyznaczanym przez wi\u0119cej ni\u017c jedn\u0105 zmienn\u0105. Poprzez analiz\u0119 tych liczno\u015bci mo\u017cna zidentyfikowa\u0107 relacje, jakie zachodz\u0105 mi\u0119dzy tabelaryzowanymi zmiennymi. Tabelaryzowa\u0107 nale\u017cy jedynie zmienne dyskretne (<a href=\"gloss.html#Nominal Scale\"><i>nominalne<\/i><\/a><br \/>\n) lub zmienne o stosunkowo ograniczonej ilo\u015bci sensownych warto\u015bci. Zwr\u00f3\u0107my uwag\u0119, \u017ce je\u015bli chcemy tabelaryzowa\u0107 zmienn\u0105 ci\u0105g\u0142\u0105 (np. doch\u00f3d), to nale\u017cy j\u0105 wpierw <i>przekodowa\u0107<\/i>, zamieniaj\u0105c na pewn\u0105 liczb\u0119 roz\u0142\u0105cznych kategorii (np. niski, \u015bredni, wysoki).<br \/>\n<span style=\"color: navy; font-size: medium;\">Tabele 2 x 2. <\/span>Najprostsz\u0105 form\u0105 tabeli wielodzielczej jest tabela 2 x 2, w kt\u00f3rej dwie zmienne s\u0105 sklasyfikowane krzy\u017cowo, a ka\u017cda z nich ma tylko dwie warto\u015bci. Na przyk\u0142ad za\u0142\u00f3\u017cmy, \u017ce prowadzimy proste badanie, w kt\u00f3rym m\u0119\u017cczyzn i kobiety poproszono o wybranie jednego z dw\u00f3ch gatunk\u00f3w wody mineralnej (gatunek <i>A<\/i> i gatunek <i>B<\/i>). Plik danych mo\u017ce wygl\u0105da\u0107 tak jak poni\u017cej:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">P\u0141E\u0106<\/span><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">WODA<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\nprzyp. 4<br \/>\nprzyp. 5<br \/>\n&#8230;<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">m\u0119\u017cczyzna<br \/>\nkobieta<br \/>\nkobieta<br \/>\nkobieta<br \/>\nm\u0119\u017cczyzna<br \/>\n&#8230;<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">A<br \/>\nB<br \/>\nB<br \/>\nA<br \/>\nB<br \/>\n&#8230;<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Otrzymana w efekcie tabela mog\u0142aby wygl\u0105da\u0107 nast\u0119puj\u0105co:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">WODA: A<\/span><\/th>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">WODA: B<\/span><\/th>\n<th><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">P\u0141E\u0106: M\u0119\u017cczyzna<\/span><\/th>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">20 (40%)<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">30 (60%)<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">50 (50%)<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">P\u0141E\u0106: Kobieta<\/span><\/th>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">30 (60%)<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">20 (40%)<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">50 (50%)<\/span><\/td>\n<\/tr>\n<tr>\n<td align=\"LEFT\"><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">50 (50%)<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">50 (50%)<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">100 (100%)<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><br clear=\"ALL\" \/>Ka\u017cda kom\u00f3rka reprezentuje jedn\u0105 kombinacj\u0119 warto\u015bci zmiennych dla kt\u00f3rych utworzono tabel\u0119 wielodzielcz\u0105 (zmienna wierszowa <i>P\u0142e\u0107<\/i> i zmienna kolumnowa <i>Woda<\/i>), a liczby w ka\u017cdej kom\u00f3rce m\u00f3wi\u0105 nam jak wiele przypadk\u00f3w trafia do danej kombinacji kategorii. M\u00f3wi\u0105c bardziej og\u00f3lnie tabela ta wskazuje, \u017ce wi\u0119cej kobiet ni\u017c m\u0119\u017cczyzn woli gatunek <i>A<\/i> za\u015b wi\u0119cej m\u0119\u017cczyzn ni\u017c kobiet wybiera gatunek <i>B<\/i>. Znaczy to, \u017ce p\u0142e\u0107 i preferencja okre\u015blonego gatunku wody mineralnej mog\u0105 by\u0107 w jaki\u015b spos\u00f3b powi\u0105zane ze sob\u0105 (p\u00f3\u017aniej zobaczymy jak mo\u017cna mierzy\u0107 t\u0119 zale\u017cno\u015b\u0107).<br \/>\n<span style=\"color: navy; font-size: medium;\">Liczno\u015bci brzegowe. <\/span>Warto\u015bci podawane na marginesie tabeli s\u0105 po prostu jednowymiarowymi tabelami liczno\u015bci dla wszystkich warto\u015bci w tabeli. S\u0105 one o tyle wa\u017cne, \u017ce pozwalaj\u0105 nam oceni\u0107 rozk\u0142ad liczno\u015bci w wierszach lub kolumnach. Na przyk\u0142ad cz\u0119sto\u015bci 40% i 60% dla kategorii m\u0119\u017cczyzna i kobieta (odpowiednio) wybieraj\u0105cych wod\u0119 <i>A<\/i> (zob. pierwsza kolumna przyk\u0142adowej tabeli 2 x 2) nie wskazywa\u0142yby na jakikolwiek zwi\u0105zek mi\u0119dzy <i>P\u0142ci\u0105<\/i> i <i>Wod\u0105<\/i> , gdyby liczno\u015bci brzegowe dla P\u0142ci wynosi\u0142y r\u00f3wnie\u017c 40% i 60%. W takim przypadku wskazywa\u0142oby to jedynie na r\u00f3\u017cne liczno\u015bci kobiet i m\u0119\u017cczyzn w pr\u00f3bie. Widzimy wi\u0119c, \u017ce r\u00f3\u017cnice w rozk\u0142adzie liczno\u015bci w pojedynczych wierszach (kolumnach) i w odpowiadaj\u0105cych im rozk\u0142adach brzegowych wskazuj\u0105 na zwi\u0105zek mi\u0119dzy tabelaryzowanymi zmiennymi.<br \/>\n<span style=\"color: navy; font-size: medium;\">Procentowe liczno\u015bci kolumnowe, wierszowe i ca\u0142kowite. <\/span>Przyk\u0142ad przedstawiony w temacie Tabela 2 x 2 pokazuje, \u017ce dla oceny zale\u017cno\u015bci pomi\u0119dzy zmiennymi, dla kt\u00f3rych tworzona jest tabela wielodzielcza, nale\u017cy por\u00f3wna\u0107 rozk\u0142ady liczno\u015bci brzegowych i warunkowych (kolumnowych lub wierszowych). Dokonanie takiego por\u00f3wnania jest \u0142atwiejsze, je\u017celi liczno\u015bci podawane s\u0105 w formie cz\u0119sto\u015bci wzgl\u0119dnej (procentu).<br \/>\n<span style=\"color: navy; font-size: medium;\">Prezentacja tabel wielodzielczych. <\/span>Wybrane wiersze lub kolumny mo\u017cna dla cel\u00f3w analitycznych przedstawia\u0107 za pomoc\u0105 wykres\u00f3w s\u0142upkowych. Cz\u0119sto jednak bardziej pomocn\u0105 mo\u017ce okaza\u0107 si\u0119 mo\u017cliwo\u015b\u0107 przedstawienia ca\u0142ej tabeli w postaci graficznej. Przyk\u0142adowo tabel\u0119 dwudzielcz\u0105 mo\u017cna przedstawi\u0107 graficznie za pomoc\u0105 tr\u00f3jwymiarowego histogramu lub histogramu skategoryzowanego w przypadku kt\u00f3rego jedna zmienna jest przedstawiana za pomoc\u0105 pojedynczych histogram\u00f3w wykre\u015blanych dla ka\u017cdego poziomu (kategorii) drugiej zmiennej. Zaleta histogramu 3W polega na tym, \u017ce pozwala on na utworzenie \u0142\u0105cznego obrazu ca\u0142ej tabeli, natomiast histogram skategoryzowany umo\u017cliwia precyzyjn\u0105 ocen\u0119 okre\u015blonych liczno\u015bci w obr\u0119bie ka\u017cdej z kom\u00f3rek tabeli.<br \/>\n<span style=\"color: navy; font-size: medium;\">Tabele zbiorcze. <\/span>Tabele zbiorcze s\u0105 sposobem na przedstawienie wielu tabeli dwudzielczych w formie skondensowanej. Najlepiej wyt\u0142umaczy\u0107 to na przyk\u0142adzie. Wr\u00f3\u0107my do przyk\u0142adu dotycz\u0105cego ankiety na temat zainteresowa\u0144 sportowych (zwr\u00f3\u0107my uwag\u0119, \u017ce dla uproszczenia opisu ograniczamy si\u0119 do kategorii <i>Zawsze<\/i> i <i>Zazwyczaj<\/i>).<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">STATISTICA<br \/>\nStatystyki<br \/>\nPodstawowe<\/span><\/th>\n<th colspan=\"3\" align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Tabela zbiorcza:<br \/>\nProcent w wierszu<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">Czynnik<\/span><\/th>\n<th align=\"CENTER\"><span style=\"color: blue; font-size: small;\">FOOTBALL<br \/>\nZAWSZE<\/span><\/th>\n<th align=\"CENTER\"><span style=\"color: blue; font-size: small;\">FOOTBALL<br \/>\nZAZWYCZAJ<\/span><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">Wiersz<br \/>\nRazem<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">BASEBALL: ZAWSZE<br \/>\nBASEBALL: ZAZWYCZAJ<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">92.31<br \/>\n61.54<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">7.69<br \/>\n38.46<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">66.67<br \/>\n33.33<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">BASEBALL: Razem<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">82.05<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">17.95<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100.00<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">TENIS: ZAWSZE<br \/>\nTENIS: ZAZWYCZAJ<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">87.50<br \/>\n87.50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">12.50<br \/>\n12.50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">66.67<br \/>\n33.33<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">TENIS: Razem<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">87.50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">12.50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100.00<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">BOKS: ZAWSZE<br \/>\nBOKS: ZAZWYCZAJ<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">77.78<br \/>\n100.00<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">22.22<br \/>\n0.00<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">52.94<br \/>\n47.06<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">BOKS : Razem<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">88.24<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">11.76<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100.00<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><span style=\"color: navy; font-size: medium;\">Interpretacja tabeli zbiorczej. <\/span>W przytoczonej przyk\u0142adowej tabeli mo\u017cemy obejrze\u0107 tabel\u0119 dwudzielcz\u0105 ujmuj\u0105c\u0105 deklarowane zainteresowanie <i>pi\u0142k\u0105 no\u017cn\u0105<\/i> w rozbiciu na deklarowane zainteresowanie <i>baseballem<\/i>, <i>tenisem<\/i> i <i>boksem<\/i>. Liczby podane w tabeli wyra\u017caj\u0105 procenty w wierszach co oznacza, \u017ce ich suma w wierszach musi wynosi\u0107 100%. Na przyk\u0142ad liczba w lewym g\u00f3rnym rogu tabeli (<i>92,31<\/i>) wskazuje, \u017ce <i>92,31<\/i>% wszystkich respondent\u00f3w twierdzi, i\u017c s\u0105 zawsze zainteresowani pi\u0142k\u0105 no\u017cn\u0105 i zawsze zainteresowani ogl\u0105daniem baseballu. Ni\u017cej widzimy, \u017ce tych, kt\u00f3rzy zawsze s\u0105 zainteresowani ogl\u0105daniem pi\u0142ki no\u017cnej i zawsze zainteresowani tenisem jest <i>87,50<\/i> procent, za\u015b dla boksu odpowiednia liczba wynosi <i>77,78<\/i> procent. Procenty podane w ostatniej kolumnie (Wiersz Razem) s\u0105 zawsze odnoszone do ca\u0142kowitej liczby przypadk\u00f3w.<br \/>\n<span style=\"color: navy; font-size: medium;\">Tabele wielodzielcze ze zmiennymi kontrolnymi. <\/span>Je\u015bli zestawiamy w tabeli jedynie dwie zmienne, to otrzymywana tabela nazywa si\u0119 tabel\u0105 <i>dwudzielcz\u0105<\/i>. Idea tabelaryzacji mo\u017ce by\u0107 oczywi\u015bcie uog\u00f3lniona na wi\u0119cej ni\u017c dwie zmienne. Wr\u00f3\u0107my dla przyk\u0142adu do ankiety na temat wody mineralnej i dodajmy do tabeli prezentowanej wcze\u015bniej (patrz Chi-kwadrat Pearsona) trzeci\u0105 zmienn\u0105. B\u0119dzie ona reprezentowa\u0107 stan, w kt\u00f3rym przeprowadzono ankiet\u0119 (<i>Nebraska<\/i> lub <i>Nowy Jork<\/i>).<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">P\u0141E\u0106<\/span><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">WODA<\/span><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">STAN<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\nprzyp. 4<br \/>\nprzyp. 5<br \/>\n&#8230;<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">m\u0119\u017cczyzna<br \/>\nkobieta<br \/>\nkobieta<br \/>\nkobieta<br \/>\nm\u0119\u017cczyzna<br \/>\n&#8230;<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">A<br \/>\nB<br \/>\nB<br \/>\nA<br \/>\nB<br \/>\n&#8230;<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">Nebraska<br \/>\nNowy Jork<br \/>\nNebraska<br \/>\nNebraska<br \/>\nNowy Jork<br \/>\n&#8230;<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Zestawienie tych zmiennych w tabeli tworzy tzw. tabel\u0119 tr\u00f3jdzielcz\u0105:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th colspan=\"3\" align=\"LEFT\"><span style=\"color: blue; font-size: small;\">STAN: NOWY JORK<\/span><\/th>\n<th colspan=\"3\" align=\"LEFT\"><span style=\"color: blue; font-size: small;\">STAN: NEBRASKA<\/span><\/th>\n<\/tr>\n<tr>\n<th><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">WODA: A<\/span><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">WODA: B<\/span><\/th>\n<th><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">WODA: A<\/span><\/th>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">WODA: B<\/span><\/th>\n<th><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">P:M\u0119\u017cczyzna<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">20<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">30<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a05<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">45<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">P:Kobieta<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">30<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">20<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">45<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a05<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<\/tr>\n<tr>\n<th><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><br clear=\"ALL\" \/>Teoretycznie mo\u017cna tworzy\u0107 tabele wielodzielcze dowolnie skomplikowane, jednak praktyka badawcza wskazuje, \u017ce jest trudno zrozumie\u0107 i przeanalizowa\u0107 tabel\u0119 zawieraj\u0105c\u0105 wi\u0119cej ni\u017c 4 zmienne. Zalecane jest analizowanie takich przypadk\u00f3w przy pomocy takich technik modelowania, jak <a href=\"stloglin.html\"><i>Analiza log-liniowa<\/i><\/a><br \/>\nlub <a href=\"stcoran.html\"><i>Analiza korespondencji<\/i><\/a><br \/>\n.<br \/>\n<span style=\"color: navy; font-size: medium;\">Graficzna prezentacja tabel wielodzielczych dla tabel zbiorczych. <\/span>Mo\u017cemy przedstawi\u0107 dane za pomoc\u0105 podw\u00f3jnie skategoryzowanych histogram\u00f3w, histogram\u00f3w 3W,<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup78.gif\" alt=\"\" width=\"350\" height=\"281\" border=\"0\" \/><\/p>\n<p>czy te\u017c wykres\u00f3w liniowych, kt\u00f3re b\u0119d\u0105 ilustrowa\u0142y rozk\u0142ady liczno\u015bci do trzech czynnik\u00f3w w\u0142\u0105cznie na jednym wykresie.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup165.gif\" alt=\"\" width=\"350\" height=\"281\" border=\"0\" \/><\/p>\n<p>Serie (kaskady) wykres\u00f3w mog\u0105 by\u0107 u\u017cyte do prezentacji tabel wielodzielczych dla wi\u0119kszej liczby czynnik\u00f3w (jak na rysunku poni\u017cej).<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.statsoft.pl\/textbook\/popups\/popup79.gif\" alt=\"\" width=\"450\" height=\"281\" border=\"0\" \/><\/p>\n<p><span style=\"color: navy; font-size: medium;\">Statystyki w tabelach wielodzielczych <\/span><\/p>\n<ul>\n<li><a href=\"#sgeneral\">Og\u00f3lne wprowadzenie<\/a><\/li>\n<li><a href=\"#spearson\">Chi-kwadrat Pearsona<\/a><\/li>\n<li><a href=\"#smaximum\">Chi-kwadrat najwi\u0119kszej wiarygodno\u015bci<\/a><\/li>\n<li><a href=\"#syates\">Poprawka Yatesa<\/a><\/li>\n<li><a href=\"#sfisher\">Dok\u0142adny test Fishera<\/a><\/li>\n<li><a href=\"#smcnemar\">Chi-kwadrat McNemary<\/a><\/li>\n<li><a href=\"#scoefficient\">Wsp\u00f3\u0142czynnik Fi<\/a><\/li>\n<li><a href=\"#stetrachoric\">Korelacja tetrachoryczna<\/a><\/li>\n<li><a href=\"#scontingency\">Wsp\u00f3\u0142czynnik kontyngencji<\/a><\/li>\n<li><a href=\"#sinterpretation\">Interpretacja miar kontyngencji<\/a><\/li>\n<li><a href=\"#sstatistics\">Statystyki oparte na rangach<\/a><\/li>\n<li><a href=\"#sspearman\">R Spearmana<\/a><\/li>\n<li><a href=\"#skendall\">Tau Kendalla<\/a><\/li>\n<li><a href=\"#ssommer\">d Sommera: d(X|Y), d(Y|X)<\/a><\/li>\n<li><a href=\"#sgamma\">Gamma<\/a><\/li>\n<li><a href=\"#suncertainty\">Wsp\u00f3\u0142czynniki niepewno\u015bci: S(X,Y), S(X|Y), S(Y|X)<\/a><\/li>\n<\/ul>\n<p><b>Og\u00f3lne wprowadzenie. <\/b>Tabele wielodzielcze, og\u00f3lnie rzecz ujmuj\u0105c, pozwalaj\u0105 na zidentyfikowanie relacji pomi\u0119dzy zmiennymi, kt\u00f3rych warto\u015bci s\u0105 zestawiane w tabeli wielodzielczej. Poni\u017csza tabela ilustruje przyk\u0142ad bardzo silnej zale\u017cno\u015bci pomi\u0119dzy dwiema zmiennymi: zmienn\u0105 <i>Wiek<\/i> (<i>Doros\u0142y<\/i>, <i>Dziecko<\/i>) i zmienn\u0105 (ulubione) <i>Ciastko<\/i> (<i>A<\/i> lub <i>B<\/i>).<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">CIASTKO: A<\/span><\/th>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">CIASTKO: B<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">WIEK: DOROS\u0141Y<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a00<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">WIEK: DZIECKO<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a00<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<\/tr>\n<tr>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">50<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Wszyscy doro\u015bli wybieraj\u0105 ciastko <i>A<\/i>, a dzieci ciastko <i>B<\/i>. W takim przypadku nie ma w\u0105tpliwo\u015bci co do wiarygodno\u015bci tego wniosku, poniewa\u017c trudno dopu\u015bci\u0107 my\u015bl, \u017ce taki uk\u0142ad tabeli m\u00f3g\u0142 powsta\u0107 jedynie przez przypadek, to znaczy bez istnienia prawdziwej r\u00f3\u017cnicy w upodobaniach co do ciastek u dzieci i doros\u0142ych. Jednak w rzeczywisto\u015bci relacje mi\u0119dzy zmiennymi s\u0105 zazwyczaj znacznie s\u0142absze i powstaje wtedy pytanie, jak mierzy\u0107 te zale\u017cno\u015bci i jak ocenia\u0107 ich wiarygodno\u015b\u0107 (istotno\u015b\u0107 statystyczn\u0105). Zamieszczony ni\u017cej przegl\u0105d zawiera najbardziej typowe miary zale\u017cno\u015bci mi\u0119dzy <i>dwiema<\/i> zmiennymi nominalnymi, to znaczy miary dla tabel dwudzielczych. Techniki analizowania relacji mi\u0119dzy <i>wi\u0119cej ni\u017c dwiema<\/i> zmiennymi jednocze\u015bnie w tabelach wielodzielczych dyskutowane s\u0105 przy okazji opisu modu\u0142u <a href=\"stloglin.html\"><i>Analiza log-liniowa<\/i><\/a><br \/>\ni <a href=\"stcoran.html\"><i>Analiza korespondencji<\/i><\/a><br \/>\n.<\/p>\n<p><b>Chi-kwadrat Pearsona. <\/b>Statystyka <a href=\"glosr.html#Chi-square Distribution\"><i>Chi-kwadrat<\/i><\/a><br \/>\nPearsona jest podstaw\u0105 najbardziej rozpowszechnionego testu istotno\u015bci dla zmiennych jako\u015bciowych (skategoryzowanych). Miara ta oparta jest na mo\u017cliwo\u015bci obliczenia liczno\u015bci <i>oczekiwanych<\/i> w tabeli dwudzielczej (to znaczy liczno\u015bci, jakich oczekiwaliby\u015bmy, gdyby nie istnia\u0142a zale\u017cno\u015b\u0107 mi\u0119dzy zmiennymi). Przypu\u015b\u0107my, \u017ce pytamy 20 m\u0119\u017cczyzn i 20 kobiet o upodobanie do jednej z dw\u00f3ch gatunk\u00f3w wody mineralnej (gatunki <i>A<\/i> i <i>B<\/i>). Gdyby nie by\u0142o \u017cadnej zale\u017cno\u015bci mi\u0119dzy upodobaniem odno\u015bnie wody mineralnej a p\u0142ci\u0105, w\u00f3wczas nale\u017ca\u0142oby <i>oczekiwa\u0107<\/i> mniej wi\u0119cej jednakowych liczno\u015bci w preferencjach gatunku <i>A<\/i>i <i>B<\/i> dla obu p\u0142ci. Test <i>Chi-kwadrat<\/i> staje si\u0119 istotny w miar\u0119 wzrostu odst\u0119pstwa od tego oczekiwanego schematu (to znaczy w miar\u0119 jak liczno\u015bci odpowiedzi dla m\u0119\u017cczyzn i kobiet zaczynaj\u0105 si\u0119 r\u00f3\u017cni\u0107).<\/p>\n<p>Warto\u015b\u0107 statystyki <a href=\"glosr.html#Chi-square Distribution\"><i>chi-kwadrat<\/i><\/a><br \/>\ni poziom jej istotno\u015bci zale\u017cy od ca\u0142kowitej liczby obserwacji i liczby kom\u00f3rek w tabeli. Zgodnie z zasadami dyskutowanymi w cz\u0119\u015bci <a href=\"esc.html\"><i>Podstawowe poj\u0119cia statystyki<\/i><\/a><br \/>\nstosunkowo ma\u0142e odchylenia cz\u0119sto\u015bci wzgl\u0119dnych w kom\u00f3rkach od oczekiwa\u0144 oka\u017c\u0105 si\u0119 istotne, je\u015bli liczno\u015b\u0107 pr\u00f3bki jest du\u017ca.<\/p>\n<p>Jedynym za\u0142o\u017ceniem le\u017c\u0105cym u podstaw stosowania testu <a href=\"glosr.html#Chi-square Distribution\"><i>chi-kwadrat<\/i><\/a><br \/>\n(poza losowo\u015bci\u0105 pr\u00f3bki) jest, aby liczno\u015bci oczekiwane nie by\u0142y bardzo ma\u0142e. Powodem jest tu fakt, \u017ce <i>chi-kwadrat<\/i> testuje <i>prawdopodobie\u0144stwa<\/i> w poszczeg\u00f3lnych kom\u00f3rkach i je\u015bli jakie\u015b liczno\u015bci b\u0119d\u0105 np. poni\u017cej 5, to oceny tych prawdopodobie\u0144stw mog\u0105 okaza\u0107 si\u0119 niewystarczaj\u0105co precyzyjne. Dalsze informacje na ten temat znale\u017a\u0107 mo\u017cna w podr\u0119cznikach Everitta (1977), Haysa (1988) lub Kendalla i Stuarta (1979).<\/p>\n<p><b>Chi-kwadrat najwi\u0119kszej wiarygodno\u015bci. <\/b><a href=\"glosr.html#Chi-square Distribution\">Chi-kwadrat<\/a><br \/>\nnajwi\u0119kszej wiarygodno\u015bci (N-W) testuje t\u0119 sam\u0105 hipotez\u0119 co statystyka Chi-kwadrat Pearsona, jednak spos\u00f3b jej obliczania oparty jest na teorii najwi\u0119kszej wiarygodno\u015bci. W praktyce statystyka <i>Chi-kwadrat N-W<\/i> jest pod wzgl\u0119dem warto\u015bci zbli\u017cona do statystyki <i>Chi-kwadrat Pearsona<\/i>. Dla zapoznania si\u0119 ze szczeg\u00f3\u0142ami odsy\u0142amy Czytelnika do pozycji: Bishop, Fienberg, Hollander (1975) lub Fienberg (1977). Statystyka ta zosta\u0142a tak\u017ce bardziej szczeg\u00f3\u0142owo opisana przy okazji opisu modu\u0142u <a href=\"stloglin.html\"><i>Analiza log-liniowa<\/i><\/a><br \/>\n.<\/p>\n<p><b>Poprawka Yatesa. <\/b>Przybli\u017cenie statystyki <a href=\"glosr.html#Chi-square Distribution\"><i>Chi-kwadrat<\/i><\/a><br \/>\nw tabelach 2&#215;2 o ma\u0142ych liczno\u015bciach mo\u017cna poprawi\u0107 przez zmniejszenie bezwzgl\u0119dnej warto\u015bci r\u00f3\u017cnic pomi\u0119dzy liczno\u015bciami oczekiwanymi i zaobserwowanymi o warto\u015b\u0107 0,5 przed podniesieniem do kwadratu (<i>poprawka Yatesa<\/i>). Poprawka ta, powoduj\u0105ca bardziej zachowawcz\u0105 ocen\u0119, stosowana jest zazwyczaj, je\u015bli liczno\u015bci w tabeli s\u0105 tak ma\u0142e, \u017ce niekt\u00f3re liczno\u015bci oczekiwane staj\u0105 si\u0119 mniejsze ni\u017c 10. (Dalsza dyskusja tej poprawki zob. Conover, 1974; Everitt, 1977; Hays, 1988; Kendall i Stuart, 1979 oraz Mantel, 1974).<\/p>\n<p><b>Dok\u0142adny test Fishera. <\/b>Test ten jest dost\u0119pny jedynie dla tabel 2&#215;2 i opiera si\u0119 na nast\u0119puj\u0105cym rozumowaniu: Przypu\u015b\u0107my, \u017ce mamy dane liczno\u015bci brzegowe w tabeli i za\u0142\u00f3\u017cmy, \u017ce w populacji nie istnieje zale\u017cno\u015b\u0107 mi\u0119dzy zmiennymi analizowanymi w tabeli. Postawmy pytanie: jakie jest prawdopodobie\u0144stwo, \u017ce liczno\u015bci w poszczeg\u00f3lnych kom\u00f3rkach u\u0142o\u017c\u0105 si\u0119 tak nier\u00f3wnomiernie (lub gorzej) jak to obserwujemy w tabeli? Dla ma\u0142ych <i>n<\/i> prawdopodobie\u0144stwo to mo\u017cna policzy\u0107 <i>dok\u0142adnie<\/i> przez zliczenie wszystkich mo\u017cliwych tabel, kt\u00f3re mo\u017cna skonstruowa\u0107 na podstawie liczno\u015bci brzegowych. W ten spos\u00f3b dok\u0142adny test Fishera oblicza dok\u0142adne prawdopodobie\u0144stwo przy hipotezie zerowej polegaj\u0105cej na uzyskaniu bie\u017c\u0105cego rozk\u0142adu liczno\u015bci w kom\u00f3rkach tak samo lub bardziej nier\u00f3wnomiernie. Podawane s\u0105 zar\u00f3wno prawdopodobie\u0144stwa jedno jak i dwustronne.<\/p>\n<p><b>Chi-kwadrat McNemary. <\/b>Test ten nale\u017cy stosowa\u0107 je\u015bli liczno\u015bci w tabeli 2&#215;2 reprezentuj\u0105 pr\u00f3bki <i>zale\u017cne<\/i>. Na przyk\u0142ad w uk\u0142adzie do\u015bwiadczalnym typu przed i po (zabiegu do\u015bwiadczalnym) mo\u017cemy zlicza\u0107 liczb\u0119 student\u00f3w, kt\u00f3rzy nie przeszli testu z podstaw matematyki na pocz\u0105tku i na ko\u0144cu semestru. Podawane s\u0105 dwie warto\u015bci <a href=\"glosr.html#Chi-square Distribution\"><i>Chi-kwadrat<\/i><\/a><br \/>\n: <i>A\/D<\/i> i <i>B\/C<\/i>. <i>Chi-kwadrat A\/D<\/i> testuje hipotez\u0119, \u017ce liczno\u015bci w kom\u00f3rkach <i>A<\/i> i <i>D<\/i> (lewa g\u00f3rna i prawa dolna) s\u0105 identyczne. Natomiast <i>Chi-kwadrat B\/C<\/i> testuje hipotez\u0119, \u017ce liczno\u015bci w kom\u00f3rkach <i>B<\/i> i <i>C<\/i> (prawa g\u00f3rna i lewa dolna) s\u0105 identyczne.<\/p>\n<p><b>Wsp\u00f3\u0142czynnik Fi. <\/b><i>Fi-kwadrat<\/i> jest miar\u0105 korelacji mi\u0119dzy dwiema zmiennymi jako\u015bciowymi (skategoryzowanymi) w tabeli 2 x 2. Jego warto\u015b\u0107 mo\u017ce si\u0119 zmienia\u0107 od <i>0<\/i> (brak relacji mi\u0119dzy zmiennymi; <i>Chi-kwadrat<\/i>=0) do <i>1<\/i> (ca\u0142kowita zale\u017cno\u015b\u0107 mi\u0119dzy zmiennymi w tabeli). Dalsze szczeg\u00f3\u0142y dotycz\u0105ce tej statystyki zob. Castellan i Siegel (1988, str. 232).<\/p>\n<p><b>Korelacja tetrachoryczna. <\/b>Statystyka ta ma zastosowanie tylko w odniesieniu do tabeli 2&#215;2. Je\u015bli tabela 2&#215;2 mo\u017ce by\u0107 traktowana jako wynik (sztucznego) rozdzielenia warto\u015bci ka\u017cdej z dw\u00f3ch zmiennych o charakterze ci\u0105g\u0142ym na dwie kategorie, w\u00f3wczas wsp\u00f3\u0142czynnik korelacji tetrachorycznej daje ocen\u0119 korelacji mi\u0119dzy tymi zmiennymi.<\/p>\n<p><b>Wsp\u00f3\u0142czynnik kontyngencji. <\/b>Wsp\u00f3\u0142czynnik kontyngencji jest opart\u0105 na warto\u015bciach statystyki <a href=\"glosr.html#Chi-square Distribution\"><i>Chi-kwadrat<\/i><\/a> miar\u0105 zale\u017cno\u015bci mi\u0119dzy dwiema zmiennymi jako\u015bciowymi (skategoryzowanymi) zaproponowan\u0105 przez Pearsona, tw\u00f3rc\u0119 testu <i>Chi-kwadrat<\/i>. Jej zalet\u0105 w por\u00f3wnaniu ze zwyk\u0142\u0105 warto\u015bci\u0105 <i>Chi-kwadrat<\/i> jest to, \u017ce jest \u0142atwiej interpretowalna poniewa\u017c zawsze zawarta jest pomi\u0119dzy <i>0<\/i> i <i>1<\/i> (0 oznacza niezale\u017cno\u015b\u0107 zmiennych). Podstawow\u0105 wad\u0105 tej statystyki jest natomiast to, \u017ce jej maksymalna warto\u015b\u0107 zale\u017cy od rozmiaru tabeli. Wsp\u00f3\u0142czynnik kontyngencji <i>C<\/i> mo\u017ce osi\u0105gn\u0105\u0107 warto\u015b\u0107 <i>1<\/i> jedynie dla niesko\u0144czonej liczby kategorii (zob. Siegel, 1956, str. 201).<\/p>\n<p><b>Interpretacja miar kontyngencji. <\/b>Powa\u017cn\u0105 wad\u0105 miar kontyngencji jest to, \u017ce nie s\u0105 one \u0142atwo interpretowalne w terminach prawdopodobie\u0144stwa lub proporcji zmienno\u015bci jak to ma miejsce np. dla wsp\u00f3\u0142czynnika korelacji <i>r<\/i> Pearsona (zob.<a href=\"#Correlations\"> Korelacje<\/a><br \/>\n). W og\u00f3le nale\u017cy doda\u0107, \u017ce nie istniej\u0105 \u017cadne miary relacji pomi\u0119dzy zmiennymi jako\u015bciowymi (skategoryzowanymi), kt\u00f3re by umo\u017cliwia\u0142y tak\u0105 czyteln\u0105 interpretacj\u0119.<\/p>\n<p><b>Statystyki oparte na rangach. <\/b>W wielu przypadkach kategorie wykorzystywane przy tworzeniu tabel wielodzielczych zawieraj\u0105 sensown\u0105 informacj\u0119 w postaci szeregowania (rangowania), to znaczy stanowi\u0105 one miar\u0119 jakiej\u015b cechy wyra\u017con\u0105 na skali <a href=\"gloss.html#Ordinal Scale\"><br \/>\n<i>porz\u0105dkowej<\/i><\/a><br \/>\n(zob. <i>Podstawowe poj\u0119cia statystyki<\/i>). Przypu\u015b\u0107my, \u017ce ankietowali\u015bmy pr\u00f3bk\u0119 respondent\u00f3w celem zbadania ich zainteresowa\u0144 transmisjami z zawod\u00f3w sportowych wed\u0142ug czterostopniowej skali (1) <i>zawsze<\/i>, (2) <i>zazwyczaj<\/i>, (3) <i>czasami<\/i> i (4) <i>nigdy nie zainteresowany<\/i>. Jest oczywiste, \u017ce odpowied\u017a <i>czasami zainteresowany<\/i> wskazuje na mniejsze zainteresowanie ni\u017c odpowied\u017a <i>zawsze zainteresowany<\/i>. Mo\u017cna w ten spos\u00f3b uszeregowa\u0107 respondent\u00f3w wed\u0142ug np. ich zainteresowania ogl\u0105daniem meczu pi\u0142ki no\u017cnej. Je\u017celi zmienne skategoryzowane mog\u0105 by\u0107 interpretowane w ten spos\u00f3b to mamy do dyspozycji szereg dalszych wska\u017anik\u00f3w, kt\u00f3re mo\u017cna obliczy\u0107 celem wyra\u017cenia miary zale\u017cno\u015bci mi\u0119dzy tymi zmiennymi.<\/p>\n<p><b>R Spearmana. <\/b>Wsp\u00f3\u0142czynnik <i>R<\/i> Spearmana mo\u017cna uwa\u017ca\u0107 za zwyczajny wsp\u00f3\u0142czynnik korelacji (Pearsona) wg momentu mieszanego (<i>r<\/i> Pearsona), tzn. interpretowalny w terminach wyja\u015bnianej zmienno\u015bci, z t\u0105 r\u00f3\u017cnic\u0105, \u017ce oblicza si\u0119 go na podstawie rang a nie samych warto\u015bci. Jak wspomnieli\u015bmy poprzednio dla obliczenia <i>R<\/i> Spearmana zak\u0142ada si\u0119, \u017ce zmienne zosta\u0142y zmierzone co najmniej na skali porz\u0105dkowej czyli \u017ce poszczeg\u00f3lne obserwacje zosta\u0142y uszeregowane w dwa uporz\u0105dkowane ci\u0105gi. Szczeg\u00f3\u0142owe informacje na temat statystyki <i>R<\/i> Spearmana, jej mocy oraz efektywno\u015bci znale\u017a\u0107 mo\u017cna w pracach: Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel i Castellan (1988), Kendall (1948), Olds (1949) lub Hotelling i Pabst (1936).<\/p>\n<p><b>Tau Kendalla. <\/b>Pod wzgl\u0119dem wymaganych za\u0142o\u017ce\u0144 <i>tau<\/i> Kendalla jest r\u00f3wnowa\u017cne z <i>R<\/i> Spearmana. Jest r\u00f3wnie\u017c pomi\u0119dzy <i>R<\/i> Spearmana i <i>tau<\/i> Kendalla podobie\u0144stwo ze wzgl\u0119du na moc statystyczn\u0105. Obie miary s\u0105 jednak najcz\u0119\u015bciej r\u00f3\u017cne pod wzgl\u0119dem warto\u015bci ze wzgl\u0119du na to, \u017ce logika le\u017c\u0105ca u podstaw ich definicji, a tak\u017ce same formu\u0142y obliczeniowe, s\u0105 r\u00f3\u017cne. Siegel i Castellan (1988) wyra\u017caj\u0105 relacj\u0119 pomi\u0119dzy tymi dwiema wielko\u015bciami w nast\u0119puj\u0105cy spos\u00f3b:<\/p>\n<p><b><span style=\"color: blue;\">-1 &lt; = 3 * Kendall tau &#8211; 2 * Spearman R &lt; = 1<\/span><\/b><\/p>\n<p>Bardziej istotne jest to, \u017ce <i>tau<\/i> Kendalla i <i>R<\/i> Spearmana wymagaj\u0105 odmiennych interpretacji: podczas gdy <i>R<\/i> Spearmana nale\u017cy uwa\u017ca\u0107 za zwyk\u0142y wsp\u00f3\u0142czynnik korelacji wg momentu mieszanego obliczany w oparciu o rangi, to <i>tau<\/i> Kendalla reprezentuje raczej <i>prawdopodobie\u0144stwo<\/i>. Mo\u017cna go uwa\u017ca\u0107 za r\u00f3\u017cnic\u0119 prawdopodobie\u0144stw tego, \u017ce zmierzone dane s\u0105 tak samo uszeregowane dla obydw\u00f3ch zmiennych i tego, \u017ce s\u0105 uszeregowane odwrotnie. Kendall (1948, 1975), Everitt (1977) oraz Siegel i Castellan (1988) dyskutuj\u0105 <i>tau<\/i> Kendalla bardziej szczeg\u00f3\u0142owo. Obliczane s\u0105 dwa warianty <i>tau<\/i>, oznaczane jako <i>tau<sub>b<\/sub><\/i> i <i>tau<sub>c<\/sub><\/i>. R\u00f3\u017cni\u0105 si\u0119 one jedynie co do tego, jak traktowane s\u0105 rangi wi\u0105zane. W wi\u0119kszo\u015bci przypadk\u00f3w obie warto\u015bci s\u0105 podobne, a kiedy zdarzaj\u0105 si\u0119 rozbie\u017cno\u015bci, to najbezpieczniej jest bra\u0107 pod uwag\u0119 warto\u015b\u0107 mniejsz\u0105.<\/p>\n<p><b>d Sommera: d(X|Y), d(Y|X).<\/b><i>D<\/i> Sommera jest asymetryczn\u0105 miar\u0105 zale\u017cno\u015bci powi\u0105zan\u0105 z <i>t<sub>b<\/sub><\/i> (zob. Siegel &amp; Castellan, 1988, str. 303-310).<\/p>\n<p><b>Gamma. <\/b>W przypadku kiedy dane zawieraj\u0105 wiele obserwacji, kt\u00f3rym przypisano jednakowe rangi (tzw. rangi wi\u0105zane), to zamiast stosowa\u0107 wsp\u00f3\u0142czynnik <i>R<\/i> Spearmana czy <i>tau<\/i> Kendalla, nale\u017cy raczej wybra\u0107 statystyk\u0119 <i>Gamma<\/i>. Pod wzgl\u0119dem wymaganych za\u0142o\u017ce\u0144 wszystkie te trzy statystyki s\u0105 r\u00f3wnowa\u017cne, natomiast pod wzgl\u0119dem interpretacji i procedury obliczeniowej statystyka gamma jest bardziej podobna do <i>tau<\/i> Kendalla ni\u017c do <i>R<\/i> Spearmana. <i>Gamma<\/i> r\u00f3wnie\u017c oznacza <i>prawdopodobie\u0144stwo<\/i>. Jest ono obliczane jako r\u00f3\u017cnica prawdopodobie\u0144stw tego, \u017ce rangi dw\u00f3ch zmiennych s\u0105 ze sob\u0105 zgodne i tego, \u017ce rangi te s\u0105 niezgodne podzielona przez 1 minus prawdopodobie\u0144stwo wyst\u0105pienia jednakowych rang. W tym sensie <i>Gamma<\/i> jest w zasadzie r\u00f3wnowa\u017cne tau Kendalla z t\u0105 r\u00f3\u017cnic\u0105, \u017ce brane s\u0105 pod uwag\u0119 przypadki jednakowych rang. Szczeg\u00f3\u0142ow\u0105 dyskusj\u0119 statystyki <i>Gamma<\/i> mo\u017cna znale\u017a\u0107 w: Goodman i Kruskal (1954, 1959, 1963, 1972), Siegel (1956) i Siegel i Castellan (1988).<\/p>\n<p><b>Wsp\u00f3\u0142czynniki niepewno\u015bci. <\/b>S\u0105 to wska\u017aniki <i>zale\u017cno\u015bci stochastycznej<\/i>. Koncepcja <i>zale\u017cno\u015bci stochastycznej<\/i> pochodzi z zastosowania teorii informacji do analizy tabel liczno\u015bci. Czytelnik\u00f3w zainteresowanych tym zagadnieniem odsy\u0142amy do odpowiednich \u017ar\u00f3de\u0142 (zob. Kullback, 1959; Ku &amp; Kullback, 1968; Ku, Varner &amp; Kullback, 1971; zob. r\u00f3wnie\u017c Bishop, Fienberg i Holland, 1975, str. 344-348). <i>S<\/i>(<i>Y,X<\/i>) odnosi si\u0119 do zale\u017cno\u015bci symetrycznej, <i>S<\/i>(<i>X<\/i>|<i>Y<\/i>) i <i>S<\/i>(<i>Y<\/i>|<i>X<\/i>) do zale\u017cno\u015bci asymetrycznej.<\/p>\n<p><span style=\"color: navy; font-size: medium;\">Wielokrotne odpowiedzi\/dychotomie. <\/span>Zmienne wielokrotnych odpowiedzi lub wielokrotne dychotomie spotyka si\u0119 najcz\u0119\u015bciej przy analizie danych pochodz\u0105cych z bada\u0144 opinii publicznej. Najlepiej zilustrowa\u0107 je przy pomocy odpowiednich przyk\u0142ad\u00f3w.<\/p>\n<ul>\n<li><a href=\"#mmultiple\">Zmienne wielokrotnych odpowiedzi <\/a><\/li>\n<li><a href=\"#mdichotomies\">Wielokrotne dychotomie <\/a><\/li>\n<li><a href=\"#mcrosstabulation\">Tworzenie tabel wielodzielczych dla wielokrotnych odpowiedzi\/dychotomii<\/a><\/li>\n<li><a href=\"#mpaired\">Tworzenie tabel wielodzielczych dla skojarzonych zmiennych wielokrotnych odpowiedzi<\/a><\/li>\n<li><a href=\"#mfinal\">Komentarz ko\u0144cowy<\/a><\/li>\n<\/ul>\n<p><b>Zmienne wielokrotnych odpowiedzi. <\/b>Przypu\u015b\u0107my, \u017ce w trakcie wi\u0119kszych bada\u0144 marketingowych zadano konsumentom pytanie o trzy ulubione gatunki napoj\u00f3w ch\u0142odz\u0105cych. Odpowiednia pozycja kwestionariusza mog\u0142a wygl\u0105da\u0107 nast\u0119puj\u0105co:<\/p>\n<p><b><span style=\"color: blue;\">Podaj nazwy Twoich trzech ulubionych napoj\u00f3w ch\u0142odz\u0105cych:<br \/>\n<\/span><\/b><\/p>\n<p>1:__________ \u00a0\u00a0\u00a02:__________ \u00a0\u00a0\u00a03:__________<\/p>\n<p>&nbsp;<\/p>\n<p>1:________ 2:________ 3:________<\/p>\n<p>A zatem otrzymane kwestionariusze b\u0119d\u0105 zawiera\u0142y od 0 do 3 odpowiedzi na to pytanie. Odpowiedzi b\u0119d\u0105 zawiera\u0142y wiele r\u00f3\u017cnych nazw napoj\u00f3w. Zadaniem badacza jest podsumowanie odpowiedzi na tak postawione pytanie tzn. utworzenie tabeli z zestawieniem procentu respondent\u00f3w preferuj\u0105cych poszczeg\u00f3lne napoje.<\/p>\n<p>Natychmiast pojawia si\u0119 pytanie, w jaki spos\u00f3b zapisywa\u0107 dane do pliku danych, je\u015bli na przyk\u0142ad wymieniono 50 rodzaj\u00f3w napoj\u00f3w w ankiecie. Oczywi\u015bcie mo\u017cna by wprowadzi\u0107 50 zmiennych &#8211; jedna na ka\u017cdy rodzaj napoju i wpisywa\u0107 <i>1<\/i> je\u015bli nap\u00f3j jest wymieniany w odpowiedzi i <i>0<\/i> je\u015bli nie. Na przyk\u0142ad:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th><span style=\"color: blue; font-size: small;\">COKE<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">PEPSI<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">SPRITE<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">. . . .<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\n&#8230;<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">0<br \/>\n1<br \/>\n0<br \/>\n&#8230;<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">1<br \/>\n1<br \/>\n0<br \/>\n&#8230;<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">0<br \/>\n0<br \/>\n1<br \/>\n&#8230;<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a0<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Taka metoda kodowania by\u0142aby bardzo uci\u0105\u017cliwa i nieefektywna. Zauwa\u017cmy bowiem, \u017ce ka\u017cdy respondent mo\u017ce poda\u0107 co najwy\u017cej trzy odpowiedzi, a my marnujemy 50 zmiennych na ten cel (tu dodajmy, \u017ce gdyby w gr\u0119 wchodzi\u0142y tylko trzy gatunki napoj\u00f3w, to oczywi\u015bcie takiej metodzie nie mo\u017cna by nic zarzuci\u0107 i wtedy trzy zmienne by\u0142yby wystarczaj\u0105ce a spos\u00f3b ich potraktowania okre\u015bliliby\u015bmy jako <i>wielokrotn\u0105 dychotomi\u0119<\/i>).<\/p>\n<p><b>Spos\u00f3b kodowania zmiennych wielokrotnych odpowiedzi.<\/b> Jako alternatyw\u0119 do sposobu post\u0119powania przedstawionego powy\u017cej, mo\u017cemy wprowadzi\u0107 trzy zmienne i schemat kodowania dla 50 napoj\u00f3w. Nast\u0119pnie do poszczeg\u00f3lnych pozycji wprowadza\u0107 kody (lub etykiety literowo-cyfrowe) odno\u015bnych napoj\u00f3w, tak jak pojawiaj\u0105 si\u0119 one w odpowiedziach.<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">Odp. 1<\/span><\/th>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">Odp. 2<\/span><\/th>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">Odp. 3<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\n. . .<\/span><\/th>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">COKE<br \/>\nSPRITE<br \/>\nPERRIER<br \/>\n. . .<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">PEPSI<br \/>\nSNAPPLE<br \/>\nGATORADE<br \/>\n. . .<\/span><\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">JOLT<br \/>\nDR. PEPPER<br \/>\nMOUNTAIN DEW<br \/>\n. . .<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Aby teraz otrzyma\u0107 tabel\u0119 z liczb\u0105 respondent\u00f3w wed\u0142ug napoju musimy potraktowa\u0107 zmienne od <i>Odp.1<\/i> do <i>Odp.3<\/i> jako zmienne wielokrotnych odpowiedzi. Tabela mo\u017ce wygl\u0105da\u0107 jak poni\u017cej:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">N=500<br \/>\nKategoria<\/span><\/th>\n<th align=\"CENTER\"><span style=\"color: blue; font-size: small;\">n<\/span><\/th>\n<th align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Procent<br \/>\nOdpowiedzi<\/span><\/th>\n<th align=\"CENTER\"><span style=\"color: blue; font-size: small;\">Procent<br \/>\nPrzypadk\u00f3w<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">COKE: Coca Cola<br \/>\nPEPSI: Pepsi Cola<br \/>\nMOUNTAIN: Mountain Dew<br \/>\nPEPPER: Doctor Pepper<br \/>\n. . .\u00a0\u00a0: . . . .<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">44<br \/>\n43<br \/>\n81<br \/>\n74<br \/>\n..<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">5.23<br \/>\n5.11<br \/>\n9.62<br \/>\n8.79<br \/>\n&#8230;<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">8.80<br \/>\n8.60<br \/>\n16.20<br \/>\n14.80<br \/>\n&#8230;<\/span><\/td>\n<\/tr>\n<tr>\n<th align=\"LEFT\"><span style=\"color: blue; font-size: small;\">\u00a0<\/span><\/th>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">842<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">100.00<\/span><\/td>\n<td align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">168.40<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><b>Interpretacja tabeli liczno\u015bci w przypadku wielokrotnych odpowiedzi.<\/b> Ca\u0142kowita liczba respondent\u00f3w wynios\u0142a <i>N<\/i>=500. Zwr\u00f3\u0107my uwag\u0119, \u017ce liczno\u015bci w pierwszej kolumnie tabeli nie sumuj\u0105 si\u0119 do 500, lecz daj\u0105 w sumie 842. Jest to ca\u0142kowita liczba <i>odpowiedzi<\/i>, poniewa\u017c ka\u017cdy respondent mo\u017ce poda\u0107 3 odpowiedzi (wypisa\u0107 nazwy trzech napoj\u00f3w), wi\u0119c ca\u0142kowita liczba odpowiedzi musi by\u0107 wi\u0119ksza ni\u017c liczba respondent\u00f3w. Na przyk\u0142ad, wracaj\u0105c do przedstawionego powy\u017cej fragmentu pliku danych, pierwszy przypadek (<i>Coke, Pepsi, Jolt<\/i>) trzykrotnie wnosi wk\u0142ad do tabeli liczno\u015bci, raz do kategorii <i>Coke<\/i>, raz do kategorii <i>Pepsi<\/i> i raz do <i>Jolt<\/i>. Druga i trzecia kolumna w tabeli podaj\u0105 procenty wzgl\u0119dem liczby odpowiedzi (druga kolumna) i wzgl\u0119dem respondent\u00f3w (trzecia kolumna). Zatem np. liczba 8.80 w pierwszym wierszu ostatniej kolumny oznacza, \u017ce 8.8% wszystkich respondent\u00f3w umie\u015bci\u0142o nap\u00f3j <i>Coke<\/i> jako ulubiony na pierwszym, drugim lub trzecim miejscu.<\/p>\n<p><b>Wielokrotne dychotomie. <\/b>Przypu\u015b\u0107my, \u017ce w przyk\u0142adzie dotycz\u0105cym zmiennych wielokrotnych odpowiedzi interesuj\u0105 nas tylko trzy napoje: <i>Coke, Pepsi<\/i> i <i>Sprite<\/i>. Jak wspomnieli\u015bmy ju\u017c wcze\u015bniej, jeden ze sposob\u00f3w kodowania danych w tej sytuacji mo\u017ce wygl\u0105da\u0107 jak poni\u017cej:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><\/th>\n<th><span style=\"color: blue; font-size: small;\">COKE<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">PEPSI<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">SPRITE<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">. . . .<\/span><\/th>\n<\/tr>\n<tr>\n<th align=\"RIGHT\"><span style=\"color: blue; font-size: small;\">przyp. 1<br \/>\nprzyp. 2<br \/>\nprzyp. 3<br \/>\n. . .<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\"><span style=\"color: blue; font-size: small;\"><br \/>\n1<\/span><\/span>. . .<\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\"><span style=\"color: blue; font-size: small;\">1<br \/>\n1<\/span><\/span>. . .<\/td>\n<td align=\"CENTER\">&nbsp;<\/p>\n<p>1<br \/>\n. . .<\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a0<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<p><br clear=\"ALL\" \/>Dla ka\u017cdego napoju zarezerwowano jedn\u0105 zmienn\u0105 i wpisuje si\u0119 <i>1<\/i>, je\u015bli nap\u00f3j jest wymieniony w odpowiedzi, oraz 0 je\u015bli nie zosta\u0142 wymieniony. Zwr\u00f3\u0107my uwag\u0119, \u017ce ka\u017cda zmienna reprezentuje <i>dychotomi\u0119<\/i>, to znaczy dopuszczalne s\u0105 tylko &#8222;<i>not 1<\/i>&#8221; i nie &#8222;<i>not 1<\/i>&#8221; (wpisujemy co prawda 1 i 0, ale mogliby\u015bmy r\u00f3wnie dobrze wpisywa\u0107 1 i zostawia\u0107 pole puste zamiast 0). Przy tworzeniu tabel wielodzielczych dla takich zmiennych chcieliby\u015bmy mie\u0107 zestawienia bardzo podobne jak w przypadku zmiennych wielokrotnych odpowiedzi, to znaczy liczno\u015bci i procenty respondent\u00f3w (i odpowiedzi) dla ka\u017cdego napoju. W tym sensie \u0142\u0105czymy trzy zmienne <i>Coke, Pepsi<\/i>, i <i>Sprite<\/i> w jedn\u0105 zmienn\u0105 (<i>Nap\u00f3j<\/i>) zawieraj\u0105c\u0105 <i>wielokrotne dychotomie<\/i>.<\/p>\n<p><b>Tworzenie tabel wielodzielczych dla wielokrotnych odpowiedzi\/dychotomii<\/b> Wszystkie typy zmiennych mog\u0105 by\u0107 u\u017cyte w tabelach wielodzielczych. Mo\u017cemy na przyk\u0142ad tabelaryzowa\u0107 wielokrotn\u0105 dychotomi\u0119 dla <i>Napoj\u00f3w ch\u0142odz\u0105cych<\/i> (zakodowan\u0105, jak to zosta\u0142o pokazane we fragmencie Wielokrotne dychotomie) ze zmienn\u0105 wielokrotnych odpowiedzi <i>Ulubione szybkie dania<\/i> (z wieloma kategoriami takimi jak Hamburgery, Pizza itp.) i prost\u0105 zmienn\u0105 skategoryzowan\u0105 <i>P\u0142e\u0107<\/i>. Podobnie jak w przypadku tabeli liczno\u015bci procenty i liczno\u015bci sumaryczne brzegowe w tabeli mog\u0105 by\u0107 odnoszone do liczby respondent\u00f3w oraz do liczby odpowiedzi. Dla przyk\u0142adu za\u0142\u00f3\u017cmy, \u017ce otrzymali\u015bmy nast\u0119puj\u0105c\u0105 hipotetyczn\u0105 ankiet\u0119:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><span style=\"color: blue; font-size: small;\">P\u0142e\u0107<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Coke<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Pepsi<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Sprite<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Danie 1<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Danie 2<\/span><\/th>\n<\/tr>\n<tr>\n<th><span style=\"color: blue; font-size: small;\">kobieta<\/span><\/th>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">1<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">1<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">\u00a0<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">RYBA<\/span><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\">PIZZA<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Ten respondent (kobieta) wymieni\u0142 <i>Coke<\/i> i <i>Pepsi<\/i> jako swoje ulubione napoje oraz <i>Ryb\u0119<\/i> i <i>Pizz\u0119<\/i> jako ulubione szybkie danie. W kompletnej tabeli wielodzielczej ankieta ta zaliczona b\u0119dzie do nast\u0119puj\u0105cych kom\u00f3rek tabeli:<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th colspan=\"2\"><\/th>\n<th colspan=\"3\"><span style=\"color: blue; font-size: small;\">Danie<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">. . .<\/span><\/th>\n<th rowspan=\"2\" align=\"bottom\"><span style=\"color: blue; font-size: small;\"><br \/>\nRAZEM<br \/>\nL. \u00a0RESP.<\/span><\/th>\n<\/tr>\n<tr>\n<th><span style=\"color: blue; font-size: small;\">P\u0142e\u0107<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Nap\u00f3j<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">HAMBURG.<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">RYBA<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">PIZZA<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">. . .<\/span><\/th>\n<\/tr>\n<tr>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">KOBIETA<\/span><\/p>\n<p>M\u0118\u017bCZYZNA<\/p>\n<p>&nbsp;<\/td>\n<td align=\"LEFT\"><span style=\"color: blue; font-size: small;\">COKE<br \/>\nPEPSI<br \/>\nSPRITE<br \/>\nCOKE<br \/>\nPEPSI<br \/>\nSPRITE<\/span><\/td>\n<td align=\"LEFT\"><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\"><span style=\"color: blue; font-size: small;\">X<br \/>\nX<\/span><\/span>&nbsp;<\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\"><span style=\"color: blue; font-size: small;\">X<br \/>\nX<\/span><\/span>&nbsp;<\/td>\n<td align=\"CENTER\"><\/td>\n<td align=\"CENTER\"><span style=\"color: blue; font-size: small;\"><span style=\"color: blue; font-size: small;\">2<br \/>\n2<\/span><\/span>&nbsp;<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th colspan=\"3\"><span style=\"color: blue; font-size: small;\">Danie<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">. . . <\/span><\/th>\n<th rowspan=\"2\" align=\"bottom\"><span style=\"color: blue; font-size: small;\"><br \/>\n<\/span><\/th>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Jak wida\u0107 omawiany respondent (kobieta) wniesie wk\u0142ad do tabeli (zostanie policzony) 4 razy. Ponadto zostanie policzony dwa razy w liczno\u015bci brzegowej <i>Kobieta&#8211;Coke<\/i> je\u015bli ustalimy, \u017ce ta kolumna powinna reprezentowa\u0107 ca\u0142kowit\u0105 liczb\u0119 odpowiedzi, je\u015bli natomiast u\u017cytkownik ustali, \u017ce liczno\u015bci brzegowe maj\u0105 by\u0107 liczone w odniesieniu do ca\u0142kowitej liczby respondent\u00f3w w\u00f3wczas ten respondent zostanie policzony jedynie raz.<\/p>\n<p><b>Tworzenie tabel wielodzielczych dla skojarzonych zmiennych wielokrotnych odpowiedzi. <\/b>Unikaln\u0105 opcj\u0105 przy tworzeniu tabel wielodzielczych dla zmiennych wielokrotnych odpowiedzi jest traktowanie zmiennych zawartych w dw\u00f3ch lub wi\u0119cej zmiennych wielokrotnych odpowiedzi jako odpowiadaj\u0105cych sobie par. Zilustrujmy to zn\u00f3w na przyk\u0142adzie. Za\u0142\u00f3\u017cmy, \u017ce przeprowadzono badanie ankietowe na temat przesz\u0142ej i obecnej w\u0142asno\u015bci mieszka\u0144. Poproszono ankietowanych o podanie informacji na temat ostatnich trzech zakupionych przez nich (w\u0142\u0105czaj\u0105c w to obecne) mieszka\u0144. Naturalnie, dla niekt\u00f3rych z nich obecne mieszkanie jest jedynym, jakie zakupili, za\u015b inni posiadali w przesz\u0142o\u015bci wi\u0119cej ni\u017c jedno. W ankiecie nale\u017cy odpowiedzie\u0107 na pytanie o liczb\u0119 pokoj\u00f3w i liczb\u0119 mieszka\u0144c\u00f3w w ka\u017cdym z mieszka\u0144. Poni\u017cej pokazujemy przyk\u0142ad, jak jedna z ankiet (np. ankieta nr <i>112<\/i>) zosta\u0142a zakodowana w pliku danych.<\/p>\n<table border=\"\">\n<tbody>\n<tr>\n<th><span style=\"color: blue; font-size: small;\">Przyp.\u00a0 nr<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">Pokoje<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">\u00a01\u00a0<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">\u00a02\u00a0<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">\u00a03\u00a0<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">L.\u00a0 mieszk.<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">\u00a01\u00a0<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">\u00a02\u00a0<\/span><\/th>\n<th><span style=\"color: blue; font-size: small;\">\u00a03\u00a0<\/span><\/th>\n<\/tr>\n<tr>\n<td><span style=\"color: blue; font-size: small;\">\u00a0112<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a03\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a03\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a04\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a02\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a03\u00a0<\/span><\/td>\n<td><span style=\"color: blue; font-size: small;\">\u00a05\u00a0<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><br clear=\"ALL\" \/>Pokazany respondent posiada\u0142 trzy mieszkania, pierwsze mieszkanie mia\u0142o 3 pokoje, drugie te\u017c 3, za\u015b trzecie 4. Rodzina, jak wida\u0107, si\u0119 powi\u0119ksza\u0142a. W pierwszym mieszkaniu by\u0142o 2 mieszka\u0144c\u00f3w, w drugim 3, a w trzecim ju\u017c 5.<\/p>\n<p>Za\u0142\u00f3\u017cmy teraz, \u017ce chcemy utworzy\u0107 tabel\u0119 wielodzielcz\u0105 dla liczby pokoi wzgl\u0119dem liczby mieszka\u0144c\u00f3w dla wszystkich respondent\u00f3w. Jednym ze sposob\u00f3w b\u0119dzie sporz\u0105dzenie trzech tabel dwudzielczych &#8211; ka\u017cdej dla jednego mieszkania. Mo\u017cna r\u00f3wnie\u017c potraktowa\u0107 zmienne analizowane w tej ankiecie (<i>Liczba pokoi, Liczba mieszka\u0144c\u00f3w<\/i>) jako zmienne wielokrotnych odpowiedzi. Jednak\u017ce zazwyczaj nie by\u0142oby zbyt sensowne zaliczanie pokazanego wy\u017cej respondenta <i>112<\/i> do kom\u00f3rki <i>3 pokoje &#8211; 5<\/i> mieszka\u0144c\u00f3w w tabeli wielodzielczej, gdyby traktowa\u0107 te dwie zmienne jako zwyk\u0142e zmienne wielokrotnych odpowiedzi. Innymi s\u0142owy, chcieliby\u015bmy nie bra\u0107 pod uwag\u0119 kombinacji mieszka\u0144c\u00f3w z trzeciego mieszkania z liczb\u0105 pokoj\u00f3w w pierwszym mieszkaniu. Raczej chcieliby\u015bmy bra\u0107 te zmienne parami &#8211; rozpatrywa\u0107 liczb\u0119 pokoj\u00f3w w pierwszym domu w po\u0142\u0105czeniu z liczb\u0105 mieszka\u0144c\u00f3w w pierwszym domu, liczb\u0119 pokoj\u00f3w w drugim domu w po\u0142\u0105czeniu z liczb\u0105 mieszka\u0144c\u00f3w w drugim domu itd. Dok\u0142adnie taki cel osi\u0105gniemy, je\u015bli za\u017c\u0105damy skojarzonej tabeli wielodzielczej dla tych zmiennych wielokrotnych odpowiedzi.<\/p>\n<p><b>Komentarz ko\u0144cowy. <\/b>W trakcie przeprowadzania z\u0142o\u017conych analiz za pomoc\u0105 procedury tworzenia tabel wielodzielczych dla wielokrotnych odpowiedzi\/dychotomii, cz\u0119sto trudno jest (tak przynajmniej wskazuj\u0105 nasze do\u015bwiadczenia) prze\u015bledzi\u0107 dok\u0142adnie, jak poszczeg\u00f3lne przypadki z pliku danych s\u0105 zaklasyfikowane w tabeli wielodzielczej. Najlepszym sposobem weryfikacji poprawno\u015bci naszego zrozumienia, jak powstaj\u0105 kolejne tabele, jest tabelaryzowanie jakiego\u015b prostego przyk\u0142adowego zbioru danych i \u015bledzenie, jak ka\u017cdy przypadek jest uwzgl\u0119dniany w tabeli. Przyk\u0142ad Tabele <i>wielodzielcze<\/i> wykorzystuje t\u0119 metod\u0119 dla zilustrowania sposobu, w jaki dane s\u0105 zliczane w tabeli zawieraj\u0105cej zmienne wielokrotnych odpowiedzi i wielokrotne dychotomie.<\/p>\n<p>&nbsp;<\/p>\n<hr size=\"1\" \/>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p><center><span style=\"font-size: xx-small;\">&amp;copy Copyright StatSoft, Inc., 1984-2011<br \/>\n<i>STATISTICA<\/i> is a trademark of StatSoft, Inc.<\/span><\/center>&nbsp;<\/p>\n<hr size=\"1\" \/>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p class=\"excerpt\">&nbsp; Statystyki podstawowe Statystyki opisowe Prawdziwa \u015brednia i przedzia\u0142 ufno\u015bci Kszta\u0142t rozk\u0142adu; normalno\u015b\u0107 Korelacje Wprowadzenie (co to s\u0105 korelacje?) Korelacja liniowa prosta (r Pearsona) Jak interpretowa\u0107 warto\u015b\u0107 korelacji Istotno\u015b\u0107 korelacji Obserwacje odstaj\u0105ce Podej\u015bcie ilo\u015bciowe do obserwacji odstaj\u0105cych Korelacje w grupach niejednorodnych Nieliniowe powi\u0105zania pomi\u0119dzy zmiennymi Pomiar relacji nieliniowych Eksploracyjna analiza macierzy korelacji Usuwanie brakuj\u0105cych danych&hellip;<\/p>\n<p class=\"more-link-p\"><a class=\"more-link\" href=\"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/2016\/06\/16\/statystyki-podstawowe\/\">Read more &rarr;<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[75],"class_list":["post-1487","post","type-post","status-publish","format-standard","hentry","category-bez-kategorii","tag-statystyka"],"_links":{"self":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts\/1487","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/comments?post=1487"}],"version-history":[{"count":0,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/posts\/1487\/revisions"}],"wp:attachment":[{"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/media?parent=1487"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/categories?post=1487"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/u239160.webh.me\/jakisproblem.pl\/index.php\/wp-json\/wp\/v2\/tags?post=1487"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}