Jak vizualizovat mnohorozměrná kategoriální data z dotazníkových šetření
-
22. dubna 2021
16:00 – 18:00
Autoři
Jana Fürstová, Institut sociálního zdraví (OUSHI), Univerzita Palackého v Olomouci
Tomáš Fürst, Katedra matematické analýzy a aplikací matematiky, Univerzita Palackého v Olomouci
Petr Baďura, Katedra rekreologie, Fakulta tělesné kultury, Univerzita Palackého v Olomouci
Palčivá otázka
Jak rozeznat anomálie v datech?
Abstrakt
Dnešní svět je plný dotazníkových dat, což jsou typicky mnohorozměrná kategoriální data. Prvním krokem v každé datové analýze by měla být rozumná vizualizace dat. To analytikovi jednak pomůže udělat si názor na strukturu dat, ale také odhalit případné anomálie. Anomálií bývá v dotazníkových datech mnoho, a pokud se s nimi analytik nevypořádá, mohou jeho závěry být zkreslené. Pro vizualizaci malých datových sad lze použít takzvaný niťový diagram (spaghetti plot, parallel coordinates plot), který poskytuje dobrý vhled do struktury datových sloupců a jejich vztahů. Jakmile ale datových bodů a/nebo dimenzí přibývá, stává se niťový diagram zcela nepřehledným a nepoužitelným. V tomto příspěvku navrhneme, jak vizualizovat data, která jsou příliš rozsáhlá pro využití niťových diagramů. Vizualizaci předvedeme na souboru 3610 žáků pátých, sedmých a devátých ročníků ZŠ, případně studentů odpovídajících ročníků nižších gymnázií, kteří se v červnu 2020 zúčastnili mimořádné „covidové“ studie v rámci Health Behaviour in School-aged Children (HBSC). Do studie se zapojilo 146 škol ze všech krajů České republiky, včetně hlavního města Prahy. Datová sada obsahuje celkem 177 analyzovatelných položek (sloupců). Vzhledem k nezvyklé situaci ve školství během června 2020 byla část dotazníků (6.3 %) vyplněna fyzicky ve škole v papírové verzi, zbytek sběru proběhl online. Námi navrhnutá vizualizace pomůže odhalit anomálie v datové sadě, které je třeba před analýzou odstranit. Tento postup lze využít ve všech oborech analyzujících data, včetně psychometrie.
Poděkování: HBSC je mezinárodní studie probíhající ve spolupráci s WHO/Europe. Děkujeme Michalu Kalmanovi za zpřístupnění české verze studie HBSC. Vznik tohoto příspěvku byl podpořen Grantovou agenturou České republiky v rámci projektu „Trávení volného času v adoslescenci: Longitudinální studie“ (GA20-25019S).
Sdílení události