Описна статистика - Типови податоциД. Типови на податоци и нивно групирањеИма четири трипови на податоци1.
Номинални податоциТука обележијето е чисто квалитативно. Можните исходи се зборови-имиња и истите се самите категории, односно класи при групирање. Со вакви податоци не можеме да правиме никакви математички операции. Важно: Номинални податоци секогаш се групираат.
Пример Д-1: Анкетирани се 80 луѓе за нивниот омилен десерт (види Табела 17).
Табела 17: Резултати од анкета Решение: Обележјето е „омилен десерт“ и можните исходи тука се {С, П, Т, О, Д}, односно {Сладолед, Палачинки, Торта, Овошје, Друго}. Јасно е дека се имиња. Тие се и самите класи при групирање. Значи, податоците се номинални и треба да се групираат по класи = имиња на десерт. Ја најдеме честотата на секој тип на десерт (проверувајќи дека честотите се собираат до N=80). Во Табела 18 е соодветната честотна табела. Класите тука се имиња и не може математички да се работат ништо со нив. Меѓутоа, честотите се броеви и може да се пресмета процентот кој припаѓа во секоја класа, односно да се преметат т.н. релативни честоти. Релативна честота = процент = f/NЈа делиме честотата со вкупниот број на честотите, т.е. со големината на податоци N. Потоа, овој резултат го помножиме со 100% за да добиме процент. Во пример Д-1, вкупниот број на честотите е N=80. Ја делиме секоја честота со N=80 за да ја добиеме релативна честотна табела (види Табела 19 ).
Табела 19: Релативна честотна табела Релативна честотна табела може графички да се претстави со столбест или со секторски дијаграм како во Слика 16 и Слика 17. Забележете ги разликите помеѓу двата столбест дијаграми Слика 13 и Слика 16. Секторски дијаграм секогаш е релативна!
Ординални податоциКако кај номинални податоци, обележијето на ординални податоци е чисто квалитативно, но се броеви-имиња. На пример „број на чевел“ или „година производство“ се ординални податоци. Нема смисла да се прави математика со нив. Меѓутоа, кај вакви податоци природно е класите да се подредат последователни по нивната вредност. Со ова ординални податоци се разликуваат од „чисти“ номинални податоци, каде што редоследот на класите е нашиот избор. Меѓутоа, тоа е единствената разлика. На истиот начин се обработуваат, т.е. со групирање со честоти или релативни честоти и со исти дијаграми графички се претставуваат (столбест и секторски). Важно: Ординални податоци секогаш се групираат.
Пример Д-2: На ден 20.02.2002 во една фабрика за чевли, производството на парови на машки чевли е опишано во Табела 20. Да се направи соодветна релативна честотна табела и соодветни столбест дијаграми за дадената и направената табела.
Табела 20: Групирани ординални податоци Решение: Обележјето е „број на чевел“, податоци се броеви и можните исходи, односно класите се {40,41,42,43,44,45,46,47}. Податоците се од тип ординални, т.е. има смисла да ги редиме класите по број на чевел, но нема смисла да се собираат два броеви на чевли или да се бара нивна аритметичка средина. Графичко претставување е со столбест дијаграм. Можевме и секторски, но многу сектори ќе бидат и нема да биде многу прегледно. Затоа, даваме стандарден столбест дијаграм (Слика 16 ) со апсолутните честоти (број парови) и релативен столбест дијаграм (Слика 17) со релативни честоти (проценти).
Коментар од статистиката: Забележете дека во релативнен столбест дијаграм не се знае колку е големината на податоците N, т.е. во овој пример не се знае колку парови биле производени.
Бројни-класи податоциКако пример за бројни-класи податоци се ученички оценки (види подолу пример Д-3). Тука податоците имаат две важни особини:
Со тоа самите броеви се сметаат за класи при групирање.
Пример Д-3: Оценките по историја на 35 ученици во еден клас се дадени во Табела 21. За истите да се направи соодветен дијаграм.
Табела 21: Сурови податоци од тип бројни-класи Решение: Обележијето е оценка, а можните исходи се: { 1, 2, 3, 4, 5}.
Јасно е дека честотите се барат броејќи „Колку 5-ки?“, „Колку 4-ки?“,... . Значи броевите се самите класи (види Табела 22 и Табела 23 ).
Табела 22: Групирани податоци по бројна-класа
Табела 23: Соодветна честотна табела Од друга страна, класите се броеви и има смисла да се прават одредени математички операции со нив, т.е. на пример можеме да бараме „просечната оценка“. Вакви податоци можат да се претстават со столбест дијаграм (види Слика 18) или со секторски дијаграм (види Слика 19). Важно: Со групирање на номинални, ординални или бројни-класи податоци, никакви информации не се губат. Ова не важи при бројни податоци!
Дијаграми со столбови – Столбест дијаграм или Хистограм?
Бројни податоциТука можните исходи се разно-разни броеви. Ова значи дека има повеќе од 10 податоци со повеќе од 10 различни вредности. Можат да се повторуваат податоците, но повеќето се различни. Такви обично ги прогласиме за бројни2, а не бројни-класи, бидејќи вакви податоци најчесто се групираат во интервали. Упатство за групирање на бројни податоци во еднакводолжни интервали
Забелешки:
Пример Д-4: Генерирани се 100 броеви помеѓу 0 и 1 на случаен начин во Геогебра со random() и заокружени се на три децимали (види Табела 24). Истите да се поделат на 5 и на 10 интервали и да се дадаат соодветните хистограми.
Табела 24 : Сурови бројни податоци Решение: Што забележиме во овој пример?
Гледајќи ја точка 2 погоре, би требало да ни е јасно дека најдобро е да го гледаме главниот интервал како [0,1], а не [0.111, 0.993] и тоа за неколку причини:
Значи, главниот интервал го земеме [0,1]. Во Табела 25 дадени се две групирања една со n=5 интервали и една со n=10 интервали користејќи го „левиот договор за границите“ (left endpoint convention).
Табела 25 : Групирање на бројни податоци во 5 интервали (лево) и во 10 интервали (десно) Графичко претставување на групираните податоци со соодветните релативни хистограми е дадени во Слика 22 и Слика 23 . Посебно не ги направивме релативни честотни табели бидејќи се работи за 100 податоци (значи честотите се и сами „релативни“3).
Од статистична гледна точка, повеќе информации се изгубени при групирање на 5 од со групирање на 10 интервали. Забелешки во однос на груприање:
1 Во напредна статистика[мртва врска] типовите со поделуваат: номинални, ординални, интервални и односни. Меѓутоа, таква поделба не ни помага многу во описна статистика. 2 Велиме „прогласиме“ бидејќи сепак зависи од ситуатцијата. При огромен број на податоци како на пример резултатите од TOFEL испит за познавање на англиски јазик на нивото на светот, каде што сепак сите резулати се од броевите 1,2,...,100, истите можат да се сметаат за бројни-класи. 3 Ова значи дека податоците би требало да бидат распределени релативно униформно (равномерно) низ интервалот [0,1]. Меѓутоа, тука се само 100 броеви така да нема да биде „многу“ рамномерно. Треба многу, многу, многу податоци за рамномерно. (Соодветната команда во Еxcel е Rand().)
ЛитератураДруги референции |
Portal di Ensiklopedia Dunia