Описна статистика - Сурови и групирани податоциГ. Сурови и групирани податоциЕден од главните одлуки при организирање на податоци е: Дали и како да се групираат податоците? Групирање е деликатна работа и е непосредно поврзано со целта на собирањето на податоците како и со нивниот тип (види ја наредната глава). Целта на групирање на податоци е за полесно да се гледат одликите (т.е. мерките) на податоците. Како општ принцип: Ако има повеќе од 10 податоци, истите веројатно треба да се групираат на некој начин. Сурови податоци Дефиниција: Податоци кои не се групирани се викаат сурови податоци. Секој суров податок е исход на еден член од популацијата.
Групирани податоциДефиниција: Податоци организирани во честотна табела се викаат групирани податоци. Сурови бројни податоци можат, но не морат да се групираат. Сите други типови на податоци се групираат!
Негрупирани податоциСурови податоци кои не планираме да ги групираме ќе ги викаме негрупирани подадоци. (Негрупирани податоци секогаш се броеви!)
Графичко претставување на негурпирани и групирани податоциНа сосема различен начин се претставуваат негрупирани и групирани податоци!
Пример Г-1: Резултатите од еден испит на 8 студенти се дадени во следнава табела. Истите да се претставуваат со соодветен дијаграм.
Табела 11: Сурови податоци за резулати Решение: Бидејќи се само 8 бројни податоци, доста се прегледни без групирање. За негрупирани бројни податоци типично се прават линиски или точкест дијаграм, во зависност дали има редослед или нема. Тука нема редослед па направивме точкест дијаграм. Забележете дека по х-оската е бројот на студентот, а по у-оската е оценката (види Слика 7). Како и во пример В-2, можеме да ги подредиме податоците. Слика 7: Точкест дијаграм на негрупирани податоци заедно со просек Од друга страна: Пример Г-2: Резултатите од испит од 100 студенти се зададени во следнава табела. Да се групираат податоците на различни начини.
Табела 12: Сурови податоци за резултати Во Табели 13 се прикажани три начини на групирање. Во трите, категориите се последователни интервали. Со буквата f се означува честотата на интервалот, односно колку од податоците припаѓаат во интервалот1. Забележи дека во првото и второто групирање, интервалите се исти. Меѓутоа, Excel прави „десно“ групирање, т.е. десната граница влегува во интервалот, а Геогебра прави „лево“ групирање, т.е. левата граница влегува во интервалот. Ова се вика „договор за границите“ (endpoint convention) и е многу важно унапред да се кажи кој договор за групирање ќе се користи! Потаму, да забележиме дека во т.н. стебло-и-лист дијаграм се користи „лево“ групирање. Во третото групирањето, интервалите не се со истата должина, односно интервалите се формирани според (нашите лично одредување на) бодовите потребни за соодветни оценки. За формирање на интервали за групирање детално ќе дискутираме во поглавјето за хистограми.
Табели 13: Три различни групирања на податоците Целта на прикажување на трите различни групирања е да се види дека групирањето зависи и од тоа што сакаме да покажеме и од користената компјутерска апликација. Забележете дека почетната вредност е 0 во трите дадени групирање. Тоа е нашиот избор. Честопати во литературата се земе минимумот = најмалиот податок како почетната граница (види го наредниот пример Г-3). Во пример Г-2 тоа нема многу смисла бидејќи (а) можно е да се освојат 0 бодови, а тука „се погоди“ намалиот резултат да биде 4 и (б) користењето на опсег-интервал од 4 до 100 е проблематично за „убавото“ поделување на интервалите. Затоа велеме дека групирање е деликатна работа. Графичко претставување на бројни податоци групирани во последователни интервали (како што се дадени тука) се прави со т.н. хистограми (види ја и сооветна глава подолу за повеќе детали). Средната табела ќе ја претставиме со два типови на хистограми, односно апсолутна и релативна.
Двата хистограми ги прикажуваат истите податоци (од Табела 13б), но на различен начин со различна цел. Пример Г-3: Собрани се следните 40 податоци (види Табела 14). Да се групираат податоците во интервали со должина d=5.
Табела 14: Табела со сурови бројни податоци Решение: Ова е типична задача од почетна статистика секаде во светот. Податоците се штимени2 за стандардно групирање, а или ќе добиете должината d или бројот n на интервалите. (Тука ја добивме должината која е полесната верзија.) Упаство за одредување на интервали со должина d користејќи најмал/најголем податок:
Одредување на интервалите во примерот: d=5. Најмалата вредност е mn=20; најголемата е mx=44. Правиме последователни интервали со должина d сè додека не го покриваме послениот податок. Интервалите се: [20,25),[25,30),[30,35),[35,40),[40,45] Честотна табела е зададена во Табела 15, a табелата со релативните честоти во Табела 16. (Табела 16 е проширување на Табела1 15.)
Соодветниот хистограм за Табела 15 е прикажан на Слика 10 . Релативните честоти f/N од Табела 16 се дадени во секторски дијаграм во Слика 11. (Во пример Д-1, уште подетално се објаснува начинот на пресметување на релативните честоти.) 1 За жал се користи буквата f за честота и за математичка функција. (Честота може да се вика и апсолутна честота за да се разликува од релативна честота.) 2 Велиме дека задачата е „штимена“ бидејќи опсегот на податоците е делив (или скоро делив) или со d или со n така да интервалите лесно се определуваат. Фактот дека максимум=44 е помала, но сепак блиску до крајната граница=45 е од штимањето на податоците за да одговара за испитна зададча, т.е. да има само еден начин за решавање. Ова е обичајно. Најважно е интервалите да ги „покриват“ податоците. ЛитератураДруги референции |
Portal di Ensiklopedia Dunia