Википедија:Масовни унос/насељена места у СрбијиОво је координациона страна везана за масовни унос српских села. Са уносом српских села се почело 20. августа 2007. године! --филип ⁂ 11:51, 20. август 2007. (CEST) Мишљења и идејеПодациПодаци су углавном у ПДФ-овима у виду "ћириличних табела". Из њих би требало издвојити податке у неки униформни формат и конвертовати такав аутпут у неки више машин-ридабл. Постоји и гомила .xls табела, али оне су само за општине. Из њих може да се извуче гомила података, али треба уврстити само најбитније. Оно што није за табеле, може се сместити у текст. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET) Подаци у тренутно доступним .xls табелама се односе на општине (и ту ће бити корисни) па се за села не могу употребити. -- JustUser JustTalk 19:30, 20. март 2007. (CET) Могли би смо из оног милошевог алгоритма (Корисник:Милош/Краљево) да додамо и поднаслове Оближњи потоци у Србији и Црној Гори и Оближњи манастири у Србији и Црној Гори. При томе бих назив потоци променио у водени токови, пошто се у чланцима углавном наводе реке. И наравно променио бих ону вишезначност, пошто код милоша много лоше изгледа. Значи ако у називу саме одреднице постоји река или поток, не мора у загради да додаје поток, а ако не постоји ништа, онда само дода испред Река тако да би смо добили Река Ибар. Исто важи и за манастире. А уколико аутоматски могу да се унесу и оне слике, могли би и њих да ставимо негде у чланак --Јован Вуковић (р) 12:27, 26. март 2007. (CEST) Ајде ово са оближњи манастири и капирам, јер је манстир тачкаста локација, али потоци, водоткови, реке ....? Како ћеш разликовати шта је река, шта поток а шта канал. Па да ли пролази кроз село, поред села или иза брда? Мислим да је садржај информације водоток Џ иде 2 км од села Љ танак, јер ако иде 2 км од центра села, можда пролази кроз обод села, или граничи са другим селом или је иза Јелице планине и ко зна ком атару. -- JustUser JustTalk 14:25, 26. март 2007. (CEST) Синоћ сам завршио прикупљање демографских података, тако да сада полако прелазим на географске. --филип ⁂ 10:50, 11. мај 2007. (CEST) СукобиВећ постојећиДоста чланака је већ направљено. Шта да радимо када бот стигне до чланка који већ постоји? Да ли да покуша да споји (како?) или да негде привремено смести чланак (скоро апдејтовани креш, Википедијин именски простор?), који би се касније могао ручно придружити већ постојећем. Или можда да "прегази" већ постојеће, ако су сувише кратки (јер у њима нема корисних информација које се не налазе и у новом чланку)? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
Након размишљања, сматрам да је најбоље да се негде у Википедијином именском простору стављају сви конфликти. Тако би постојала страна нпр. Википедија:Српска места и ту би био списак свих подстрана те странице (јер би свако место имало своју подстрану). Онда би се ручно спајали чланци (ако већ постојећи чланак има неких информација) или би неки администратор просто премештао преко већ постојећих (за случај да чланак о том селу садржи само основне податке који су ионако садржани у аутоматски унешеном чланку). --филип ⁂ 10:50, 11. мај 2007. (CEST)
ВишезначнеЗнамо да има гомила села која су (да ли међусобно или не) хомоними и то треба решавати преко вишезначних одредница. Имам осећај да алгоритам везан за такву проблематику не може да буде једноставан, па треба добро поразмислити у овом правцу. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
А јел би се вишезначне одреднице правиле аутоматски или ручно?--Vojvoda 23:34, 9. јул 2007. (CEST)
ПроблемиНаишао сам на један повећи проблем. Код прикупљања географских података за свако насељено место (координате), може бити свашта! Генерисао сам списак свих насеља у ужој Србији и Војводини и јављају се овакве ставке (ћирилизација је моја; оригинално, све је латиницом, па зато и ови мађарски називи изгледају природније): Сзербарадáцз -73931 Тóт-Арадáцз -73931 Тóтарадáцз -73931 Арангјеловац -73933 Аранђеловац -73933 Араповац -73938 Араповиће -73939 Араповићи -73939 Арбанасце -73944 Арбанасци -73944 Арбанашка -73948 Бројеви десно су јединствени бројеви географске локације. На који начин бот може да зна да ли је правилно Арангјеловац или Аранђеловац? Највећи проблем је управо насеље -73931 (Арадац) које има 17 хомонима, затим Башаид (-74547), који постоји у 14 варијанти итд. Свеукупно, постоји 1965 локација које имају 2 или више назива. Е сад, ствари компликује вишезначност (нпр. пет Лесковаца, петнаест Нових Села итд). У том случају, које координате, односно који јединствени број да споји са којим селом? Ови подаци које имам су преузети од NGA. Да ли постоји неки поузданији извор за ово? --Φ ί λ ι π π ο ς | ⌘ 22:30, 3. април 2007. (CEST)
ГрафикПравећи бота за унос, дошао сам до проблема што се тиче тајмлајна, односно графика. Бројне вредности у графику нису праве вредности броја становника по годинама, већ неки око шест пута умањени бројеви. Е сад, није ни шест права бројка јер за доста мале вредности, линија иде испод површине графика. Интересује ме који је тачно алгоритам израчунавања бројних вредности из датих вредности по годинама. --филип ⁂ 22:50, 14. мај 2007. (CEST)
АнализаИзвршио сам малу анализу над подацима које имам, а они обухватају
Као што сам раније нагласио, постоје извесни дупликати у самим статистикама РЗС, у смислу да називи насеља нису уникатни (нпр. постоји 13 Слатина и 11 Каменица). По анализи, постоји укупно 1085 насељених места која по подацима РЗС имају конфликтна имена, па компјутерска скрипта не може на сигуран начин да "споји" такво насељено место са географским подацима из НГА. Тих 1085 насељених места деле 413 различитих (дупликатних) имена. То значи да ће неко морати ручно да прође кроз сва та насеља и направи правилну асоцијацију (није искључено да се направи скриптица која ће процењивати на основу координата ком округу припада одређено насеље). Поред ове бројке, постоји тачно 628 насељених места која по подацима РЗС нису дупликати, али по подацима НГА јесу. Ту спада 260 назива (тј. 260 насељених места по подацима РЗС). Ово је већ тежи посао, јер на једну одредницу за коју знамо демографске податке "долази" више одредница са географским подацима - логично, треба одредити које од тих насеља по подацима НГА одговара датом насељеном месту по подацима РЗС (наравно, и овде може помоћи већ поменута скрипта). 2666 насеља су потпуни погоци, односно нехомонимни су по подацима и РЗС и НГА (успостављен је унеквивоко). То значи да, с обзиром да укупно има 4715 насељених места, преосталих 704 места (која нису дупликати по подацима РЗС) има у Статистичком годишњаку, али не и у подацима НГА. И овакви случајеви ће морати ручно да се решавају, у смислу да треба ипак пронаћи одговарајући податак међу подацима НГА (код доброг дела је то могуће, јер моја анализаторска скрипта није повезала два места због конвенција у називима; у РЗС се користе имена попут "Ораовица (код Грделице)", "Ораовица (код Црковнице)", "Грделица (варош)", "Грделица (село)" и сл. док у НГА не). На крају, 1085+260+2666+704=4715, па ми је рачуница тачна. Е сад, ако узмемо да 2666 заиста јесте реалан број насељених места којима није потребна интервенција, преостаје нам бројка од 2409 места где јесте потребна интервенција човека, што чини укупно 43,48% свих насељених места у Србији са Војводином, без Косова, по подацима РЗС. Какви су коментари на овакве чињенице? Ако се добро сећам, Никола је превидео 20-ак процената... очигледно ће бити више проблема него што смо свесни. --филип ⁂ 00:47, 29. април 2007. (CEST)
Ето, прво радим само не-дупликате који већ не постоје, тј. да чланак није заузет (не знам тачан број тих чланака, али видећемо на крају). --филип ⁂ 11:51, 20. август 2007. (CEST) БрзинаКојом брзином уносити чланке? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
Један у минуту је отприлике усаглашена брзина. --филип ⁂ 11:51, 20. август 2007. (CEST) Ресурси
Концепт чланкаОвде треба да стоји кôд чланка, односно садржај чланка са референцама на ресурсе (тј, да се зна одакле се који податак узима и на који начин генерише). --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
Пролазно времеНоћас су завршена спајања података из ботовски генерисаних и писаних чланака. Требаће још неко време да се преконтролишу сва села у смислу класификације хомонима, али главни посао је завршен. Можда је сад право време да бот уради пар измена. Прво, коначно да решимо ону грешку субст("је у великим делом","је великим делом"). Успут бих предложио да у Шаблон:Попис изврши замена |п1948=.<ref>.</ref> са |извор=<ref>.</ref>|п1948=. и то у свим селима. Такође, имам предлог и за Шаблон:Графикон пирамида да се уради за српска села ботовски оно што је урађено за црногорска. -- JustUser JustTalk 12:00, 6. новембар 2007. (CET)
-- JustUser JustTalk 12:08, 6. новембар 2007. (CET) Само да јавим да сам видео ово и да имам на уму, те да ћу, кад ми време дозволи, одрадити то. --филип ※ 21:09, 6. новембар 2007. (CET) ПримериПримери су: Такође, постоје и неки стари примери који се сада сматрају анахронизмима: Корисник:Милош/Крушевац код Подгорице и Корисник:Милош/Краљево. Остало
|
Portal di Ensiklopedia Dunia