Откривање на плагијатиОткривање на плагијати е процес на наоѓање на случаи на плагијат во рамките на некој труд или документ. Широката употреба на компјутери и доаѓањето на интернетот многу ја олеснуваат можноста на плагијаризам на работата на другите. Повеќето случаи на плагијат се наоѓаат во академиите, каде што документите се обично есеи или извештаи. Сепак, плагијати може да се најдат во речиси секое поле, вклучувајќи ги и научните трудови, уметничките дизајни и изворниот код. Откривање на плагијат може да биде рачно или со помош на компјутер. Рачното откривање бара значителни напори и одлична меморија и е непрактично во случаи кога мора да се споредат премногу документи или оригиналните документи не се достапни за споредба. Со помош на компјутерското откривање се овозможува огромни збирки на документи да се споредат со едни со други, за што поуспешно и многу поверојатно откривање на плагијати. Откривање на плагијати со помош на компјутерДетекција на плагијат со помош на компјутер е пребарување на информации и е поддржана од страна на специјализирани системи кои се нарекуваат системи за откривање на плагијати. Откривање на плагијати на текст-документиСистеми за откривање на текст-плагијати имплементираат еден од двата генерички пристапи за откривање, од кои едниот е надворешен, a другиот е суштински.[1] Надворешните системи споредуваат еден сомнителен документ со референтна колекција која е збир на документи за кои се претпоставува дека се оригинални.[2] Врз основа на избран документен модел и претходно дефинирани критериуми за сличност, задачата на откривање плагијат е да се добијат сите документи кои содржат текст кој е сличен до одреден степен со текстот во сомнителниот документ.[3] Суштинскиот пристап го анализира текстот што треба да се оценува без вршење на споредби со надворешни документи. Овој пристап има за цел да ги препознае промените во уникатниот стил на пишување на авторот како индикатор за потенцијален плагијат.[4] Програмите за откривање плагијати не се способни за сигурно идентификување на плагијати без човечко расудување. Сличностите се откриваат со помош на претходни модели на документи и може да бидат лажно позитивни.[5] [6] [7] [8] .[9] За визуелно да се провери дали авторот на научен труд се обидува да го измами системот, вреди да се обрне внимание на употребата на различни типови и големини на фонтови, лажни врски, застарени факти, парафразирани фрагменти.[10] Детектирачки методиСликата подолу претставува класификација на предложените методи за откривање на плагијат со помош на компјутер од техничка гледна точка. Техниките се одликуваат според типот на сличност на оценување на кои се однесуваат. Глобалните проценки за сличност користат одлики земени од поголеми делови од текстот или документот како целина за одредување на сличност, додека локалните методи се ограничени на текст сегменти како влез. ![]() Земање на отпечатоци моментално најмногу се применува кога ставува збор за пристап со помош на компјутер за детекција на плагијат. Постапката води до добивање на документи со избирање на множество на повеќе подзборови (n-грам) од нив. Множествата претставуваат отпечатоци од прсти и нивните елементи се нарекуваат детали.[11] .[12] Сомнителниот документ се проверува дали е плагијат преку компјутерска обработка на отпечатоците и со помош на претходно пресметан индекс на отпечатоци за сите документи во референтната колекција. Деталите со оние на другите документи покажуваат заеднички текст сегменти и предложуваат можни плагијати.[12] Општо земено, само подмножество на детали се споредува со цел да се забрза процесот и да се овозможи проверка кога станува збор за голема колекција на документи, како што е на пример интернетот.[11] Проверка на документи за преклопување на текст претставува проблем на класично поврзување на зборови познат и во другите области на информатиката. Предложени се бројни пристапи за успешно справување со оваа задача, од кои некои се прилагодени за надворешни детектори за плагијаризам. Проверка на сомнителен документ со оваа опција бара пресметка и чување на ефикасно споредливи репрезентации за сите документи во референтната колекција, со која се споредуваат парови на стрингови. Општо земено, моделите за наставниот документ, како на пример наставни дрва или наставни вектори, се присопосбени за оваа задача во контекст на компјутерско отркивање на плагијаризам. Сепак, поврзувањето на подстрингови останува скап метод, што го прави не-прифатливо решение за проверка на колекции со голем број на документи.[13] [14] [15] Анализа на куп на зборови претставува усвојување на пребарување на векторски простор, што е традиционален концепт на отркивање на плагијаризам, во доменот на компјутерско отркивање. Документите се претставени како еден или повеќе вектори, на пример, за различни делови на документот, кои се користат за интелгиентни пресметки за сличност на парови. Овие може да биде врз основа на традиционалната мерка за косинус сличност или други софистицирани функции за сличност.[16] [17] [18] Откривање на плагијати засновано на цитати со помош на компјутерски пристап е метод дизајниран за употреба кај академските документи, бидејќи не се потпира на самиот текст, туку на цитатите и референтните информации. Ги идентификува сличните модели во цитат секвенците на две академски работи. Ваквите модели претставуваат поднизи кои исклучиво содржат цитати од двата документи кои се споредуваат.[19] [20] .[21] Стилометрија опфаќа статистички методи за квантифицирање на авторски уникатен стил на пишување и се користи главно за авторство.[22] [23] Со создавање и споредување со стилометриски модели за различни сегменти од текстот, може да се откријат пасуси кои се стилски различни од другите, па оттука и потенцијално да се детектира плагијат. Системи за откривање на плагијати кај текст-документиГенералниот дизајн на системи за откривање на академски плагијат насочен за текст документи вклучува голем број на фактори:
Повеќето големи системи за откривање на плагијати користат големи, внатрешни бази на податоци (во прилог на други ресурси) кои се прошируваат со секој дополнителен документ поднесен за анализа. Сепак, ова се смета од страна на некои како евентуална повреда на авторските права на студентите. Следниве системи се веб-засновани, со исклучок на ситемот CopyTracker, со затворен код. Следнава листа е неисцрпна:
Откривање на перформансиКомпаративна евалуација на системи за откривање на плагијати укажува на тоа дека нивните перформанси зависат од видот на плагијатите [2][24][25][26][27][28] што треба да се откријат (види слика). Освен анализа на цитати, сите откривачки пристапи се потпираат на текстуална сличност. Затоа е симптоматично дека откривање на точноста се намалува кога се опфатени повеќе случаи на плагијати. ![]() Буквалните копии, таканаречени copy & paste плагијат, или скромно маскирани случаи на плагијат може да се откријат со висока точност со помош на сегашните надворешни пристапи ако изворот е достапен на софтверот. Особено процедурите за поврзување на зборови може да постигнат добри перформанси, бидејќи тие најчесто користат модели на документи без загуба, како на пример наставни дрва. Анализата на системи кои користат отпечатоци или куп од зборови во откривањето на копии зависи од загуба на информации направени од страна на документниот модел кој го користи. Со примена на селекциски стратегии тие се подобро оспособени за откривање на умерена форми на маскирани плагијати во споредба со процедури за појавување на поднизи. Внатрешнo откривање на плагијат со користење на стилометрија може да ги надмине границите на текстуални сличности до одреден степен во споредба на јазичната сличност. Со оглед на тоа дека стилските разлики помеѓу плагијатите и оригиналните сегменти се значајни и може да се идентификуваат со сигурност, стилометријата може да помогне во идентификување на маскирани и парафразирани плагијати. Стилометричките споредби веројатно ќе пропаднат во случаите каде што сегментите се силно парафразирани до таа точка кога повеќе наликуваат на личен стил на пишување. Резултатите од меѓународните натпревари за откривање на плагијати одржани во 2009, 2010 и 2011 година,[2][27][28] as well as experiments performed by Stein,[29] укажуваат на тоа дека стиломтеричката анализа работи со сигурност добро само за документи со должина од неколку илјади или десетици илјади зборови. Зголемување на бројот на истражувања се врши на методи и системи способни за откривање на преведени плагијати. Во моментов, детекција на јазичен плагијат не се гледа како зрела технологија и соодветните системи не се во можност да постигнат задоволувачки резултати за откривање во пракса. Откривањето на плагијат засновано на цитати е способно за идентификување на посилни парафрази и преводи со повисоки стапки на успех во споредба со другите откривачки пристапи, благодарение на фактот дека е независен од текстуалните одлики. Но, анализата зависи од достапноста на цитат информации се ограничува на академски текстови. Останува инфериорен во однос на текст-заснованите пристапи во откривање на плагијат кај пократки пасуси, кои се типични во случаи на копија. Откривање на плагијати на изворен кодПлагијатите кај компјутерските кодови се исто така честа појава и потребни се различни алатки од оние кои се користат во текстуални документи. Притоа, значајни истражувања се посветуваат на академски плагијати на изворен код. Посебен аспект на плагијати на изворен код е дека не постои збирно место на есеи, како што може да се најде кај традиционалните плагијати. Бидејќи во повеќето програмски задачи се очекува студентите да пишуваат програми со многу специфични барања, многу е тешко да се најдат постоечки програми кои ги исполнат барањата. Бидејќи интегрирање на надворешен код е често потешко од пишување од нула, студентите избираат повеќето плагијати да ги направат од своите врсници. Според Рој и Корди, алгоритмите за откривање на сличност на изворен код можат да се класифицираат врз основа на
Претходната класификација е развиена за рефакторирање код, а не за детекција на академски плагијат (важна цел на рефакторирањето е да се избегне удвоен код, познат во литературата како клониран код). Горенаведените пристапи се ефикасни за различни нивоа на сличност; ниско ниво сличност се однесува на идентичен текст, додека високо ниво на сличност може да се однесува на слични спецификации. Во академска средина, кога сите ученици се очекува да ги искодираат истите спецификации, се очекува функционално еквивалентен код (со високо ниво на сличност), а само ниско ниво сличност се смета како доказ на мамење. Системи за откривање на плагијати на изворен кодПрограмите MOSS и JPlag може да се користaт бесплатно, но и двете бараат регистрација и софтверот останува комерцијален. Персоналните системи се нормални десктоп апликации, како и повеќето од нив се и бесплатни и објавени како софтвер со отворен код. Наводи
Надворешни врски |
Portal di Ensiklopedia Dunia