Откривање на плагијати

Откривање на плагијати е процес на наоѓање на случаи на плагијат во рамките на некој труд или документ. Широката употреба на компјутери и доаѓањето на интернетот многу ја олеснуваат можноста на плагијаризам на работата на другите. Повеќето случаи на плагијат се наоѓаат во академиите, каде што документите се обично есеи или извештаи. Сепак, плагијати може да се најдат во речиси секое поле, вклучувајќи ги и научните трудови, уметничките дизајни и изворниот код.

Откривање на плагијат може да биде рачно или со помош на компјутер. Рачното откривање бара значителни напори и одлична меморија и е непрактично во случаи кога мора да се споредат премногу документи или оригиналните документи не се достапни за споредба. Со помош на компјутерското откривање се овозможува огромни збирки на документи да се споредат со едни со други, за што поуспешно и многу поверојатно откривање на плагијати.

Откривање на плагијати со помош на компјутер

Детекција на плагијат со помош на компјутер е пребарување на информации и е поддржана од страна на специјализирани системи кои се нарекуваат системи за откривање на плагијати.

Откривање на плагијати на текст-документи

Системи за откривање на текст-плагијати имплементираат еден од двата генерички пристапи за откривање, од кои едниот е надворешен, a другиот е суштински.^[1] Надворешните системи споредуваат еден сомнителен документ со референтна колекција која е збир на документи за кои се претпоставува дека се оригинални.^[2]

Врз основа на избран документен модел и претходно дефинирани критериуми за сличност, задачата на откривање плагијат е да се добијат сите документи кои содржат текст кој е сличен до одреден степен со текстот во сомнителниот документ.^[3]

Суштинскиот пристап го анализира текстот што треба да се оценува без вршење на споредби со надворешни документи. Овој пристап има за цел да ги препознае промените во уникатниот стил на пишување на авторот како индикатор за потенцијален плагијат.^[4]

Програмите за откривање плагијати не се способни за сигурно идентификување на плагијати без човечко расудување. Сличностите се откриваат со помош на претходни модели на документи и може да бидат лажно позитивни.^[5] ^[6] ^[7] ^[8] .^[9] За визуелно да се провери дали авторот на научен труд се обидува да го измами системот, вреди да се обрне внимание на употребата на различни типови и големини на фонтови, лажни врски, застарени факти, парафразирани фрагменти.^[10]

Детектирачки методи

Сликата подолу претставува класификација на предложените методи за откривање на плагијат со помош на компјутер од техничка гледна точка. Техниките се одликуваат според типот на сличност на оценување на кои се однесуваат. Глобалните проценки за сличност користат одлики земени од поголеми делови од текстот или документот како целина за одредување на сличност, додека локалните методи се ограничени на текст сегменти како влез.

Земање на отпечатоци моментално најмногу се применува кога ставува збор за пристап со помош на компјутер за детекција на плагијат. Постапката води до добивање на документи со избирање на множество на повеќе подзборови (n-грам) од нив. Множествата претставуваат отпечатоци од прсти и нивните елементи се нарекуваат детали.^[11] .^[12]

Сомнителниот документ се проверува дали е плагијат преку компјутерска обработка на отпечатоците и со помош на претходно пресметан индекс на отпечатоци за сите документи во референтната колекција. Деталите со оние на другите документи покажуваат заеднички текст сегменти и предложуваат можни плагијати.^[12]

Општо земено, само подмножество на детали се споредува со цел да се забрза процесот и да се овозможи проверка кога станува збор за голема колекција на документи, како што е на пример интернетот.^[11]

Проверка на документи за преклопување на текст претставува проблем на класично поврзување на зборови познат и во другите области на информатиката. Предложени се бројни пристапи за успешно справување со оваа задача, од кои некои се прилагодени за надворешни детектори за плагијаризам. Проверка на сомнителен документ со оваа опција бара пресметка и чување на ефикасно споредливи репрезентации за сите документи во референтната колекција, со која се споредуваат парови на стрингови. Општо земено, моделите за наставниот документ, како на пример наставни дрва или наставни вектори, се присопосбени за оваа задача во контекст на компјутерско отркивање на плагијаризам. Сепак, поврзувањето на подстрингови останува скап метод, што го прави не-прифатливо решение за проверка на колекции со голем број на документи.^[13] ^[14] ^[15]

Анализа на куп на зборови претставува усвојување на пребарување на векторски простор, што е традиционален концепт на отркивање на плагијаризам, во доменот на компјутерско отркивање. Документите се претставени како еден или повеќе вектори, на пример, за различни делови на документот, кои се користат за интелгиентни пресметки за сличност на парови. Овие може да биде врз основа на традиционалната мерка за косинус сличност или други софистицирани функции за сличност.^[16] ^[17] ^[18]

Откривање на плагијати засновано на цитати со помош на компјутерски пристап е метод дизајниран за употреба кај академските документи, бидејќи не се потпира на самиот текст, туку на цитатите и референтните информации. Ги идентификува сличните модели во цитат секвенците на две академски работи. Ваквите модели претставуваат поднизи кои исклучиво содржат цитати од двата документи кои се споредуваат.^[19] ^[20] .^[21]

Стилометрија опфаќа статистички методи за квантифицирање на авторски уникатен стил на пишување и се користи главно за авторство.^[22] ^[23] Со создавање и споредување со стилометриски модели за различни сегменти од текстот, може да се откријат пасуси кои се стилски различни од другите, па оттука и потенцијално да се детектира плагијат.

Системи за откривање на плагијати кај текст-документи

Генералниот дизајн на системи за откривање на академски плагијат насочен за текст документи вклучува голем број на фактори:

Фактор	Опис и алтернативи
Опсег на пребарување	Во јавен интернет, со користење на пребарувачи / институционални бази на податоци / локален систем, специфицирани бази на податоци.
Анализа на време	Потребно време меѓу времето кое се доставува документот и времето кога резултатите се достапни.
Капацитетот за документи / Серија за обработка	Број на документи кои системот може да ги обработи за единица време.
Проверка на интензитет	Колку често и за кои видови на фрагменти од документот (ставови, реченици, зборовни секвенци со фиксна должина) системот пребарува надворешни ресурси, како што пребарувачите.
Споредба на тип на алгоритам	Алгоритми кои го дефинираат начинот на кој системот споредува едни со други документи.
Прецизност	Број на документи кои правилно се означени како плагијат во споредба со вкупниот број на означени документи, како и вкупниот број на документи кои се всушност плагијати. Висока точност значи дека само неколку лажно позитивни документи биле пронајдени.

Повеќето големи системи за откривање на плагијати користат големи, внатрешни бази на податоци (во прилог на други ресурси) кои се прошируваат со секој дополнителен документ поднесен за анализа. Сепак, ова се смета од страна на некои како евентуална повреда на авторските права на студентите.

Следниве системи се веб-засновани, со исклучок на ситемот CopyTracker, со затворен код. Следнава листа е неисцрпна:

Слободни

Chimpsky

CitePlag

CopyTracker

eTBLAST

Plagium

SeeSources

The Plagiarism Checker

Plagiarism Detect

Комерцијални

Attributor

Copyscape

Ithenticate, Turnitin

Plagiarismdetect

PlagScan

Veriguid

Откривање на перформанси

Компаративна евалуација на системи за откривање на плагијати укажува на тоа дека нивните перформанси зависат од видот на плагијатите ^[2]^[24]^[25]^[26]^[27]^[28] што треба да се откријат (види слика). Освен анализа на цитати, сите откривачки пристапи се потпираат на текстуална сличност. Затоа е симптоматично дека откривање на точноста се намалува кога се опфатени повеќе случаи на плагијати.

Детекција со компјутерски пристап засновано на типот на плагијаризмот

Буквалните копии, таканаречени copy & paste плагијат, или скромно маскирани случаи на плагијат може да се откријат со висока точност со помош на сегашните надворешни пристапи ако изворот е достапен на софтверот. Особено процедурите за поврзување на зборови може да постигнат добри перформанси, бидејќи тие најчесто користат модели на документи без загуба, како на пример наставни дрва. Анализата на системи кои користат отпечатоци или куп од зборови во откривањето на копии зависи од загуба на информации направени од страна на документниот модел кој го користи. Со примена на селекциски стратегии тие се подобро оспособени за откривање на умерена форми на маскирани плагијати во споредба со процедури за појавување на поднизи.

Внатрешнo откривање на плагијат со користење на стилометрија може да ги надмине границите на текстуални сличности до одреден степен во споредба на јазичната сличност. Со оглед на тоа дека стилските разлики помеѓу плагијатите и оригиналните сегменти се значајни и може да се идентификуваат со сигурност, стилометријата може да помогне во идентификување на маскирани и парафразирани плагијати. Стилометричките споредби веројатно ќе пропаднат во случаите каде што сегментите се силно парафразирани до таа точка кога повеќе наликуваат на личен стил на пишување. Резултатите од меѓународните натпревари за откривање на плагијати одржани во 2009, 2010 и 2011 година,^[2]^[27]^[28] as well as experiments performed by Stein,^[29] укажуваат на тоа дека стиломтеричката анализа работи со сигурност добро само за документи со должина од неколку илјади или десетици илјади зборови.

Зголемување на бројот на истражувања се врши на методи и системи способни за откривање на преведени плагијати. Во моментов, детекција на јазичен плагијат не се гледа како зрела технологија и соодветните системи не се во можност да постигнат задоволувачки резултати за откривање во пракса.

Откривањето на плагијат засновано на цитати е способно за идентификување на посилни парафрази и преводи со повисоки стапки на успех во споредба со другите откривачки пристапи, благодарение на фактот дека е независен од текстуалните одлики. Но, анализата зависи од достапноста на цитат информации се ограничува на академски текстови. Останува инфериорен во однос на текст-заснованите пристапи во откривање на плагијат кај пократки пасуси, кои се типични во случаи на копија.

Откривање на плагијати на изворен код

Плагијатите кај компјутерските кодови се исто така честа појава и потребни се различни алатки од оние кои се користат во текстуални документи. Притоа, значајни истражувања се посветуваат на академски плагијати на изворен код.

Посебен аспект на плагијати на изворен код е дека не постои збирно место на есеи, како што може да се најде кај традиционалните плагијати. Бидејќи во повеќето програмски задачи се очекува студентите да пишуваат програми со многу специфични барања, многу е тешко да се најдат постоечки програми кои ги исполнат барањата. Бидејќи интегрирање на надворешен код е често потешко од пишување од нула, студентите избираат повеќето плагијати да ги направат од своите врсници.

Според Рој и Корди, алгоритмите за откривање на сличност на изворен код можат да се класифицираат врз основа на

Стрингови - бара точни текстуални поврзувања на сегменти. Брз метод, но може да биде помешан со преименувањето идентификатори.
Токени - како со стрингови, но со користење на лексер за да се претвори програма во симболи во прв план. Ова отфрла празни коментари и идентификаторски имиња, правејќи го системот робустен на едноставни текст замени. Повеќето академски системи за откривање користат различни алгоритми за мерење на сличноста помеѓу знаковните секвенци.
Парсирачки дрва - да се изградат и да се споредат парсирачки дрва. Ова овозможува да бидат откриени сличности на поголемо ниво.
График со повици - го доловува вистинскиот тек на контрола во програмата, и овозможува да бидат сместени еквиваленции на многу повисоко ниво.
Метрика - метрика открива "резултати" на код сегментите според одредени критериуми, на пример, "бројот на јамки и услови", или "бројот на различни променливи што се користат". Метриките се едноставни да се пресметаат и може да се споредат брзо, но, исто така, може да доведат до лажно позитивни резултати.
Хибридни пристапи - на пример, парсирачки дрва и наставни дрва можат да се комбинираат за откривање на способноста на парсирачки дрва со брзина дозволена од наставните дрва, еден вид на податочна структура со поврзување на стригнови.

Претходната класификација е развиена за рефакторирање код, а не за детекција на академски плагијат (важна цел на рефакторирањето е да се избегне удвоен код, познат во литературата како клониран код). Горенаведените пристапи се ефикасни за различни нивоа на сличност; ниско ниво сличност се однесува на идентичен текст, додека високо ниво на сличност може да се однесува на слични спецификации. Во академска средина, кога сите ученици се очекува да ги искодираат истите спецификации, се очекува функционално еквивалентен код (со високо ниво на сличност), а само ниско ниво сличност се смета како доказ на мамење.

Системи за откривање на плагијати на изворен код

Програмите MOSS и JPlag може да се користaт бесплатно, но и двете бараат регистрација и софтверот останува комерцијален. Персоналните системи се нормални десктоп апликации, како и повеќето од нив се и бесплатни и објавени како софтвер со отворен код.

Наводи

↑ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (2007), „Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN'07“ (PDF), SIGIR Forum, 41 (2): 68–71, doi:10.1145/1328964.1328976, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ ^2,0 ^2,1 ^2,2 Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), „Overview of the 1st International Competition on Plagiarism Detection“, PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), CEUR Workshop Proceedings, 502, стр. 1–9, ISSN 1613-0073, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), „Strategies for Retrieving Plagiarized Documents“, Proceedings 30th Annual International ACM SIGIR Conference (PDF), ACM, стр. 825–826, doi:10.1145/1277741.1277928, ISBN 978-1-59593-597-7, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ Meyer zu Eissen, Sven; Stein, Benno (2006), „Intrinsic Plagiarism Detection“, Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings (PDF), Lecture Notes in Computer Science, 3936, Springer, стр. 565–569, doi:10.1007/11735106_66, ISBN 978-3-540-33347-0, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ Bao, Jun-Peng; Malcolm, James A. (2006), „Text similarity in academic conference papers“, 2nd International Plagiarism Conference Proceedings (PDF), Northumbria University Press, Архивирано од изворникот (PDF) на 2018-09-16, Посетено на 2012-01-21
↑ Clough, Paul (2000), Plagiarism in natural and programming languages an overview of current tools and technologies (PDF) (Technical Report), Department of Computer Science, University of Sheffield, Архивирано од изворникот (PDF) на 2011-08-18, Посетено на 2012-01-21
↑ Culwin, Fintan; Lancaster, Thomas (2001), „Plagiarism issues for higher education“ (PDF), Vine, 31 (2): 36–41, doi:10.1108/03055720010804005, Архивирано од изворникот (PDF) на 2012-04-05, Посетено на 2012-01-21
↑ Lancaster, Thomas (2003), Effective and Efficient Plagiarism Detection (PDF) (PhD Thesis), School of Computing, Information Systems and Mathematics South Bank University^{[мртва врска]}
↑ Maurer, Hermann; Zaka, Bilal (2007), „Plagiarism - A Problem And How To Fight It“, Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007, AACE, стр. 4451–4458, ISBN 978-1-880094-62-4, Архивирано од изворникот на 2016-08-15, Посетено на 2012-01-21
↑ „Why Plagiarism Is Not Always Detected“. plagiarismsearch.com. 2021-11-22.
↑ ^11,0 ^11,1 Hoad, Timothy; Zobel, Justin (2003), „Methods for Identifying Versioned and Plagiarised Documents“, Journal of the American Society for Information Science and Technology, 54 (3): 203–215, CiteSeerX 10.1.1.18.2680, doi:10.1002/asi.10170
↑ ^12,0 ^12,1 Stein, Benno (2005), „Fuzzy-Fingerprints for Text-Based Information Retrieval“, Proceedings of the I-KNOW '05, 5th International Conference on Knowledge Management, Graz, Austria (PDF), Springer, Know-Center, стр. 572–579, ISSN 0948-695X, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), „Document Overlap Detection System for Distributed Digital Libraries“, Proceedings of the fifth ACM conference on Digital libraries (PDF), ACM, стр. 226–227, doi:10.1145/336597.336667, ISBN 1-58113-231-X, Архивирано од изворникот (PDF) на 2012-04-15, Посетено на 2012-01-21
↑ Baker, Brenda S. (1993), On Finding Duplication in Strings and Software (Technical Report), AT&T Bell Laboratories, NJ, Архивирано од изворникот (gs) на 2007-10-30, Посетено на 2012-01-21
↑ Khmelev, Dmitry V.; Teahan, William J. (2003), SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, ACM, стр. 104–110, CiteSeerX 10.1.1.9.6155, doi:10.1145/860435.860456 Занемарен непознатиот параметар |DUPLICATE_title= (help)
↑ Si, Antonio; Leong, Hong Va; Lau, Rynson W. H. (1997), „CHECK: A Document Plagiarism Detection System“, SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF), ACM, стр. 70–77, doi:10.1145/331697.335176, ISBN 0-89791-850-9
↑ Dreher, Heinz (2007), „Automatic Conceptual Analysis for Plagiarism Detection“ (PDF), Information and Beyond: The Journal of Issues in Informing Science and Information Technology, 4: 601–614
↑ Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), „External and Intrinsic Plagiarism Detection Using Vector Space Models“, PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), CEUR Workshop Proceedings, 502, стр. 47–55, ISSN 1613-0073, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ Gipp, Bela; Beel, Jöran (2010), „Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently“, Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10) (PDF), ACM, стр. 273–274, doi:10.1145/1810617.1810671, ISBN 978-1-4503-0041-4, Архивирано од изворникот (PDF) на 2012-04-25, Посетено на 2012-01-21
↑ Gipp, Bela; Meuschke, Norman; Beel, Jöran (2011), „Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag“, Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'11) (PDF), ACM, стр. 255–258, doi:10.1145/1998076.1998124, ISBN 978-1-4503-0744-4, Архивирано од изворникот (PDF) на 2012-04-25, Посетено на 2012-01-21
↑ Gipp, Bela; Meuschke, Norman (2011), „Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence“, Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011) (PDF), ACM, стр. 249–258, doi:10.1145/2034691.2034741, ISBN 978-1-4503-0863-2, Архивирано од изворникот (PDF) на 2012-04-25, Посетено на 2012-01-21
↑ Holmes, David I. (1998), „The Evolution of Stylometry in Humanities Scholarship“, Literary and Linguistic Computing, 13 (3): 111–117, doi:10.1093/llc/13.3.111
↑ Juola, Patrick (2006), „Authorship Attribution“ (PDF), Foundations and Trends Information Retrieval, 1 (3): 233–334, doi:10.1561/1500000005, ISSN 1554-0669, Архивирано од изворникот (PDF) на 2020-10-24, Посетено на 2012-01-21
↑ Portal Plagiat - Softwaretest 2004 (германски), HTW University of Applied Sciences Berlin, Архивирано од изворникот на 2011-10-25, Посетено на October 6, 2011
↑ Portal Plagiat - Softwaretest 2008 (германски), HTW University of Applied Sciences Berlin, Посетено на October 6, 2011
↑ Portal Plagiat - Softwaretest 2010 (германски), HTW University of Applied Sciences Berlin, Посетено на October 6, 2011
↑ ^27,0 ^27,1 Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), „Overview of the 2nd International Competition on Plagiarism Detection“, Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy (PDF), Архивирано од изворникот (PDF) на 2012-04-03, Посетено на 2012-01-21
↑ ^28,0 ^28,1 Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), „Overview of the 3rd International Competition on Plagiarism Detection“, Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands (PDF), Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21
↑ Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), „Intrinsic Plagiarism Analysis“ (PDF), Language Resources and Evaluation, 45 (1): 63–82, doi:10.1007/s10579-010-9115-y, ISSN 1574-020X, Архивирано од изворникот (PDF) на 2012-04-02, Посетено на 2012-01-21