Google Ngram Viewer![]() Google Ngram Viewer або Google Books Ngram Viewer — це онлайн-пошукова система, яка складає графіки частот будь-якого набору пошукових рядків, використовуючи річну кількість n-грамів, знайдених у друкованих джерелах, опублікованих між 1500 і 2019 роками[1][2][3][4] у текстових корпусах Google англійською, китайською (спрощеною), французькою, німецькою, івритом, італійською, російською або іспанською мовами[2][5]. Ще існують деякі спеціалізовані англійські корпуси американської англійської, британської англійської та англійської художньої літератури.[6] Програма може шукати слово чи фразу, включаючи орфографічні помилки чи тарабарщину[5]. N-грами зіставляються з текстом у межах вибраного корпуса, вибірково використовуючи правопис із урахуванням регістру (який порівнює точне використання великих букв)[7] і, якщо вони знайдені в 40 або більше книгах — відображаються як графік[8]. Google Ngram Viewer підтримує пошук за частинами мови та символами підстановки .[6] Він регулярно використовується в дослідженнях.[9][10] ІсторіяПрограма була розроблена Джоном Орвантом і Віллом Брокманом та випущена в середині грудня 2010 року[2][3]. Джерелом натхнення для неї послугував прототип під назвою Bookworm, створений Жаном-Батистом Мішелем та Ерезом Ейденом з Гарвардської Культурної Обсерваторії, Юанем Шенем з MIT і Стівеном Пінкером[11]. Ngram Viewer спочатку базувався на Google Books Ngram Corpus 2009 року видання. Станом на липень 2020, програма підтримувала корпуси 2009, 2012 і 2019 років. Експлуатація та обмеженняКомами розділяються введені користувачем пошукові терміни, вказуючи на кожне окреме слово або фразу, які треба знайти[8]. Ngram Viewer повертає побудовану лінійну діаграму. Як пристосування для більшої кількості книг, виданих протягом кількох років, дані нормалізуються як відносний рівень за кількістю книг опублікованих у кожному році[8]. Через обмеження розміру бази даних Ngram, лише збіги, знайдені в мінімум 40 книжках, індексуються в ній[8]. ОбмеженняНабір даних піддавався критиці через його покладання на неточне OCR (Оптичне розпізнавання символів), надлишок наукової літератури та включення великої кількості неправильно датованих і категоризованих текстів.[12] Через ці помилки, а також через неконтрольованість на предмет упередженості[13] (наприклад, збільшення кількості наукової літератури, що спричиняє зниження популярності появи інших термінів), використовувати цей корпус для вивчення мови або перевірки теорій є ризикованим.[14] Оскільки датасет не містить метаданих, він може не відображати загальні лінгвістичні чи культурні зміни[15] і може лише натякати на такий ефект. Було запропоновано інструкції, які стосуються багатьох проблем, розглянутих вище, для проведення досліджень із використанням даних із Google Ngram.[16] Проблеми OCRОптичне розпізнавання символів, або OCR, не завжди є надійним, і деякі символи можуть бути проскановані неправильно. Зокрема, системні помилки як плутання s і f у текстах до 19-го століття (через використання довгого s, що був схожий на вигляд до f), можуть спричинити системне зміщення. Хоча Google Ngram Viewer стверджує, що результати є надійними, починаючи з 1800 року, погане оптичне розпізнавання символів і нестача даних означають, що частоти наведені для таких мов як китайська, можуть бути точними лише починаючи з 1970 року, а попередні частини корпусу взагалі не показують жодних результатів для всіх загальних термінів та даних за кілька років, що містять більше ніж 50 % шуму.[17][18] Див. такожСписок літератури
Бібліографія
Посилання |
Portal di Ensiklopedia Dunia