Генератор текста
Генера́тор те́кста — компьютерная программа, генерирующая тексты, правильные с точки зрения большинства языковых норм, но, как правило, лишённые смысла. Существуют разные виды генераторов текста, различающиеся своими возможностями и качествами (например, некоторые из них могут самостоятельно формировать новые слова). Джонатан Свифт в «Путешествиях Гулливера», пародируя Ars magna Раймунда Луллия, сатирически описал машину из Лагадо, генерирующую тексты. Типы генераторовГенерация текста путём его составления из полностью случайных слов чаще всего не применяется: программа выдаёт бессмысленный результат и легко распознаётся анализаторами текстов. Обычно используют генерацию по вручную написанным фразам-шаблонам. В случаях, когда не важен смысл генерируемого текста, он составляется из путаницы предложений из разных исходных текстов или из частей предложений. Такой метод совместно с шаблонами и синонимизацией используется в чат-ботах и ботах-комментаторах в соцсетях и блогах. Такие боты копируют собеседнику фразы, записанные с других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по ключевым словам, поэтому их ответ более приближен к теме диалога. Синонимайзеры и генерация фраз по шаблонамЧасто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на синонимы, в целях рерайта и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются макросами. Чем длиннее текст, тем заметнее неестественность в автоподставленных синонимах. Поэтому в текстах, "сделанных для людей" (СДЛ) синонимайзеры могут применяться только для создания уникальных коротких текстов: заголовков и анкоров с ключевыми словами, комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, который, в отличие от русского языка, имеет простую морфологию. Виды синонимизации:
«Мешанка» текста из разных источниковДорвеи быстро «вылетают» из поисковой выдачи из-за некачественности своих текстов. Поэтому дорвейщики стараются генерировать текст по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста парсятся целиком с других сайтов такой же тематики, и, возможно синонимизируются или используется «мешанка».
«Умные» генераторыРяд компаний развивает более сложную технологию. Создаются синтаксические структуры по частям речи и членам в предложениях, слова в словарях категоризируются по семантике с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, авторских прав на эти разработки и коммерческой тайны (подобные системы в принципе позволяют создать очень прибыльные коммерческие проекты) вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы. ПрименениеНа данном уровне развития компьютерных технологий в свободном доступе отсутствуют генераторы текста со сравнительно осмысленным текстом. Генераторы с бессмысленным набором слов или с шаблонными фразами имеют узкую сферу применения. Разработка и оптимизация сайтовГенераторы текстов широко используются при разработке и поисковой оптимизации сайтов: для генерации названий, описаний, и содержимого целых сайтов с помощью доргенов (генераторов дорвеев). Существуют крупные англоязычные сайты, зарабатывающие на размещении рекламы, на которых весь контент пишут не журналисты, а боты — статьи автоматически рерайтятся из других источников. Примеры таких сайтов: Demand Media[англ.] и Associated Content[англ.][1]. Русский язык, в отличие от английского, имеет сложную морфологию, поэтому появление подобных ботов-рерайтеров в рунете сильно осложнено. Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного отбора по критерию уникальности.[прояснить] Производится данный отбор при помощи специализированного программного обеспечения, имеющего различный алгоритм проверки.[источник не указан 3685 дней] Виртуальные собеседникиВиртуальные собеседники (чат-боты) — программы, предназначенные имитировать общение в чатах. Они массово применяются для рассылки спама в соцсетях (спам-боты), а также как автоответчики, способные реагировать на множества ключевых слов по разным сценариям. Поскольку при этом человек не видит своего собеседника, у него может сложиться впечатление, что он переписывается с живым человеком. Тем не менее, ещё ни одному чат-боту не удавалось с успехом пройти тест Тьюринга, а программам, использующим генераторы текста, это сделать ещё сложнее. Массовая пропаганда и троллинг в соцсетяхВ связи с развитием интернет-пропаганды и «кибер-войн» в соцсетях применяются боты для массовой имитации общественного мнения. При создании ботов у них автоматически генерируются имена и интернет-адреса, а при их ответах — текст комментариев, обычно провокационного, пропагандистского, или оскорбительного содержания. Относительно широкую известность в русскоязычном Интернете получил генератор текста Rareguest, оформленный в виде php-скрипта. Некоторое время он использовался в рамках сатирического интернет-проекта «Гавгав-центр», а затем получил распространение в качестве робота для живых журналов, блогов и т. д. Вот примеры последовательной генерации однотипных сообщений данным роботом:
На этих примерах видно, что даже знакомый с обсуждаемой проблематикой читатель может принять сообщения робота за сообщения реального живого человека, пусть и несколько экзальтированного. Выдает робота в этих сообщениях только типовая структура построения предложений и их комбинирования. Проверка качества рецензирования издательствИзвестны случаи, когда генераторы текстов успешно использовались для выявления низкого качества (а иногда и полного отсутствия) рецензирования в научных журналах. Особенно известна в этом плане программа SCIgen. См. такжеПримечания
Ссылки
|
Portal di Ensiklopedia Dunia