Стандарт исключений для роботов![]() Стандарт исключений для роботов — стандарт ограничения доступа роботам к содержимому на http-сервере при помощи текстового файла Следование стандарту добровольно. Стандарт был принят консорциумом W3C 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин. Файл robots.txt используется для частичного управления обходом сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны запрашиваться. Описание структурыФайл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида: <поле>:<необязательный пробел><значение><необязательный пробел> где В директиве Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу Disallow: /about/ — только к разделу Файл может содержать комментарии — часть строки, начинающаяся с символа Проверка синтаксисаНеправильно составленный robots.txt может привести к отрицательным последствиям. Например, весь сайт может «выпасть» из поискового индекса. Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:
ПримерыЗапрет доступа всех роботов ко всему сайту: User-agent: * Disallow: / Запрет доступа определённого робота к каталогу /private/: User-agent: googlebot Disallow: /private/ Нестандартные директивыAllow: имеет действие, обратное директиве Disallow — разрешает доступ к определённой части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается. Allow: /album1/photo.html Disallow: /album1/ Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды. На данный момент эта директива не учитывается Googlebot и YandexBot[1]. User-agent: * Crawl-delay: 10 Sitemap: расположение файлов Sitemaps, которые могут показать, что именно нужно проиндексировать поисковому роботу. Sitemap: http://example.com/sitemap.xml Расширенный стандартВ 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например: User-agent: * Disallow: /downloads/ Request-rate: 1/5 # загружать не более одной страницы за пять секунд Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу. См. такжеПримечания
Ссылки
|
Portal di Ensiklopedia Dunia