Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Для управления индексацией страниц сайта в поисковиках (Яндекс, Rambler, Поиск Mail.Ru, Google, Yahoo!, Bing) используется файл robots.txt. Все ненужные с точки зрения поисковых систем страницы сайта желательно закрыть от индексации.
Описание:
http://robotstxt.org.ru/
Использование (помощь Яндекса):
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
Пример простого robots.txt (пустая строчка Disallow в этом случае обязательна):
User-agent: * Disallow: User-agent: Yandex Disallow: Host: www.site.ru
Если главная страница сайта доступна по двум URL-адресам http://site.ru/ и http://site.ru/index.html, то второй вариант желательно закрыть от индексации:
User-agent: * Disallow: /index.html User-agent: Yandex Disallow: /index.html Host: www.site.ru
Это поможет избежать возникновения в индексе дубля главной страницы сайта.
Проверить, какие страницы, закрытые в robots.txt, будут действительно индексироваться, а какие нет, можно в панели вебмастера.
Неправильно составленный robots.txt может привести к отрицательным последствиям. Например, весь сайт может «выпасть» из поискового индекса. Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:
https://webmaster.yandex.ru/robots.xml (Яндекс.Вебмастер — Анализ robots.txt)
https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru (Google Search Console — Инструмент проверки файла robots.txt)