Правильный robots.txt
- utm - ссылки с utm-метками
- openstat - cсылки с метками openstat
- from - ссылки с метками from
- upload - открываем папку с файлами uploads
- bitrix/js - здесь и далее открываем для индексации скрипты
Ошибочные рекомендации других блогеров для Robots.txt на Bitrix
Закрывать от индексации страницы пагинации
Правило Disallow: *?PAGEN_1= является ошибкой. Страницы пагинации должны индексироваться. Но на таких страницах обязательно должен быть прописан мета-тег canonical.
Закрывать файлы изображений и файлов для скачивания (DOC, DOCX, XLS, XLSX, PDF, PPT, PPTS и др.)
Это делать не нужно. Если у вас есть правило Disallow: /upload/, удалите его.
Закрывать страницы тегов и категорий
Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика.
Прописать Crawl-Delay
Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.