Canonical и robots: частые ошибки на форумах — личный опыт
Введение
У многих форумов, особенно крупных, с кучей похожих страниц, возникают проблемы с индексацией и дублированием контента. Два инструмента, которые помогают контролировать это — canonical и robots.txt. Но на форумах с их нестандартной структурой ошибки в настройке этих вещей встречаются часто и приводят к проблемам с SEO. Расскажу, что я заметил сам и как с этим можно разобраться.
Что это такое
Canonical — это специальный тег (rel="canonical"), который подсказывает поисковикам, какая из похожих страниц считается основной и должна ранжироваться. Если браузер или скрипт на форуме генерирует много дубликатов URL с разной сортировкой или параметрами, canonical помогает не распылять вес страниц.
Robots.txt — это файл, который инструктирует поисковиков, какие разделы сайта можно сканировать, а какие лучше скрыть. Важно понимать, что запрет в robots.txt не гарантирует, что страница не попадет в индекс — если на неё есть ссылки, она может остаться в поиске без контента.
Где применяется
На форумах canonical чаще всего ставят на страницы с параметрами — например, сортировка тем по дате, по активности, фильтры по форумам. Если не указать canonical, поисковики воспримут каждую комбинацию URL как отдельную страницу.
Robots.txt используют для блокировки разделов с личными сообщениями, страниц с пагинацией, тестовых или служебных каталогов. Но важные разделы, например, главные темы с ответами, блокировать нельзя, иначе потеряешь трафик.
Практические примеры
1. Форум с несколькими сортировками тем:
- URL example.com/forum?sort=date
- URL example.com/forum?sort=lastpost