Краулинговый бюджет сайта — актуальное об индексации страниц в 2021 🤖

Статья полезна для общего понимания обработки сайтов поисковиком, но особенно актуальна тем, кто видит проблемы в сканировании сайта.

В статье:

  1. Как поисковик обходит сайт
  2. Кому нужно беспокоиться о краулинговом бюджете
  3. Как посмотреть сканирование сайта ботами
  4. Как оптимизировать краулинговый бюджет
  5. Как оптимизировать рендеринговый бюджет

Как поисковик обходит сайт: что такое краулинговый и рендеринговый бюджет

Страница появится в поиске, будет ранжироваться по ключевым словам и получать трафик, если поисковый бот ее найдет и проиндексирует.

Процесс немного различается для статических HTML-страниц и динамических страниц с JavaScript.

Статические страницы

Боты, которые ищут и обрабатывают страницы, называются краулеры, процесс обработки — краулинг.

  1. Поисковый бот формирует список URL сайта — их он находит по Карте сайта, внутренним и внешним ссылкам.

  2. Сверяется с разрешениями на обход в файле robots.txt. В этом файле не строгие правила, а рекомендации, так что закрыть страницу от бота через запрет в robots.txt не получится. Если на страницу есть ссылки и редиректы, бот может решить, что она все-таки важна, и включить ее в свой список.

  3. Дальше он сортирует ссылки по приоритетности и начинает сканировать. Приоритетность определяет по многим факторам: удаленность от главной, PageRank и другие.

У поисковых систем нет технических возможностей обрабатывать все страницы, появляющиеся у сайтов, так что для краулинга есть лимиты — краулинговый бюджет — это количество страниц, которое поисковый бот может проиндексировать за один ограниченный по времени визит на сайт.

Если количество регулярно обновляемых страниц больше бюджета сканирования сайта, на нем будут не проиндексированные страницы.

Динамические JS-страницы

Краулеры сканируют и индексируют контент статической HTML-страницы. Если страница динамическая, с визуализацией и JS-фреймворками, то процесс в целом такой же, но нужен еще промежуточный этап. После сканирования бот должен сначала отрисовать контент, закодированный через JavaScript, а уже потом отправить его в индекс. Этот этап называется рендеринг.

Поисковые боты обрабатывают код JavaScript с помощью последней версии Chromium. Количество страниц, которые бот может отобразить, называется рендеринговым бюджетом.

Получается, рендеринг — добавочный этап в обработке страницы, который требует ресурсов. Если страницу приходится долго отрисовывать из-за асинхронности и сложности JavaScript, индексирование займет больше времени.

Подробнее про обработку страниц на JavaScript Google рассказал в Центре поиска. Если страница или ее часть не отображаются в выдаче, причиной могут быть проблемы с кодом JavaScript. Руководство от Google поможет их устранить.

Скорость сканирования не относится к факторам ранжирования и сама по себе никак не влияет на позиции. Но важна для работы сайта — если бот не сможет просканировать новые страницы, они долго не появятся в выдаче и пользователи их не увидят. Разберемся, что делать, чтобы боты успевали сканировать все нужные страницы.

Кому нужно беспокоиться о краулинговом бюджете

На небольших проектах количество страниц, которым нужно сканирование, обычно меньше, чем лимит краулера. Так что владельцам маленьких сайтов о краулинговом бюджете можно не беспокоиться.

Если новые страницы месяцами не могут попасть в выдачу, стоит заняться оптимизацией: помочь боту не тратить краулинговый бюджет зря и находить страницы, которые вам нужны. Обычно это проблема крупных проектов.

Осталось понять, достаточно ли большой у вас проект, чтобы нужно было беспокоиться о лимитах краулера. Оптимизаторы называют разные цифры по объему страниц. Одни говорят, что у сайта до 50 тысяч страниц и четкой структурой не должно быть проблем с индексированием, другие называют цифру в 10 тысяч страниц. Проще проверить.

Как определить, что у вас проблемы с краулинговым бюджетом:

  1. Найти, сколько страниц теоретически должно быть в индексе. Это страницы без тега noindex (актуален для Яндекса) и нет запрета в robots.txt.

  2. Соотнести количество проиндексированных страниц с тем, что теоретически должно быть в индексе. Эти данные можно посмотреть в консоли Google и Яндекс.Вебмастере.

  3. Если страниц, которые теоретически должны быть в индексе, во много раз больше, то есть проблемы.

Как посмотреть сканирование сайта поисковыми роботами

Динамика сайта

Динамику по обеим поисковым системам можно смотреть в сервисе Анализ сайта:

Сервис для просмотра индексации сайтаИндексация в Анализе сайта

В Яндекс.Вебмастере в разделе «Статистика обхода» можно посмотреть, какие страницы сайта обходит робот, а какие он не смог загрузить.

Работа краулера в Яндекс.ВебмастереСтатистика обхода в Яндекс.Вебмастере

В Google Search Console на вкладке Статистика сканирования можно увидеть общую картину — количество просканированных ботами страниц.

Сканирование страниц поисковым роботом в консолиЗапросы на сканирование страниц

Проблемы с индексацией могут повлечь и проблемы с ранжированием, а значит и с трафиком. Если вы заметили падение трафика, то проверьте данные отчета «Покрытие» в консоли Google. Нужно сравнить динамику изменения ранжирования и динамику на всех четырех вкладках отчета.

Сканирование страниц в Google Search ConsoleОтчет «Покрытие»

Особенно интересны разделы «Покрытие» — «Ошибки» и «Покрытие» — «Исключено». В «Исключено» будут страницы, которые Google считает некачественными: переадресации, закрытые от индексации и другие.

Список некачественных страниц сайтаСписок исключенных страниц

Проверка конкретной страницы

Узнать, на какой стадии конкретная страница, можно через Инструмент проверки URL. Он отобразит текущий статус индексирования страницы и даст знать, если что-то мешает обработке.

Проверить URL в инструменте GoogleПроверка URL

Инструмент проверяет последнюю проиндексированную версию страницы. Если после последнего сканирования страницу изменили или удалили, он это не отобразит. Кликните на «Проверить страницу на сайте», чтобы получить данные о текущей версии страницы.

Есть еще момент: инструмент не учитывает санкции поисковика и временную блокировку URL. Так что даже если вы видите в результатах проверки «URL есть в индексе Google», страницы может не быть в выдаче. Проверить, есть ли она там, очень просто — нужно загуглить ее URL.

Как проверить наличие URL в индексеURL есть в выдаче Google

Посмотреть на страницу глазами поискового бота можно с помощью этого бесплатного инструмента. Он покажет Header ответ, код, который видит бот, а также соберет в список внутренние и внешние ссылки и укажет, какие из них индексируются.

Посмотреть на страницу глазами поискового ботаФрагмент результатов работы инструмента

Серверные логи

Проверить краулинговый бюджет можно в серверных логах, там можно проследить за тем, какие страницы посещает краулер, увидеть маршруты и расписание обходов сайта. Новичку может быть сложно, но можно разобраться.

Искать логи нужно в файле access.log в системной папке сервера или через панель управления хостинга, но не все типы хостинга это позволяют.

Если вы смотрите на поведение бота Google, вам нужен GoogleBot, но не все, что так называется, действительно относится к ботам поисковика — Как убедиться, что сайт сканируется роботом Googlebot.

Анализировать данные лучше за большой промежуток, не менее месяца. Так получится выявить общие принципы: как часто появляется бот, смотрит ли он Карту сайта, какие URL обходит часто, а какие игнорирует, какие возникают ошибки. Игнорируемый раздел можно усилить внутренними и внешними ссылками.

Регулярно анализировать логи стоит владельцам сайтов, у которых больше 100 тыс страниц, поскольку за ними сложно уследить.

Ориентироваться на больших массивах данных удобнее через программы. Для анализа логов есть программы: LogViewer, Screaming Frog Log Analyzer, JetOctopus, Loggly, GoAccess и другие.

Материал по теме:
Анализируем лог-файл веб-сервера для выявления SEO-проблем

Эффективные способы оптимизировать краулинговый бюджет сайта

Увеличить лимит на сканирование можно только двумя способами:

  • выделить дополнительные ресурсы сервера для сканирования;

  • повысить ценность контента для пользователей.

Разберем, как веб-мастеру работать со вторым.

Ускорить загрузку страниц

Долгая загрузка сайта отнимает время поискового бота. Увеличить скорость сканирования нельзя без ускорения сайта.

Проверить скорость загрузки можно в сервисе Анализ сайта. Он проверяет загрузку онлайн в соответствии параметру Core Web Vitals, который Google начал использовать в 2021 году. Если со скоростью будут проблемы, сервис их покажет и посоветует, что делать:

Скорость загрузки онлайнФрагмент проверки скорости загрузки страницы

Проверить скорость сайта

Способов ускорения загрузки много, советуем посмотреть подборку материалов, в которой мы подробно разобрали самые эффективные.

Настроить Sitemap.xml

Обработать Карту сайта: очистить ее от дублей и ненужных ссылок с редиректами. В Карте должны быть только URL качественных страниц, которые нужны в индексе. Служебные там ни к чему.

Как составить файл Sitemap.xml правильно

Обработать robots.txt

Хоть это файл не с правилами, а рекомендациями для поисковых ботов, все равно он может повлиять на решение о сканировании. Чтобы роботы не тратили краулинговый бюджет на обработку страниц, которые не изменились со времени последнего сканирования, добавьте им значение last-modified.

Избавиться от редиректов

Очищайте длинные цепочки редиректов — это вредно и для пользователей, и для роботов-краулеров. Для пользователей увеличивается время загрузки итоговой страницы, приходится дольше ждать. Краулеры расходуют лимиты на редиректах, а если цепочка переадресаций затягивается, краулер может «потерять след» и не дойти до конечной страницы.

Разобраться с дублями контента

От дублей нужно избавиться, они в принципе бесполезны как пользователям, так и ботам. Поисковики не любят дублирующийся контент, роботы реже сканируют повторяющиеся страницы.

Выявить такие страницы поможет технический аудит. Проанализируйте совпадения и либо удалите более слабые страницы с повторениями, либо настройте редирект, если удалить не получится.

Настроить внутреннюю перелинковку

Бот назначает ссылкам приоритетность в сканировании в том числе по отдаленности страницы от главной. Чем меньше кликов нужно, чтобы перейти с главной до искомой страницы, тем она важнее. Поэтому важные для работы пользователей страницы располагайте ближе к главной.

Выстроить архитектуру сайта поможет материал 15 советов по seo-архитектуре сайта

Бот переходит по ссылкам на страницах и таким образом находит другие страницы,которые нужно просканировать. Кстати, это не позволяет запретить сканирование страницы в robots — если бот найдет ее по внутренним ссылкам, то может решить, что она важна, и добавить в свой список для сканирования.

Без внутренних ссылок на страницу боту будет проблематично на нее попасть, поэтому важно перелинковывать новые страницы с существующими.

Направление ссылочного веса по внутренним ссылкам подробно разобрали в статье Эффективная перелинковка: как работать с внутренними ссылками

Наращивать внешние ссылки

Также в определении приоритета страницы важен ее авторитет: чем больше качественных ссылок с релевантных площадок на нее ведет, тем она кажется важнее. Поэтому важные страницы нужно подпитывать ссылками с подходящих по теме площадок.

Без покупки обратных ссылок сложно обойтись, но есть и бесплатные способы, как можно их получить.

Проблемы с индексацией и советы о том, как ее ускорить, мы собрали в этом материале.

Как оптимизировать рендеринговый бюджет

Если вы используете динамические страницы, то нужно позаботиться о том, чтобы поисковым ботам было легко взаимодействовать и с ними. К индексированию добавляется рендеринг — «вторая волна индексирования», которая увеличивает время обработки страниц.

Рассмотрим, что можно внедрить, чтобы оптимизировать этот процесс.

Большую часть контента не визуализировать

JS-решения нужны не для всего контента, не усердствуйте с визуализацией, чтобы не перегружать страницы и дать роботу возможность понять большую часть смысла страницы при первом сканировании, до рендеринга.

Сократить JS

В коде часто бывает мусор: ненужные фрагменты, неиспользуемые библиотеки, разрывы и разделители. Можно уменьшить размер кода, то есть минифицировать JavaScript. Для минификации есть много бесплатных онлайн инструментов, ссылки и больше теории есть в статье.

Ускорить загрузку страницы

Нужно ускорить отображение контента, чтобы страница быстрее загружалась. Есть много возможностей, например, кэширование на длительный срок. Подойдет страницам, содержание которых нечасто изменяется.

Настройку кэширования и другие способы ускорить загрузку разобрали в этой же статье.

Применить динамическое отображение контента

Не все боты поисковиков могут обрабатывать JavaScript, и не все делают это быстро и качественно. Пока проблема существует, Google советует использовать динамический рендеринг.

Сервер должен распознавать поисковых роботов и при необходимости предоставлять им контент, уже обработанный на сервере — в виде HTML-страницы. Запросы от пользователей обрабатываются обычным образом как JS на стороне клиента. Динамический рендеринг можно настроить для всех страниц или только для некоторых.

О том, как это работает, Google рассказал в материале (на русском языке)

Беспокоиться о лимитах для краулеров нужно владельцам больших сайтов, если страницы долго не появляются в индексе. Проблемы с индексированием можно решить, для этого подойдут описанные в материале способы.

Расскажите в комментариях, какие способы мы зря не упомянули в статье? Что работает лучше всего по вашему опыту?

Источник

Google начнет платить новостным ресурсам Франции за контент

Летом мы уже рассказывали о планах Google монетизировать Google News для издателей в трех странах: Германии, Австралии и Бразилии. В октябре Google разместил в своем блоге новость о том, что в ближайшие три года собирается выплатить издателям более 1 млрд$, а число стран пополнилось Великобританией, Канадой и Аргентиной.

В прошлом апреле французский антимонопольный орган предписал Google выплачивать деньги местным издателям за их публикации в SERP. Накануне Google France и Alliance de la Presse d’Information Générale подписали соглашение об использовании публикаций для онлайн-прессы. Размер выплат определяют ежедневный объем публикаций, ежемесячная онлайн- аудитория и «вклад в политическую и общую информацию». Как сообщает управляющий директор Google France:

Это соглашение — важный шаг для Google. Это подтверждает нашу приверженность редакторам прессы в рамках французского закона о смежных правах. Это открывает новые перспективы для наших партнеров, и мы рады внести свой вклад в их развитие в эпоху цифровых технологий и поддержать журналистику

Однако с Австралией Google не смогли прийти к такому же соглашению. Google даже угрожает прекратить работу на территории Австралии, если она примет новое законодательство о поддержке местных СМИ. Закон разработала Австралийская комиссия по конкуренции и защиты прав потребителей (сокращенно АССС). Согласно ему, Google обяжут выплачивать деньги издателям не только за публикации в Google News, но и за показы в Поиске. По мнению Google это беспрецедентная мера, на которую они не могут пойти.

Напоминаем, что прошлым летом ACCC начала судебные разбирательства с Google из-за новой политики конфиденциальности. А ввиду того, что ЕС стала мировым лидером в области регулирования IT, крупнейшие корпорации стали инвестировать миллиарды евро для лоббирования своих интересов.

Источник

Яндекс добавил в AppMetrica новый отчет для подробного анализа конверсий

Новый отчет представляет из себя инфографику, с помощью которой можно пошагово отследить конверсию. С помощью такого наглядного графика можно сразу понять, что можно улучшить и внести коррективы в пользовательский сценарий.

При создании воронки вы можете указать до 10 шагов пользовательского сценария. Инфографика покажет, на каком этапе пользователи чаще всего «спотыкаются», чтобы улучшить форму и увеличить конверсии.

Воронки можно адаптировать под разные типы пользователей. Вы можете выбрать из уже существующих сегментов в AppMetrica либо же настроить собственные. Воронки можно сравнивать по типам устройств и аудиториям.

С помощью конструкции «И/ИЛИ» можно анализировать сложные задачи. Для примера Яндекс приводит Upsale-стратегию для продажи чехлов для телефонов:

  • Купил европейский ИЛИ китайский смартфон, а затем купил чехол: силиконовый И стоимостью меньше 2000 рублей.

  • Купил европейский ИЛИ китайский смартфон, а затем купил чехол: противоударный И стоимостью больше 2000 рублей.

Для каждой из этих комбинаций вы можете настроить воронку и выбрать наиболее конверсионную среди них.

Для каждого шага вы также можете указывать событие из AppMetrica. Сюда же входят условия, связанные с этим событием. Чтобы добавить условие, воспользуйтесь дополнительными настройками для создания воронки:

События между шагами позволят продолжать учитывать шаги по сценарию, если пользователь совершил действия, не входящие в воронку. Предположим, для обратной связи у вас стоит три шага: открытие меню, нажатие кнопки, заполнение формы. В случае, если у вас выбрано «Разрешено», сценарий засчитается, если пользователь оставил обратную связь, но выполнил лишнее по сценарию действие.

С помощью регистрации событий шаги перестают быть привязанными ко времени. Допустим, в один день пользователь посмотрел пробное занятие, а в другой уже оставил заявку на сайте. При выбранной регистрации событий эти оба события объединяются в одну конверсию.

Новый отчет уже доступен в AppMetrica, обновлять SDK для него не нужно. Больше подробности о настройках отчета и его функционале читайте в Документации.

Источник

В РФ введут систему штрафов за незаконную блокировку пользователей

Как сообщает Парламентская газета, Совет Федерации готовится принять заявление в связи с нарушениями свободы слова крупными интернет-корпорациями. Об этом сообщил председатель Комитета палаты по международным делам Константин Косачев. Первым с этой инициативой выступил сенатор Алексей Пушков, который возглавляет комиссию по информационной политике и взаимодействию со СМИ.

«Интернет-гиганты встали на путь широкой цензуры и произвольной и незаконной блокировки альтернативных платформ. Самое опасное, что решения принимаются по воле руководителей компаний, а не в согласии с нормами закона. Узурпация компаниями-гигантами интернет-пространства уже происходит в том числе для провоцирования политических кризисов», заявил Пушков.

Эти заявления были сделаны после блокировки аккаунтов Дональда Трампа в Facebook, Twitter и Google. А совсем недавно Facebook на сутки заблокировал аккаунт главы Роскосмоса Дмитрия Рогозина. По его словам, аккаунт заблокировали после комментария к посту бывшего посла США в России Майкла Макфола, где он высказался о демократии в России. Саму публикацию тоже скрыли.

В Совете считают, что их инициативу могут поддержать другие страны, сражающиеся с цифровым превосходством корпораций. В частности, Пушков отметил, что Австралия может присоединиться к нашей инициативе из-за ее нынешнего спора с Google. Совет Федерации также рассчитывает найти союзников в Европе, о чем было сказано в заявлении.

Источник

Google рассказал о проекте Privacy Sandbox — альтернативе cookies

Google анонсировал проект Privacy Sandbox еще в 2019. В то время команда Chrome работала над альтернативой файлам cookies для обеспечения безопасности и конфиденциальности пользователей. На днях Google более детально рассказал технологиях, входящих в этот проект.

Подбор релевантного контента

С помощью Федеративного обучения на основе когорт (FLoC) можно подобрать релевантный контент и объявления для пользователей, а также объединять людей в группы со схожими интересами. Для тестирования этого метода разработчики создали симуляции в Google Ads. Тест показал, что FLoC может стать отличной альтернативой cookies.

По данным теста, рекламодатели могут рассчитывать на конверсии не менее 95% за каждый потраченный доллар в сравнении с привычным методом показа рекламы. Команда Chrome собирается внедрить тестирование когорт FLoC уже в марте, а во втором квартале — подключить рекламодателей к тестированию в Google Ads.

Создание аудиторий без cookies

С помощью нового проекта под названием FLEDGE рекламодатели смогут создавать собственные аудитории без помощи файлов cookies. FLEDGE начнет свое тестирование в Chrome на отдельных сайтах в этом году, а для оптимизаторов разработчики предоставляют возможность протестировать API на собственных серверах.

Измерение конверсий

В набор Privacy Sandbox также входит альтернативный инструмент для измерения конверсий. Это измерение конверсий по кликам с помощью версии API для обработки данных на уровне событий. Данный инструмент уже доступен в Chrome для тестирования сайтов как экспериментальная функция.

Борьба с мошенничеством и охрана конфиденциальности данных

С помощью токенов доверия API в Privacy Sandbox планируют бороться с рекламным мошенничеством. Технология планируется к запуску теста в мартовском релизе Chrome.

Проект Gnatcatcher призван бороться со сбором информации по следу пользователя, и всячески убирать «цифровой отпечаток» пользователя. С помощью технологии маскируется IP-адрес пользователя без потерь производительности ресурса.

Интересное по теме:
Google отказывается от third-party cookie

Разработчики планируют полностью перейти на новую политику безопасности в 2022.

Источник

Instagram представил приборную панель для бизнеса

Мы уже рассказывали о том, что прошлым летом Instagram запустил новый раздел Shop с товарами от известных блогеров и брендов. Затем, осенью, в IGTV появилась возможность покупки товаров. А совсем недавно для покупателей появилась новая функция — оставлять свои отзывы о покупке или магазине.

На днях Instagram представил новую профессиональную приборную панель для бизнеса.

Разработчики выделили для нее три основные функции:

  • Следить за эффективностью бизнеса. Изучать статистику на основе эффективности ваших аккаунтов.

  • Развивать ваш бизнес. С помощью специальных инструментов вы можете более эффективно управлять своей учетной записью, проверять статус монетизации и своего права на участие.

  • Держать в курсе. Подборка образовательных ресурсов и советов поможет вам всегда быть на острие времени и быть в курсе всех актуальных трендов.

Некоторые из инструментов уже были доступны до этого, однако руководство Instagram решило их объединить в единую профессиональную приборную панель. Она уже доступна для всех бизнес-аккаунтов и авторов.

Источник

Adblock
detector