Краулер (бот, паук, automaticindexer, ant, webspider, webscutter, поисковый робот) – специальная поисковая программа, которая является частью поисковой системы(Яндекс, Google и др.), и предназначенная для индексирования веб-сайтов.
Принцип работы поискового робота заключается в том, что он постоянно «бродит» по известным ему сайтам (те, которые проиндексированы), проходит по внутренним и внешним ссылкам и заносит новую информацию себе в базу. Сам по себе краулер представляет из себя аналогию веб-браузера, поэтому переход поискового робота от одной страницы к другой осуществляется по ссылкам, которые есть в теле веб-страницы.
Поисковый робот таким образом находит новые сайты, новые страницы и заносит себе в индекс, а также он фиксирует обновления на ранее известных ему страницах. Что интересно, поисковый бот способен определить частоту обновлений информации на вашей странице. Например, если у вас новостной сайт обновляется ежедневно, то поисковые боты будут посещать ваш сайт чаще, а если у вас бизнес страничка с описанием услуг компании, где контент не меняется годами, то и поисковый робот к вам будет ходить тоже раз в год.
Если вы только что создали сайт, вы должны обязательно дать знать о себе поисковым роботам. Это делается в специальной форме поисковых систем в панели веб-мастера Яндекс и Google. Также, размещение ссылок в социальных сетях и хороших новостных порталах, поможет быстрее проиндексировать ваш сайт. Только не стоит злоупотреблять — покупать ссылки на ваш сайт в огромном количестве с сомнительных ресурсов. Такой способ уже не работает, и можно попасть по фильтры поисковых систем (например, Минусинск Яндекса).
У каждой поисковой системы не один Краулер, а целое множество ботов, где каждый заточен под определённые задачи и посещает ваш сайт с разной периодичностью в разное время.
У Google есть свои поисковые роботы.
Важно отметить, что сайт можно найти через поиск (Яндекс, Google) не сразу же после того как его проиндексирует поисковый бот. Сначала всё записывается в базу данных, а потом уже происходит апдейт (обновление базы).
На грубом примере это выглядит так:
Сегодня 1 октября и в выдаче поисковых систем представлены веб-документы, которые были проиндексированы до 15 августа. Если поисковик «захотел», то он может сделать уже на следующий день новый апдейт, и в поисковой выдаче появятся обновления, которые сделаны с 15 августа до 22 октября, а если «захочет», то апдейт будет через месяц вообще. Это так работает Яндекс. Google же проводит обновления практически ежедневно.
Поисковые роботы также искажают данные в веб-аналитике в таких системах как Яндекс.Метрика и Google Analytics. Там поисковые роботы понимаются как обычные посетители. Однако поисковых роботов можно отфильтровать, если сделать определённые настройки в системах веб-аналитики.