Парсинг (от англ. parse — «разбор») — обработка интернет-ресурсов с целью сбора какой-либо информации.
Парсинг означает разбор содержимого страницы на отдельные составляющие. Это можно делать и вручную, но намного чаще процесс является автоматическим — при задействии специальных программ («парсеров»). Объектом парсинга может быть справочник, интернет-магазин, форум, блог и абсолютно любой интернет-ресурс.
Отличный пример парсера — это поисковые системы. Их роботы буквально считывают информацию с сайтов и хранят данные об их содержимом в своих базах. И тогда стоит ввести поисковый запрос в специальную строку — они выдают самые подходящие и актуальные сайты.
Парсинг сайтов — это отличный способ автоматизировать процесс сбора и хранения информации. С помощью парсинга можно создавать и обновлять сайты, схожие по оформлению, содержанию и структуре. Задачи могут быть самые разные — например, скопировать все статьи из Википедии или достать все телефонные номера, которые есть на доске объявлений.
В SEO парсинг чаще используют для получения контента для дальнейшего рерайта или репостинга, или для поиска каких-либо веб-ресурсов — форумов, блогов, e-mail-адресов. Также популярен парсинг внешних ссылок для анализа сайтов-конкурентов и обнаружения доступных трастовых сайтов.
Парсинг существенно ускоряет процесс работы с ключевыми словами. Настроив работу, можно оперативно подобрать необходимые для продвижения запросы. После кластеризации по страницам можно подготовить SEO-контент с учетом максимального количества ключей.
Интерфейс парсера Netpeak Spider
Кроме этого парсинг необходим для оценки технической стороны сайта. Он выявляет большинство технических ошибок, находит битые ссылки, неисправные редиректы, показывает, правильно ли настроен robots.txt, уровни вложенности и многое другое.
Интернет-магазины иногда используют парсинг для первичного наполнения сайта. В парсер загружают прайс-лист поставщика. Затем программа сканирует, например, Яндекс.Маркет, производя лингвистический анализ товаров, сравнивая товары поставщика и товары, которые есть на Яндекс.Маркете. Товары, которые были идентифицированы, парсер сохраняет в свою базу. А потом их выгружают на сайт интернет-магазина.
Программа-парсер может быть написана на любом языке программирования (PHP, C++, Delphi и других), где присутствует поддержка регулярных выражений. Это набор метасимволов, используемых для поиска необходимых данных.
Сохранение данных происходит в формате, заданном программистом. Это может быть табличный документ, XML-, SQL-, TXT- или другой файл.
См. также
Анкор
Биржа ссылок
Дублированный контент
Саттелит
Индекс цитируемости
Канибализация трафика