Web-scraping или как автоматизировать абсолютно все

Web-scraping

Из нашей статьи об API вы могли узнать, что это способ выгрузки данных и представления их интерфейсно в электронной таблице. Этот способ очень удобен и предусматривает готовые структурированные данные от первоисточника. Но что, если нам нужна информация, к примеру, о ценах на категорию товаров в интернет-магазине.

Согласитесь, было бы неплохо эти данные, например, 230 страниц по 100 штук на одной странице предметов, одной кнопкой выгрузить в форме таблицы, за какие-то пол минуты.

В этой статье мы расскажем, что такое web-scraping, и чем он может быть полезен финансовому специалисту. Еще его также называют веб-парсинг. Web-scraping это процесс сбора информации с веб-страницы. Этот метод основывается на поиске информации с помощью определения элементов языка разметки (html, xhtml).

Пример шагов формирования базы данных с помощью Web-scraping:

  1. Выполнение get-запроса (url страница на которой отображена нужная информация). Например, в python это можно сделать с помощью библиотеки requests.
  1. Поиск и коллекционирование данных. В этом может помочь библиотека BeautifulSoup4. С помощью метода find мы находим нужные нам элементы на странице. (Например, карточка какого-то товара). Вы сможете заметить, что на любом онлайн-магазине карточки товаров внешне одинаковы. Поэтому скорее всего в html, каждый из объектов разметки карточки имеет одинаковые название классов (идентификаторов). Как раз на них мы ссылаемся при поиске информации. Отбор этих карточек поможет вам создать цикл, который найдет информацию по всем остальным карточкам ссылаясь на идентификатор. Теперь мы имеем список с информацией.
  2. Запуск в электронную таблицу CaseWare IDEA. В скором времени на нашем ютуб канале выйдет видео как подключаться к программе IDEA с помощью Python. И насколько сильно это расширит Ваши возможности не только в автоматизации процессов, но и в более углубленном анализе данных.

С помощью веб-парсинга, можно открыть себе дорогу безграничного сбора информации в автоматизированном процессе аудита и анализа данных.