Web-scraping або як автоматизувати абсолютно все

Web-scraping

З нашої статті про API ви могли дізнатися, що це спосіб вивантаження даних і подання їх частиною інтерфейсу в електронній таблиці. Цей спосіб дуже зручний і передбачає готові структуровані дані від першоджерела. Але що, якщо нам потрібна інформація, наприклад, про ціни на категорію товарів в інтернет-магазині.

Погодьтеся, було б непогано ці дані, наприклад, 230 сторінок по 100 штук на одній сторінці предметів, однією кнопкою вивантажити в формі таблиці, всього лише за півхвилини.

У цій статті ми розповімо, що таке web-scraping, і чим він може бути корисний фінансовому фахівцю. Ще його також називають веб-парсинг. Web-scraping це процес збору інформації з веб-сторінки. Цей метод грунтується на пошуку інформації за допомогою визначення елементів мови розмітки (html, xhtml).

Приклад кроків формування бази даних за допомогою Web-scraping:

  1. Виконання get-запиту (url сторінка на якій відображена потрібна інформація). Наприклад, в python це можна зробити за допомогою бібліотеки requests.
  1. Пошук і колекціонування даних. У цьому може допомогти бібліотека BeautifulSoup4. За допомогою методу find ми знаходимо потрібні нам елементи на сторінці. (Наприклад, картка якогось товару). Ви зможете помітити, що на будь-якому онлайн-магазині картки товарів зовні однакові. Тому швидше за все в html, кожен з об’єктів розмітки картки має однакові назви класів (ідентифікаторів). Якраз на них ми посилаємося при пошуку інформації. Відбір цих карток допоможе вам створити цикл, який знайде інформацію за всіма іншими картками посилаючись на ідентифікатор. Тепер ми маємо список з інформацією.
  2. Запуск в електронну таблицю CaseWare IDEA. Незабаром на нашому ютуб каналі вийде відео про те, як підключатися до програми IDEA за допомогою Python. І наскільки сильно це розширить ваші можливості не тільки в автоматизації процесів, але і в більш поглибленому аналізі даних.

За допомогою веб-парсинга, можна відкрити собі дорогу безмежного збору інформації в автоматизованому процесі аудиту і аналізу даних.