Статьи

FlowCrawler програма для автоматизації браузера

FlowCrawler - програма для автоматизації браузера. Вона дозволяє автоматично збирати і / або публікувати дані в Інтернет. По суті, це візуальний конструктор спамерських пошукових роботів. У ньому все робиться мишкою, писати регулярки і селектори руками не обов'язково.

На відміну від традиційних парсеров і постерів, FlowCrawler НЕ заточений строго під певні сайти
На відміну від традиційних парсеров і постерів, FlowCrawler НЕ заточений строго під певні сайти. Замість цього, він дозволяє вам створювати будь-яку власну логіку у вигляді блок-схеми. Ви визначаєте алгоритм, а бот робить будь-яку роботу - парсит сайти або сторонні API, викачує файли, заповнює форми і багато чого ще. В рамках одного проекту бот може парсити і постити на безліч сайтів одночасно.

Найближчий (і, мабуть, єдиний) відомий аналог - знаменитий ZennoPoster. Однак, FlowCrawler це не клон ZP. Він використовує інший підхід до створення схем. І коштує набагато дешевше (про це в кінці поста).

Основні можливості програми

  • Засноване на Chromium;
  • Доступні версії для Windows (7 +) і Linux;
  • Повна натуральна емуляція браузера і живого користувача;
  • Парсинг: Направте FlowCrawler на потрібний URL і покажіть, яким шляхом ви хочете пройти по сайту і які частини сторінок витягти;
  • Легкість налаштування - ніяких регулярних виразів для вибірки зі сторінок;
  • Постинг: Автоматично заповнюйте форми і виконуйте будь-які дії на цільових сайтах;
  • Обробка даних: фільтруйте, змінюйте, комбінуйте будь-які дані (рядки, числа, JSON) в процесі парсинга;
  • Інтеграція з ОС: запускайте зовнішні програми з потрібними аргументами в процесі парсинга і читайте їх висновок, змінюйте локальні файли і папки;
  • Експорт в CSV, JSON, XML та інші формати;
  • Робота з файлами: читання, копіювання, видалення, створення папок, рекурсивне читання папок;
  • Робота з зображеннями: завантаження, зміна розміру, обрізка, збереження;

Емуляція живого користувача

  • FlowCrawler не відрізнити від живої людини для будь-якого сайту;
  • Всі сайти вантажаться в цьому браузері (в тлі або на увазі), що дозволяє обходити більшість перевірок на ботів;
  • Можливість емуляції дій миші, натискань, скролінгу, подій JavaScript і ін;
  • Можливість налаштування User Agent, Referer і інших заголовків;
  • Автоматичний підбір, підключення і ротація проксі;

Просту систему парсинга сайтів можна зробити на iMacros

Новости