Автор: Дмитрий Лаврик
Дорогие друзья, предлагаю вашему вниманию полный курс по PHP-парсерам в записи! За два месяца мы разобрали множество полезных и увлекательных тем.
Вот ключевые из них:
- CURL: основы и хитрые приёмы Куки, авторизация, антикапча Правильная организация стадий парсинга PHPJqueryDOM и нативный класс-парсер Ускорение работы строковых ключей в БД (целочисленная хеш-техника) JS-морда — динамическая статистика вместо зависшего надолго PHP-скрипта Парсинг картинок с bing по ключевикам Модуль уникализации скачанных изображений
Урок 1
Умный CURL
- CURL — принципы работы Создание класса обёртки GET и POST запросы Работа с HTTPS Работа с куками Эмуляция всех заголовков браузера Фокусы keep alive Проксирование в теории Анализ заголовков Следование за редиректами
Организация парсинга
- Конфигурационные файлы для CURL Нативный парсинг MoveTo ReadTo ReadFrom Другие полезные функции Работа с PHPJqueryDOM Объекты и их свойства Селекторы и функции Сохранение результатов
Комбинированный парсинг
- Проблемы PHPJqueryDOM Доработка нативного класса Subtag Общая схема парсинга Разбор этапов парсинга Сохранение результатов в БД Класс-обёртка для PDO
Хранение скачанных данных
- Перенос данных в БД Таблица урлов: хорошее SEO + высокая скорость Нереальное ускорение - замыкаем урлы в кольцо чисел БД: хэш-таблица и коллизии Доработка класса БД Архитектурные изыски sender vs viewer
Фреймворк
- Организация PHP-классов Создание js-морды Две схемы: sender и viewer JS для ajax-парсинга JS для отображения статистики Плюсы и минусы каждой схемы Общая идея организации пауков
Противостояние
- Принцип работы капчи-картинки Пример создания простой капчи Антикапча Антикапча API Сохранение и передача изображения Ожидание и обработка результата Создание класса для антикапчи
Парсинг изображений
- Настройка парсера на bing Скачивание изображений Создание библиотеки для уникализации Работа с изображениями в PHP Освещение, обсцвечивание, сепия Отражение, повороты
Подведение итогов
- Доработка библиотеки для уникализации Приёмы уникализации Подведение итогов по темам Теория оценки рекламы Посетители * просмотры * CTR * стоимость Курс ещё не окончен
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.