Если программирование — магия, то веб-скрапинг — настоящее колдовство. Написав простую автоматизированную программу, можно отправлять запросы веб-серверам, получать ответы с данными, а затем анализировать эти данные и извлекать необходимую информацию. Это обновленное третье издание книги не только познакомит вас с веб-скрапингом, но и послужит исчерпывающим руководством по сбору практически любых видов данных в современном Интернете. В части I основное внимание уделено механике веб-скрапинга: как с помощью Python отправлять запросы веб-серверам, обрабатывать ответы и автоматизировать взаимодействие с сайтами. В части II исследуются более конкретные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга. Книга покажет, как: • анализировать сложные HTML-страницы; • разрабатывать веб-сканеры с помощью фреймворка Scrapy; • хранить данные, полученные с помощью скрапинга; • читать и извлекать данные из документов; • очищать и нормализовывать плохо отформатированные данные; • читать и записывать информацию на естественных языках; • выполнять поиск по формам и страницам входа; • выполнять скрапинг javascript-кода и работать с API; • писать и использовать программы для преобразования изображений в текст; • обходить противоскрапинговые ловушки и блокаторы ботов; • тестировать свои веб-сайты с помощью скрапинга.
Теоретически веб-скрапинг - это сбор данных с помощью любых средств, кроме программ, использующих API (или через браузер пользователя). Чаще всего для этого пишут программу, которая автоматически отправляет запрос на веб-сервер, получает данные ( обычно в формате HTML или других форматах веб-страниц), а затем парсирует их для извлечения полезной информации.
На практике веб-скрапинг и парсинг включают в себя широкий спектр методов и технологий программирования, таких как анализ данных, синтаксический анализ естественного языка и информационная безопасность. Поскольку эта область очень широка, в первой части книги будут рассмотрены фундаментальные основы веб-скрапинга и краулинга, а во второй - более углубленные темы. Я рекомендую всем читателям внимательно изучить первую часть и по мере необходимости погружаться в более специализированные разделы второй части.
Добро пожаловать в «Python с нуля»! Эта книга даст вам основные знания и инструменты, которые помогут стать опытным разработчиком на Python — универсальном, мощном и доступном языке программирования. Вы узнаете, почему Python стал одним из самых популярных языков программирования в мире и что делает его отличным выбором и для начинающих, и для опыт ...
Python — первоклассный инструмент, и в первую очередь благодаря наличию множества библиотек для хранения, анализа и обработки данных. Отдельные части стека Python описываются во многих источниках, но только в новом издании «Python для сложных задач» вы найдете подробное описание: IPython, NumPy, Pandas, Matplotlib, Scikit-Learn и др. Специалисты по ...
В книге рассказывается о том, как использовать генеративные текстовые модели поколений GPT-3.5 и GPT-4 для создания приложений различного назначения, в числе которых интерактивный психотерапевт, интеллектуальный голосовой помощник, система рекомендации товаров, генератор заметок в соцсетях, система распознавания речи и многие другие. Вы научитесь и ...
Книга рассказывает о языке программирования javascript, разработке на нем как программ общего назначения, выполняющихся в среде Node.js, так и скриптов для веб-страниц. Даны основы javascript: типы данных, операторы, работа с числами, строками, датой и временем, массивами, функции, классы (как старого, так и нового синтаксиса), итераторы, ...
Новое издание признанного бестселлера, описывающее как клиентские, так и серверные аспекты веб-разработки. Эта книга поможет вам освоить динамическое веб-программирование с применением самых современных технологий. Книга наполнена ценными практическими советами, содержит подробный теоретический материал. Для закрепления материала автор рассказывает ...
Данный материал НЕ НАРУШАЕТ авторские права никаких физических или юридических лиц. Если это не так - свяжитесь с администрацией сайта. Материал будет немедленно удален. Электронная версия этой публикации предоставляется только в ознакомительных целях. Для дальнейшего её использования Вам необходимо будет приобрести бумажный (электронный, аудио) вариант у правообладателей.