Datenanalyse: Web Scraping mit Python

Web Scraping mit Python Social-Media-Plattformen, Onlineshops, Börsenkurse, Preisvergleiche, Produktbewertungen, Sportstatistiken: Solche Websites bergen eine Fülle an Informationen, die für uns relevant sein können.

Artikel von Antony Ghiroz veröffentlicht am
Für Web Scraping in Python gibt es viele leistungsfähige Bibliotheken und Frameworks.
Für Web Scraping in Python gibt es viele leistungsfähige Bibliotheken und Frameworks. (Bild: Pixabay / Montage: Golem.de)

In zahlreichen Projekten benötigen wir Zugriff auf Daten aus verschiedenen Quellen im Internet. Sei es für umfangreiche Machine-Learning-Projekte, die Aggregation von Produkttestergebnissen und Preisdaten zur Unterstützung von Kaufentscheidungen, für Wettbewerbsanalysen, Marktstudien, Preisvergleiche oder zur Erstellung von Datengrundlagen für weitere Analysen und Entscheidungen.

Je größer das Datenvolumen und die Anzahl der unterschiedlichen Websites als Datenquellen sind, umso aufwendiger ist die Datenakquise. Die manuelle Beschaffung und Zusammenführung der benötigten Informationen aus diversen Websites ist oft mühsam und zeitintensiv. Wir erklären in einer mehrteiligen Serie, wie man mit Web Scraping Daten von einer Webseite extrahiert, sammelt und in verschiedene nützliche Formate exportiert.


Weitere Golem-Plus-Artikel
Text-zu-Video: Wie Videogeneratoren die Welt sehen
Text-zu-Video: Wie Videogeneratoren die Welt sehen

Damit ein neuronales Netzwerk aus einer Textbeschreibung ein plausibles Video macht, muss es verstehen, wie unsere Welt funktioniert. Wir erklären, wie es das schafft.
Ein Deep Dive von Tim Elsner


Web Scraping mit lxml: Hungrig auf große Datenmengen
Web Scraping mit lxml: Hungrig auf große Datenmengen

Web Scraping mit Python Die Python-Bibliothek lxml scrapt besonders ressourcenschonend und ist deshalb gut für große Datenmengen. Unbegrenzt sind ihre Möglichkeiten aber nicht.
Eine Anleitung von Antony Ghiroz


Baader-Meinhof im Code: Wenn die Neuentdeckung plötzlich allgegenwärtig ist
Baader-Meinhof im Code: Wenn die Neuentdeckung plötzlich allgegenwärtig ist

Wie eine kognitive Täuschung unsere Sicht auf IT-Trends verzerrt, und was wir daraus lernen können.
Von Tim Reinboth


Aktuell auf der Startseite von Golem.de
Eurofighter Typhoon
Erneut geheime Daten im War-Thunder-Forum

Um seinen Standpunkt in einer Diskussion um Radarfähigkeiten zu beweisen, veröffentlichte ein Nutzer eingeschränkt zugängliches Material.

Eurofighter Typhoon: Erneut geheime Daten im War-Thunder-Forum
Artikel
  1. Millionenschaden: Pastor bestiehlt Kirchgänger mit Krypto-Scam
    Millionenschaden
    Pastor bestiehlt Kirchgänger mit Krypto-Scam

    Der Mann soll über 1.500 Personen mit einem Krypto-Schneeballsystem um mindestens 5,9 Millionen US-Dollar betrogen haben. Nun geht der Fall vor Gericht.

  2. Tally Robot von Simbe: Kaufland setzt Roboter im Supermarkt ein
    Tally Robot von Simbe
    Kaufland setzt Roboter im Supermarkt ein

    In mehreren deutschen Filialen lässt Kaufland die Regalbestände von Robotern scannen. Zum Einsatz kommen Modelle von zwei Herstellern.

  3. Dune Prophecy: Enttäuschend bis zum Schluss
    Dune Prophecy
    Enttäuschend bis zum Schluss

    In Dune: Prophecy passiert erst kaum Spannendes, dann in der letzten Folge alles Wichtige auf einmal. Doch auch das Staffelfinale enttäuscht.
    Eine Rezension von Daniel Pook

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Finde einen Job mit
Mach dich schlauer mit
    •  /