Data verzamelen met web scraping

Check al onze cases en oplossingen

Data verzamelen van andere websites die jij in jouw website, webshop of business logics wilt gebruiken? Web scraping is een techniek om informatie te verzamelen van websites. Zo verzamel je data van één of meerdere websites die je vervolgens kan verwerken op een manier die werkt voor jouw bedrijf. 

Waarom webscraping?

Websites die veel data presenteren, zijn meestal alleen te bekijken via een browser. De data is niet zomaar in een bestand op te slaan dus wanneer je als gebruiker iets met die data wilt doen dan zit er niets anders op dan alles handmatig te copy/pasten. Dat is een hoop werk en soms praktisch onuitvoerbaar omdat het om hele grote hoeveelheden data gaat. Hier komt webscraping om de hoek kijken. Via een script dat je uitvoert op de website verzamel je met een druk op de knop de data die je wilt hebben om daar vervolgens alles mee te doen wat je wilt.

Webscraping kan niet zomaar

Webscraping is soms een grijs gebied. Of zelfs niet toegestaan. Dat is het geval wanneer je data waar copyright op rust gaat opslaan en daar zelf verder mee aan de slag gaat. Als je een idee hebt waarbij je webscraping wilt gebruiken, check dan dus goed van te voren of de data die je wilt scrapen vrij te gebruiken is.

Is webscraping complex?

Webscraping is soms heel complex en meestal arbeidsintensief. Dat komt omdat je heel precies van tevoren moet weten welke data je nodig hebt, hoe je dat wilt opslaan en waar je die data kunt vinden op je bron. Daarnaast is bij de meeste webscraping tools veel onderhoud vereist. Dat komt omdat de bron waar je de data van scraped nog weleens kan veranderen van structuur. En als de structuur van je bron verandert, dan moet je het scrapingscript daarop aanpassen.

Data verzamelen via web scraping

Voorbeelden van web scraping:

Er is een hele hoop data die je van het web kunt scrapen. Hieronder een lijst ter inspiratie.

  • Nieuws verzamelen
  • Beurskoersen verzamelen
  • Wedstrijduitslagen verzamelen
  • Publicaties verzamelen
  • Bellijsten samenstellen voor jouw call center(s)
  • Content beheer automatiseren (relevante drafts klaarzetten in jouw CMS)
  • Data verzamelen voor research
  • Een redactie-vrije of arme website (veel gebruikt in affiliate marketing)
  • Een live-wall maken van eigen online activiteit

Wat te doen met de data?

Als je je data eenmaal hebt gescraped kun je van alles met die data doen. Je kunt de data inschieten in jouw CMS, bijvoorbeeld een WordPress site, alwaar je draft berichten kunt klaarzetten gevuld met die data. Je kunt de data ook inschieten in een CRM zoals Salesforce. Je kunt de data ook opslaan als Excel, CSV of Google Docs bestanden.

Ook aan de slag met webscraping?

Bij Van Ons hebben we ruime ervaring met het scrapen van sites. Laat ons weten wat je plannen zijn!