Web scrapingWeb scraping (de l'anglès to scrap 'rasclar') és una tècnica de programari o software informàtic per extreure informació dels llocs web. En general, aquest tipus de programes de software simulen l'exploració humana del World Wide Web, ja sigui amb la implementació de baix nivell de protocol de transferència d'hipertext (HTTP), o amb la incorporació d'un navegador web, com pot ser Internet Explorer[1] o Mozilla Firefox.[2] El web scraping està molt relacionat amb la indexació de la web, que indexa informació de la web utilitzant un robot. Aquesta tècnica és una tècnica universal adoptada per la majoria dels motors de cerca. Per contra, el web scraping se centra més en la transformació de les dades no estructurades al web, generalment en format HTML, en dades estructurades que poden ser emmagatzemades i analitzades en una base de dades local, central o de full de càlcul. El web scraping també està relacionat amb l'automatització del web, que simula la navegació humana utilitzant software d'ordinador. Algun dels usos principals del web scraping són la comparació de preus en botigues, monitorar dades relacionades amb el clima de certa regió, detectar canvis en llocs webs o la integració de dades en llocs web. TècniquesEl web scraping és el procés de recopilar informació de forma automàtica del web. És un camp amb desenvolupaments actius, que comparteix un propòsit en comú amb la visió del web semàntic. Utilitza solucions pràctiques basades en tecnologies ja existents. Hi ha diferents nivells d'automatització que les existents tecnologies de web scraping poden oferir:
Qüestions legalsEl web scraping pot anar en contra dels termes d'ús d'alguns llocs webs. El compliment d'aquests termes no està totalment clar. Mentre que la duplicació d'expressions originals pot ser en molts casos il·legal, als Estats Units la cort va dictar en Feist Publications v. Rural Telephone Service que la duplicació de fets està permesa. Les corts dels Estats Units en certes ocasions han reconegut que certs usos dels scrapers no haurien d'estar permesos. Podria considerar-se un ordinador com una propietat personal, aleshores l'scraper estaria entrant sense autorització en aquesta propietat. En el cas més conegut, eBay vs Bidder’s Edge, la segona empresa va haver de parar de fer peticions automàtiques al lloc d'eBay. En aquest cas, Bidder’s Edge licitava automàticament per certs productes en aquest lloc. Una de les principals lluites al jutjats per scraping va involucrar American Airlines i una empresa anomenada FareChase. American Airlines va guanyar aquella batalla, fent que FareChase parés de vendre un programari que permetia als usuaris comparar tarifes en línia si el lloc d'American Airlines era inclòs. L'aerolínia va dir que les recerques de FareChase entraven sense autorització en els servidors quan recopilaven la informació públicament disponible. Southwest Airlines també ha estat víctima de pràctiques de web scraping, ha involucrat també FareChase i una altra empresa anomenada Outtask. Encara que les decisions actualment preses no són uniformes, és difícil ignorar que un patró està emergint, en el qual podem veure que les corts estan preparant-se per a protegir el contingut propietari en llocs webs comercials, preveient d'aquesta manera que aquest sigui utilitzat sense el consentiment dels propietaris dels llocs. No obstant això, el grau de protecció d'aquests continguts encara no està establert. Dependrà del tipus d'accés realitzat pels scrapers, de la quantitat d'informació recopilada i del grau en què aquests factors afecten el propietari del lloc web. Mesures tècniques per detenir els scrapersL'administrador d'un lloc web pot utilitzar diverses tècniques per a aturar o disminuir les comandes dels scrapers. Algunes tècniques inclouen:
Referències |
Portal di Ensiklopedia Dunia