Movatterモバイル変換

Web scraping

De Wikipedia, la enciclopedia libre

Web scraping oraspado web es una técnica utilizada medianteprogramas de software para extraer información desitios web.^[1] Usualmente, estos programas simulan la navegación de un humano en laWorld Wide Web ya sea utilizando elprotocolo HTTP manualmente, o incrustando unnavegador en unaaplicación.

Elweb scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando unrobot y es una técnica universal adoptada por la mayoría de losmotores de búsqueda. Sin embargo, elweb scraping se enfoca más en la transformación de datos sin estructura en la web (como el formatoHTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento. Alguno de los usos delweb scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs. También es utilizado para obtener información relevante de un sitio a través de losrich snippets.

Un raspador web utiliza laURL de un sitio web para extraer datos, almacenándolos en una base de datos u hoja de cálculo local o central para un análisis posterior. Este método de web scraping permite la extracción de datos de manera eficiente y precisa.^[2]

En los últimos años el web scraping se ha convertido en una técnica muy utilizada dentro del sector delposicionamiento web gracias a su capacidad de generar grandes cantidades de datos para crear contenidos de calidad.^[3]

Técnicas

[editar]

Web scraping es el proceso de recopilar información de forma automática de la Web. Es un campo con desarrollos activos, compartiendo un propósito en común con la visión de laWeb semántica. Utiliza soluciones prácticas basadas en tecnologías existentes que son comúnmentead hoc. Existen distintos niveles de automatización que las existentes tecnologías de Web Scraping pueden brindar:

«Copiar y pegar» humano: algunas veces incluso las mejores técnicas deweb scraping no pueden reemplazar el examen manual de un humano, y a veces esta puede ser la única vía de solución cuando el sitio que tenemos en mente pone ciertas barreras para prevenir que se creen softwares para realizar tareas automáticas en este.
Uso deexpresiones regulares: una posible vía para extraer información de páginas webs pueden ser las expresiones regulares, aunque comúnmente no se recomienda utilizarlas para parsear el formatoHTML.
Protocolo HTTP: páginas webs estáticas y dinámicas pueden ser obtenidas haciendo peticiones HTTP al servidor remoto utilizando sockets, etc.
Algoritmos deminería de datos: muchos sitios webs tienen grandes colecciones de páginas generadas dinámicamente a partir de una base de datos. Datos de la misma categoría aparecen usualmente en páginas similares mediante unscript o una plantilla. En la minería de datos, un programa detecta estas plantillas en un contexto específico y extrae su contenido.
Parsers de HTML: Algunos lenguajes, comoXQuery y HTQL pueden ser utilizados para parsear documentos, recuperar y transformar el contenido de documentosHTML.
Aplicaciones paraweb scraping: existen muchas aplicaciones disponibles que pueden ser utilizadas para personalizar soluciones de Web Scraping. Estas aplicaciones podrían reconocer automáticamente la estructura de cierta página o brindar una interfaz al usuario donde este pudiera seleccionar los campos que son de interés dentro del documento. De esta forma no es necesario escribir manualmente código para realizar estas tareas.
Reconocimiento de información semántica: las páginas que son analizadas podrían incluir metadatos o cierta información semántica como anotaciones o comentarios, los cuales pueden ser usados comúnmente. Si estas anotaciones están en las mismas páginas, como sucede con losmicroformatos, estas podrían ser de utilidad cuando parseamos elDOM del documento. En otro caso, las anotaciones, organizadas en una capa semántica, son almacenadas y manejadas de forma separada desde otras páginas, por lo que los scrapers pueden recuperar estos esquemas y las instrucciones desde esta capa antes de analizar los documentos.^[4]

Cuestiones legales

[editar]

Elweb scraping podría ir en contra de los términos de uso de algunos sitios webs. El cumplimiento de estos términos no está totalmente claro.^[5] Mientras que la duplicación de expresiones originales puede ser en muchos casos ilegal, enEstados Unidos los tribunales dictaron en el caso Feist Publications v. Rural Telephone Service que la duplicación de hechos es permitida. Los tribunales de Estados Unidos en ciertas ocasiones han reconocido que ciertos usos de losscrapers no deberían estar permitidos. Podría considerarse una computadora como una propiedad personal, y de esta forma elscraper estaría entrando sin autorización en esta propiedad. En el caso más conocido,eBay vs Bidder's Edge, la segunda empresa tuvo que parar de realizar peticiones automáticas al sitio de eBay. En este caso, Bidder's Edge pujaba automáticamente por ciertos productos en este sitio.

Una de las principales pruebas de scraping involucró aAmerican Airlines y a una empresa llamada FareChase. American Airlines ganó esta batalla, haciendo que FareChase parara de vender un software que les permitía a los usuarios comparar tarifas en línea si el sitio de American Airlines era incluido. La aerolínea dijo que las búsquedas de FareChase entraban sin autorización en los servidores cuando recopilaban la información públicamente disponible.

Aunque las decisiones actualmente tomadas no son uniformes, es difícil ignorar que un patrón está emergiendo, en el cual podemos ver que los tribunales están preparándose para proteger el contenido propietario en sitios webs comerciales, previendo de esta forma que este sea utilizado sin el consentimiento de los propietarios de los sitios. Sin embargo, el grado de protección de estos contenidos aún no está establecido, y dependerá del tipo de acceso realizado por los scrapers, de la cantidad de información recopilada y del grado en el que afecten estos factores al propietario del sitio web.

Medidas para detener a losscrapers

[editar]

El administrador de un sitio web puede utilizar varias técnicas para detener o disminuir los pedidos de los scrapers. Algunas técnicas incluyen:

Añadir entradas al ficherorobots.txt. Algunos bots pueden ser detenidos de esta forma. Hay personas que piensan que el bot deGoogle puede ser detenido así, cosa que el propio buscador ha negado.^{[cita requerida]}
Bloquear ladirección IP. Esto también bloqueará todos los accesos desde esa misma IP, por lo que los usuarios no podrán navegar por el sitio web si acceden desde esta.
Deshabilitar cualquierinterfaz de programación de aplicaciones que el sitio web pudiera estar brindando.
Los bots o scrapers algunas vecesdeclaran quienes son, y gracias a esto pueden ser bloqueados. «Googlebot» es un ejemplo. Algunos scrapers no hacen lo queel bot de G., para que no se pueda distinguir entre un navegador común y ellos.
Monitorear el exceso de tráfico proveniente de cierta IP.
Añadir uncaptcha u otro sistema de verificación manual al sitio web. No se garantiza el completo bloqueo de los scrapers, pero mediante esta técnica se dificulta el acceso de los mismos a los sitios webs.
Servicios comerciales antibots: algunas empresas ofrecen servicios antibots yantiscraping.^[6]
Incrementar el uso deJavaScript yAJAX. De esta forma es más difícil para losscrapers simular las peticiones como si fueran un navegador común, aunque hará que usuarios legítimos dejen de poder ver la página.

La mayoría de estos métodos suponen una merma importante en la usabilidad del sitio web en cuestión y los beneficios pueden ser muy puntuales.

Beneficios

[editar]

Pese al planteamiento negativo de ciertos sectores, el rastreo automático y scraping son muy importantes para mantener la historia de Internet. Las iniciativas de archivado web se basan mayoritariamente en esta técnica.

Herramientas notables

[editar]

Véase también

[editar]

Referencias

[editar]

↑Martí, Marq (8 de abril de 2016).«¿Qué es el Web scraping? Introducción y herramientas»(html).Sitelab España. Archivado desdeel original el 29 de julio de 2017. Consultado el 30 de marzo de 2020. «El web scraping es una técnica que sirve para extraer información de páginas web de forma automatizada. Si traducimos del inglés su significado vendría a significar algo así como “escarbar una web”.»
↑Singrodia, Vidhi; Mitra, Anirban; Paul, Subrata (2019-01).A Review on Web Scrapping and its Applications. IEEE. pp. 1-6.ISBN 978-1-5386-8260-9.doi:10.1109/ICCCI.2019.8821809. Consultado el 1 de marzo de 2024.
↑Martí, Marq (8 de abril de 2016).«¿Qué es el Web scraping? Introducción y herramientas»(html).Sitelab España. Archivado desdeel original el 29 de julio de 2017. Consultado el 30 de marzo de 2020. «Para controlar la imagen y la visibilidad de nuestra marca en internet: a través de un scrapeo podemos automatizar la posición por la que varios artículos de nuestra web se posicionan en Google o, por ejemplo, controlar la presencia del nombre de nuestra marca en determinados foros. Ejemplo: rastrear la posición en Google de todas las entradas de nuestro blog.»
↑«What is FreeFormat».www.gooseeker.com(en inglés). Consultado el 15 de mayo de 2024.
↑«FAQ about Linking -- Chilling Effects Clearinghouse».web.archive.org. 8 de marzo de 2002. Archivado desdeel original el 8 de marzo de 2002. Consultado el 15 de mayo de 2024.
↑https://s3.us-west-2.amazonaws.com/research-papers-mynk/Breaking-Fraud-And-Bot-Detection-Solutions.pdf

Control de autoridades	Proyectos Wikimedia Datos:Q665452 Multimedia:Web scraping /Q665452

Datos:Q665452
Multimedia:Web scraping /Q665452

Obtenido de «https://es.wikipedia.org/w/index.php?title=Web_scraping&oldid=170035706»

Categorías:

Categoría oculta:

Wikipedia:Artículos con pasajes que requieren referencias

[8]ページ先頭