- Notifications
You must be signed in to change notification settings - Fork0
Un caso de estudio aplicando técnicas de construcción de bases de datos y algoritmos de clasificación de datos con R
License
eocode/Amazon-Web-Scraping-y-Clusterizacion-con-R
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
Para el desarrollo del proyecto se tomo como base lo siguiente:
La compañía Patito quiere iniciar operaciones en México, lanzará una nueva línea de equipos celulares por lo que requiere de hacer un análisis de mercado para tomar decisiones que le ayuden a competir
Los pasos a realizar van en orden secuencial del 0 al 5 en el código, mismos que se describen, el caso completo se puede ver dentro del PDF incluído:PDF del caso de estudio ficticio para la empresa patitoPara ello se realizó lo siguiente:
Se identificaron posibles variables a extraer y se realizaron funciones para obtener la información:
- build_pagination_pages - Construye las páginas a consultar
- get_page_links - Obtiene los enlaces a los productos, en este caso de los celulares
- get_selector_text y get_selector_table - Configuran los selectores para la extracción de texto y tablas dentro del sitio
- get_product - Obtiene los datos del producto a extraer y lo deposita en un DataFrame para su revisión
Requiere el paquete RVEST
Se configuran las variables, indicando el sitio, termino a búscar y la estructura del paginador, así como la cantidad de páginas
base_url="https://www.amazon.com.mx"uri="/s?k=celulares"page="&page=x"start=1end=5
Posteriormente se ejecutan los comandos que llaman a las funciones del scraper y se guarda en un csv
La información no viene como la queremos, por lo que hay que limpiar y corregir ciertos valores
Para ello el dataset toma unicamente los valores continuos excluyendo factores del dataset para poder trabajar, y se realizan visualizaciones sencillas
Con nuestro modelo, ahora con ayuda de Plumber podemos montar una API que al ingresar nuevos datos nos de el clúster al que pertenece acorde a las variables de entrada
Finalmente se implementa el algoritmo con Shiny para desplegar nuestras variables en una herramienta visual e interactiva
Enviame un pull request o contactame como eocode en redes sociales
About
Un caso de estudio aplicando técnicas de construcción de bases de datos y algoritmos de clasificación de datos con R
Topics
Resources
License
Uh oh!
There was an error while loading.Please reload this page.

