Informe Numericos

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
FACULTAD DE CIENCIAS
ESCUELA DE FISICA Y MATEMATICA
CARRERA DE INGENIERIA EN ESTADISTICA E INFORMATICA
DISEÑO DE EXPERIMENTOS I
TEMA
CONGRESO INTERNACIONAL DE ESTADÍSTICA 2019

IV Congreso Internacional De Análisis Estadístico Implicativo Y Sus Aplicaciones
III De Estadística: Descubrimiento Científico Basado En El Uso Intensivo De Datos
REALIZADO POR:
KAREN ELIZABETH GUAMAN PALATE 622
NIVEL:
6to “A”
ING:
NANCY CAHARIGUAMAN
FECHA:
28-OCUBRE-2019
CURSO – TALLER 11
TEMA: Estadísticas con datos de fuentes no tradicionales - web scraping

FACILITADORES: David Caín, Diego Castillo
NO TRADICIONALES: REGISTRO ADMINISTRATIVO

Un registro administrativo es un conjunto de datos relacionados a entes o unidades de
observación (personas, empresas, inmuebles u otras), que son almacenados y utilizados son
distintos fines, usualmente no estadísticos, que las organizaciones públicas y privadas
mantienen como parte de su función, es decir creado con la finalidad de facilitar la
administración de sus actividades o sus necesidades fiscales, tributarias u otras.
objetos adminitrativos
Unidades administrativas
REGISTRO
ADMINISTRATIVO Variables administrativas
Metodologia
PROCESAMIENTO Proteccion de datos
ESTADÍSTICO DE
REGISTRO Herramientas tecnológicas
ADMINISTRATIVOS
poblacion estadistica
Unidades estadisticas
REGISTRO
ESTADISTICO Variables estadisticas
Metodologia
Herramientas Proteccion
tecnlogicas de datos.
FASE DE PROCESO DE GENERACIÓN DE ESTADÍSTICAS CON RA

Se debe tener en consideración la fase de proceso las cuales son
Planificación, Diseño y Construcción.
 Planificación
 Diseño
 Construccion
Datos
 Recopilación
 Procesamiento
Técnicas y Datos
 Análisis
 Difusión
 Evaluación
Aseguramiento de la calidad
Gestión de archivo.
Sistemas no tradicionales
WEB SCRAPING
Consiste en la construcción de un agente que permita descargar, organizar y analizar datos
procedentes de internet de forma automática.
Técnicas del Web Scraping
Esta técnica consiste en extraer datos de una web de forma automatizada.
Un scraper entra en un web, selecciona unos datos concretos y las copia en otro sitio
A menudo se nombra también como crawier,araña o bot.
Google, Facebook,Twitter y otraos muchos utilizan estas técnicas.
ARCHIVO ROBOTS.TXT
Conocido como protocolo de exclusión de robots,es un estándar basado en la web utilizando por
sitios web para intercambiar información con scripts automatizados. Lleva instrucciones sobre
su sitio o robots utilizado como directivas que permite,denegar.
Ejemplo:
Robots.txt de la página properati esta página es de ventas en esta se puede visualizar
propiedades en venta en cualquier destino del Ecuador.
MAPA DEL SITIO (SITEMAP)
Los sitios web proporcionan archivos sistema para ayudar a los rastreadores a localizar su
contenido actualizado sin necesidad de rastrear cada página web.
TAMAÑO DEL SITIO WEB
Estimar el tamaño de un sitio web nos puede ayudar a determinar qué tan eficiente debemos
construir nuestro script.
SOFTWARE DE TRATAMIENTO DE DATOS
rvest es una Liberia de R que nos permite realizar web scraping de una manera sencilla y
eficiente
read_htmal()
html_nodes()
html_tex()
PRACTICA
Se debe realizar el robots de la página properati
Conocer el precio, el área, la ubicación, y el tipo de propiedad de cada inmueble que se
encuentre en la página
Al realizar el web scraping se hizo en el software R en este debemos instalar librerías para
realizar el Scraping
Resultado obtenidos
Al realizar el comando de data frame se visualiza los datos obtenido en una tabla
ordenadamente
Para dar concluido el taller desde mi punto de vist puedo decir que el curso taller de web
scraping fue muy productivo ya que pudo conocer y aprender sobre registros administrativos al
realizar el scraping se pudo visualizar que cada rotulo o numero de una página web están
codificados y mediante ese codificación se puede visualizar todo un código de la página y
mediante estos código se puede visualizar cuantas personas están visitando la página y mediante
los comando en R se visualizó el numero de visitante, también se pude observar el área el
precio, el tipo de vivienda y la ubicación del inmueble, es decir que el scraping es una fuente no
tradicional muy útil para visualizar eventos que deseemos utilizando el software R, el taller fue
muy productivo porque se pudo aprender y conocer cosas que no se conocían.
Tema:
REGLAS DE ASOCIACIÓN CON R
Facilitador: Jesús Salinas
Para realizar las reglas de asociación con R se presenta una pequeña introducción a lo que
corresponde a la asociación y se puede mencionar como un claro ejemplo a la parábola de la
cerveza y los pañales este en un ejemplo significativo para aplicarlo en la regla de asociación.
Al analizar este ejemplo se puede decir que en la actualidad pasa ya que la cerveza y los
pañales es un clásico de la ciencia ya que al mezclar estos dos productos se evidencia que si se
puede dar la asociación entre diferentes productos y así se aplica la asociación en R.
Tomando en cuenta la parábola de la cerveza y los pañales se realizó un estudio en el cual
Thomas B, descubrió e hizo un análisis que de 5 pm a 7pm los consumidores compraban
cerveza y pañales ya que en esto no se estableció ninguna correlación ni edad, ni sexo. Por lo
cual se llevó una relación de los dos productos y así nació la regla de asociación.
Análisis de canasta (Market Basket Analysis)

Una vez realizado el análisis de canasta podemos observar que existe relaciones o asociaciones
o correlaciones entre los diferentes productos adquiridos o comprados En el mini Market ya sea
de diferente costo(valor), pero nos enfocaremos a lo que es cerveza y pañales adquiridos en
Walmart.
En la imagen se puede observar que al comprar un producto siempre existir una asociación de
productor que serán necesario en la comprar ya que si compramos un celular necesariamente
necesitamos la mica de vidrio, y sus respectivo estuche es entonces que nace la asociación que
así podemos comprar varios productos a la comprar de un producto.
A esto podemos observar y dar un ítem a los artículos comprados en Walmart por ejemplo uno
código designado para un producto especificado como leche otro para pañales y cerveza y otro
para leche pañales y cerveza de que van a tener un código específico para cada uno de estos
ejemplos a esto lo llamamos ItemSet.
 Al realizar una ecuación para ver si existe una buena asociación es bueno definir y crear
una regla de esta es decir para que los clientes compren una gaseosa que propensos son
para comprar un jugo por cliente promedio eso es lo que una relación básica que
podemos tratar para poder ver que exista una regla buena de asociación y así se lo puede
realizar también en otros productos que existen en Walmart.
También se debe tomar encuenta el soporte ya que este nos ayudar a observar que un
itenset aparece dentro de los datos, esto quiere decir que en cada itemset se observa el
numero de productos adquiridos por los clientes.
Regla de asociación
Al realizar la refla de asociación se puede realizar la confianza del producto adquiridos los
clientes como claro ejemplo se puede observar que la confianza de la regla es que si un cliente
compra jugo entonces también comprara gaseosa al realizar la forma se observa que el 50 % de
los clientes compraran jugo y gaseosa.
Formula dela confianza:
Soporte (X ,Y )
onfianza (X →Y )=
Soporte(X )
Una vez realizado la regla de asociación se procede a realizar un levantamiento (Lift) al cual nos
define como la relación entre la frecuencia entre que se realiza las transacciones es decir la
confianza y el soporte de las ventas ya sea posterior o previa de los productos.
Al realizar el levantamiento se define como la relación entre la frecuencia con que el
consecuente se encuentra en las transacciones que consiste al antecedente, dividida entre las
frecuencias de la confianza de los datos.
Al realizar el levantamiento se debe tener encuentra su Lift ya que cada Lift indicara en que
posición se encuentra el levantamiento para la toma de decisiones de la regla de asociación.
Aquí podemos observar un ejemplo de lo que es caso compra de cerveza y pañales en Walmart.
Así mismo podemos mencionar que existe ventajas y desventajas entre productos eso sí no
existe asociación entre ellos.
Al realizar este ejemplo se debe tener encuentra todo lo aprendido como es el soporte la
asociación y el Lift para llegar a una conclusión clara y precisa de los productos adquiridos por
los clientes.
Aplicación de las reglas de asociación.
Se debe tener a consideración las siguientes reglas para una b uena asociacon de productos.
 Ordenamiento de productos
 Patrones de navegación
 Promociones de pares de productos, diseño de catalogo
 Descuento especifico por cliente.
Se debe tener encuenta las ventajas y las desventajas que ofrece las reglas de asocioan para
adquirir un producto.
Se debe recalcar que existen algoritmos para dar solución de problemas de asociación como la
A priori , FP- Growth, ECLAT y CARMA.
Algoritmo APRIORI
Se debe tener a consideración las ventajas y las desventajas que proporciona el Algoritmo A
priori
Ventajas
 En comparacion con los otros dos es el mas facil y simple de realizar

 Elimina transacciones (elementos en la base de datos) que no contribuye en
superconjuntis a cnsiderar.
 Divide las trasaciones en particiones disjuntas,evaluar iteset locales y luego , en base a
sus resultados,estimar los globales.
 Hace aproximaciones con muestreo en la lista de productos,para no tener que leer todos
los datos.
Desventajas
 La principal desventaja de algoritmo es el número de veces que se tienen que escanear

los datos en busca de los itemsets frecuentes.
 El algoritmo escanea todas las transacciones un total de kmax+1, donde kmax es el
tamaño máximo de itemset permitido.
 Esto hace que el algoritmo A priori no pueda aplicarse en situaciones con millones de
registros.
 Sin embargo, se han desarrollado adaptaciones (FP-growt,Eclat,Hash-
Based,partitioning,etc que solucioan esta limitación.
Para realizar el Algoritmo A priori se debe poder generar reglas de asociación se tiene que
seguir los siguientes pasos:
1. Identificar todos los itemsets que ocurre con una frecuencia por encima de un
determinado limite (umbral mínimo de soporte)
2. Convertir esos itemses frecuentes en reglas de asociación que cumplan con un umbral
mínimo de confianza
Generacion de los itemset frecuentes
La generarción de los itemset nos ayuda a conocer los principios de Monotonocidad estos nos
ayudara a conocer cual de los subconjuntos de los itemset son frecuentes, es decir cual de ellos
se tomara encuenta para realizar los principios de Monotonocidad.
Una vez realizada la selección de todos los algoritmos se observa los casos posibles para
realizar el algoritmo, al obtener todos los casos posibles del algoritmo se puede establecer una
confianza mínima.
REGLAS REDUNDANTES
Se debe tener en cuenta que
 Dos reglas son idénticas si tienen el mismo antecedente (parte izquierda) y consecuente
( parte derecha)
 Supóngase ahora que una de estas reglas tienen en sus antecedente los mismo ítems que
forman el antecedente de la otra, junto con algunos ítems masa. La regla mas genérica
se considera redundante ya que no aporta información adicional.
 En concreto se considera qu una regla X = Y es redundante si existe un subset X tal que
existe una regla X= Y cuyo soporte es mayor.
GROCERIES Y RETAIL
En los ejemplo de groceries nos ayuda a conocer los datos que contienen cada
transacciones, y en el ejemplo de Retail ayudan a observar las variables demográficas y
categóricas de los productos a consumir.
 Para culminar podemos relacionar otros productos como es el streaming a redes sociales
la compra electrónica mediante internet estos podemos decir que son reglas más fáciles
o aplicaciones que encuentran patrones en cada una de ellas para poder realizar una
mejor asociación entre producto y cliente y como empresas grandes multinacionales
tenemos lo que es Netflix, Twitter, Amazon, Facebook Uber, Cabify entre otras más.

Informe Numericos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe Numericos

Cargado por

Copyright:

Formatos disponibles

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO

ESCUELA DE FISICA Y MATEMATICA

CARRERA DE INGENIERIA EN ESTADISTICA E INFORMATICA

CONGRESO INTERNACIONAL DE ESTADÍSTICA 2019

KAREN ELIZABETH GUAMAN PALATE 622

TEMA: Estadísticas con datos de fuentes no tradicionales - web scraping

NO TRADICIONALES: REGISTRO ADMINISTRATIVO

FASE DE PROCESO DE GENERACIÓN DE ESTADÍSTICAS CON RA

Análisis de canasta (Market Basket Analysis)

 En comparacion con los otros dos es el mas facil y simple de realizar

 La principal desventaja de algoritmo es el número de veces que se tienen que escanear

Generacion de los itemset frecuentes

También podría gustarte