Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
estadística R y Python.
Modelos y Cartografía:
5 Estadística, desde de los modelos de regresión, y
representación en mapas.
Sesión 1:
Exploración de la
Herramienta Estadística
R-Project
6
R-Project
Software de lenguaje y programación estadística
Sobre “R-Project”
Es un lenguaje de programación y un entorno para el cálculo estadístico y elaboración de gráficas básicas avanzadas; es una implementación de código abierto del lenguaje S (S-
Pluss), desarrollado por los Laboratorios Bell. Escrito inicialmente por Ross Ihaka y Robert Gentleman a mediados de los años 90.
Es uno de los programas estadísticos más conocidos por su capacidad para trabajar con grandes bases de datos y por poseer la mayoría de los análisis de última generación.
En R se pode realizar análisis hasta con 2 millones de registros y mas de 250.000 variables. Es un programa amplio y flexible de análisis estadístico y gestión de información
capaz de trabajar con datos procedentes de distintos formatos proporcionando, desde sencillos gráficos de distribuciones y estadísticos descriptivos, hasta análisis estadísticos
complejos que permiten descubrir relaciones de dependencia e interdependencia, establecer clasificaciones de sujetos y variables, predecir comportamientos, etc.
7
Windows:
10
Windows: Click
en “base”
11
Consola
14
demo(graphics)
# (Dar enter después de observar un poco la gráfica)
demo(persp)
# (Dar enter después de observar un poco la gráfica)
install.packages(“rgl”)
library(rgl)
open3d()
plot3d( iris[,1:3], type="s", size=1.2, col=rainbow(3))
15
library()
#Para ver la lista de librerías disponibles para ser cargadas.
# En Windows se puede hacer por menús.
search()
#Para ver la lista de librerías ya cargadas
ls(4)
#Para ver las funciones del paquete stats
16
#Inicio de volcado
sink("resultado.txt")
#Fin de volcado
sink()
source("c:/programas/comandos.R") #Manera 2
22
Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser:
Escalares (números, caracteres, lógicos (booleanos), factores),
Vectores/matrices/listas de escalares, Funciones, Objetos ad-hoc
#Vectores de caracteres
d=c("a", "b", "f")
24
La función is.na retorna TRUE tanto para los NA como para los NaN.
Mientras que la función is.nan sólo retorna TRUE para los NaN.
30
#Generamos un vector de 1 a 10
x <- 1:10
# cond1 vector lógico, de la misma longitud que x, donde cada casilla
# nos dice si la correspondiente casilla de x cumple la condición x>7.
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE
Dataframe son matrices donde las diferentes columnas pueden tener valores de
diferentes tipos.
organismo=c("Humano","Ratones","Frutas", "Plantas","Peces")
PesoGrm=c(75000,30,135,97,500)
Frecuencias=c(30000,30000,13061,19099,6034)
Excel - CSV
x=read.table(file.choose(), header=T, sep=“;")
36
library(RODBC)
conexion<-odbcConnectExcel() # En esta línea se selecciona el archivo
Datos<-sqlQuery(channel=conexion,"select * from [Hoja1$]")
close(conexion)
Datos
37
• Mapas temáticos:
• tmap package
• Otras visualizaciones:
• Tableplots (tabplot package )
• Treemaps (treemap package )
• Gráficos estándar con énfasis en valores perdidos(VIM package)
41
• data
• mapping / aestetics
• geoms
• stats
• scales
• coord
• facets
42
Position: x,y,z
Color: color, fill
Shape: shape
Geom:
Objetos Geométricos:
También márgenes:
• geom_errorbar(), geom_pointrange(), geom_linerange().
• Note: they require the aesthetics ymin and ymax.
Stat:
Transformación estadística: "identity ", " bin ", " count ", " lm "
La mayoría de los geoms tienen estadísticas predeterminadas (y viceversa)
geom y stat forman una capa
Una o más capas forman un gráfico:
Coord
Se dibuja un gráfico en un sistema de coordenadas.
Esto puede ser transformado, por ejemplo, un gráfico circular tiene un sistema de coordenadas polares.
46
Facets:
Un mapa temático es una visualización donde se muestra información estadística con un componente
espacial.
Los mapas temáticos también se pueden hacer con otros paquetes de R, pero tienen algunos
inconvenientes:
Trama (del paquete sp) inconveniente: requiere trabajo manual.
ggplot2, desventajas: los datos están en formato largo, el diseño no está hecho para mapas, las
proyecciones de mapas no son fáciles de manejar.
La sintaxis de tmap se basa en ggplot2 y Grammar of Graphics, pero funciona con fluidez con objetos
espaciales de los paquetes sp y raster.
Referencia: Tennekes, M. (2016). tmap: Thematic Maps in R. Forthcoming in Journal of Statistical Software.
tmap_mode("plot")
tm_fill("population", convert2density=TRUE, style="kmeans", ## tmap mode set to plotting
title="Population per km2")
data(NLD_muni)
tmap_mode("view") tm_shape(NLD_muni) +
tm_polygons("perc_men", palette = "RdYlBu") +
tm_shape(World) + tm_facets(by = "province")
tm_polygons("HPI")
49
Ventanas:
Tinn-R (windows)
RStudio cloud
50
library(Rcmdr) R- Comander
51
Analítica de Datos
We make great solution to your problem
INFOMEDIA SOCIAL
Hoy en día, gran parte de la información se encuentra disponible en la red,
de acuerdo a la ley 1712 de 2014 – Ley de Transparencia: DATOS ABIERTOS.
D a t a
58
Encuestas a la ciudadanía
Estudios sociodemográficos de personas, hogares, consumo, hábitos, gastos transporte y educación E
Reportes anuales de entidades del estado
Informe de actividades comerciales, sus reportes, sus exportaciones, con bastante grado de detalle. R
Portales
Por la ley de transparencia, gran cantidades de entidades reportan sus movimientos, estado y demás bancos de datos en un mega
P
sitio que hace el papel de Banco de Datos, algunos de ellos son Datos Abiertos, otro es el banco de datos de la U. Andes (CEDE:
https://datoscede.uniandes.edu.co/es/ ).
Archivo Nacional de Datos (ANDA)
https://sitios.dane.gov.co/visor-anda/
Sistema de Inteligencia Comercial Consolidador de Hacienda e Datos Abiertos:
Legiscomex Información Pública (CHIP) https://www.datos.gov.co/
https://www.legiscomex.com/Landing/Index https://eris.contaduria.gov.co/SCHIPWeb2_0/login
Otras fuentes
Índice de Desempeño Fiscal (http://www.anticorrupcion.gov.co/Paginas/indice-desempeno-fiscal.aspx ),
Encuesta de Cultura Política (http://www.anticorrupcion.gov.co/Paginas/encuesta-cultura-politica.aspx ),
Portales: Monitor Ciudadano (https://www.monitorciudadano.co/ ), Mapa de Regalías (http://maparegalias.sgr.gov.co/ http://rendicionocads.cloudapp.net/Historicos/Index?idOcad=59907 ),
Sistema Integrado de la Información de la Protección Social - SISPRO (https://www.sispro.gov.co/Pages/Home.aspx )
Transparencia económica (http://www.pte.gov.co/WebsitePTE/ ),
Sistema de estadísticas en justicia (https://sej.minjusticia.gov.co/Paginas/index.aspx ).
59
Introducción
NOCIONES BÁSICAS DE
Python
Software de lenguaje y programación - estadística
Sobre “Python”
Es un lenguaje de programación y un entorno para el cálculo estadístico y elaboración de gráficas básicas avanzadas; Python es un lenguaje de programación poderoso y fácil de
aprender. Cuenta con estructuras de datos eficientes y de alto nivel y un enfoque simple pero efectivo a la programación orientada a objetos. La elegante sintaxis de Python y su
tipado dinámico, junto con su naturaleza interpretada, hacen de éste un lenguaje ideal para scripting y desarrollo rápido de aplicaciones en diversas áreas y sobre la mayoría de
las plataformas.
Es uno de los programas estadísticos más conocidos por su capacidad para trabajar con grandes bases de datos y por poseer la mayoría de los análisis de última generación.
Python es un programa amplio y flexible de análisis estadístico y gestión de información capaz de trabajar con datos procedentes de distintos formatos proporcionando, desde
sencillos gráficos de distribuciones y estadísticos descriptivos, hasta análisis estadísticos complejos que permiten descubrir relaciones de dependencia e interdependencia,
establecer clasificaciones de sujetos y variables, predecir comportamientos, etc.
61
Windows:
Lanzamiento de
Anaconda
64
script
Estadística Descriptiva:
Resumen Estadístico
Descriptivo Univariado
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
“Imagínate el escenario”:
En el proceso de ser consultor analítico, explorarás una amplia variedad de escenarios
cotidianos.
Por ejemplo, evaluará los informes de los medios sobre encuestas de opinión, estudios de
investigación médica, el estado de la economía y cuestiones ambientales. Te enfrentarás
a decisiones financieras, tales como elegir entre una inversión con un rendimiento seguro
y una que podría hacerte ganar más dinero, pero que posiblemente te cueste toda tu
inversión. Aprenderás a analizar la información disponible para responder las preguntas
necesarias en tales escenarios.
Propósito: Mostrar por qué una comprensión minuciosa de las estadísticas es esencial
para tomar buenas decisiones en un mundo incierto. 100
0
68
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Def. Estadística
La estadística es el arte y la ciencia de diseñar estudios y analizar los datos que producen
esos estudios. Su objetivo final es traducir los datos en conocimiento y comprensión del
mundo que nos rodea.
En resumen, la estadística es el arte y la ciencia de aprender de los datos.
En este sentido, las estadísticas como campo son una forma de pensar sobre los datos y
cuantificar la incertidumbre, y no un laberinto de números y fórmulas desordenadas.
100
0
69
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Los múltiples escenarios que requieren de apoyo analítico ilustran los tres componentes
principales de las estadísticas para responder una pregunta de investigación:
Finalmente, un tema que aún no hemos mencionado pero que es fundamental para la
inferencia estadística es LA PROBABILIDAD, que es un marco para cuantificar el chance
de la ocurrencia de varios resultados posibles. 100
0
70
Objetivos:
1. General Variables o
2. Específicos Preguntas
ĥ
de ellos depende el tipo de tratamiento estadístico que se aplicará.
1 Objetivo General:
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
100
0
73
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
DEFINICIONES BÁSICAS
Def. Población:
Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y
tienen una característica en común.
Def. Muestra:
Es un subconjunto cualquiera de la población.
Es importante escoger la muestra en forma aleatoria (al azar), pues así se logra que sea
representativa y se puedan obtener conclusiones más afines acerca de las características
de la población.
Def. Variable:
Una variable es la característica de interés que el investigador desea medir a las
unidades experimentales objeto de su estudio.
100
0
74
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
DEFINICIONES BÁSICAS
Def. Resumen de la Información:
Un ordenamiento es una disposición de los datos numéricos en orden creciente o
decreciente de magnitud.
Def. Dato:
Es la realización o materialización de una variable de interés.
100
0
75
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Elementos:
- Tabla de Frecuencias
- Diagrama de Barras
- Diagrama de Sectores
100
0
76
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Porcentaje Porcentaje
Elementos: Perdidos
Total
NR
299
1
99,7
,3
100,0
- Diagrama de Barras
- Diagrama de Sectores
100
0
77
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Type = mydata$Relig
Type
# Crear una tabla de resumen
tabla=data.frame(table(Type))
tabla
prop.table(tabla)
100
0
78
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Type = mydata$Relig
Type
# Crear una tabla de resumen
tabla=data.frame(table(Type))
tabla
prop.table(tabla)
100
0
79
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Diagramas De Sectores”
Una vez se tenga la base de datos cargada en la hoja de cálculo del software, se
procede como sigue:
#Después de llamar los datos en la consola de R con el nombre: Airpoll
library(RColorBrewer)
Opinion=Airpoll[,9]
tabla=data.frame(table(Opinion))
tabla
pie(tabla[,2],labels=tabla[,1], clockwise=TRUE,radius=1,border="black",main="Diagrama de
Sectores")
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whit
e",main="Diagrama de Sectores")
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
80
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Diagramas De Sectores”
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Set2"),border="whit
e",main="Diagrama de Sectores")
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Spectral"),border="
white" ,main="Diagrama de Sectores")
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Dark2"),border="w
hite",main="Diagrama de Sectores")
#======================================
pielabels <- sprintf("%s = %3.1f%s", tabla[,1],100*tabla[,2]/sum(tabla[,2]), "%")
pie(tabla[,2],labels=pielabels,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whi
80
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
81
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Diagramas De Sectores”
pie(tabla[,2],labels=pielabels,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whi
te",main="Diagrama de Sectores de Opinión")
pie(tabla[,2],labels=NA,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="white",ma
in="Diagrama de Sectores de Opinión")
legend("bottomright",legend=pielabels,bty="n",fill=brewer.pal(7,"Set1"))
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
82
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Elementos:
- Tabla de Frecuencias
- Histograma
- Polígonos
- Ojivas
- Diagrama de Caja y Bigotes
- Medidas de Tendencia Central y de Dispersión.
100
0
83
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 3,95 - 14,75 48 51,6 51,6 51,6
14,76 - 23,31 27 29,0 29,0 80,6
100
0
84
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
library(agricolae)
designs<-apropos("design")
print(designs[substr(designs,1,6)=="design"], row.names=FALSE)
peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5, 56.5,73, 61,72.5, 71.5, 59.5,
74.5, 63)
print(summary(peso))
par(mfrow=c(1,2),mar=c(4,4,0,1),cex=0.6)
40
print(h1) 20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
85
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
86
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
# Tabla de Frecuencias
par(mfrow=c(1,2),mar=c(4,3,1,1),cex=0.6)
h3<- graph.freq (peso, col="brown", frequency =3,las=2)
h4<- graph.freq(peso, col="blue", frequency =3)
normal.freq(h4, col="red", lty=4,lwd=2, frequency=3,las=2)
summary(h1)
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
87
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
88
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
par(mfrow=c(1,2),mar=c(4,3,1,1),cex=0.6)
wd<-density(peso)
h9<- graph.freq(peso, density=6, col="blue", frequency =3,xlab="h9")
lines(wd,col="brown",lwd=2)
h10<- graph.freq(peso, border=0, frequency =3,xlab="h10")
polygon.freq(h10,col="blue", frequency =3)
lines(wd,col="brown",lwd=2)
round(summary(h8),2)
par(mfrow=c(1,2),mar=c(4,3,1,1),cex=0.7)
h11<-ogive.freq(h7, type="b", col="red ",xlab="h11") 80
h12<-plot(h8, xlab="PESO (h12)",ylim=c(0,15)) 60
normal.freq(h12,col="red") 40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
89
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Media Aritmética:
VENTAJAS
Fácil de calcular
Buenas propiedades como estimador
DESVENTAJA
Sensible a valores extremos (Outlier)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
91
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Mediana: Es el valor que particiona la muestra en dos. Es decir que por debajo de
la mediana esta exactamente el 50% de los datos e igual proporción por
encima de ella.
CÁLCULO
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
92
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
CÁLCULO
Identificar el valor que más se repite en la distribución de
frecuencias individual.
Desventajas
Es poco informativa respecto a los datos en general
Puede no existir o haber varias
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
93
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
La forma
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
94
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
EJEMPLO
No. Indicador económico Cambio Porcentual
10 Productividad (Fabricación)
80
5,2
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
95
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
96
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
skewness(peso)
kurtosis(peso)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
97
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Media Geométrica: MG
Ventajas
Es menos sensible que la media aritmética a los valores extremos.
Utiliza todos los datos.
Nota: esta estadística sólo está definida para una muestra de datos en80la cual todos los valores son
mayores que 0. 60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
98
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Media Geométrica =
peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5, 56.5,73, 61,72.5,
71.5, 59.5, 74.5, 63)
# Inicialmente creamos la función “geometric”, y luego la usamos con el vector de datos “peso”
geometric<-function(x) exp(sum(log(x))/length(x))
geometric(peso)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
99
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Nota: Esta estadística se emplea particularmente para promediar variaciones con respecto al
tiempo (como velocidades). La media armónica resulta ser muy poco influida por la existencia
de determinados valores mucho más grandes (atípicos) que los demás, siendo en cambio
sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida
en el caso de que exista algún valor nulo.
100
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5,
56.5,73, 61,72.5, 71.5, 59.5, 74.5, 63)
armonic<-1/mean(1/peso)
armonic
101
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Donde:
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
102
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES
Media Recortada en 100α% :
Ejemplo:
set.seed(1234) # Semilla, es para asegurar repetibilidad
x <- rnorm(50) # Distr. Normal Estándar
plot(x, col="blue", pch=8, lwd=1 )
## Trim data: Corta y elimina los valores atípicos a un 10% a cada lado.
library(DescTools)
Trim(x, trim=0.1)
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES
Media Winsorizada: Es una extensión de la media recortada, puesto que los valores
eliminados, en la media recortada, se sustituyen por los extremos inferior y superior de dicha
media recortada, y así no perder el tamaño de muestra inicial.
Ejemplo:
library(psych) #Paquete útil para calcular la media Winsorizada:
T_peso= winsor(peso, trim=0.30, na.rm = T) # Proporciona el vector de pesos con los extremos reemplazados
# Comparando ordenadamente:
sort(peso)
sort(T_peso)
# Comparando:
as.table(cbind(peso,W_peso))
# Media Winsorizada:
winsor.mean(peso, trim = 0.2, na.rm = TRUE)
104
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE DISPERSIÓN
Varianza: Es la media de los desvíos al cuadrado:
Desviación Estándar:
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
105
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE DISPERSIÓN
Coeficiente de Variación:
Es una medida de variabilidad relativa a la media de los datos.
Es un valor adimensional que se emplea para comparar la variabilidad de
muestra (o poblaciones) diferentes.
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
106
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
La MidVarianza:
Es una estadística basada en una suma ponderada de cuadrados
alrededor de la mediana muestral y un cuartil definido.
109
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE FORMA:
Sesgo: Medida de simetría en la distribución de los datos
3( X Me)
También se puede escribir como: Sesgo
S
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE FORMA:
Sesgo:
library(e1071)
skewness(x)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
111
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE FORMA:
Curtosis: La curtosis es una medida que indica o mide lo plano o puntiaguda que es una curva
de distribución. Cuando esta es cero (curtosis = 0), significa que se trata de una curva
aproximadamente Normal. Si es positiva, quiere decir que la curva o distribución o polígono es
más puntiaguda o levantada que la curva normal (curva leptocúrtica). Si es negativa quiere
decir que es más plana (curva mesocúrtica).
n
i
( x
i 1
x ) 4
Curtosis n
S4
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
112
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE FORMA:
Curtosis: El exceso de curtosis de una población univariada se define mediante la siguiente
fórmula, donde μ2 y μ4 son, respectivamente, el segundo y cuarto momento central.
γ2 = μ4 ∕ μ22 - 3
El exceso negativo de curtosis indicaría una distribución de datos de cola delgada, y se dice que
es platicúrtica.
El exceso positivo de curtosis indicaría una distribución de cola gruesa, y se dice que es
leptocúrtica.
80
40
kurtosis(x) 20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
113
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
R - Software de lenguaje y programación estadística
summary(x) mean(x) sd(x) IQR(x) library(e1071) library(fBasics)
skewness(x) basicStats(x)
median(x) kurtosis(x)
library(agricolae)
data(growth) 80
attach(growth) 60
h2=graph.freq(height, plot=F) 40
table.freq(h2) 20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
Análisis de Datos Bivariados
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Dos Variables Cualitativas”
Tablas Cruzadas
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
116
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Dos Variables Cuantitativas”
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
117
25 97 80 63 82 90
118
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
names(Airpoll)
regresion <- lm(Popden ~ Nonwhite+NOX+SO2+Mortality, data = Airpoll)
summary(regresion)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
11
Regresión Lineal
9
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
121
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
library(ggplot2)
head(diamonds)
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
ggplot(diamonds) +
geom_bar(mapping = aes(x = cut))
123
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
# Una mirada de la distribución del precio por "corte de diamante" usando geom_boxplot ():
ggplot(data = diamonds, mapping = aes(x = cut, y = price)) +
geom_boxplot()
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
125
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
126
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Transformación de Variables:
“Cuando y porqué se hace transformación de variables”
Si los datos con los que queremos realizar un ajuste, no cumplen algunos supuesto previos o
definidos inicialmente, se puede intentar transformar las variable para que adopte una
distribución conocida.
Si decidimos transformar la variable, tendremos varias posibilidades según su tipo de
distribución (asimétrica positiva o negativa). La literatura nos habla de la llamada escalera
de las transformaciones de Tukey, la cual muestra el tipo de transformación recomendada
según sea la intensidad de la asimetría o la dirección en la que van los casos extremos
(Sánchez 1999). La siguiente figura es una modificación del gráfico realizado por Erickson &
Nosanchuk
(1977).
127
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Transformación de Variables:
“Cuando y porqué se hace transformación de variables”
En la siguiente tabla se muestran las transformaciones que hay que hacer para que la
relación entre variables sea lineal.
128
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable
dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes
llamadas predictores (X1, X2, X3…Xk).
Esta técnica es una generalización de la Regresión Lineal Simple, donde se da por hecho que
la explicación de un fenómeno a través de una variable dependiente no solo se da por una
única variable independiente.
Los modelos de Regresión Múltiple pueden emplearse para predecir el valor de la variable
dependiente o para evaluar la influencia que tienen los predictores sobre ella.
130
Definición:
+e n
• β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son
cero.
• βi: es el efecto medio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable
dependiente Y, manteniéndose constantes el resto de variables.
Se conocen como coeficientes parciales de regresión.
• ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
132
Se define como el porcentaje de varianza de la variable Y que se explica mediante el modelo respecto al
total de variabilidad. Por lo tanto, permite cuantificar cuan bueno es el modelo para predecir el valor de las
observaciones.
En los Modelos Lineales Múltiples, cuantos más predictores se incluyan en el modelo mayor es el valor de R2,
ya que, por poco que sea, cada predictor va a explicar una parte de la variabilidad observada en Y.
Es por esto que R^2 no puede utilizarse para comparar modelos con distinto número de predictores.
R^2_ajustado: Introduce una penalización al valor de R2 por cada predictor que se introduce en el modelo.
133
1. No Colinialidad (multicolinialidad):
Los predictores deben ser independientes, no debe de haber colinialidad entre ellos.
a. Si el coeficiente de determinación R2 es alto pero ninguno de los predictores resulta significativo, hay
indicios de colinialidad (revisar rápidamente con una matriz de correlación).
b. Generar un modelo de regresión lineal simple entre cada uno de los predictores frente al resto. Si en alguno
de los modelos el coeficiente de determinación R2 es alto, estaría señalando a una posible colinialidad.
134
1. No Colinialidad (multicolinialidad):
Los predictores deben ser independientes, no debe de haber colinialidad entre ellos.
c. Tolerancia (TOL) y Factor de Inflación de la Varianza (VIF): Se trata de dos parámetros que vienen a
cuantificar lo mismo (uno es el inverso del otro). El VIF de cada predictor se calcula según la siguiente
fórmula:
Donde R2 se obtiene de la regresión del predictor Xj sobre los otros predictores. Esta es la opción más
recomendada, los límites de referencia que se suelen emplear son:
• VIF = 1: Ausencia total de colinialidad
• 1 < VIF < 5: La regresión puede verse afectada por cierta colinialidad.
• 5 < VIF < 10: Causa de preocupación
• El termino tolerancia es 1/VIF por lo que los límites recomendables están entre 1 y 0.1.
135
2. Parsimonia:
Este término hace referencia a que el mejor modelo es aquel capaz de explicar con mayor precisión la
variabilidad observada en la variable respuesta, empleando el menor número de predictores (Xi), por lo tanto,
con menos condiciones.
Estos análisis son solo aproximados, ya que no hay forma de saber si realmente la relación es lineal cuando
el resto de predictores se mantienen constantes.
136
6. No autocorrelación (Independencia):
Los valores de cada observación son independientes de los otros, esto es especialmente importante de
comprobar cuando se trabaja con mediciones temporales. Se recomienda representar los residuos ordenados
acorde al tiempo de registro de las observaciones, si existe un cierto patrón hay indicios de autocorrelación.
También se puede emplear el test de Durbin-Watson.
8. Tamaño de la muestra:
No se trata de una condición de por sí pero, si no se dispone de suficientes observaciones, predictores que no
son realmente influyentes podrían parecerlo.
138
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
1. Prueba global:
2. Pruebas individuales
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Introducción:
Pero, más allá del hecho de que tenemos muchos valores de muchas variables para cada
observación, la intención es estudiarlos simultáneamente, lo que es característico de un enfoque
multidimensional. Por lo tanto, utilizaremos estos métodos cada vez que la noción de perfil sea
relevante al considerar a un individuo, por ejemplo, el perfil de respuesta de los consumidores, el
perfil biométrico de las plantas, el perfil financiero de las empresas, etc.
141
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Introducción:
Desde otro punto de vista, el interés de considerar los valores de los individuos a través de un
conjunto de variables, de manera global, radica en el hecho de identificar si estas variables están
causadas o vinculadas.
Teniendo en cuenta que estudiar las relaciones de entre todas las variables, tomadas dos en dos, no
constituye un enfoque multidimensional en sentido estricto; el enfoque (multivariado) implica la
consideración simultánea de las relaciones de todas variables de análisis.
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Objetivos:
Los objetivos que persigue el análisis de datos multivariados, entre otros, son:
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Aplicaciones:
Algunas de las aplicaciones del análisis multivariado según son:
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
En síntesis:
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Una "gráfica de color" básica muestra los valores de tres variables a la vez usando símbolos
de colores, donde el valor de una variable determina la posición relativa del símbolo a lo
largo del eje X y el valor de una segunda variable determina la posición relativa de el símbolo
a lo largo del eje Y, y el valor de la tercera variable se usa para determinar el color del
símbolo.
CASO:
El conjunto de datos de Specmap ilustró las variaciones en el tiempo de los datos de isótopos de oxígeno
(que registran el volumen de hielo global, los valores negativos significan poco hielo o condiciones de
calor global, valores positivos, implica grandes capas de hielo y condiciones de frío global) que
teóricamente deberían depender de la insolación (radiación solar entrante) a 65 N, que se ha denominado
el "marcapasos de las edades de hielo". Sin embargo, un diagrama simple de “O18~ Insolation” sugiere lo
contrario.
146
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
library(sp)
library(raster)
attach(specmap)
fix(specmap) # 783 casos
plot(O18 ~ Insol, pch=16, cex=0.6)
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
library(RColorBrewer)
library(classInt) # class-interval recoding library
plotvar <- Insol
nclr <- 8 # Divide el rango de las medidas en 8 categorías, para luego asignarles colores distintos.
plotclr <- brewer.pal(nclr,"PuOr")
plotclr <- plotclr[nclr:1] # reorder colors
class <- classIntervals(plotvar, nclr, style="quantile")
colcode <- findColours(class, plotclr)
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
2. Colores y Símbolos:
También se puede mostrar información de cuatro variables a la vez.
En este ejemplo para la Summit Cr. Data (a scatter plot of WidthWS as a function of CumLen -
fluvial geomorph data), el carácter de gráfico está determinado por Reach y su color por HU.
Aunque estos son factores, las variables numéricas también podrían graficarse.
attach(sumcr)
fix(sumcr)
Reach:
Uso de dos aplicaciones de la función leyenda (): los círculos indican el alcance de pastoreo aguas arriba (alcance A), los triángulos indican
el alcance de exclusión del ganado (B), y también indican el alcance de pastoreo aguas abajo (C), mientras que el negro indica
deslizamientos, el rojo indica piscinas y el verde indica rápidos.
149
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
3. Diagrama de Burbujas:
El gráfico de burbujas muestra los valores de tres variables a la vez utilizando símbolos
graduados (generalmente círculos), donde el valor de una variable determina la posición
relativa del símbolo a lo largo del eje X y el valor de una segunda variable determina la
posición relativa de el símbolo a lo largo del eje Y, y el valor de la tercera variable se usa para
determinar el tamaño del símbolo. Aquí hay un mapa crudo de las elevaciones de las
estaciones climáticas de Oregon, que refleja la topografía general del estado.
attach(orstationc)
plot(lon, lat, type="n")
symbols(lon, lat, circles=elev, inches=0.1, add=T)
150
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
3. Diagrama de Burbujas:
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Este gráfico muestra los valores de tres variables a la vez, trazandolas en un "cuadro de trabajo" tridimensional donde el
valor de una variable determina la posición relativa del símbolo a lo largo del eje X y el valor de una segunda variable
determina el valor relativo posición del símbolo a lo largo del eje Y, y el valor de la tercera variable se utiliza para
determinar la posición relativa a lo largo del eje Z. Esta trama hace uso del paquete de celosía.
library(lattice)
cloud(elev ~ lon*lat)
152
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
library(scatterplot3d)
library(RColorBrewer)
# scatter plot
plot.angle <- 45
scatterplot3d(lon, lat, plotvar, type="h", angle=plot.angle, color=colcode, pch=20, cex.symbols=2, col.axis="gray",
col.grid="gray")
153
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
library(scatterplot3d)
library(RColorBrewer)
# scatter plot
plot.angle <- 45
scatterplot3d(lon, lat, plotvar, type="h", angle=plot.angle, color=colcode, pch=20, cex.symbols=2, col.axis="gray",
col.grid="gray")
154
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
5. Gráficos de Superficie y Puntos OpenGL
El paquete rgl (por D. Alder) se puede usar para trazar puntos (y superficies y líneas) en un espacio tridimensional.
La característica principal que distingue este enfoque es la capacidad de rotar la nube de puntos "sobre la marcha“,
tal como se ve el código, y cuando aparece la imagen, se puede girar arrastrando el mouse dentro de la ventana. Si
mantiene presionado el botón izquierdo mientras arrastra, las bolas giran, mientras que si mantiene presionado el
botón derecho cambia la perspectiva.
library(rgl)
example(rgl.surface)
rgl.clear()
example(rgl.spheres)
155
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
6. Gráficos Trellis / Lattice
Muchos conjuntos de datos incluyen una mezcla de variables "continuos" (variables de escala de relación o intervalo
ordinal) y variables "discretas" (variables de escala nominal). A menudo, puede surgir el problema de cómo una
relación particular entre las variables puede diferir entre los grupos.
La información de esa naturaleza se puede obtener utilizando gráficos de acondicionamiento (o parcelas). Dichos
gráficos son parte de un esquema general de análisis de datos visuales, conocido como Trellis Graphics, creado por
los desarrolladores del lenguaje S.
Básicamente, lo que sucede es que la función coplot () está determinando qué subconjunto de observaciones debe
aparecer en cada panel, mientras que las dos funciones dentro de la función panel () (panel.smooth () y abline () ),
realizan sus tareas en ese subconjunto de observaciones
library(lattice)
attach(scanvote) # Scandinavian EU preference votes
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
7. Gráficos Trellis (Glifos) / Lattice
Muchos conjuntos de datos incluyen una mezcla de variables "continuos" (variables de escala de relación o intervalo
ordinal) y variables "discretas" (variables de escala nominal). A menudo, puede surgir el problema de cómo una
relación particular entre las variables puede diferir entre los grupos.
La información de esa naturaleza se puede obtener utilizando gráficos de acondicionamiento (o parcelas). Dichos
gráficos son parte de un esquema general de análisis de datos visuales, conocido como Trellis Graphics, creado por
los desarrolladores del lenguaje S. Los Trellis Graphics se implementan en R utilizando el paquete Lattice.
library(lattice)
attach(scanvote) # Scandinavian EU preference votes
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
8.1 Cluster Analysis
El término clustering hace referencia a un amplio abanico de técnicas unsupervised cuya finalidad es encontrar
patrones o grupos (clusters) dentro de un conjunto de observaciones. Las particiones se establecen de forma que, las
observaciones que están dentro de un mismo grupo, son similares entre ellas y distintas a las observaciones de otros
grupos. Se trata de un método unsupervised, ya que el proceso ignora la variable respuesta que indica a que grupo
pertenece realmente cada observación (si es que existe tal variable)..
El análisis de conglomerados es uno de los métodos más importantes de minería de datos, para descubrir
conocimiento en multidimensionalidad. El objetivo de la agrupación es identificar patrones o clúster de objetos
similares dentro de un conjunto de datos de interés.
library(factoextra)
USArrests %>%
scale() %>% # Scale the data
dist() %>% # Compute distance matrix
hclust(method = "ward.D2") %>% # Hierarchical clustering
fviz_dend(cex = 0.5, k = 4, palette = "jco") # Visualize and cut into 4 groups
158
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
8.2. Heatmaps
Los heatmaps son el resultado obtenido al representar una matriz de valores en la que, en lugar de números, se
muestra un gradiente de color proporcional al valor de cada variable en cada posición. La combinación de un
dendrograma con un heatmap permite ordenar por semejanza las filas y o columnas de la matriz, a la vez que se
muestra con un código de colores el valor de las variables. Se consigue así representar más información que con un
simple dendrograma y se facilita la identificación visual de posibles patrones característicos de cada cluster.
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
9. Análisis de Correspondencias Múltiple
Dicho en términos muy simples, el Análisis de Correspondencia Múltiple (MCA) es una técnica estadística
multivariada de variables cualitativas. Al igual que PCA, el MCA es una herramienta que nos permite analizar los
patrones sistemáticos de variaciones con datos categóricos. Identificando asociación y frecuencia de la categorías
de las variables de estudio.
# load packages
require(FactoMineR)
require(ggplot2)
cats
160
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
9. Análisis de Correspondencias Múltiple
# load packages
require(FactoMineR)
require(ggplot2)
cats
TIME FOR RELAX
…. Nueva Sesión…
Muestreo
Probabilístico
163
Muestreo Probabilístico
Estimaciones Poblacionales
Universos de estudio
Marcos Muestrales
Diseños Probabilísticos.
Estimaciones
Estimaciones de parámetros
poblacionales de interés.
25 97 80 63 82 90
¿Población o Muestra?
Muestreo
Casos de Estudio
Para estimar la cantidad de unidades disponibles de liquen, como alimento para un caribú en Alaska, los biólogo recoge liquen de
pequeñas parcelas seleccionadas dentro del área de estudio.
Basado en el peso seco de estos especímenes, se estima la biomasa disponible para toda la región.
166
Muestreo
Casos de Estudio
Del mismo modo, para estimar la cantidad de petróleo recuperable en una región, unos pocos (muy costosos) orificios de muestreo se
perforan.
167
Muestreo
Casos de Estudio
La situación es similar en una encuesta nacional de opinión, en el que se pone en contacto sólo una muestra de las personas en la
población, y las opiniones de la encuesta se utilizan para estimar las proporciones de las distintas opiniones en toda la población.
168
Muestreo
Casos de Estudio
Para estimar la prevalencia de una enfermedad rara, la muestra puede consistir en una serie de instituciones médicas, cada una de las
cuales tiene registros de los pacientes tratados.
169
Muestreo
Casos de Estudio
Ejemplo 5: VIH
En un estudio de los comportamientos de riesgo asociados con la transmisión del virus de la inmunodeficiencia humana (VIH), una muestra
de usuarios de drogas inyectables se obtiene siguiendo los vínculos sociales de un miembro de la población a otro.
170
Muestreo
Casos de Estudio
Para estimar la abundancia de una especie de aves raras y en peligro de extinción, la abundancia de aves en la población se estima con
base en el patrón de las detecciones de una muestra de sitios en la región de estudio.
171
Muestreo
Casos de Estudio
El empleo de procedimientos de muestreo eficaces mejorará el alcance, el enfoque y la eficiencia de las auditorías y permite al auditor
proporcionar aseguramiento sobre los procesos de negocio que sean relevantes para que la organización cumpla con sus metas y
objetivos. Es importante que los auditores internos comprenda los consejos y los estándares aceptados en materia de muestreo, junto con
los procesos del negocio y los datos con los que esté trabajando, cuando proceda a elegir la técnica de muestreo más apropiada para la
auditoría.
172
Muestreo
Y una vez se tenga la muestra, ¿cuál es la manera óptima de utilizar esta muestra para
estimar la característica y que represente toda la población?
Muestreo
En términos más generales, el campo de MUESTREO se refiere a todos los aspectos relacionados con la selección de los datos,
de entre todas las posibilidades que podrían haber sido observadas; esto, sin importa que el proceso de selección esté bajo el
control de los investigadores o sea determinado por la misma naturaleza del fenómeno, o simplemente por la casualidad;
Adicionalmente, el muestreo trata de cómo utilizar los resultados para hacer inferencias sobre un gran número de parámetros
de la población investigada.
174
Muestreo
175
Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
UNIDADES DE MUESTREO
Con muchas poblaciones de personas e instituciones, es
sencillo identificar el tipo de unidades a muestrear, y
concebir una lista o marco de las unidades de la
población, independientemente de los problemas
prácticos de la obtención de una muestra probabilística.
(Subcobertura y Sobrecobertura).
176
Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
Para una población difícil de alcanzar con problemas de detectabilidad, el concepto de unidades o
parcelas puede ser reemplazado por el de las funciones de detectabilidad, que están asociadas con los
métodos de observación poblacional, y los lugares son seleccionados para hacer las mediciones.
Por ejemplo, en la selección de la ubicación de los transectos de línea, en un muestreo de aves, las líneas y
la velocidad a la que se recorren las líneas, determina las "áreas efectivas" observadas en la zona de
estudio, en lugar de unidades o parcelas de muestreo tradicionales.
En algunas situaciones de muestreo, la variable de interés puede variar continuamente a lo largo de una
región. Por ejemplo, en un estudio para evaluar las reservas de petróleo en una región, la variable medida
puede ser el volumen y la profundidad para ubicar el núcleo de aceite de la zona.
El valor de una variable de este tipo no está necesariamente asociada con ningún conjunto finito de
unidades experimentales de la región, sino más bien, puede medirse o estimarse ya sea en un punto o
como un total de más de una subregión de cualquier tamaño o forma.
177
Muestreo
178
Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?
179
Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?
Ver sintaxis R
180
Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?
Independientemente del esquema de muestreo (MAS, ME, MC, MS, Muestreos Multetápico, con
probabilidades no iguales, etc); un muestreo probabilístico deberá solucionar tres preguntas
básicas que se presentan en cualquier escenario de investigación, o intervención:
Muestreos Básicos
El muestreo aleatorio simple (sin reemplazamiento), es un diseño de muestreo en el que las unidades de n
elementos distintos se seleccionan de las N unidades en la población de tal manera que todas las combinaciones
posibles de n unidades tienen la misma probabilidad de ser la muestra seleccionada.
De manera equivalente, se puede hacer una secuencia de selecciones independientes de toda la población,
donde cada unidad tiene igual probabilidad de selección en cada paso, descartando selecciones de repetición y
continuando hasta que se obtienen las n distintas unidades requeridas.
Como ejemplo visual, una Muestra Aleatoria Simple (MAS) de n = 40 unidades de una población de N = 400
unidades se representa en la Figura en la siguiente figura (generada a través de R).
Muestreos Básicos
183
# Selección de una Muestra Aleatoria, sin reemplazamiento, de 10 objetos de una población de 100 posibles.
muestra<- sample(1:100,10)
muestra
Con el MAS, la probabilidad de que la i-ésima unidad de la población esté incluida en la muestra es pi = n / N,
de modo que la probabilidad de inclusión es la misma para cada unidad.
Diseños de Muestreo diferentes al MAS puede dar a cada unidad experimental una probabilidad de ser incluidas
en la muestra, pero sólo con el muestreo aleatorio simple cada posible muestra de n unidades tienen la misma
probabilidad.
Muestreos Básicos
185
y su estimación, es:
es:
Muestreos Básicos
186
De forma similar a la varianza de la estimación de la media, la varianza de la estimación del Total, es:
Muestreos Básicos 187
Los números de caribúes en las 15 unidades de la muestra fueron: 1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5 y 4.
______________________________________________________________________________________________________
Actividad: “Calcule un I.C. del 90% para la media y el total estimado de Caribú del ejemplo anterior”.
Muestreos Básicos 190
# Seleccionando una muestra aleatoria, sin reemplazamiento, de 10 elementos de los 100 posibles de
la
# población.
MAS<- sample(1:100,10)
MAS
Los datos de caribú del ejemplo anterior se pueden introducir y almacenar como un vector llamado "y" de la
siguiente manera.
y <- c(1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5, 4)
Actividad: “Calcule un I.C. del 98% para la media estimada de Caribú del ejemplo anterior”.
Muestreos Básicos 193
Los datos de caribú del ejemplo anterior se pueden introducir y almacenar como un vector llamado "y" de la
siguiente manera.
Actividad: “Calcule un I.C. del 95% para el Total estimado de Caribú del ejemplo anterior”.
Muestreos Básicos 194
Estimaciones Muestrales
La eficacia de una Estrategia de Muestreo se puede evaluar mediante el uso de la simulación estocástica.
En este método, una “Población" de N unidades con Y valores, lo más similar posible al tipo de parámetro a ser
estudiado, se obtiene o se mide a través de una herramienta de captura.
Entonces:
(i) Una muestra de n unidades de esta información se selecciona mediante un diseño muestral, tal como un MAS.
(ii) Con los datos de la muestra seleccionada, se obtiene una estimación de la característica poblacional de
interés.
Estos dos pasos se repiten b veces, donde el número de iteraciones b es un número grande.
Las b repeticiones del procedimiento de muestreo producen b diferentes muestras, cada una de n unidades, y b
valores correspondientes de la estimación.
Entonces:
1. El promedio de estos valores se aproxima al valor esperado del estimador conforme al diseño.
2. El error cuadrático medio (ECM) de los valores de b se aproxima al ECM del estimador conforme al diseño.
Con una estrategia de muestreo no sesgada, el ECM será igual que la varianza poblacional.
TIME FOR RELAX
…. Nueva Sesión…
Muestreos Básicos
197
Supongamos que se desea estimar el parámetro poblacional θ, que puede ser la media poblacional o el total, etc.
Desearíamos que la estimación de este parámetro esté lo más cerca posible del valor real, esto con una alta
probabilidad.
Entonces se especifica una diferencia máxima permitida d entre la estimación y el valor real del parámetro, y
permitiendo una pequeña probabilidad (α) de que el error pueda superar esa diferencia; el objeto entonces es
elegir un tamaño de la muestra n de tal manera que:
Muestreos Básicos
198
Con el muestreo aleatorio simple, la media muestral de y , es un estimador insesgado de la media poblacional μ,
con varianza .
Luego
con:
Para estimar el τ total de la población, la ecuación que hay que resolver para determinar n, es:
Donde: .
Ignorando el factor de corrección para poblaciones finitas, la fórmula para el tamaño de la muestra se reduce a la
simple expresión n=n0.
Un aspecto molesto del cálculo del tamaño mínimo de muestra es que dependen directamente de la varianza de
la población, que generalmente es desconocido.
“En la práctica, uno debe ser capaz de estimar la varianza de la población utilizando una varianza de la muestra
de estudios pasados de la misma población o de una población similar, o a través de una muestra piloto de la
población de estudio”.
Muestreos Básicos
201
Ejemplo: ¿Qué tamaño de muestra sería necesario estimar la población total de caribú dentro d=2.000 animales
del verdadero total poblacional, con 90% de confianza (α = 0,10)?
Sin ignorar el tamaño total de la población, y usando la varianza de la muestral del estudio preliminar (del
ejemplo inicial) como una estimación de la varianza poblacional (σ^2), se tiene que s^2 = 919;
donde la constante de 1,645 es el cuantil superior (bajo α / 2 = 0,05) de una distribución normal estándar; luego el
tamaño de la muestra aleatoria, bajo un MAS, daría:
Muestreos Básicos
202
De la base de datos “winter”, seleccione una variable objetivo para determinar un tamaño mínimo de muestra,
determine la confianza y el error de muestreo.
Proporcione estimaciones de un promedio, de un total y de una proporción, junto la estimación de sus márgenes de
error.
Muestreos Básicos
203
Actividad:
1. Asumiendo que esta base datos es el marco de muestreo de su investigación, y teniendo en cuenta que el atributo más
importante para su investigación son los EVENTOS, y en especial el evento , el evento INCENDIO DE COBERTURA VEGETAL, bajo
un nivel de confianza del 93%, y asumiendo un error de muestreo en las estimaciones no superior a 3%; proporcione un tamaño
mínimo de muestra (bajo un muestreo aleatorio simple), para realizar las estimaciones que se indican a continuación, semilla
(3564). (Peso 30%)
2. A través de la muestra seleccionada, proporcione las siguientes estimaciones con su margen de error (Var, EE, CV, IC):
Estimación del total de personas fallecidas, promedio de personas heridas, y la proporción de casos de EVENTOS: INCENDIO DE
COBERTURA VEGETAL (Peso 30%).
3. Tome la estimación del promedio de personas heridas (calculado anteriormente), desagréguelo por departamentos, y haga una
representación cartográfica (EXCLUSIVAMENTE CON LA METODOLOGÍA - CÓDIGO R usado en la clase anterior) de su
estimación promedio. (Peso 30%).
NOTA IMPORTANTE: Este informe EJECUTIVO se debe entregar en un formato HTLM R-Markdown – página web
(en winzip COMPROBADO SU FUNCIONAMIENTO); bajo el tiempo establecido.
20
4
l e a Bibliografía 205
r >
E
LIND DOUGLAS / MARCHAL WILLIAMS / WATHEN SAMUEL. Estadística
Aplicada a los negocios y la economía. Edición 13a. Editorial Mc. Graw
Hill. 2008.
i WEIER RONALD. Introducción a la Estadística para los Negocios.
a
ANDERSON / SWEENEY / WILLIAMS. Estadística para Administración y
Economía. Cengage Learning.
e JAY L. DEBORE. Probabilidad y Estadística para Ingeniería y Ciencias.
Bogotá - Colombia