Está en la página 1de 207

Fundamentos de Estadística

Maestría en Analítica de Datos


César Augusto Serna
César Augusto Serna M. csernam@ucentral.edu.co
MSc. Estadística
Fundamentos de Estadística
4

Contenido

Introducción a Software Estadístico Fuentes de Información


1 R-Project - Python
Uso del software de lenguaje y programación
2 Información Primaria y Secundaria

estadística R y Python.

EDA Inferencia y Pruebas de Hipótesis


3 Herramientas exploratorias univariadas y bivariadas
para interpretar patrones de comportamiento.
4 Pruebas de hipótesis paramétricas para muestras únicas,
muestras de tamaño diferente y para dos muestras. Análisis
de varianza de una vía, de dos vías, verificación de
supuestos, pruebas de comparación de medias.

Modelos y Cartografía:
5 Estadística, desde de los modelos de regresión, y
representación en mapas.
Sesión 1:

Exploración de la
Herramienta Estadística
R-Project
6

R-Project
Software de lenguaje y programación estadística

Sobre “R-Project”
Es un lenguaje de programación y un entorno para el cálculo estadístico y elaboración de gráficas básicas avanzadas; es una implementación de código abierto del lenguaje S (S-
Pluss), desarrollado por los Laboratorios Bell. Escrito inicialmente por Ross Ihaka y Robert Gentleman a mediados de los años 90.

Es uno de los programas estadísticos más conocidos por su capacidad para trabajar con grandes bases de datos y por poseer la mayoría de los análisis de última generación.
En R se pode realizar análisis hasta con 2 millones de registros y mas de 250.000 variables. Es un programa amplio y flexible de análisis estadístico y gestión de información
capaz de trabajar con datos procedentes de distintos formatos proporcionando, desde sencillos gráficos de distribuciones y estadísticos descriptivos, hasta análisis estadísticos
complejos que permiten descubrir relaciones de dependencia e interdependencia, establecer clasificaciones de sujetos y variables, predecir comportamientos, etc.
7

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE R-Project
www.r-project.org
8

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE R-Project
www.r-project.org
9

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE R-Project
www.r-project.org

Windows:
10

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE R-Project
www.r-project.org

Windows: Click
en “base”
11

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE R-Project
www.r-project.org

Windows: Click en:


“Download”
12

Un Paseo Rápido por la Herramienta


R-Project: SISTEMA DE VENTANAS

Consola Area de script Ventana de gráficas


13

Un Paseo Rápido por la Herramienta


RStudio: SISTEMA DE VENTANAS

Area de script Ventana de gráficas

Consola
14

Un Paseo Rápido por la Herramienta


Demos de gráficos en R-Project

demo(graphics)
# (Dar enter después de observar un poco la gráfica)

demo(persp)
# (Dar enter después de observar un poco la gráfica)

Una gráfica interactiva en tres dimensiones, para ello es necesario


primero bajar el paquete rgl.

install.packages(“rgl”)
library(rgl)
open3d()
plot3d( iris[,1:3], type="s", size=1.2, col=rainbow(3))
15

Un Paseo Rápido por la Herramienta


Las Funciones en R-Project

Las funciones básicas de R se agrupan en paquetes (packages, libraries), los


cuales contienen las funciones más habituales y se incluyen por defecto en la
distribución del software, y el resto se encuentran disponibles en la
“Comprehensive R Archive Network (CRAN)” http://cran.r-project.org.

library()
#Para ver la lista de librerías disponibles para ser cargadas.
# En Windows se puede hacer por menús.

search()
#Para ver la lista de librerías ya cargadas

ls(4)
#Para ver las funciones del paquete stats
16

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Help en R”.

# Maneras clásicas de consultar la ayuda


help(solve)
?solve

# Maneras más fuerte


??solve

# Consulta de ayuda para funciones con caracteres especiales y para


algunas # palabras reservadas como if, for y function.
help("[[")
?”[[“
help.search("calibration")
17

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Help en R”.

#Ayuda en HTML: abre el navegador (sólo si está instalada la ayuda en


HTML).
help.start()

# Búsqueda de términos relacionados


help.search("clustering")

# Ejecución de ejemplos de una función. Las comillas son opcionales.


example("hclust")
18

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Comandos, Case-Sensitivity”.

R distingue entre mayúsculas y minúsculas:

#Dos objetos diferentes


a <- 3
A <- 6
En R hay dos tipos de comandos: expresiones y asignaciones

#Expresión: El resultado se muestra por pantalla y no se guarda.


rnorm(10)
#Asignación: no se muestra nada.
v <- rnorm(10)
v
19

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Comandos, Case-Sensitivity”.

Los comandos se separan por ";" o por un salto de línea.


Un comando se puede escribir en más de una línea.
Los comandos se agrupan con "{" y "}"

#Comandos separados por ";"


a <- 3; b <- 5

#Comando escrito en más de una línea


> a <-
+3
20

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Ejecutar Comandos desde un Archivo de Texto”.

#En Windows, también está disponible en el menú:


source("comandos.R")

Guardar la salida (resultado) de nuestros comandos

#Inicio de volcado
sink("resultado.txt")

#Fin de volcado
sink()

Por defecto R busca los archivos en el directorio activo. Para verlo/cambiarlo ir al


menú File /Change Dir.
21

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Ejecutar Comandos desde un Archivo de Texto”.

Si queremos referenciar archivos mediante su ruta completa tenemos que utilizar


los caracteres "\\" o "/":

#Hacemos un source poniendo la ruta completa del archivo


source("c:\\programas\\comandos.R") #Manera 1

source("c:/programas/comandos.R") #Manera 2
22

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Permanencia de los Datos y Eliminación de Objetos”.

Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser:
Escalares (números, caracteres, lógicos (booleanos), factores),
Vectores/matrices/listas de escalares, Funciones, Objetos ad-hoc

#Para ver los objetos que están en una lista.


ls()
#También se puede hacer con la instrucción
objects()
#Para borrar objetos utilizamos la instrucción rm.
rm(A,b)
#Verificamos que los objetos A y b se han borrado
ls()
23

Un Paseo Rápido por la Herramienta


Primeras Nociones: “ Vectores y Asignaciones”.

R trabaja sobre estructuras de datos. La estructura más simple es un


vector numérico, que consiste en un conjunto ordenado de números.

#Creamos un vector de reales mediante la función c y lo guardamos en la


variable x.
x <- c(1.3, 2.5, 4.2, 9.7, 8.1)

#Un número por sí mismo es un vector de longitud 1


v <- 5

#Otras maneras de asignar menos utilizadas


assign("x", c(1.3, 2.5, 4.2, 9.7, 8.1, v)) #Instrucción assign

#Vectores de caracteres
d=c("a", "b", "f")
24

Un Paseo Rápido por la Herramienta


Primeras Nociones: “ Vectores y Asignaciones”.

Si no se utiliza ninguna de las tres maneras de asignación


("<-", "->", "assign") el resultado de nuestra expresión se muestra por
pantalla pero no quedará guardado.

#Expresión: el resultado no se guarda


c(x,0,x)

#Objeto especial de R que guarda el resultado del último comando


ejecutado
.Last.value
25

Un Paseo Rápido por la Herramienta


Primeras Nociones: “ Vectores y Asignaciones”.
Operador/función Símbolo/instrucción
# Generación de dos vectores.
suma +
x <- c(1.3, 2.5, 4.2, 9.7, 8.1) resta -
y <- c(x,0,x) multiplicación *
división /
módulo %%
# Como x es más corto que y, se reciclará para adquirir su misma división entera %/%
raíz cuadrada sqrt
longitud. R nos avisa de este hecho porqué los dos vectores no logaritmo nep. log
tienen una longitud #múltiple. El 1 en este caso también se recicla log gen logb
exponencial exp
y pasa a ser un #vector de once unoss. seno sin
v <- 2*x + y + 1 coseno cos
tangente tan
Warning message: máximo max
mínimo min
longer object length is not a multiple of shorter object length in: rango range
longitud length
2*x+y sumatorio sum
v producto prod
media mean
desv. estándar sd
varianza var
26

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Generación de Secuencias”.

R dispone de instrucciones para generar secuencias de números.


Una de las más utilizadas es el operador ":"

# Generamos un vector con los números 1, 2, 3, 4, …, 29, 30.


1:30 #Esto es equivalente al vector c(1, 2, …, 29, 30)

# El operador ":" tiene la máxima preferencia


n <- 10

1:n-1 #Aquí prevalece ":" sobre "-"


1:n-2

1:(n-1) # Forzamos la prioridad del "-"


27

Un Paseo Rápido por la Herramienta


Primeras Nociones: “ Generación de Secuencias”.

Con la función seq también se pueden generar secuencias de números


# Generamos una secuencia de 1 a 30 saltando dos números cada vez
seq(1,30,by=2)

# La función seq admite también la longitud de la secuencia que


queremos generar, de manera que ella misma #decide el intervalo
automáticamente
seq(1,30,length=15)

La función rep sirve para generar repeticiones de objetos (escalares o


vectores)
x<-rep(3,7)
Genero=rep(c("Femenino", "Masculino"),4)
#====================================*
z=scan()
28

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Valores Missing”.

En R los valores "desconocidos" o "no disponibles" (missings) se


simbolizan con el valor especial NA (Not Available). Cualquier operación
que incluya un NA en general devolverá NA como resultado. La función
is.na nos permite saber si un elemento es missing o no.

#Generamos un vector con los números 1, 2, 3 y un missing al final


z <- c(1:3, NA)
z
is.na(z) #Para verificar que valores del vector son missing.
[1] FALSE FALSE FALSE TRUE

# Recuerde: La expresión z==NA


z==NA
[1] NA NA NA NA
29

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Valores Missing”.

Hay un segundo tipo de missings que se producen por computación


numérica, lo que se llama Not a Number, y en R se simbolizan con el valor
NaN.

0/0 # Ejemplo de un error numérico


[1] NaN

La función is.na retorna TRUE tanto para los NA como para los NaN.
Mientras que la función is.nan sólo retorna TRUE para los NaN.
30

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Vectores Lógicos”.

R permite la manipulación de cantidades lógicas. Los valores de un vector


lógico pueden ser TRUE o T (cierto), FALSE o F (falso) y NA/NaN.
Los vectores lógicos se generan mediante condiciones:

#Generamos un vector de 1 a 10
x <- 1:10
# cond1 vector lógico, de la misma longitud que x, donde cada casilla
# nos dice si la correspondiente casilla de x cumple la condición x>7.

cond1 <- x > 7


cond1
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE
31

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Vectores Lógicos”.

En R los vectores lógicos se pueden utilizar en aritmética ordinaria, siendo


substituído (coercionado) el FALSE por 0 y el TRUE por 1.

cond2 <- x >= 9 #Generamos otra condición


cond1 & cond2 #Hacemos una and lógica de las dos condiciones

[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE

!cond1 #Negación lógica del vector cond1


[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE
32

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Indexación de vectores ”.

#Generación de un vector con enteros de 1 a 10 y algunos missings por medio.


x <- c(1:5,NA,6:8,NA,9,10)
x
#Indexación por vector lógico: escogemos aquellos elementos que no son NA.
x[!is.na(x)]

#Vector lógico más complejo (Excluye los NA y selecciona los múltiplos).


x[!is.na(x) & x%%2==0]
x[!is.na(x) & x%%3==0]

#Indexación mediante vector de enteros positivos, selección de los 5 primeros


elementos de x.
x[1:5]
x[c(1,3,5,7,9,11)] #Nos quedamos con las posiciones impares
33

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Matrices, Arreglos (Arrays) y DataFrames”.

Una matriz es un objeto de elementos que puede adquirir diversas dimensiones.


mat1=matrix(c(5,5,5,5),nrow=2,ncol=2)
mat2=matrix(c(2,2,2,1,1,1,3,3,3),3, 3)
mat3=matrix(0, 2, 2)
mat4=matrix(c(1,2,3,4,5,6,7,2,0),ncol=3)

Un Arrays es una generación multidimensional de los vectores.


h=array(0,c(3,3,3))
h
# Adicionando elementos al arreglo
h[3,3,2]=1
h
34

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Matrices, Arreglos (Arrays) y DataFrames”.

Dataframe son matrices donde las diferentes columnas pueden tener valores de
diferentes tipos.

organismo=c("Humano","Ratones","Frutas", "Plantas","Peces")
PesoGrm=c(75000,30,135,97,500)
Frecuencias=c(30000,30000,13061,19099,6034)

base1=data.frame(organismo, PesoGrm, Frecuencias)


base1

*Funciones (function): conjunto de código de R ejecutable y parametrizable.

Cualquier objeto en R tiene las propiedades mode y length:


1. Mode: Tipo de datos de los elementos que forman un objeto (numeric,
complex, logical y character): mode(x)
2. Length: Número de elementos que contiene el objeto: length(x)
35

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Importando Información”.

El R- Commander es la versión más Windows que posee R

x=read.table(file.choose(), header=T, sep="\t")

Excel - CSV
x=read.table(file.choose(), header=T, sep=“;")
36

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Importando Información”.

Importando Información desde Excel a R-Project:


# CÓDIGO PARA IMPORTAR INFORMACIÓN EN FORMATO
# Archivo de Excel 97-2003:

library(RODBC)
conexion<-odbcConnectExcel() # En esta línea se selecciona el archivo
Datos<-sqlQuery(channel=conexion,"select * from [Hoja1$]")
close(conexion)
Datos
37

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Exportando Información”.

Exportando Información desde R-Project a Excel:


# CÓDIGO PARA EXPORTAR INFORMACIÓN

# La siguiente instrucción guarda temporalmente en la memoria del equipo


# (clipboard) la base de datos que se quiere exportar.

write.table( Datos , file("clipboard"),sep="\t",dec=",", row.names=FALSE)


38

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Exportando Información”.

Exportando Información desde R-Project a Excel:


# CÓDIGO PARA EXPORTAR INFORMACIÓN

# La siguiente instrucción guarda temporalmente en la memoria del equipo


# (clipboard) la base de datos que se quiere exportar.

write.table( Datos , file("clipboard"),sep="\t",dec=",", row.names=FALSE)

write.csv(LosDatos, file = "ExporDatos.csv ")


39

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Exportando Información”.
Exportando Información desde R-Project a Excel:
save.xlsx <- function (file, ...)
{
require(xlsx, quietly = TRUE)
objects <- list(...)
fargs <- as.list(match.call(expand.dots = TRUE))
objnames <- as.character(fargs)[-c(1, 2)]
nobjects <- length(objects)
for (i in 1:nobjects) {
if (i == 1)
write.xlsx(objects[[i]], file, sheetName = objnames[i])
else write.xlsx(objects[[i]], file, sheetName = objnames[i],
append = TRUE)
}
print(paste("Workbook", file, "has", nobjects, "worksheets."))
}
save.xlsx("MisDatos.xlsx", Datos)
40

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

Which packages / functions?


• Gráficos estándar (por ejemplo: line chart, bar chart, scatter plot):
• ggplot2 package

• Mapas temáticos:
• tmap package

• Otras visualizaciones:
• Tableplots (tabplot package )
• Treemaps (treemap package )
• Gráficos estándar con énfasis en valores perdidos(VIM package)
41

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

A continuación, algunos paquetes R más populares:

Basado en la gramática de los gráficos (Wilkinson, 2005)


Los gráficos se construyen de acuerdo con esta gramática:

• data
• mapping / aestetics
• geoms
• stats
• scales
• coord
• facets
42

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

ggplot and qplot


Data: data.frame.

ggplot(mpg, aes(x = displ, y = cty) ) +


geom_point()

Aestatics: x, y, color, fill, shape


Geometry: points

Función de acceso directo: qplot (quick plot):

qplot(displ, cty, data=mpg)


43

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project
ggplot and qplot

Mapeo de datos a atributos visuales


de objetos geométricos:

Position: x,y,z
Color: color, fill
Shape: shape

qplot(x=displ, y=cty, data=mpg, ggplot(mpg, aes(x=displ, y=cty,


shape=factor(cyl)) color=factor(cyl))) + geom_point()
44

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

Geom:

Objetos Geométricos:

• Points, lines, polygons, …


• Functions start with “geom_”

También márgenes:
• geom_errorbar(), geom_pointrange(), geom_linerange().
• Note: they require the aesthetics ymin and ymax.

ggplot(mpg, aes(x = displ, y = cty)) +


geom_point() + geom_line()
45

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

Stat:

Transformación estadística: "identity ", " bin ", " count ", " lm "
La mayoría de los geoms tienen estadísticas predeterminadas (y viceversa)
geom y stat forman una capa
Una o más capas forman un gráfico:

Coord
Se dibuja un gráfico en un sistema de coordenadas.
Esto puede ser transformado, por ejemplo, un gráfico circular tiene un sistema de coordenadas polares.
46

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

Facets:

Con facetas, se crean pequeños múltiplos.


Cada faceta muestra un subconjunto de los datos:

qplot(x=displ, y=cty, color=factor(cyl),


data=mpg, facets=.~cyl)
47

Un Paseo Rápido por la Herramienta


DATA VISUALIZATION - R-Project

tmap: Paquete R para mapas temáticos

Un mapa temático es una visualización donde se muestra información estadística con un componente
espacial.

Los mapas temáticos también se pueden hacer con otros paquetes de R, pero tienen algunos
inconvenientes:
Trama (del paquete sp) inconveniente: requiere trabajo manual.
ggplot2, desventajas: los datos están en formato largo, el diseño no está hecho para mapas, las
proyecciones de mapas no son fáciles de manejar.
La sintaxis de tmap se basa en ggplot2 y Grammar of Graphics, pero funciona con fluidez con objetos
espaciales de los paquetes sp y raster.
Referencia: Tennekes, M. (2016). tmap: Thematic Maps in R. Forthcoming in Journal of Statistical Software.

Sitio de desarrollo http://github.com/mtennekes/tmap


48

Un Paseo Rápido por la Herramienta


data(World, metro, rivers, land)
DATA VISUALIZATION - R-Project
tmap_mode("plot")
tmap: Paquete R para mapas temáticos
## tmap mode set to plotting
tm_shape(land) +
library(tmap) tm_raster("elevation", palette = terrain.colors(10)) +
data("World") tm_shape(World) +
tm_borders("white", lwd = .5) +
tm_shape(World) +
tm_polygons("HPI")
tm_text("iso_a3", size = "AREA") +
tm_shape(metro) +
tm_symbols(col = "red", size = "pop2020", scale = .5) +
tm_legend(show = FALSE)
tm_shape(NLD_muni,
projection="rd")

tmap_mode("plot")
tm_fill("population", convert2density=TRUE, style="kmeans", ## tmap mode set to plotting
title="Population per km2")
data(NLD_muni)

NLD_muni$perc_men <- NLD_muni$pop_men / NLD_muni$population * 100

tmap_mode("view") tm_shape(NLD_muni) +
tm_polygons("perc_men", palette = "RdYlBu") +
tm_shape(World) + tm_facets(by = "province")
tm_polygons("HPI")
49

Un Paseo Rápido por la Herramienta


SISTEMA DE VENTANAS EN R-Project

Ventanas:

 Rcomander (todos los sistemas operativos)

 RkWard (linux y windows)

 Tinn-R (windows)

 RStudio cloud
50

Un Paseo Rápido por la Herramienta


Primeras Nociones: “Rcmdr (R Commander”.

El R- Commander es una versión Windows que posee R

library(Rcmdr) R- Comander
51

Un Paseo Rápido por la Herramienta


R Commander
52

Un Paseo Rápido por la Herramienta


R-Kward
53

Un Paseo Rápido por la Herramienta


R-Kward
54

Un Paseo Rápido por la Herramienta


R-Kward
55

Un Paseo Rápido por la Herramienta


Tinn - R
56

Un Paseo Rápido por la Herramienta


R - Cloud
57

Analítica de Datos
We make great solution to your problem

INFOMEDIA SOCIAL
Hoy en día, gran parte de la información se encuentra disponible en la red,
de acuerdo a la ley 1712 de 2014 – Ley de Transparencia: DATOS ABIERTOS.

Datos Abiertos significa información del estado a disposición de la sociedad.

D a t a
58

Fuentes de Datos para una Ciudad Inteligente

Encuestas a la ciudadanía
Estudios sociodemográficos de personas, hogares, consumo, hábitos, gastos transporte y educación E
Reportes anuales de entidades del estado
Informe de actividades comerciales, sus reportes, sus exportaciones, con bastante grado de detalle. R
Portales
Por la ley de transparencia, gran cantidades de entidades reportan sus movimientos, estado y demás bancos de datos en un mega
P
sitio que hace el papel de Banco de Datos, algunos de ellos son Datos Abiertos, otro es el banco de datos de la U. Andes (CEDE:
https://datoscede.uniandes.edu.co/es/ ).
Archivo Nacional de Datos (ANDA)
https://sitios.dane.gov.co/visor-anda/
Sistema de Inteligencia Comercial Consolidador de Hacienda e Datos Abiertos:
Legiscomex Información Pública (CHIP) https://www.datos.gov.co/
https://www.legiscomex.com/Landing/Index https://eris.contaduria.gov.co/SCHIPWeb2_0/login
Otras fuentes
Índice de Desempeño Fiscal (http://www.anticorrupcion.gov.co/Paginas/indice-desempeno-fiscal.aspx ),
Encuesta de Cultura Política (http://www.anticorrupcion.gov.co/Paginas/encuesta-cultura-politica.aspx ),
Portales: Monitor Ciudadano (https://www.monitorciudadano.co/ ), Mapa de Regalías (http://maparegalias.sgr.gov.co/ http://rendicionocads.cloudapp.net/Historicos/Index?idOcad=59907 ),
Sistema Integrado de la Información de la Protección Social - SISPRO (https://www.sispro.gov.co/Pages/Home.aspx )
Transparencia económica (http://www.pte.gov.co/WebsitePTE/ ),
Sistema de estadísticas en justicia (https://sej.minjusticia.gov.co/Paginas/index.aspx ).
59

Introducción

NOCIONES BÁSICAS DE

Análisis Estadístico con


R-Project
Ventajas: Gratuito, Gran cantidad de paquetes
disponibles y muy flexible, Una variedad de bases de
datos incluidas, Amplio soporte en internet.
Desventajas:
Está mucho más orientado hacia programación
Por tanto la curva inicial de aprendizaje muy
inclinada.
60

Python
Software de lenguaje y programación - estadística

Sobre “Python”
Es un lenguaje de programación y un entorno para el cálculo estadístico y elaboración de gráficas básicas avanzadas; Python es un lenguaje de programación poderoso y fácil de
aprender. Cuenta con estructuras de datos eficientes y de alto nivel y un enfoque simple pero efectivo a la programación orientada a objetos. La elegante sintaxis de Python y su
tipado dinámico, junto con su naturaleza interpretada, hacen de éste un lenguaje ideal para scripting y desarrollo rápido de aplicaciones en diversas áreas y sobre la mayoría de
las plataformas.

Es uno de los programas estadísticos más conocidos por su capacidad para trabajar con grandes bases de datos y por poseer la mayoría de los análisis de última generación.
Python es un programa amplio y flexible de análisis estadístico y gestión de información capaz de trabajar con datos procedentes de distintos formatos proporcionando, desde
sencillos gráficos de distribuciones y estadísticos descriptivos, hasta análisis estadísticos complejos que permiten descubrir relaciones de dependencia e interdependencia,
establecer clasificaciones de sujetos y variables, predecir comportamientos, etc.
61

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE: https://www.python.org/downloads/
Anaconda:
62

Un Paseo Rápido por la Herramienta


DESCARGA BÁSICA DE SOFTWARE: Anaconda: https://anaconda.org/anaconda/python
63

Un Paseo Rápido por la Herramienta

Windows:
Lanzamiento de
Anaconda
64

Un Paseo Rápido por la Herramienta


SISTEMA DE CÓDIGOS EN EL NOTEBOOK - Jupyter
65

Un Paseo Rápido por la Herramienta


ASISTENTE DE PROCESAMIENTO - Spayder Consola Ventana de gráficas

script
Estadística Descriptiva:
Resumen Estadístico
Descriptivo Univariado

Background: introductory statistical analytics


67

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

CÓMO LAS ESTADÍSTICAS NOS AYUDAN A APRENDER SOBRE EL MUNDO

“Imagínate el escenario”:
En el proceso de ser consultor analítico, explorarás una amplia variedad de escenarios
cotidianos.
Por ejemplo, evaluará los informes de los medios sobre encuestas de opinión, estudios de
investigación médica, el estado de la economía y cuestiones ambientales. Te enfrentarás
a decisiones financieras, tales como elegir entre una inversión con un rendimiento seguro
y una que podría hacerte ganar más dinero, pero que posiblemente te cueste toda tu
inversión. Aprenderás a analizar la información disponible para responder las preguntas
necesarias en tales escenarios.

Propósito: Mostrar por qué una comprensión minuciosa de las estadísticas es esencial
para tomar buenas decisiones en un mundo incierto. 100

0
68

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

CÓMO LAS ESTADÍSTICAS NOS AYUDAN A APRENDER SOBRE EL MUNDO

Def. Estadística
La estadística es el arte y la ciencia de diseñar estudios y analizar los datos que producen
esos estudios. Su objetivo final es traducir los datos en conocimiento y comprensión del
mundo que nos rodea.
En resumen, la estadística es el arte y la ciencia de aprender de los datos.

En este sentido, las estadísticas como campo son una forma de pensar sobre los datos y
cuantificar la incertidumbre, y no un laberinto de números y fórmulas desordenadas.

100

0
69

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

CÓMO LAS ESTADÍSTICAS NOS AYUDAN A APRENDER SOBRE EL MUNDO

Los múltiples escenarios que requieren de apoyo analítico ilustran los tres componentes
principales de las estadísticas para responder una pregunta de investigación:

- Diseño: indicando el objetivo y / o la pregunta estadística de interés y planificando cómo


obtener datos que los aborden
- Descripción: Resumen y análisis de los datos que se obtienen.
- Inferencia: Toma de decisiones y predicciones basadas en los datos para responder la
pregunta principal de la investigación.

Finalmente, un tema que aún no hemos mencionado pero que es fundamental para la
inferencia estadística es LA PROBABILIDAD, que es un marco para cuantificar el chance
de la ocurrencia de varios resultados posibles. 100

0
70

Pasos Previos al Procesamiento

Objetivos:
1. General Variables o
2. Específicos Preguntas

Variables Variables Pasos:


Numéricas o Categóricas o Antes de desarrollar cualquier análisis de información es importante tener
Cuantitativas Cualitativas claros el Objetivo General y los Objetivos Específicos de la investigación, pues

ĥ
de ellos depende el tipo de tratamiento estadístico que se aplicará.

1 Objetivo General:

Cálculos: Cálculos: 2 Objetivos Específicos.


Medias, Totales, Dependencias Frecuencias, Proporciones,
Distribuciones de Probabilidad,
Regresión, Factores, etc.
Tablas de Contingencia,
Análisis de Correspondencia, etc.
3 Identificación del Tipo de
Variable
4 Análisis Estadístico
Un Paseo Rápido por la Herramienta
PROCEDIMIENTO PARA INTRODUCIR DATOS EN R-Project:

Uno de los elementos básicos para dar inicio al procesamiento de bases de


datos con R-Project es tener claro el tipo de variable que se desea procesar.

Variables Nominales Variables de Intervalo


Variables cualitativas sin orden. El cero es un número que no
representa ausencia del
atributo.

Variables Ordinales Variables de Razón


Variables cualitativas con orden El cero SI representa ausencia
del atributo.
72

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

MUESTRA Vrs. POBLACIÓN

100

0
73

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

DEFINICIONES BÁSICAS
Def. Población:
Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y
tienen una característica en común.
Def. Muestra:
Es un subconjunto cualquiera de la población.
Es importante escoger la muestra en forma aleatoria (al azar), pues así se logra que sea
representativa y se puedan obtener conclusiones más afines acerca de las características
de la población.

Def. Variable:
Una variable es la característica de interés que el investigador desea medir a las
unidades experimentales objeto de su estudio.
100

0
74

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

DEFINICIONES BÁSICAS
Def. Resumen de la Información:
Un ordenamiento es una disposición de los datos numéricos en orden creciente o
decreciente de magnitud.

Def. Dato:
Es la realización o materialización de una variable de interés.

Def. Parámetro y Estadística:


Un parámetro es un resumen numérico de la población.
Una estadística es un resumen numérico de una muestra tomada de la población.

100

0
75

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:

Resumen De Una Variable Cualitativa:

Elementos:
- Tabla de Frecuencias
- Diagrama de Barras
- Diagrama de Sectores

100

0
76

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:


LA VIDA ES EXITANTE O MONOTONA

Porcentaje Porcentaje

Resumen De Una Variable Cualitativa:


Frecuencia Porcentaje válido acumulado

Válidos 0 118 39,3 39,5 39,5


EXCITANTE 72 24,0 24,1 63,5

RUTINARI 103 34,3 34,4 98,0


ABURRIDA 6 2,0 2,0 100,0

Elementos: Perdidos
Total
NR
299
1
99,7
,3
100,0

- Tabla de Frecuencias Total 300 100,0

- Diagrama de Barras
- Diagrama de Sectores

100

0
77

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:

Resumen De Una Variable Cualitativa:


# libreria de colores
library(RColorBrewer)
# cargando la base de datos airpooll
mydata=read.table(file.choose(), header=T, sep=";")
fix(mydata)

Type = mydata$Relig
Type
# Crear una tabla de resumen
tabla=data.frame(table(Type))
tabla
prop.table(tabla)
100

0
78

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:

Resumen De Una Variable Cualitativa:


# libreria de colores
library(RColorBrewer)
# cargando la base de datos airpooll
mydata=read.table(file.choose(), header=T, sep=";")
fix(mydata)

Type = mydata$Relig
Type
# Crear una tabla de resumen
tabla=data.frame(table(Type))
tabla
prop.table(tabla)
100

0
79

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Diagramas De Sectores”

Una vez se tenga la base de datos cargada en la hoja de cálculo del software, se
procede como sigue:
#Después de llamar los datos en la consola de R con el nombre: Airpoll
library(RColorBrewer)
Opinion=Airpoll[,9]
tabla=data.frame(table(Opinion))
tabla
pie(tabla[,2],labels=tabla[,1], clockwise=TRUE,radius=1,border="black",main="Diagrama de
Sectores")

pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whit
e",main="Diagrama de Sectores")
80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
80

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Diagramas De Sectores”

pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Set2"),border="whit
e",main="Diagrama de Sectores")

pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Spectral"),border="
white" ,main="Diagrama de Sectores")

pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Dark2"),border="w
hite",main="Diagrama de Sectores")
#======================================
pielabels <- sprintf("%s = %3.1f%s", tabla[,1],100*tabla[,2]/sum(tabla[,2]), "%")

pie(tabla[,2],labels=pielabels,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whi
80

te",main="Diagrama de Sectores de Opinión")


60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
81

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Diagramas De Sectores”

pielabels <- sprintf("%s = %3.1f%s", tabla[,1],100*tabla[,2]/sum(tabla[,2]), "%")

pie(tabla[,2],labels=pielabels,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whi
te",main="Diagrama de Sectores de Opinión")

pie(tabla[,2],labels=NA,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="white",ma
in="Diagrama de Sectores de Opinión")

legend("bottomright",legend=pielabels,bty="n",fill=brewer.pal(7,"Set1"))

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
82

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:

Resumen De Una Variable Cuantitativa:

Elementos:
- Tabla de Frecuencias
- Histograma
- Polígonos
- Ojivas
- Diagrama de Caja y Bigotes
- Medidas de Tendencia Central y de Dispersión.

100

0
83

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”

RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:

Resumen De Una Variable Cuantitativa:


Min_Precio (agrupado)

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 3,95 - 14,75 48 51,6 51,6 51,6
14,76 - 23,31 27 29,0 29,0 80,6

23,32 - 36,22 15 16,1 16,1 96,8


36,23 - 49,13 3 3,2 3,2 100,0
Total 93 100,0 100,0

100

0
84

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

library(agricolae)
designs<-apropos("design")
print(designs[substr(designs,1,6)=="design"], row.names=FALSE)

#data(package="agricolae") # Lista la base de datos


data(sweetpotato) # Carga datos de camote:
head(sweetpotato) # Lista datos:

peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5, 56.5,73, 61,72.5, 71.5, 59.5,
74.5, 63)
print(summary(peso))

par(mfrow=c(1,2),mar=c(4,4,0,1),cex=0.6)

h1<- graph.freq(peso,col=colors()[84],frequency=1,las=2,density=20,ylim=c(0,12),ylab="> x<-h1$breaks")


h2<- plot(h1, frequency =2, axes= FALSE,ylim=c(0,0.4),xlab="peso",ylab="Relativa80(%)")
polygon.freq(h2, col=colors()[84], lwd=2, frequency =2) 60

40
print(h1) 20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
85

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
86

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

# Tabla de Frecuencias
par(mfrow=c(1,2),mar=c(4,3,1,1),cex=0.6)
h3<- graph.freq (peso, col="brown", frequency =3,las=2)
h4<- graph.freq(peso, col="blue", frequency =3)
normal.freq(h4, col="red", lty=4,lwd=2, frequency=3,las=2)
summary(h1)

# Esta es la verdadera finalidad de montar un polígono en un histograma


par(mfrow=c(1,2),mar=c(4,4,1,1),cex=0.6)
h7<- graph.freq(peso, nclass=5,frequency =1,xlab="h7")
h8<- graph.freq(peso, nclass=5, frequency=2,axes=FALSE,xlab="h8")
title(ylab="%") 80
normal.freq(h8,col="red",frequency=2) 60
axis(1); axis(2,seq(0,1,0.1),100*seq(0,1,0.1),las=2) 40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
87

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
88

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

Redondeado a dos decimales:


# Polígonos y Kernel
stat.freq(h7)
round(table.freq(h7), 2)

par(mfrow=c(1,2),mar=c(4,3,1,1),cex=0.6)
wd<-density(peso)
h9<- graph.freq(peso, density=6, col="blue", frequency =3,xlab="h9")
lines(wd,col="brown",lwd=2)
h10<- graph.freq(peso, border=0, frequency =3,xlab="h10")
polygon.freq(h10,col="blue", frequency =3)
lines(wd,col="brown",lwd=2)

round(summary(h8),2)
par(mfrow=c(1,2),mar=c(4,3,1,1),cex=0.7)
h11<-ogive.freq(h7, type="b", col="red ",xlab="h11") 80
h12<-plot(h8, xlab="PESO (h12)",ylim=c(0,15)) 60
normal.freq(h12,col="red") 40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
89

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

Redondeado a dos decimales:


90

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

Media Aritmética:

VENTAJAS
 Fácil de calcular
 Buenas propiedades como estimador

DESVENTAJA
Sensible a valores extremos (Outlier)

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
91

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

Mediana: Es el valor que particiona la muestra en dos. Es decir que por debajo de
la mediana esta exactamente el 50% de los datos e igual proporción por
encima de ella.

CÁLCULO

Ordene de menor a mayor la muestra


1. La mediana se determina de acuerdo con:

a. Si el numero de datos (n) es impar

b. Si el numero de datos (n) es impar 80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
92

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

Moda: Corresponde al valor mas frecuente en la muestra.

CÁLCULO
Identificar el valor que más se repite en la distribución de
frecuencias individual.

Desventajas
Es poco informativa respecto a los datos en general
Puede no existir o haber varias

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
93

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIA - MEDIANA - MODA:

La relación de orden entre la media, la mediana y la moda suministra


información acerca de la simetría de la distribución.

La forma

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
94

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
EJEMPLO
No. Indicador económico Cambio Porcentual

1 Productividad (total) 1,4


Medidas de Tendencia Central 2 Inversión (No Residencial) 2,1
3 Importaciones 2,3
Media
4 Consumo 2,7
5 Ingreso real disponible 2,9
Mediana 6 PNB real 2,9
7 Inversión (Residencial) 3,6
8 Inflación 4,5
9 Exportaciones 4,7
Moda

10 Productividad (Fabricación)
80
5,2
60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
95

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

Medidas de Tendencia Central, de Dispersión y de Localización

min (peso, na.rm = FALSE)


max (peso, na.rm = FALSE)
mean (peso, na.rm = FALSE)
median (peso, na.rm = FALSE)
mode(peso)
quantile(peso, probs = c(0.25, 0.75))

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
96

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

var(x, na.rm = FALSE) var(peso, na.rm = TRUE)


sd(x, na.rm = FALSE) sd(peso, na.rm = TRUE)
IQR(x, na.rm = FALSE) IQR(peso, na.rm = TRUE)

skewness(peso)
kurtosis(peso)

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
97

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES


Media Geométrica:
Esta estadística se usa frecuentemente para datos que tienen un sesgo positivo, ya que estará más
cerca del pico de la distribución que la media aritmética.

Media Geométrica: MG

Ventajas
Es menos sensible que la media aritmética a los valores extremos.
Utiliza todos los datos.

Nota: esta estadística sólo está definida para una muestra de datos en80la cual todos los valores son
mayores que 0. 60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
98

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES

Media Geométrica =

peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5, 56.5,73, 61,72.5,
71.5, 59.5, 74.5, 63)

# Inicialmente creamos la función “geometric”, y luego la usamos con el vector de datos “peso”
geometric<-function(x) exp(sum(log(x))/length(x))
geometric(peso)
80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
99

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES


Media Armónica (H):
La media armónica se define como el recíproco de la media aritmética de los recíprocos; así, dados
n registros x1, x2, ... , xn, la Media Armónica será igual a:

Nota: Esta estadística se emplea particularmente para promediar variaciones con respecto al
tiempo (como velocidades). La media armónica resulta ser muy poco influida por la existencia
de determinados valores mucho más grandes (atípicos) que los demás, siendo en cambio
sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida
en el caso de que exista algún valor nulo.
100

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES


Media Armónica (H):

peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5,
56.5,73, 61,72.5, 71.5, 59.5, 74.5, 63)

armonic<-1/mean(1/peso)
armonic
101

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES


Media Recortada en 100α% :
Calcula la media de la muestra después de remover una fracción α de los
valores de los datos más pequeños y la misma fracción de los mayores:

Donde:

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
102

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES
Media Recortada en 100α% :

Ejemplo:
set.seed(1234) # Semilla, es para asegurar repetibilidad
x <- rnorm(50) # Distr. Normal Estándar
plot(x, col="blue", pch=8, lwd=1 )

x[1] <- x[1] * 10 # introduciendo un outlier


x[2] <- x[2] * -15 # introduciendo un outlier
plot(x, col=1, cex = 1, pch = 21, bg="red") #ylim=c(-15,15)
abline(h=-5,lty=2,col="blue" , lwd=2)
abline(h=5,lty=2,col="blue" , lwd=2)

## Trim data: Corta y elimina los valores atípicos a un 10% a cada lado.
library(DescTools)
Trim(x, trim=0.1)

# (Número fijo de cortes - por ejemplo cortar 3 outliers en cada lado)


Trim(x, trim=3)
# Para Calcular la Media Recortada:
103

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES
Media Winsorizada: Es una extensión de la media recortada, puesto que los valores
eliminados, en la media recortada, se sustituyen por los extremos inferior y superior de dicha
media recortada, y así no perder el tamaño de muestra inicial.
Ejemplo:
library(psych) #Paquete útil para calcular la media Winsorizada:

T_peso= winsor(peso, trim=0.30, na.rm = T) # Proporciona el vector de pesos con los extremos reemplazados
# Comparando ordenadamente:
sort(peso)
sort(T_peso)

# Comparando:
as.table(cbind(peso,W_peso))

# Media Winsorizada:
winsor.mean(peso, trim = 0.2, na.rm = TRUE)
104

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE DISPERSIÓN
Varianza: Es la media de los desvíos al cuadrado:

Desviación Estándar:

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
105

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE DISPERSIÓN
Coeficiente de Variación:
Es una medida de variabilidad relativa a la media de los datos.
Es un valor adimensional que se emplea para comparar la variabilidad de
muestra (o poblaciones) diferentes.

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
106

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE DISPERSIÓN NO TAN COMUNES

Sigma Winsorizada en 100α%:


Una estimación Winsorizada de variabilidad alrededor de la media
Winsorizada:
107

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE DISPERSIÓN NO TAN COMUNES

Sigma Winsorizada en 100α%:

# Cálculo de la Varianza y la Desviación Estándar Winsorizada:


library(psych)
winsor.var(peso, trim = 0.2, na.rm = TRUE)
winsor.sd(peso, trim = 0.2, na.rm = TRUE)
108

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE DISPERSIÓN NO TAN COMUNES

DAM – La Desviación Mediana Absoluta:

La MidVarianza:
Es una estadística basada en una suma ponderada de cuadrados
alrededor de la mediana muestral y un cuartil definido.
109

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE FORMA:
Sesgo: Medida de simetría en la distribución de los datos

Su forma de cálculo original es

3( X  Me)
También se puede escribir como: Sesgo 
S

Pero como aproximadamente se cumple que “Media – Moda = 3 (Media-Mediana)”, se usa la


siguiente forma de cálculo práctico del sesgo:
( X  Moda)
Sesgo 
S
110

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE FORMA:
Sesgo:

# Para Calcular el Sesgo:

library(e1071)
skewness(x)

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
111

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE FORMA:
Curtosis: La curtosis es una medida que indica o mide lo plano o puntiaguda que es una curva
de distribución. Cuando esta es cero (curtosis = 0), significa que se trata de una curva
aproximadamente Normal. Si es positiva, quiere decir que la curva o distribución o polígono es
más puntiaguda o levantada que la curva normal (curva leptocúrtica). Si es negativa quiere
decir que es más plana (curva mesocúrtica).
n

 i
( x
i 1
 x ) 4

Curtosis  n
S4
80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
112

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”

MEDIDAS DE FORMA:
Curtosis: El exceso de curtosis de una población univariada se define mediante la siguiente
fórmula, donde μ2 y μ4 son, respectivamente, el segundo y cuarto momento central.
γ2 = μ4 ∕ μ22 - 3

Intuitivamente, el exceso de curtosis describe la forma de la cola de la distribución de datos.


La distribución normal tiene un exceso de curtosis cero (0) y, por lo tanto, la forma estándar de la
cola, esto es llamado mesocúrtica.

El exceso negativo de curtosis indicaría una distribución de datos de cola delgada, y se dice que
es platicúrtica.
El exceso positivo de curtosis indicaría una distribución de cola gruesa, y se dice que es
leptocúrtica.
80

# Para Calcular la curtosis


60

40

kurtosis(x) 20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
113

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
R - Software de lenguaje y programación estadística
summary(x) mean(x) sd(x) IQR(x) library(e1071) library(fBasics)
skewness(x) basicStats(x)
median(x) kurtosis(x)

quantile(x, c(0, 0.25, 0.50, 0.75, 1)) # Diagrama de Tallo y Hoja


stem(x)

boxplot(x, col="Orange", horizontal=T, main="Diagrama de Caja y Bigotes")

# Media Recortada (10%) #Desviación Mediana Absoluta


mean(x, trim=10/100) DAM=sum(abs(x-mean(x)))/(n-1)

hh=hist(x, scale="frequency", breaks="Sturges", col="green“, plot=F)


hh

library(agricolae)
data(growth) 80
attach(growth) 60
h2=graph.freq(height, plot=F) 40
table.freq(h2) 20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
Análisis de Datos Bivariados

Principio de análisis gráfico


Bivariado y Multivariado
115

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Dos Variables Cualitativas”

 Tablas Cruzadas

 Diagramas de Barras Comparativos

 Diagrama de Barras Apiladas

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
116

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Dos Variables Cuantitativas”

 Análisis Gráfico - Gráfico (X,Y)

 Análisis de Correlación (Coeficiente de Correlación de Pearson)

 Análisis de Regresión Lineal Simple

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
117

Estadística Descriptiva – Análisis Bivariado


Dos Variables Cuantitativas

Una vez observado que en análisis


bidimensional existe una cierta
dependencia entre las dos
características o variables que la
forman, se puede precisar el grado
de dicha dependencia.

Para cuantificar el grado de dicha


correlación se usa el Coeficiente de
Correlación.

25 97 80 63 82 90
118

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS

Análisis Exploratorio: Análisis de Regresión Lineal

names(Airpoll)
regresion <- lm(Popden ~ Nonwhite+NOX+SO2+Mortality, data = Airpoll)
summary(regresion)

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
11

Regresión Lineal
9

Ejemplo: Calentador Caso de estudio.

Costo de Temperatura Aislamiento del Antigüedad del Caso de Estudio:


Casa
calefacción externa media (°F) ático (pulgadas) calentador (años)
Salsberry Realty vende casas en la zona este de Estados Unidos. Una de
1 $250 35 3 6 las preguntas más frecuentes de los compradores potenciales es:
2 360 29 4 10
3 165 36 7 3 ¿Si compramos esta casa, cuanto gastaremos en calefacción durante el
4 43 60 6 9 invierno? Al departamento de investigación de Salsberry se le pidió
5 92 65 5 6 desarrollar algunas directrices respecto de los costos de calefacción de
6 200 30 5 5 casas unifamiliares. Se consideraron tres variables que se relacionan con
7 355 10 6 7 los costos de calefacción: 1) la temperatura externa diaria media, 2) el
8 290 7 10 10
número de pulgadas de aislamiento en el ático y 3) la antigüedad en
9 230 21 9 11
10 120 55 2 5 años del calentador. Para el estudio, el departamento de investigación
11 73 54 12 4 de Salsberry selecciono una muestra aleatoria de 20 casas de venta
12 205 48 5 1 reciente.
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
120

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:

“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”


Es común querer explorar la distribución de una variable cuantitativa, en especial continua,
desglosada por una variable cualitativa (categórica). En este contexto, se relaciona la
variable cuantitativa versus la cualitativa generando (desde lo exploratorio) la visualización
de la variable continua desde los diversos grupos o categorías de la variable categórica.
Desde las medidas de resumen, se desarrollaros grupos de estadísticas como grupos o
categorías tiene la variable cualitativa. Y desde lo inferencial, se pueden desarrollar
metodologías de comparación global (ANOVA) o de comparaciones múltiples (Diferencias de
Medias).

80

60

40

20

0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
121

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”

library(ggplot2)
head(diamonds)

ggplot(data = diamonds, mapping = aes(x = price)) +


geom_freqpoly(mapping = aes(colour = cut), binwidth = 500)
122

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”

ggplot(diamonds) +
geom_bar(mapping = aes(x = cut))
123

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”

# Una mirada de la distribución del precio por "corte de diamante" usando geom_boxplot ():
ggplot(data = diamonds, mapping = aes(x = cut, y = price)) +
geom_boxplot()

ggplot(data = diamonds, mapping = aes(x = cut, y = price)) +


geom_boxplot(fill = "white", colour = "#3366FF", outlier.colour = "red", outlier.shape = 1)

ggplot(data = diamonds, mapping = aes(x = cut, y = price)) +


geom_boxplot(fill = "white", colour = "#3366FF", outlier.colour = "red", outlier.shape = NA) +
geom_jitter(width = 0.2) # para agregar color a los puntos: , colour="red"
124

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
125

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio Bivariado:
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”
126

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Transformación de Variables:
“Cuando y porqué se hace transformación de variables”
Si los datos con los que queremos realizar un ajuste, no cumplen algunos supuesto previos o
definidos inicialmente, se puede intentar transformar las variable para que adopte una
distribución conocida.
Si decidimos transformar la variable, tendremos varias posibilidades según su tipo de
distribución (asimétrica positiva o negativa). La literatura nos habla de la llamada escalera
de las transformaciones de Tukey, la cual muestra el tipo de transformación recomendada
según sea la intensidad de la asimetría o la dirección en la que van los casos extremos
(Sánchez 1999). La siguiente figura es una modificación del gráfico realizado por Erickson &
Nosanchuk
(1977).
127

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Transformación de Variables:
“Cuando y porqué se hace transformación de variables”
En la siguiente tabla se muestran las transformaciones que hay que hacer para que la
relación entre variables sea lineal.
128

Extensión del Modelo de Regresión


Regresión Lineal Múltiple
129

Extensión del Modelo de Regresión


Regresión Lineal Múltiple
Modelos de Regresión: Análisis de Regresión Lineal Múltiple

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable
dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes
llamadas predictores (X1, X2, X3…Xk).

Esta técnica es una generalización de la Regresión Lineal Simple, donde se da por hecho que
la explicación de un fenómeno a través de una variable dependiente no solo se da por una
única variable independiente.

Los modelos de Regresión Múltiple pueden emplearse para predecir el valor de la variable
dependiente o para evaluar la influencia que tienen los predictores sobre ella.
130

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple

Definición:

Un vector de variables aleatorias sigue un Modelo de Regresión Lineal si:

+e n

donde es una matriz de dimensión

es un vector de parámetros -dimensional

es una matriz identidad de orden

en es un vector de parámetros -dimensional


131

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple

Los modelos lineales múltiples tienen la siguiente ecuación:

• β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son
cero.
• βi: es el efecto medio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable
dependiente Y, manteniéndose constantes el resto de variables.
Se conocen como coeficientes parciales de regresión.
• ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
132

Extensión del Modelo de Regresión


Regresión Lineal Múltiple
Modelos de Regresión: Análisis de Regresión Lineal Múltiple
Los modelos lineales múltiples tienen la siguiente ecuación:

Evaluación, en conjunto, de la calidad del Modelo: Coeficiente de Determinación R^2

R^2 (Coeficiente de Determinación): Es un cuantificador de la bondad de ajuste del modelo.

Se define como el porcentaje de varianza de la variable Y que se explica mediante el modelo respecto al
total de variabilidad. Por lo tanto, permite cuantificar cuan bueno es el modelo para predecir el valor de las
observaciones.

En los Modelos Lineales Múltiples, cuantos más predictores se incluyan en el modelo mayor es el valor de R2,
ya que, por poco que sea, cada predictor va a explicar una parte de la variabilidad observada en Y.

Es por esto que R^2 no puede utilizarse para comparar modelos con distinto número de predictores.

R^2_ajustado: Introduce una penalización al valor de R2 por cada predictor que se introduce en el modelo.
133

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple


Supuestos:

1. No Colinialidad (multicolinialidad):
Los predictores deben ser independientes, no debe de haber colinialidad entre ellos.

No existe un método estadístico concreto para determinar la existencia de colinialidad o multicolinialidad


entre los predictores de un modelo de regresión, sin embargo, se han desarrollado numerosas reglas
prácticas que tratan de determinar en qué medida afecta a la estimación y contraste de un modelo.
Los pasos recomendados a seguir son:

a. Si el coeficiente de determinación R2 es alto pero ninguno de los predictores resulta significativo, hay
indicios de colinialidad (revisar rápidamente con una matriz de correlación).

b. Generar un modelo de regresión lineal simple entre cada uno de los predictores frente al resto. Si en alguno
de los modelos el coeficiente de determinación R2 es alto, estaría señalando a una posible colinialidad.
134

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple


Supuestos:

1. No Colinialidad (multicolinialidad):
Los predictores deben ser independientes, no debe de haber colinialidad entre ellos.

c. Tolerancia (TOL) y Factor de Inflación de la Varianza (VIF): Se trata de dos parámetros que vienen a
cuantificar lo mismo (uno es el inverso del otro). El VIF de cada predictor se calcula según la siguiente
fórmula:

Donde R2 se obtiene de la regresión del predictor Xj sobre los otros predictores. Esta es la opción más
recomendada, los límites de referencia que se suelen emplear son:
• VIF = 1: Ausencia total de colinialidad
• 1 < VIF < 5: La regresión puede verse afectada por cierta colinialidad.
• 5 < VIF < 10: Causa de preocupación
• El termino tolerancia es 1/VIF por lo que los límites recomendables están entre 1 y 0.1.
135

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple


Supuestos:

2. Parsimonia:
Este término hace referencia a que el mejor modelo es aquel capaz de explicar con mayor precisión la
variabilidad observada en la variable respuesta, empleando el menor número de predictores (Xi), por lo tanto,
con menos condiciones.

3. Relación lineal entre los predictores numéricos y la variable respuesta:


Cada predictor tiene que estar linealmente relacionado con la variable respuesta, mientras los demás
predictores se mantienen constantes, de lo contrario no se puede introducir en el modelo. La forma más
recomendable de comprobarlo es representando los residuos del modelo frente a cada uno de los predictores.
Si la relación es lineal, los residuos se distribuyen de forma aleatoria entorno a cero.

Estos análisis son solo aproximados, ya que no hay forma de saber si realmente la relación es lineal cuando
el resto de predictores se mantienen constantes.
136

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple


Supuestos:

4. Distribución normal de los residuos:


Los residuos se deben distribuir de forma normal con media cero. Para comprobarlo se recurre a histogramas,
a los cuantiles normales o a test de hipótesis de normalidad.

5. Variabilidad constante de los residuos (Homoscedasticidad):


La varianza de los residuos debe de ser constante en todo el rango de observaciones. Para comprobarlo se
grafican los residuos. Si la varianza es constante, se distribuyen de forma aleatoria manteniendo una misma
dispersión y sin ningún patrón específico alrededor de cero.
Una distribución de residuales con tendencia cónica es un claro identificador de falta de homoscedasticidad.
También se puede recurrir a contrastes de homoscedasticidad como el test de Breusch-Pagan
137

Extensión del Modelo de Regresión


Regresión Lineal Múltiple

Modelos de Regresión: Análisis de Regresión Lineal Múltiple


Supuestos:

6. No autocorrelación (Independencia):
Los valores de cada observación son independientes de los otros, esto es especialmente importante de
comprobar cuando se trabaja con mediciones temporales. Se recomienda representar los residuos ordenados
acorde al tiempo de registro de las observaciones, si existe un cierto patrón hay indicios de autocorrelación.
También se puede emplear el test de Durbin-Watson.

7. Valores atípicos, con alto leverage o influyentes:


Es importante identificar observaciones que sean atípicas o que puedan estar influenciando al modelo. La
forma más fácil de detectarlas es a través de los residuos.

8. Tamaño de la muestra:
No se trata de una condición de por sí pero, si no se dispone de suficientes observaciones, predictores que no
son realmente influyentes podrían parecerlo.
138

Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS

Modelos de Regresión: Análisis de Regresión Lineal Múltiple


Selección de los Predictores (Evaluación de las Variables Explicatorias):

La validación de las variables explicatorias, en un modelo de regresión múltiple, sigue


dos pasos fundamentales:

1. Prueba global:

2. Pruebas individuales

Explicaremos esto a través de un ejemplo concreto.


(Scripts R)
Gráficos
Multivariados
140

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Introducción:

Como se entiende generalmente, la expresión Análisis de Datos Multivariados representa un conjunto


de métodos estadísticos cuyas misión principal es la de realizar técnicas de tratamiento de
información de varias variables, para un gran conjunto de datos.

El término Multidimensional (Multivariado) en sí cubre tres o más aspectos o condiciones, lo que


implica que las observaciones o individuos sean descritos por varias variables.

Pero, más allá del hecho de que tenemos muchos valores de muchas variables para cada
observación, la intención es estudiarlos simultáneamente, lo que es característico de un enfoque
multidimensional. Por lo tanto, utilizaremos estos métodos cada vez que la noción de perfil sea
relevante al considerar a un individuo, por ejemplo, el perfil de respuesta de los consumidores, el
perfil biométrico de las plantas, el perfil financiero de las empresas, etc.
141

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Introducción:

Desde otro punto de vista, el interés de considerar los valores de los individuos a través de un
conjunto de variables, de manera global, radica en el hecho de identificar si estas variables están
causadas o vinculadas.
Teniendo en cuenta que estudiar las relaciones de entre todas las variables, tomadas dos en dos, no
constituye un enfoque multidimensional en sentido estricto; el enfoque (multivariado) implica la
consideración simultánea de las relaciones de todas variables de análisis.

El concepto de variable sintética es intrínsecamente multidimensional, y de hecho, es una herramienta


poderosa para la descripción o resumen de una base completa de variables individuales.
Para un gran conjunto de datos multivariados, es más difícil visualizar sus relaciones.
Descubrir el comportamiento de estos datos requiere técnicas estadísticas específicas.
El Análisis de Datos Multivariado (MDA) se refiere a una serie de enfoques utilizados para analizar
(medir) un conjunto de datos que contiene múltiples variables.
142

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Objetivos:

Los objetivos que persigue el análisis de datos multivariados, entre otros, son:

 Resumir el conjunto de variables originales en unas pocas nuevas variables, construidas


como trasformaciones de las originales, con la mínima pérdida de información.

 Encontrar grupos en los datos si existen.

 Clasificar nuevas observaciones en grupos definidos.

 Relacionar dos conjuntos de variables.


143

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Aplicaciones:
Algunas de las aplicaciones del análisis multivariado según son:

Administración de Empresas: Construir tipologías de clientes.


Agricultura: Clasificar terrenos de cultivo por fotos aéreas.
Arqueología: Clasificar restos arqueológicos.
Biometría: Identificar los factores que determinan la forma de un organismo vivo.
Ciencias de la Computación: Diseñar algoritmos de clasificación automática.
Ciencias de la Educación: Investigar la efectividad del aprendizaje a distancia.
Ciencias Ambientales: Investigar las dimensiones de la contaminación ambiental.
Documentación: Clasificar revistas por sus artículos y construir indicadores bibliométricos.
Economía: Identificar las dimensiones del desarrollo económico.
Geología: Clasificar sedimentos.
Historia: Determinar la importancia relativa de los factores que caracterizan los periodos pre-evolucionarios.
Ingeniería: Transmitir óptimamente señales por canales digitales.
Lingüística: Encontrar patrones de asociación de palabras.
Medicina: Identificar tumores mediante imágenes digitales.
Psicología: Determinar los factores que componen la inteligencia humana.
Sociología y Ciencia Política: Construir tipologías de los votantes de un partido.
144

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

En síntesis:

El análisis multivariado es una línea de la estadística que estudia, analiza, representa e


interpreta los datos que resultan de observar más de una variable estadística sobre muestras
de individuos. Las variables observables son homogéneas y correlacionadas sin que alguna
predomine sobre las demás. La información estadística en el Análisis Multivariado es de
carácter multidimensional, por lo tanto la geometría, el cálculo matricial (la información
multivariante) y las distribuciones multivariantes juegan un papel fundamental.
145

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Gráficos Básicos Mejorados (Gráficos de dispersión 2D mejorados)


1. Diagrama de Dispersión Codificado por Color (Diagrama de Color):

Una "gráfica de color" básica muestra los valores de tres variables a la vez usando símbolos
de colores, donde el valor de una variable determina la posición relativa del símbolo a lo
largo del eje X y el valor de una segunda variable determina la posición relativa de el símbolo
a lo largo del eje Y, y el valor de la tercera variable se usa para determinar el color del
símbolo.

CASO:
El conjunto de datos de Specmap ilustró las variaciones en el tiempo de los datos de isótopos de oxígeno
(que registran el volumen de hielo global, los valores negativos significan poco hielo o condiciones de
calor global, valores positivos, implica grandes capas de hielo y condiciones de frío global) que
teóricamente deberían depender de la insolación (radiación solar entrante) a 65 N, que se ha denominado
el "marcapasos de las edades de hielo". Sin embargo, un diagrama simple de “O18~ Insolation” sugiere lo
contrario.
146

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
library(sp)
library(raster)
attach(specmap)
fix(specmap) # 783 casos
plot(O18 ~ Insol, pch=16, cex=0.6)

La nube de puntos (a primera vista) es bastante irregular, y el coeficiente de correlación


también es bastante bajo:
cor(O18, Insol)
147

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

El gráfico de O18 en función de la edad, y la codificación de colores de los símbolos por


niveles de Insol, revela la naturaleza del control del volumen de hielo por insolación:

library(RColorBrewer)
library(classInt) # class-interval recoding library
plotvar <- Insol
nclr <- 8 # Divide el rango de las medidas en 8 categorías, para luego asignarles colores distintos.
plotclr <- brewer.pal(nclr,"PuOr")
plotclr <- plotclr[nclr:1] # reorder colors
class <- classIntervals(plotvar, nclr, style="quantile")
colcode <- findColours(class, plotclr)

plot(O18 ~ Age, ylim=c(2.5,-2.5), type="l")


points(O18 ~ Age, pch=16, col=colcode, cex=1.5)
148

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

2. Colores y Símbolos:
También se puede mostrar información de cuatro variables a la vez.

En este ejemplo para la Summit Cr. Data (a scatter plot of WidthWS as a function of CumLen -
fluvial geomorph data), el carácter de gráfico está determinado por Reach y su color por HU.
Aunque estos son factores, las variables numéricas también podrían graficarse.

attach(sumcr)
fix(sumcr)

plot(WidthWS ~ CumLen, pch=as.integer(Reach), col=as.integer(HU))


legend(25, 2, c("Reach A", "Reach B", "Reach C"), pch=c(1,2,3), col=1)
legend(650, 2, c("Glide", "Pool", "Riffle"), pch=1, col=c(1,2,3))
detach(sumcr)

Reach:
Uso de dos aplicaciones de la función leyenda (): los círculos indican el alcance de pastoreo aguas arriba (alcance A), los triángulos indican
el alcance de exclusión del ganado (B), y también indican el alcance de pastoreo aguas abajo (C), mientras que el negro indica
deslizamientos, el rojo indica piscinas y el verde indica rápidos.
149

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
3. Diagrama de Burbujas:

El gráfico de burbujas muestra los valores de tres variables a la vez utilizando símbolos
graduados (generalmente círculos), donde el valor de una variable determina la posición
relativa del símbolo a lo largo del eje X y el valor de una segunda variable determina la
posición relativa de el símbolo a lo largo del eje Y, y el valor de la tercera variable se usa para
determinar el tamaño del símbolo. Aquí hay un mapa crudo de las elevaciones de las
estaciones climáticas de Oregon, que refleja la topografía general del estado.

attach(orstationc)
plot(lon, lat, type="n")
symbols(lon, lat, circles=elev, inches=0.1, add=T)
150

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
3. Diagrama de Burbujas:

# Otro Bubble Chart, algo más elaborado:


#---------------------------------------
library(ggplot2)
theme_set(theme_bw() +
theme(legend.position = "top")
)

# Cargando los datos


data("mtcars")
df <- mtcars

# Convirtiendo cyl como una variable de agrupación


df$cyl <- as.factor(df$cyl)

# Inspeccionando los datos


head(df[, c("wt", "mpg", "cyl", "qsec")], 4)

# Graficando con ggplot:


ggplot(df, aes(x = wt, y = mpg)) +
geom_point(aes(color = cyl, size = qsec), alpha = 0.5) +
scale_color_manual(values = c("#00AFBB", "#E7B800", "#FC4E07")) +
scale_size(range = c(0.5, 12)) # Ajustando el tamaño de los puntos
151

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

4. Diagramas de dispersión 3-D


Los diagramas de dispersión tridimensionales (a diferencia de las matrices de diagramas de dispersión que involucran
tres variables), ilustran la relación entre tres variables trazándolas en un "cuadro de trabajo" tridimensional.

Este gráfico muestra los valores de tres variables a la vez, trazandolas en un "cuadro de trabajo" tridimensional donde el
valor de una variable determina la posición relativa del símbolo a lo largo del eje X y el valor de una segunda variable
determina el valor relativo posición del símbolo a lo largo del eje Y, y el valor de la tercera variable se utiliza para
determinar la posición relativa a lo largo del eje Z. Esta trama hace uso del paquete de celosía.

library(lattice)
cloud(elev ~ lon*lat)
152

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Gráficos de dispersión en 3D (usando el paquete scatterplot3d)

library(scatterplot3d)
library(RColorBrewer)

# get colors for labeling the points


plotvar <- pann # pick a variable to plot
nclr <- 8 # number of colors
plotclr <- brewer.pal(nclr,"PuBu") # get the colors
colornum <- cut(rank(plotvar), nclr, labels=FALSE)
colcode <- plotclr[colornum] # assign color

# scatter plot
plot.angle <- 45
scatterplot3d(lon, lat, plotvar, type="h", angle=plot.angle, color=colcode, pch=20, cex.symbols=2, col.axis="gray",
col.grid="gray")
153

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”

Gráficos de dispersión en 3D (usando el paquete scatterplot3d)


La variable z, en este caso, la precipitación anual, se traza como un punto, y para interpretar una línea de caída se
traza debajo del punto. Esta simple adición facilita encontrar la ubicación de cada punto (donde golpea el plano x-y,
o el plano de latitud-longitud), así como el valor de la precipitación anual.

Se pueden agregar MAPAS al diagrama de dispersión en 3-D para mejorar la interpretación:

library(scatterplot3d)
library(RColorBrewer)

# get colors for labeling the points


plotvar <- pann # pick a variable to plot
nclr <- 8 # number of colors
plotclr <- brewer.pal(nclr,"PuBu") # get the colors
colornum <- cut(rank(plotvar), nclr, labels=FALSE)
colcode <- plotclr[colornum] # assign color

# scatter plot
plot.angle <- 45
scatterplot3d(lon, lat, plotvar, type="h", angle=plot.angle, color=colcode, pch=20, cex.symbols=2, col.axis="gray",
col.grid="gray")
154

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
5. Gráficos de Superficie y Puntos OpenGL

El paquete rgl (por D. Alder) se puede usar para trazar puntos (y superficies y líneas) en un espacio tridimensional.

La característica principal que distingue este enfoque es la capacidad de rotar la nube de puntos "sobre la marcha“,
tal como se ve el código, y cuando aparece la imagen, se puede girar arrastrando el mouse dentro de la ventana. Si
mantiene presionado el botón izquierdo mientras arrastra, las bolas giran, mientras que si mantiene presionado el
botón derecho cambia la perspectiva.

library(rgl)
example(rgl.surface)

rgl.clear()
example(rgl.spheres)
155

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
6. Gráficos Trellis / Lattice

Muchos conjuntos de datos incluyen una mezcla de variables "continuos" (variables de escala de relación o intervalo
ordinal) y variables "discretas" (variables de escala nominal). A menudo, puede surgir el problema de cómo una
relación particular entre las variables puede diferir entre los grupos.

La información de esa naturaleza se puede obtener utilizando gráficos de acondicionamiento (o parcelas). Dichos
gráficos son parte de un esquema general de análisis de datos visuales, conocido como Trellis Graphics, creado por
los desarrolladores del lenguaje S.

Básicamente, lo que sucede es que la función coplot () está determinando qué subconjunto de observaciones debe
aparecer en cada panel, mientras que las dos funciones dentro de la función panel () (panel.smooth () y abline () ),
realizan sus tareas en ese subconjunto de observaciones

library(lattice)
attach(scanvote) # Scandinavian EU preference votes

coplot(Yes ~ log10(Pop) | Country, columns=3,


panel=function(x,y,...) {
panel.smooth(x,y,span=.8,iter=5,...)
abline(lm(y ~ x), col="blue") }
)
156

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
7. Gráficos Trellis (Glifos) / Lattice

Muchos conjuntos de datos incluyen una mezcla de variables "continuos" (variables de escala de relación o intervalo
ordinal) y variables "discretas" (variables de escala nominal). A menudo, puede surgir el problema de cómo una
relación particular entre las variables puede diferir entre los grupos.

La información de esa naturaleza se puede obtener utilizando gráficos de acondicionamiento (o parcelas). Dichos
gráficos son parte de un esquema general de análisis de datos visuales, conocido como Trellis Graphics, creado por
los desarrolladores del lenguaje S. Los Trellis Graphics se implementan en R utilizando el paquete Lattice.

library(lattice)
attach(scanvote) # Scandinavian EU preference votes

coplot(Yes ~ log10(Pop) | Country, columns=3,


panel=function(x,y,...) {
panel.smooth(x,y,span=.8,iter=5,...)
abline(lm(y ~ x), col="blue") }
)
157

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
8.1 Cluster Analysis

El término clustering hace referencia a un amplio abanico de técnicas unsupervised cuya finalidad es encontrar
patrones o grupos (clusters) dentro de un conjunto de observaciones. Las particiones se establecen de forma que, las
observaciones que están dentro de un mismo grupo, son similares entre ellas y distintas a las observaciones de otros
grupos. Se trata de un método unsupervised, ya que el proceso ignora la variable respuesta que indica a que grupo
pertenece realmente cada observación (si es que existe tal variable)..

El análisis de conglomerados es uno de los métodos más importantes de minería de datos, para descubrir
conocimiento en multidimensionalidad. El objetivo de la agrupación es identificar patrones o clúster de objetos
similares dentro de un conjunto de datos de interés.

library(factoextra)
USArrests %>%
scale() %>% # Scale the data
dist() %>% # Compute distance matrix
hclust(method = "ward.D2") %>% # Hierarchical clustering
fviz_dend(cex = 0.5, k = 4, palette = "jco") # Visualize and cut into 4 groups
158

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
8.2. Heatmaps

Los heatmaps son el resultado obtenido al representar una matriz de valores en la que, en lugar de números, se
muestra un gradiente de color proporcional al valor de cada variable en cada posición. La combinación de un
dendrograma con un heatmap permite ordenar por semejanza las filas y o columnas de la matriz, a la vez que se
muestra con un código de colores el valor de las variables. Se consigue así representar más información que con un
simple dendrograma y se facilita la identificación visual de posibles patrones característicos de cada cluster.

datos <- mtcars


# Para que las variables sean comparables bajo un mismo esquema de colores se
# estandarizan.
datos <- scale(datos)
heatmap(x = datos, scale = "none", distfun = function(x){dist(x, method = "euclidean")},
hclustfun = function(x){hclust(x, method = "average")},
cexRow = 0.7)
159

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
9. Análisis de Correspondencias Múltiple
Dicho en términos muy simples, el Análisis de Correspondencia Múltiple (MCA) es una técnica estadística
multivariada de variables cualitativas. Al igual que PCA, el MCA es una herramienta que nos permite analizar los
patrones sistemáticos de variaciones con datos categóricos. Identificando asociación y frecuencia de la categorías
de las variables de estudio.

# load packages
require(FactoMineR)
require(ggplot2)

# load data tea


data(tea)
# take a peek
head(tea)
# select these columns
newtea = tea[, c("Tea", "How", "how", "sugar", "where", "always")]
# take a peek
head(newtea)
# number of categories per variable
cats = apply(newtea, 2, function(x) nlevels(as.factor(x)))

cats
160

Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
9. Análisis de Correspondencias Múltiple

# load packages
require(FactoMineR)
require(ggplot2)

# load data tea


data(tea)
# take a peek
head(tea)
# select these columns
newtea = tea[, c("Tea", "How", "how", "sugar", "where", "always")]
# take a peek
head(newtea)
# number of categories per variable
cats = apply(newtea, 2, function(x) nlevels(as.factor(x)))

cats
TIME FOR RELAX
…. Nueva Sesión…
Muestreo
Probabilístico
163

Muestreo Probabilístico

Estimaciones Poblacionales
Universos de estudio

Marcos Muestrales

Diseños Probabilísticos.

Estimaciones
Estimaciones de parámetros
poblacionales de interés.

25 97 80 63 82 90

Eco-Biológico Contaminación Mercados Epidemias


Migración Niveles Preferencias Propagación
Análisis de percepción Conteo de unidades
Conteo de aves, peces, etc. Partículas por millón.
experimentales infectadas.
164

¿Población o Muestra?

Muestreo Probabilístico: Es la selección de unidades muestrales, proceso que se realiza utilizando un


esquema basado en las probabilidades (posibilidades o chances) que tienen los sujetos de la población en
formar parte de dicha selección.
165

Muestreo
Casos de Estudio

Ejemplo 1: Liquen para los Caribú en Alaska

Para estimar la cantidad de unidades disponibles de liquen, como alimento para un caribú en Alaska, los biólogo recoge liquen de
pequeñas parcelas seleccionadas dentro del área de estudio.

Basado en el peso seco de estos especímenes, se estima la biomasa disponible para toda la región.
166

Muestreo
Casos de Estudio

Ejemplo 2: Posos Petroleros

Del mismo modo, para estimar la cantidad de petróleo recuperable en una región, unos pocos (muy costosos) orificios de muestreo se
perforan.
167

Muestreo
Casos de Estudio

Ejemplo 3: Encuestas de Opinión

La situación es similar en una encuesta nacional de opinión, en el que se pone en contacto sólo una muestra de las personas en la
población, y las opiniones de la encuesta se utilizan para estimar las proporciones de las distintas opiniones en toda la población.
168

Muestreo
Casos de Estudio

Ejemplo 4: Enfermedades Extrañas

Para estimar la prevalencia de una enfermedad rara, la muestra puede consistir en una serie de instituciones médicas, cada una de las
cuales tiene registros de los pacientes tratados.
169

Muestreo
Casos de Estudio

Ejemplo 5: VIH

En un estudio de los comportamientos de riesgo asociados con la transmisión del virus de la inmunodeficiencia humana (VIH), una muestra
de usuarios de drogas inyectables se obtiene siguiendo los vínculos sociales de un miembro de la población a otro.
170

Muestreo
Casos de Estudio

Ejemplo 6: Aves Raras

Para estimar la abundancia de una especie de aves raras y en peligro de extinción, la abundancia de aves en la población se estima con
base en el patrón de las detecciones de una muestra de sitios en la región de estudio.
171

Muestreo
Casos de Estudio

Ejemplo 7: Muestreo en Auditorías

El empleo de procedimientos de muestreo eficaces mejorará el alcance, el enfoque y la eficiencia de las auditorías y permite al auditor
proporcionar aseguramiento sobre los procesos de negocio que sean relevantes para que la organización cumpla con sus metas y
objetivos. Es importante que los auditores internos comprenda los consejos y los estándares aceptados en materia de muestreo, junto con
los procesos del negocio y los datos con los que esté trabajando, cuando proceda a elegir la técnica de muestreo más apropiada para la
auditoría.
172

Muestreo

Unas de las preguntas obvias para tales estudios, es:

¿Cuál es la mejor manera de obtener una buena muestra?

Y una vez se tenga la muestra, ¿cuál es la manera óptima de utilizar esta muestra para
estimar la característica y que represente toda la población?

La obtención de las observaciones involucra cuestiones de:

 Definir el tamaño de la muestra.


 Definir cuales son las unidades a escoger.
 Definir los métodos para la selección de la muestra.
 Puntualizar las medidas a evaluar.
173

Muestreo

En términos más generales, el campo de MUESTREO se refiere a todos los aspectos relacionados con la selección de los datos,
de entre todas las posibilidades que podrían haber sido observadas; esto, sin importa que el proceso de selección esté bajo el
control de los investigadores o sea determinado por la misma naturaleza del fenómeno, o simplemente por la casualidad;
Adicionalmente, el muestreo trata de cómo utilizar los resultados para hacer inferencias sobre un gran número de parámetros
de la población investigada.
174

Muestreo
175

Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
UNIDADES DE MUESTREO
Con muchas poblaciones de personas e instituciones, es
sencillo identificar el tipo de unidades a muestrear, y
concebir una lista o marco de las unidades de la
población, independientemente de los problemas
prácticos de la obtención de una muestra probabilística.

Una lista completa de personas, hogares, instituciones


médicas, empresas, especies o plantas, en la población
objetivo proporcionaría un marco ideal del cual se podrían
seleccionar las unidades de la muestra.

En la práctica, a menudo es difícil obtener una lista que


corresponde exactamente a la población de interés.

(Subcobertura y Sobrecobertura).
176

Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones

Para una población difícil de alcanzar con problemas de detectabilidad, el concepto de unidades o
parcelas puede ser reemplazado por el de las funciones de detectabilidad, que están asociadas con los
métodos de observación poblacional, y los lugares son seleccionados para hacer las mediciones.

Por ejemplo, en la selección de la ubicación de los transectos de línea, en un muestreo de aves, las líneas y
la velocidad a la que se recorren las líneas, determina las "áreas efectivas" observadas en la zona de
estudio, en lugar de unidades o parcelas de muestreo tradicionales.

En algunas situaciones de muestreo, la variable de interés puede variar continuamente a lo largo de una
región. Por ejemplo, en un estudio para evaluar las reservas de petróleo en una región, la variable medida
puede ser el volumen y la profundidad para ubicar el núcleo de aceite de la zona.

El valor de una variable de este tipo no está necesariamente asociada con ningún conjunto finito de
unidades experimentales de la región, sino más bien, puede medirse o estimarse ya sea en un punto o
como un total de más de una subregión de cualquier tamaño o forma.
177

Muestreo
178

Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?
179

Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?

Ver sintaxis R
180

Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?

Independientemente del esquema de muestreo (MAS, ME, MC, MS, Muestreos Multetápico, con
probabilidades no iguales, etc); un muestreo probabilístico deberá solucionar tres preguntas
básicas que se presentan en cualquier escenario de investigación, o intervención:

1. ¿CUÁNTA MUESTRA SELECCIONAR?


2. ¿CUÁLES MUESTRAS TOMAR?
3. ¿CÓMO SELECCIONAR ESTAS MUESTRAS?
n=?
Identificar las unidades Determinar el esquema o
muestrales a seleccionar escenario donde cohabitan las
unidades experimentales a
seleccionar, y así determinar de
qué manera extraer la muestra.
181

Muestreos Básicos

Muestreo Aleatorio Simple (MAS)


Muestreos Básicos
182

Muestreo Aleatorio Simple (MAS)

El muestreo aleatorio simple (sin reemplazamiento), es un diseño de muestreo en el que las unidades de n
elementos distintos se seleccionan de las N unidades en la población de tal manera que todas las combinaciones
posibles de n unidades tienen la misma probabilidad de ser la muestra seleccionada.

De manera equivalente, se puede hacer una secuencia de selecciones independientes de toda la población,
donde cada unidad tiene igual probabilidad de selección en cada paso, descartando selecciones de repetición y
continuando hasta que se obtienen las n distintas unidades requeridas.

Como ejemplo visual, una Muestra Aleatoria Simple (MAS) de n = 40 unidades de una población de N = 400
unidades se representa en la Figura en la siguiente figura (generada a través de R).
Muestreos Básicos
183

Muestreo Aleatorio Simple (MAS)


popnx <- runif(100)
popny <- runif(100)

# Gráfico Espacial de la Distribución de la Población


plot(popnx,popny)

# Selección de una Muestra Aleatoria, sin reemplazamiento, de 10 objetos de una población de 100 posibles.

muestra<- sample(1:100,10)
muestra

# Dibujando los puntos de muestra, en la misma gráfica


points(popnx[oursample],popny[oursample])

# Identificando los puntos de muestreados de los otros puntos.


points(popnx[oursample],popny[oursample], pch=21,bg="red",cex=2)
Muestreos Básicos
184

Muestreo Aleatorio Simple (MAS)


Cada una de las posibles combinaciones de 40 unidades de esta población tiene la misma probabilidad de ser la
muestra seleccionada.

Con el MAS, la probabilidad de que la i-ésima unidad de la población esté incluida en la muestra es pi = n / N,
de modo que la probabilidad de inclusión es la misma para cada unidad.

Diseños de Muestreo diferentes al MAS puede dar a cada unidad experimental una probabilidad de ser incluidas
en la muestra, pero sólo con el muestreo aleatorio simple cada posible muestra de n unidades tienen la misma
probabilidad.
Muestreos Básicos
185

Muestreo Aleatorio Simple (MAS)


Estimación de la Media Poblacional:
Bajo un Muestreo Aleatorio Simple, la media de la muestra (media muestral) es un estimador insesgado de la
media poblacional μ.

La media poblacional μ es el promedio de los valores de y en toda la población:

y su estimación, es:

La varianza poblacional, es: y su estimación, es:

La varianza de la estimación del promedio muestral, es: y su estimador insesgado,

es:
Muestreos Básicos
186

Muestreo Aleatorio Simple (MAS)


Estimación del Total Poblacional:

Para el Total Poblacional t, se tiene que y su estimación, es:

De forma similar a la varianza de la estimación de la media, la varianza de la estimación del Total, es:
Muestreos Básicos 187

Muestreo Aleatorio Simple (MAS)


Ejemplo:
En un estudio experimental de Caribús en la llanura costera de Alaska ártico, un grupo de caribús fueron contados
desde un avión, volando sobre las líneas seleccionadas en toda la región de estudio (Davis et al 1979;. Valkenburg
1990). Se registraron todos los caribú dentro de 1/2 milla a cada lado de cada línea que fue sobrevolada,
implicando esto que el ancho de banda fue de 1 milla. Una muestra aleatoria simple de 15 bandas de norte a sur
fue seleccionada de la región de estudio (286 kilómetros de ancho), por lo que n = 15 y N = 286.

Los números de caribúes en las 15 unidades de la muestra fueron: 1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5 y 4.
______________________________________________________________________________________________________

La estimación de la media muestral, es:

La varianza muestra, es:

Y la varianza estimada de la estimación del promedio, es: CV ??

y el error estándar de la estimación, es:


Muestreos Básicos 188

Muestreo Aleatorio Simple (MAS)


Ejemplo:
En un estudio experimental de Caribú en la llanura costera de Alaska ártico, un grupo de caribú se contaron
desde un avión volando sobre las líneas seleccionadas en toda la región de estudio (Davis et al 1979;. Valkenburg
1990). Todo caribú dentro de 1/2 milla a cada lado de cada línea que fue sobrevolada fueron registrados, por lo
que cada ancho de banda fue de 1 milla. Una muestra aleatoria simple de 15 bandas de norte a sur fue
seleccionada de la región de estudio (286 kilómetros de ancho), por lo que n = 15 y N = 286.
______________________________________________________________________________________________________

La estimación del Total Poblacional de Caribús, es:

La varianza estimada de la estimación del Total, es:

y el error estándar de la estimación, es:


Muestreos Básicos
189

Muestreo Aleatorio Simple (MAS)


Intervalos de Confianza para la Media o el Total Poblacional:
Bajo un muestreo aleatorio simple, los Intervalos de Confianza para las estimaciones anteriores, son:

Para la estimación de la media poblacional m, es:

Y para la estimación del total poblacional t, es:

Actividad: “Calcule un I.C. del 90% para la media y el total estimado de Caribú del ejemplo anterior”.
Muestreos Básicos 190

Muestreo Aleatorio Simple (MAS)


Estimaciones con R: “Generando un escenario de selección de muestras aleatorias simples”
# Generando el Universo de Estudio:
popnx <- runif(100)
popny <- runif(100)

# Graficando la distribución especial de la población


plot(popnx,popny)

# Seleccionando una muestra aleatoria, sin reemplazamiento, de 10 elementos de los 100 posibles de
la
# población.

MAS<- sample(1:100,10)
MAS

# Seleccionando los puntos de la MAS en la misma gráfica


points(popnx[oursample],popny[oursample])

# Resaltando la MAS a través de colores


Muestreos Básicos 191

Muestreo Aleatorio Simple (MAS)


Estimaciones con R: “Generando un escenario de selección de muestras aleatorias simples”
Muestreos Básicos 192

Muestreo Aleatorio Simple (MAS)


Estimaciones con R: “Estimaciones Basadas en las Muestras Aleatorias Simples”

Los datos de caribú del ejemplo anterior se pueden introducir y almacenar como un vector llamado "y" de la
siguiente manera.

y <- c(1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5, 4)

# La media y la varianza muestral, son:


mean(y)
var(y)

# La varianza del promedio estimado:


(1-15/286) *var(y)/15

# El Error Estándar (EE) de esta estimación:


sqrt(58.06)

Actividad: “Calcule un I.C. del 98% para la media estimada de Caribú del ejemplo anterior”.
Muestreos Básicos 193

Muestreo Aleatorio Simple (MAS)


Estimaciones con R: “Estimaciones Basadas en las Muestras Aleatorias Simples”

Los datos de caribú del ejemplo anterior se pueden introducir y almacenar como un vector llamado "y" de la
siguiente manera.

# La estimación del Total Poblacional, es:


N <- 286
N * mean(y)

# La varianza del Total estimado, es:


(286^2 )* 58.0576

#El Error Estándar (EE) de la estimación, es:


sqrt(4748879)

Actividad: “Calcule un I.C. del 95% para el Total estimado de Caribú del ejemplo anterior”.
Muestreos Básicos 194

Muestreo Aleatorio Simple (MAS)

Estimaciones Muestrales

En síntesis, se presenta a continuación un resumen de las estimaciones de parámetros, en un MAS.


Muestreos Básicos 195

Muestreo Aleatorio Simple (MAS)


Estimaciones con R: “Simulaciones: Teorema Central de Límites”

La eficacia de una Estrategia de Muestreo se puede evaluar mediante el uso de la simulación estocástica.

En este método, una “Población" de N unidades con Y valores, lo más similar posible al tipo de parámetro a ser
estudiado, se obtiene o se mide a través de una herramienta de captura.

Entonces:
(i) Una muestra de n unidades de esta información se selecciona mediante un diseño muestral, tal como un MAS.
(ii) Con los datos de la muestra seleccionada, se obtiene una estimación de la característica poblacional de
interés.

Estos dos pasos se repiten b veces, donde el número de iteraciones b es un número grande.
Las b repeticiones del procedimiento de muestreo producen b diferentes muestras, cada una de n unidades, y b
valores correspondientes de la estimación.

Entonces:
1. El promedio de estos valores se aproxima al valor esperado del estimador conforme al diseño.

2. El error cuadrático medio (ECM) de los valores de b se aproxima al ECM del estimador conforme al diseño.
Con una estrategia de muestreo no sesgada, el ECM será igual que la varianza poblacional.
TIME FOR RELAX
…. Nueva Sesión…
Muestreos Básicos
197

Tamaños Mínimos de Muestra (MAS):


Estimación de Tamaños Mínimos de Muestra:
La primera pregunta cuando se está planeando una encuesta es,

¿Qué tamaño de la muestra se debe utilizar?

La respuesta no siempre es tan simple.

Supongamos que se desea estimar el parámetro poblacional θ, que puede ser la media poblacional o el total, etc.

Desearíamos que la estimación de este parámetro esté lo más cerca posible del valor real, esto con una alta
probabilidad.

Entonces se especifica una diferencia máxima permitida d entre la estimación y el valor real del parámetro, y
permitiendo una pequeña probabilidad (α) de que el error pueda superar esa diferencia; el objeto entonces es
elegir un tamaño de la muestra n de tal manera que:
Muestreos Básicos
198

Tamaños Mínimos de Muestra (MAS):


Estimación de Tamaños Mínimos de Muestra:

Si el estimador de θ, es un estimador insesgado, normalmente distribuido alrededor del parámetro θ, entonces:

tiene una distribución normal estándar.

Si Z denota un valor α/2 superior de una distribución normal estándar, entonces:

La varianza de la estimación de θ disminuye al aumentar el tamaño de la muestra n, de modo que la desigualdad


anterior se cumplirá si podemos elegir lo suficiente para hacer n grande para que se cumpla:
( Z )*Raiz[Var (θ)] ≤ d.
Muestreos Básicos
199

Tamaños Mínimos de Muestra (MAS):


TAMAÑO DE LA MUESTRA PARA ESTIMAR UNA MEDIA POBLACIONAL:

Con el muestreo aleatorio simple, la media muestral de y , es un estimador insesgado de la media poblacional μ,
con varianza .

Luego

y despejando n da el tamaño mínimo de muestra:

con:

“el punto débil en el sistema es generalmente la estimación de la varianza de la población utilizada”.


Muestreos Básicos
200

Tamaños Mínimos de Muestra (MAS):


DE LA MUESTRA PARA ESTIMAR UNA POBLACIÓN TOTAL:

Para estimar el τ total de la población, la ecuación que hay que resolver para determinar n, es:

Lo que da como resultado el tamaño de la muestra necesaria:

Donde: .

Ignorando el factor de corrección para poblaciones finitas, la fórmula para el tamaño de la muestra se reduce a la
simple expresión n=n0.

Un aspecto molesto del cálculo del tamaño mínimo de muestra es que dependen directamente de la varianza de
la población, que generalmente es desconocido.

“En la práctica, uno debe ser capaz de estimar la varianza de la población utilizando una varianza de la muestra
de estudios pasados de la misma población o de una población similar, o a través de una muestra piloto de la
población de estudio”.
Muestreos Básicos
201

Tamaños Mínimos de Muestra (MAS):


Estimación de Tamaños Mínimos de Muestra - EJEMPLO:

Ejemplo: ¿Qué tamaño de muestra sería necesario estimar la población total de caribú dentro d=2.000 animales
del verdadero total poblacional, con 90% de confianza (α = 0,10)?

Sin ignorar el tamaño total de la población, y usando la varianza de la muestral del estudio preliminar (del
ejemplo inicial) como una estimación de la varianza poblacional (σ^2), se tiene que s^2 = 919;

donde la constante de 1,645 es el cuantil superior (bajo α / 2 = 0,05) de una distribución normal estándar; luego el
tamaño de la muestra aleatoria, bajo un MAS, daría:
Muestreos Básicos
202

Tamaños Mínimos de Muestra (MAS):


Estimación de Tamaños Mínimos de Muestra - EJEMPLO:

Ejemplo 2 – “Dataset – winter":

De la base de datos “winter”, seleccione una variable objetivo para determinar un tamaño mínimo de muestra,
determine la confianza y el error de muestreo.

Proporcione estimaciones de un promedio, de un total y de una proporción, junto la estimación de sus márgenes de
error.
Muestreos Básicos
203

Tamaños Mínimos de Muestra (MAS):


Taller de Muestreo:
Caso: "Desastres Naturales":
En la base de datos relacionada, se encuentra el "Registro de Eventos Naturales o Antrópicos no Intencionales"
ocurridos durante el año 2019, que fueron reportados a la UNGRD (Unidad Nacional para la Gestión del Riesgo de
Desastres) con su respectiva afectación y atención prestada a cada uno.
https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Emergencias-UNGRD-2019/4fd8-ptcr
(Base Excel Depurada)

Actividad:
1. Asumiendo que esta base datos es el marco de muestreo de su investigación, y teniendo en cuenta que el atributo más
importante para su investigación son los EVENTOS, y en especial el evento , el evento INCENDIO DE COBERTURA VEGETAL, bajo
un nivel de confianza del 93%, y asumiendo un error de muestreo en las estimaciones no superior a 3%; proporcione un tamaño
mínimo de muestra (bajo un muestreo aleatorio simple), para realizar las estimaciones que se indican a continuación, semilla
(3564). (Peso 30%)
2. A través de la muestra seleccionada, proporcione las siguientes estimaciones con su margen de error (Var, EE, CV, IC):
Estimación del total de personas fallecidas, promedio de personas heridas, y la proporción de casos de EVENTOS: INCENDIO DE
COBERTURA VEGETAL (Peso 30%).
3. Tome la estimación del promedio de personas heridas (calculado anteriormente), desagréguelo por departamentos, y haga una
representación cartográfica (EXCLUSIVAMENTE CON LA METODOLOGÍA - CÓDIGO R usado en la clase anterior) de su
estimación promedio. (Peso 30%).
NOTA IMPORTANTE: Este informe EJECUTIVO se debe entregar en un formato HTLM R-Markdown – página web
(en winzip COMPROBADO SU FUNCIONAMIENTO); bajo el tiempo establecido.
20
4
l e a Bibliografía 205

r >

Ĥ LEVIN / RUBÍN /BALDERAS / DEL VALLE / GÓMEZ. Estadística para


Administración y Economía. Pearson.
2 MENDENHALL /BEAVER/BEAVER. Estadística Matemática con
Aplicaciones.

E
LIND DOUGLAS / MARCHAL WILLIAMS / WATHEN SAMUEL. Estadística
Aplicada a los negocios y la economía. Edición 13a. Editorial Mc. Graw
Hill. 2008.
i WEIER RONALD. Introducción a la Estadística para los Negocios.

a
ANDERSON / SWEENEY / WILLIAMS. Estadística para Administración y
Economía. Cengage Learning.
e JAY L. DEBORE. Probabilidad y Estadística para Ingeniería y Ciencias.
Bogotá - Colombia

César Augusto Serna csernam@ucentral.edu.co


Magister en Ciencias Estadística
Universidad Nacional de Colombia
Consultor Estadístico
Thanks
for Coming

También podría gustarte