Presentación Herramientas Estadísticas I - Sesión 7 - 2020-2b

Fundamentos de Estadística
Maestría en Analítica de Datos

César Augusto Serna
César Augusto Serna M. csernam@ucentral.edu.co
MSc. Estadística
Fundamentos de Estadística
4
Contenido
Introducción a Software Estadístico Fuentes de Información

1 R-Project - Python
Uso del software de lenguaje y programación
2 Información Primaria y Secundaria
estadística R y Python.
EDA Inferencia y Pruebas de Hipótesis

3 Herramientas exploratorias univariadas y bivariadas
para interpretar patrones de comportamiento.
4 Pruebas de hipótesis paramétricas para muestras únicas,
muestras de tamaño diferente y para dos muestras. Análisis
de varianza de una vía, de dos vías, verificación de
supuestos, pruebas de comparación de medias.
Modelos y Cartografía:
5 Estadística, desde de los modelos de regresión, y
representación en mapas.
Sesión 1:
Exploración de la
Herramienta Estadística
R-Project
6
R-Project
Software de lenguaje y programación estadística
Sobre “R-Project”
Es un lenguaje de programación y un entorno para el cálculo estadístico y elaboración de gráficas básicas avanzadas; es una implementación de código abierto del lenguaje S (S-
Pluss), desarrollado por los Laboratorios Bell. Escrito inicialmente por Ross Ihaka y Robert Gentleman a mediados de los años 90.
Es uno de los programas estadísticos más conocidos por su capacidad para trabajar con grandes bases de datos y por poseer la mayoría de los análisis de última generación.
En R se pode realizar análisis hasta con 2 millones de registros y mas de 250.000 variables. Es un programa amplio y flexible de análisis estadístico y gestión de información
capaz de trabajar con datos procedentes de distintos formatos proporcionando, desde sencillos gráficos de distribuciones y estadísticos descriptivos, hasta análisis estadísticos
complejos que permiten descubrir relaciones de dependencia e interdependencia, establecer clasificaciones de sujetos y variables, predecir comportamientos, etc.
7
Un Paseo Rápido por la Herramienta

DESCARGA BÁSICA DE SOFTWARE R-Project
www.r-project.org
8

www.r-project.org
9

www.r-project.org
Windows:
10

www.r-project.org
Windows: Click
en “base”
11

www.r-project.org
Windows: Click en:

“Download”
12

R-Project: SISTEMA DE VENTANAS
Consola Area de script Ventana de gráficas

13

RStudio: SISTEMA DE VENTANAS
Area de script Ventana de gráficas
Consola
14

Demos de gráficos en R-Project
demo(graphics)
# (Dar enter después de observar un poco la gráfica)
demo(persp)
# (Dar enter después de observar un poco la gráfica)
Una gráfica interactiva en tres dimensiones, para ello es necesario

primero bajar el paquete rgl.
install.packages(“rgl”)
library(rgl)
open3d()
plot3d( iris[,1:3], type="s", size=1.2, col=rainbow(3))
15

Las Funciones en R-Project
Las funciones básicas de R se agrupan en paquetes (packages, libraries), los

cuales contienen las funciones más habituales y se incluyen por defecto en la
distribución del software, y el resto se encuentran disponibles en la
“Comprehensive R Archive Network (CRAN)” http://cran.r-project.org.
library()
#Para ver la lista de librerías disponibles para ser cargadas.
# En Windows se puede hacer por menús.
search()
#Para ver la lista de librerías ya cargadas
ls(4)
#Para ver las funciones del paquete stats
16

Primeras Nociones: “Help en R”.
# Maneras clásicas de consultar la ayuda

help(solve)
?solve
# Maneras más fuerte

??solve
# Consulta de ayuda para funciones con caracteres especiales y para

algunas # palabras reservadas como if, for y function.
help("[[")
?”[[“
help.search("calibration")
17

Primeras Nociones: “Help en R”.
#Ayuda en HTML: abre el navegador (sólo si está instalada la ayuda en

HTML).
help.start()
# Búsqueda de términos relacionados

help.search("clustering")
# Ejecución de ejemplos de una función. Las comillas son opcionales.

example("hclust")
18

Primeras Nociones: “Comandos, Case-Sensitivity”.
R distingue entre mayúsculas y minúsculas:
#Dos objetos diferentes

a <- 3
A <- 6
En R hay dos tipos de comandos: expresiones y asignaciones
#Expresión: El resultado se muestra por pantalla y no se guarda.

rnorm(10)
#Asignación: no se muestra nada.
v <- rnorm(10)
v
19

Primeras Nociones: “Comandos, Case-Sensitivity”.
Los comandos se separan por ";" o por un salto de línea.

Un comando se puede escribir en más de una línea.
Los comandos se agrupan con "{" y "}"
#Comandos separados por ";"

a <- 3; b <- 5
#Comando escrito en más de una línea

> a <-
+3
20

Primeras Nociones: “Ejecutar Comandos desde un Archivo de Texto”.
#En Windows, también está disponible en el menú:

source("comandos.R")
Guardar la salida (resultado) de nuestros comandos
#Inicio de volcado
sink("resultado.txt")
#Fin de volcado
sink()
Por defecto R busca los archivos en el directorio activo. Para verlo/cambiarlo ir al

menú File /Change Dir.
21

Primeras Nociones: “Ejecutar Comandos desde un Archivo de Texto”.
Si queremos referenciar archivos mediante su ruta completa tenemos que utilizar

los caracteres "\\" o "/":
#Hacemos un source poniendo la ruta completa del archivo

source("c:\\programas\\comandos.R") #Manera 1
source("c:/programas/comandos.R") #Manera 2
22

Primeras Nociones: “Permanencia de los Datos y Eliminación de Objetos”.
Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser:
Escalares (números, caracteres, lógicos (booleanos), factores),
Vectores/matrices/listas de escalares, Funciones, Objetos ad-hoc
#Para ver los objetos que están en una lista.

ls()
#También se puede hacer con la instrucción
objects()
#Para borrar objetos utilizamos la instrucción rm.
rm(A,b)
#Verificamos que los objetos A y b se han borrado
ls()
23

Primeras Nociones: “ Vectores y Asignaciones”.
R trabaja sobre estructuras de datos. La estructura más simple es un

vector numérico, que consiste en un conjunto ordenado de números.
#Creamos un vector de reales mediante la función c y lo guardamos en la

variable x.
x <- c(1.3, 2.5, 4.2, 9.7, 8.1)
#Un número por sí mismo es un vector de longitud 1

v <- 5
#Otras maneras de asignar menos utilizadas

assign("x", c(1.3, 2.5, 4.2, 9.7, 8.1, v)) #Instrucción assign
#Vectores de caracteres
d=c("a", "b", "f")
24

Si no se utiliza ninguna de las tres maneras de asignación

("<-", "->", "assign") el resultado de nuestra expresión se muestra por
pantalla pero no quedará guardado.
#Expresión: el resultado no se guarda

c(x,0,x)
#Objeto especial de R que guarda el resultado del último comando

ejecutado
.Last.value
25

Operador/función Símbolo/instrucción
# Generación de dos vectores.
suma +
x <- c(1.3, 2.5, 4.2, 9.7, 8.1) resta -
y <- c(x,0,x) multiplicación *
división /
módulo %%
# Como x es más corto que y, se reciclará para adquirir su misma división entera %/%
raíz cuadrada sqrt
longitud. R nos avisa de este hecho porqué los dos vectores no logaritmo nep. log
tienen una longitud #múltiple. El 1 en este caso también se recicla log gen logb
exponencial exp
y pasa a ser un #vector de once unoss. seno sin
v <- 2*x + y + 1 coseno cos
tangente tan
Warning message: máximo max
mínimo min
longer object length is not a multiple of shorter object length in: rango range
longitud length
2*x+y sumatorio sum
v producto prod
media mean
desv. estándar sd
varianza var
26

Primeras Nociones: “Generación de Secuencias”.
R dispone de instrucciones para generar secuencias de números.

Una de las más utilizadas es el operador ":"
# Generamos un vector con los números 1, 2, 3, 4, …, 29, 30.

1:30 #Esto es equivalente al vector c(1, 2, …, 29, 30)
# El operador ":" tiene la máxima preferencia

n <- 10
1:n-1 #Aquí prevalece ":" sobre "-"

1:n-2
1:(n-1) # Forzamos la prioridad del "-"

27

Primeras Nociones: “ Generación de Secuencias”.
Con la función seq también se pueden generar secuencias de números

# Generamos una secuencia de 1 a 30 saltando dos números cada vez
seq(1,30,by=2)
# La función seq admite también la longitud de la secuencia que

queremos generar, de manera que ella misma #decide el intervalo
automáticamente
seq(1,30,length=15)
La función rep sirve para generar repeticiones de objetos (escalares o

vectores)
x<-rep(3,7)
Genero=rep(c("Femenino", "Masculino"),4)
#====================================*
z=scan()
28

Primeras Nociones: “Valores Missing”.
En R los valores "desconocidos" o "no disponibles" (missings) se

simbolizan con el valor especial NA (Not Available). Cualquier operación
que incluya un NA en general devolverá NA como resultado. La función
is.na nos permite saber si un elemento es missing o no.
#Generamos un vector con los números 1, 2, 3 y un missing al final

z <- c(1:3, NA)
z
is.na(z) #Para verificar que valores del vector son missing.
[1] FALSE FALSE FALSE TRUE
# Recuerde: La expresión z==NA

z==NA
[1] NA NA NA NA
29

Primeras Nociones: “Valores Missing”.
Hay un segundo tipo de missings que se producen por computación

numérica, lo que se llama Not a Number, y en R se simbolizan con el valor
NaN.
0/0 # Ejemplo de un error numérico

[1] NaN
La función is.na retorna TRUE tanto para los NA como para los NaN.
Mientras que la función is.nan sólo retorna TRUE para los NaN.
30

Primeras Nociones: “Vectores Lógicos”.
R permite la manipulación de cantidades lógicas. Los valores de un vector

lógico pueden ser TRUE o T (cierto), FALSE o F (falso) y NA/NaN.
Los vectores lógicos se generan mediante condiciones:
#Generamos un vector de 1 a 10
x <- 1:10
# cond1 vector lógico, de la misma longitud que x, donde cada casilla
# nos dice si la correspondiente casilla de x cumple la condición x>7.
cond1 <- x > 7

cond1
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE
31

Primeras Nociones: “Vectores Lógicos”.
En R los vectores lógicos se pueden utilizar en aritmética ordinaria, siendo

substituído (coercionado) el FALSE por 0 y el TRUE por 1.
cond2 <- x >= 9 #Generamos otra condición

cond1 & cond2 #Hacemos una and lógica de las dos condiciones
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE
!cond1 #Negación lógica del vector cond1

[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE
32

Primeras Nociones: “Indexación de vectores ”.
#Generación de un vector con enteros de 1 a 10 y algunos missings por medio.

x <- c(1:5,NA,6:8,NA,9,10)
x
#Indexación por vector lógico: escogemos aquellos elementos que no son NA.
x[!is.na(x)]
#Vector lógico más complejo (Excluye los NA y selecciona los múltiplos).

x[!is.na(x) & x%%2==0]
x[!is.na(x) & x%%3==0]
#Indexación mediante vector de enteros positivos, selección de los 5 primeros

elementos de x.
x[1:5]
x[c(1,3,5,7,9,11)] #Nos quedamos con las posiciones impares
33

Primeras Nociones: “Matrices, Arreglos (Arrays) y DataFrames”.
Una matriz es un objeto de elementos que puede adquirir diversas dimensiones.

mat1=matrix(c(5,5,5,5),nrow=2,ncol=2)
mat2=matrix(c(2,2,2,1,1,1,3,3,3),3, 3)
mat3=matrix(0, 2, 2)
mat4=matrix(c(1,2,3,4,5,6,7,2,0),ncol=3)
Un Arrays es una generación multidimensional de los vectores.

h=array(0,c(3,3,3))
h
# Adicionando elementos al arreglo
h[3,3,2]=1
h
34

Primeras Nociones: “Matrices, Arreglos (Arrays) y DataFrames”.
Dataframe son matrices donde las diferentes columnas pueden tener valores de
diferentes tipos.
organismo=c("Humano","Ratones","Frutas", "Plantas","Peces")
PesoGrm=c(75000,30,135,97,500)
Frecuencias=c(30000,30000,13061,19099,6034)
base1=data.frame(organismo, PesoGrm, Frecuencias)

base1
*Funciones (function): conjunto de código de R ejecutable y parametrizable.
Cualquier objeto en R tiene las propiedades mode y length:

1. Mode: Tipo de datos de los elementos que forman un objeto (numeric,
complex, logical y character): mode(x)
2. Length: Número de elementos que contiene el objeto: length(x)
35

Primeras Nociones: “Importando Información”.
El R- Commander es la versión más Windows que posee R
x=read.table(file.choose(), header=T, sep="\t")
Excel - CSV
x=read.table(file.choose(), header=T, sep=“;")
36

Primeras Nociones: “Importando Información”.
Importando Información desde Excel a R-Project:

# CÓDIGO PARA IMPORTAR INFORMACIÓN EN FORMATO
# Archivo de Excel 97-2003:
library(RODBC)
conexion<-odbcConnectExcel() # En esta línea se selecciona el archivo
Datos<-sqlQuery(channel=conexion,"select * from [Hoja1$]")
close(conexion)
Datos
37

Primeras Nociones: “Exportando Información”.
Exportando Información desde R-Project a Excel:

# CÓDIGO PARA EXPORTAR INFORMACIÓN
# La siguiente instrucción guarda temporalmente en la memoria del equipo

# (clipboard) la base de datos que se quiere exportar.
write.table( Datos , file("clipboard"),sep="\t",dec=",", row.names=FALSE)

38


# CÓDIGO PARA EXPORTAR INFORMACIÓN
# La siguiente instrucción guarda temporalmente en la memoria del equipo

# (clipboard) la base de datos que se quiere exportar.
write.table( Datos , file("clipboard"),sep="\t",dec=",", row.names=FALSE)
write.csv(LosDatos, file = "ExporDatos.csv ")

39

save.xlsx <- function (file, ...)
{
require(xlsx, quietly = TRUE)
objects <- list(...)
fargs <- as.list(match.call(expand.dots = TRUE))
objnames <- as.character(fargs)[-c(1, 2)]
nobjects <- length(objects)
for (i in 1:nobjects) {
if (i == 1)
write.xlsx(objects[[i]], file, sheetName = objnames[i])
else write.xlsx(objects[[i]], file, sheetName = objnames[i],
append = TRUE)
}
print(paste("Workbook", file, "has", nobjects, "worksheets."))
}
save.xlsx("MisDatos.xlsx", Datos)
40

DATA VISUALIZATION - R-Project
Which packages / functions?

• Gráficos estándar (por ejemplo: line chart, bar chart, scatter plot):
• ggplot2 package
• Mapas temáticos:
• tmap package
• Otras visualizaciones:
• Tableplots (tabplot package )
• Treemaps (treemap package )
• Gráficos estándar con énfasis en valores perdidos(VIM package)
41

A continuación, algunos paquetes R más populares:
Basado en la gramática de los gráficos (Wilkinson, 2005)

Los gráficos se construyen de acuerdo con esta gramática:
• data
• mapping / aestetics
• geoms
• stats
• scales
• coord
• facets
42

ggplot and qplot

Data: data.frame.
ggplot(mpg, aes(x = displ, y = cty) ) +

geom_point()
Aestatics: x, y, color, fill, shape

Geometry: points
Función de acceso directo: qplot (quick plot):
qplot(displ, cty, data=mpg)

43

ggplot and qplot
Mapeo de datos a atributos visuales

de objetos geométricos:
Position: x,y,z
Color: color, fill
Shape: shape
qplot(x=displ, y=cty, data=mpg, ggplot(mpg, aes(x=displ, y=cty,

shape=factor(cyl)) color=factor(cyl))) + geom_point()
44

Geom:
Objetos Geométricos:
• Points, lines, polygons, …

• Functions start with “geom_”
También márgenes:
• geom_errorbar(), geom_pointrange(), geom_linerange().
• Note: they require the aesthetics ymin and ymax.
ggplot(mpg, aes(x = displ, y = cty)) +

geom_point() + geom_line()
45

Stat:
Transformación estadística: "identity ", " bin ", " count ", " lm "
La mayoría de los geoms tienen estadísticas predeterminadas (y viceversa)
geom y stat forman una capa
Una o más capas forman un gráfico:
Coord
Se dibuja un gráfico en un sistema de coordenadas.
Esto puede ser transformado, por ejemplo, un gráfico circular tiene un sistema de coordenadas polares.
46

Facets:
Con facetas, se crean pequeños múltiplos.

Cada faceta muestra un subconjunto de los datos:
qplot(x=displ, y=cty, color=factor(cyl),

data=mpg, facets=.~cyl)
47

tmap: Paquete R para mapas temáticos
Un mapa temático es una visualización donde se muestra información estadística con un componente
espacial.
Los mapas temáticos también se pueden hacer con otros paquetes de R, pero tienen algunos
inconvenientes:
Trama (del paquete sp) inconveniente: requiere trabajo manual.
ggplot2, desventajas: los datos están en formato largo, el diseño no está hecho para mapas, las
proyecciones de mapas no son fáciles de manejar.
La sintaxis de tmap se basa en ggplot2 y Grammar of Graphics, pero funciona con fluidez con objetos
espaciales de los paquetes sp y raster.
Referencia: Tennekes, M. (2016). tmap: Thematic Maps in R. Forthcoming in Journal of Statistical Software.
Sitio de desarrollo http://github.com/mtennekes/tmap

48

data(World, metro, rivers, land)
tmap_mode("plot")
tmap: Paquete R para mapas temáticos
## tmap mode set to plotting
tm_shape(land) +
library(tmap) tm_raster("elevation", palette = terrain.colors(10)) +
data("World") tm_shape(World) +
tm_borders("white", lwd = .5) +
tm_shape(World) +
tm_polygons("HPI")
tm_text("iso_a3", size = "AREA") +
tm_shape(metro) +
tm_symbols(col = "red", size = "pop2020", scale = .5) +
tm_legend(show = FALSE)
tm_shape(NLD_muni,
projection="rd")
tmap_mode("plot")
tm_fill("population", convert2density=TRUE, style="kmeans", ## tmap mode set to plotting
title="Population per km2")
data(NLD_muni)
NLD_muni$perc_men <- NLD_muni$pop_men / NLD_muni$population * 100
tmap_mode("view") tm_shape(NLD_muni) +
tm_polygons("perc_men", palette = "RdYlBu") +
tm_shape(World) + tm_facets(by = "province")
tm_polygons("HPI")
49

SISTEMA DE VENTANAS EN R-Project
Ventanas:
 Rcomander (todos los sistemas operativos)
 RkWard (linux y windows)
 Tinn-R (windows)
 RStudio cloud
50

Primeras Nociones: “Rcmdr (R Commander”.
El R- Commander es una versión Windows que posee R
library(Rcmdr) R- Comander
51

R Commander
52

R-Kward
53

R-Kward
54

R-Kward
55

Tinn - R
56

R - Cloud
57
Analítica de Datos
We make great solution to your problem
INFOMEDIA SOCIAL
Hoy en día, gran parte de la información se encuentra disponible en la red,
de acuerdo a la ley 1712 de 2014 – Ley de Transparencia: DATOS ABIERTOS.
Datos Abiertos significa información del estado a disposición de la sociedad.
D a t a
58
Fuentes de Datos para una Ciudad Inteligente
Encuestas a la ciudadanía
Estudios sociodemográficos de personas, hogares, consumo, hábitos, gastos transporte y educación E
Reportes anuales de entidades del estado
Informe de actividades comerciales, sus reportes, sus exportaciones, con bastante grado de detalle. R
Portales
Por la ley de transparencia, gran cantidades de entidades reportan sus movimientos, estado y demás bancos de datos en un mega
P
sitio que hace el papel de Banco de Datos, algunos de ellos son Datos Abiertos, otro es el banco de datos de la U. Andes (CEDE:
https://datoscede.uniandes.edu.co/es/ ).
Archivo Nacional de Datos (ANDA)
https://sitios.dane.gov.co/visor-anda/
Sistema de Inteligencia Comercial Consolidador de Hacienda e Datos Abiertos:
Legiscomex Información Pública (CHIP) https://www.datos.gov.co/
https://www.legiscomex.com/Landing/Index https://eris.contaduria.gov.co/SCHIPWeb2_0/login
Otras fuentes
Índice de Desempeño Fiscal (http://www.anticorrupcion.gov.co/Paginas/indice-desempeno-fiscal.aspx ),
Encuesta de Cultura Política (http://www.anticorrupcion.gov.co/Paginas/encuesta-cultura-politica.aspx ),
Portales: Monitor Ciudadano (https://www.monitorciudadano.co/ ), Mapa de Regalías (http://maparegalias.sgr.gov.co/ http://rendicionocads.cloudapp.net/Historicos/Index?idOcad=59907 ),
Sistema Integrado de la Información de la Protección Social - SISPRO (https://www.sispro.gov.co/Pages/Home.aspx )
Transparencia económica (http://www.pte.gov.co/WebsitePTE/ ),
Sistema de estadísticas en justicia (https://sej.minjusticia.gov.co/Paginas/index.aspx ).
59
Introducción
NOCIONES BÁSICAS DE
Análisis Estadístico con

R-Project
Ventajas: Gratuito, Gran cantidad de paquetes
disponibles y muy flexible, Una variedad de bases de
datos incluidas, Amplio soporte en internet.
Desventajas:
Está mucho más orientado hacia programación
Por tanto la curva inicial de aprendizaje muy
inclinada.
60
Python
Software de lenguaje y programación - estadística
Sobre “Python”
Es un lenguaje de programación y un entorno para el cálculo estadístico y elaboración de gráficas básicas avanzadas; Python es un lenguaje de programación poderoso y fácil de
aprender. Cuenta con estructuras de datos eficientes y de alto nivel y un enfoque simple pero efectivo a la programación orientada a objetos. La elegante sintaxis de Python y su
tipado dinámico, junto con su naturaleza interpretada, hacen de éste un lenguaje ideal para scripting y desarrollo rápido de aplicaciones en diversas áreas y sobre la mayoría de
las plataformas.
Es uno de los programas estadísticos más conocidos por su capacidad para trabajar con grandes bases de datos y por poseer la mayoría de los análisis de última generación.
Python es un programa amplio y flexible de análisis estadístico y gestión de información capaz de trabajar con datos procedentes de distintos formatos proporcionando, desde
sencillos gráficos de distribuciones y estadísticos descriptivos, hasta análisis estadísticos complejos que permiten descubrir relaciones de dependencia e interdependencia,
establecer clasificaciones de sujetos y variables, predecir comportamientos, etc.
61

DESCARGA BÁSICA DE SOFTWARE: https://www.python.org/downloads/
Anaconda:
62

DESCARGA BÁSICA DE SOFTWARE: Anaconda: https://anaconda.org/anaconda/python
63
Windows:
Lanzamiento de
Anaconda
64

SISTEMA DE CÓDIGOS EN EL NOTEBOOK - Jupyter
65

ASISTENTE DE PROCESAMIENTO - Spayder Consola Ventana de gráficas
script
Estadística Descriptiva:
Resumen Estadístico
Descriptivo Univariado
Background: introductory statistical analytics

67
Estadística Descriptiva
TABLAS – GRÁFICOS - CÁLCULOS
Análisis Exploratorio de Datos (EDA): “Naturaleza del EDA”
CÓMO LAS ESTADÍSTICAS NOS AYUDAN A APRENDER SOBRE EL MUNDO
“Imagínate el escenario”:
En el proceso de ser consultor analítico, explorarás una amplia variedad de escenarios
cotidianos.
Por ejemplo, evaluará los informes de los medios sobre encuestas de opinión, estudios de
investigación médica, el estado de la economía y cuestiones ambientales. Te enfrentarás
a decisiones financieras, tales como elegir entre una inversión con un rendimiento seguro
y una que podría hacerte ganar más dinero, pero que posiblemente te cueste toda tu
inversión. Aprenderás a analizar la información disponible para responder las preguntas
necesarias en tales escenarios.
Propósito: Mostrar por qué una comprensión minuciosa de las estadísticas es esencial
para tomar buenas decisiones en un mundo incierto. 100
0
68
Def. Estadística
La estadística es el arte y la ciencia de diseñar estudios y analizar los datos que producen
esos estudios. Su objetivo final es traducir los datos en conocimiento y comprensión del
mundo que nos rodea.
En resumen, la estadística es el arte y la ciencia de aprender de los datos.
En este sentido, las estadísticas como campo son una forma de pensar sobre los datos y
cuantificar la incertidumbre, y no un laberinto de números y fórmulas desordenadas.
100
0
69
Los múltiples escenarios que requieren de apoyo analítico ilustran los tres componentes
principales de las estadísticas para responder una pregunta de investigación:
- Diseño: indicando el objetivo y / o la pregunta estadística de interés y planificando cómo

obtener datos que los aborden
- Descripción: Resumen y análisis de los datos que se obtienen.
- Inferencia: Toma de decisiones y predicciones basadas en los datos para responder la
pregunta principal de la investigación.
Finalmente, un tema que aún no hemos mencionado pero que es fundamental para la
inferencia estadística es LA PROBABILIDAD, que es un marco para cuantificar el chance
de la ocurrencia de varios resultados posibles. 100
0
70
Pasos Previos al Procesamiento
Objetivos:
1. General Variables o
2. Específicos Preguntas
Variables Variables Pasos:

Numéricas o Categóricas o Antes de desarrollar cualquier análisis de información es importante tener
Cuantitativas Cualitativas claros el Objetivo General y los Objetivos Específicos de la investigación, pues
ĥ
de ellos depende el tipo de tratamiento estadístico que se aplicará.
1 Objetivo General:
Cálculos: Cálculos: 2 Objetivos Específicos.

Medias, Totales, Dependencias Frecuencias, Proporciones,
Distribuciones de Probabilidad,
Regresión, Factores, etc.
Tablas de Contingencia,
Análisis de Correspondencia, etc.
3 Identificación del Tipo de
Variable
4 Análisis Estadístico
PROCEDIMIENTO PARA INTRODUCIR DATOS EN R-Project:
Uno de los elementos básicos para dar inicio al procesamiento de bases de

datos con R-Project es tener claro el tipo de variable que se desea procesar.
Variables Nominales Variables de Intervalo

Variables cualitativas sin orden. El cero es un número que no
representa ausencia del
atributo.
Variables Ordinales Variables de Razón

Variables cualitativas con orden El cero SI representa ausencia
del atributo.
72
MUESTRA Vrs. POBLACIÓN
100
0
73
DEFINICIONES BÁSICAS
Def. Población:
Es un conjunto de personas, eventos o cosas de las cuales se desea hacer un estudio, y
tienen una característica en común.
Def. Muestra:
Es un subconjunto cualquiera de la población.
Es importante escoger la muestra en forma aleatoria (al azar), pues así se logra que sea
representativa y se puedan obtener conclusiones más afines acerca de las características
de la población.
Def. Variable:
Una variable es la característica de interés que el investigador desea medir a las
unidades experimentales objeto de su estudio.
100
0
74
DEFINICIONES BÁSICAS
Def. Resumen de la Información:
Un ordenamiento es una disposición de los datos numéricos en orden creciente o
decreciente de magnitud.
Def. Dato:
Es la realización o materialización de una variable de interés.
Def. Parámetro y Estadística:

Un parámetro es un resumen numérico de la población.
Una estadística es un resumen numérico de una muestra tomada de la población.
100
0
75
RESUMEN ESTADÍSTICO POR TIPO DE VARIABLE:
Resumen De Una Variable Cualitativa:
Elementos:
- Tabla de Frecuencias
- Diagrama de Barras
- Diagrama de Sectores
100
0
76

LA VIDA ES EXITANTE O MONOTONA
Porcentaje Porcentaje

Frecuencia Porcentaje válido acumulado
Válidos 0 118 39,3 39,5 39,5

EXCITANTE 72 24,0 24,1 63,5
RUTINARI 103 34,3 34,4 98,0

ABURRIDA 6 2,0 2,0 100,0
Elementos: Perdidos
Total
NR
299
1
99,7
,3
100,0
- Tabla de Frecuencias Total 300 100,0
- Diagrama de Barras
- Diagrama de Sectores
100
0
77

# libreria de colores
library(RColorBrewer)
# cargando la base de datos airpooll
mydata=read.table(file.choose(), header=T, sep=";")
fix(mydata)
Type = mydata$Relig
Type
# Crear una tabla de resumen
tabla=data.frame(table(Type))
tabla
prop.table(tabla)
100
0
78

# libreria de colores
# cargando la base de datos airpooll
mydata=read.table(file.choose(), header=T, sep=";")
fix(mydata)
Type = mydata$Relig
Type
# Crear una tabla de resumen
tabla=data.frame(table(Type))
tabla
prop.table(tabla)
100
0
79
Análisis Exploratorio: “Diagramas De Sectores”
Una vez se tenga la base de datos cargada en la hoja de cálculo del software, se
procede como sigue:
#Después de llamar los datos en la consola de R con el nombre: Airpoll
Opinion=Airpoll[,9]
tabla=data.frame(table(Opinion))
tabla
pie(tabla[,2],labels=tabla[,1], clockwise=TRUE,radius=1,border="black",main="Diagrama de
Sectores")
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whit
e",main="Diagrama de Sectores")
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
80
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Set2"),border="whit
e",main="Diagrama de Sectores")
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Spectral"),border="
white" ,main="Diagrama de Sectores")
pie(tabla[,2],labels=tabla[,1],clockwise=TRUE,radius=1,col=brewer.pal(4,"Dark2"),border="w
hite",main="Diagrama de Sectores")
#======================================
pielabels <- sprintf("%s = %3.1f%s", tabla[,1],100*tabla[,2]/sum(tabla[,2]), "%")
pie(tabla[,2],labels=pielabels,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whi
80
te",main="Diagrama de Sectores de Opinión")

60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
81
pielabels <- sprintf("%s = %3.1f%s", tabla[,1],100*tabla[,2]/sum(tabla[,2]), "%")
pie(tabla[,2],labels=pielabels,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="whi
te",main="Diagrama de Sectores de Opinión")
pie(tabla[,2],labels=NA,clockwise=TRUE,radius=1,col=brewer.pal(4,"Set1"),border="white",ma
in="Diagrama de Sectores de Opinión")
legend("bottomright",legend=pielabels,bty="n",fill=brewer.pal(7,"Set1"))
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
82
Resumen De Una Variable Cuantitativa:
Elementos:
- Tabla de Frecuencias
- Histograma
- Polígonos
- Ojivas
- Diagrama de Caja y Bigotes
- Medidas de Tendencia Central y de Dispersión.
100
0
83
Resumen De Una Variable Cuantitativa:

Min_Precio (agrupado)
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 3,95 - 14,75 48 51,6 51,6 51,6
14,76 - 23,31 27 29,0 29,0 80,6
23,32 - 36,22 15 16,1 16,1 96,8

36,23 - 49,13 3 3,2 3,2 100,0
Total 93 100,0 100,0
100
0
84
Análisis Exploratorio: “Resumen De Una Variable Cuantitativa”
library(agricolae)
designs<-apropos("design")
print(designs[substr(designs,1,6)=="design"], row.names=FALSE)
#data(package="agricolae") # Lista la base de datos

data(sweetpotato) # Carga datos de camote:
head(sweetpotato) # Lista datos:
peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5, 56.5,73, 61,72.5, 71.5, 59.5,
74.5, 63)
print(summary(peso))
par(mfrow=c(1,2),mar=c(4,4,0,1),cex=0.6)
h1<- graph.freq(peso,col=colors()[84],frequency=1,las=2,density=20,ylim=c(0,12),ylab="> x<-h1$breaks")

h2<- plot(h1, frequency =2, axes= FALSE,ylim=c(0,0.4),xlab="peso",ylab="Relativa80(%)")
polygon.freq(h2, col=colors()[84], lwd=2, frequency =2) 60
40
print(h1) 20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
85
86
# Tabla de Frecuencias
h3<- graph.freq (peso, col="brown", frequency =3,las=2)
h4<- graph.freq(peso, col="blue", frequency =3)
normal.freq(h4, col="red", lty=4,lwd=2, frequency=3,las=2)
summary(h1)
# Esta es la verdadera finalidad de montar un polígono en un histograma

h7<- graph.freq(peso, nclass=5,frequency =1,xlab="h7")
h8<- graph.freq(peso, nclass=5, frequency=2,axes=FALSE,xlab="h8")
title(ylab="%") 80
normal.freq(h8,col="red",frequency=2) 60
axis(1); axis(2,seq(0,1,0.1),100*seq(0,1,0.1),las=2) 40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
87
88
Redondeado a dos decimales:

# Polígonos y Kernel
stat.freq(h7)
round(table.freq(h7), 2)
wd<-density(peso)
h9<- graph.freq(peso, density=6, col="blue", frequency =3,xlab="h9")
lines(wd,col="brown",lwd=2)
h10<- graph.freq(peso, border=0, frequency =3,xlab="h10")
polygon.freq(h10,col="blue", frequency =3)
lines(wd,col="brown",lwd=2)
round(summary(h8),2)
h11<-ogive.freq(h7, type="b", col="red ",xlab="h11") 80
h12<-plot(h8, xlab="PESO (h12)",ylim=c(0,15)) 60
normal.freq(h12,col="red") 40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
89
Redondeado a dos decimales:

90
Media Aritmética:
VENTAJAS
 Fácil de calcular
 Buenas propiedades como estimador
DESVENTAJA
Sensible a valores extremos (Outlier)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
91
Mediana: Es el valor que particiona la muestra en dos. Es decir que por debajo de
la mediana esta exactamente el 50% de los datos e igual proporción por
encima de ella.
CÁLCULO
Ordene de menor a mayor la muestra

1. La mediana se determina de acuerdo con:
a. Si el numero de datos (n) es impar
b. Si el numero de datos (n) es impar 80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
92
Moda: Corresponde al valor mas frecuente en la muestra.
CÁLCULO
Identificar el valor que más se repite en la distribución de
frecuencias individual.
Desventajas
Es poco informativa respecto a los datos en general
Puede no existir o haber varias
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
93
MEDIA - MEDIANA - MODA:
La relación de orden entre la media, la mediana y la moda suministra

información acerca de la simetría de la distribución.
La forma
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
94
EJEMPLO
No. Indicador económico Cambio Porcentual
1 Productividad (total) 1,4

Medidas de Tendencia Central 2 Inversión (No Residencial) 2,1
3 Importaciones 2,3
Media
4 Consumo 2,7
5 Ingreso real disponible 2,9
Mediana 6 PNB real 2,9
7 Inversión (Residencial) 3,6
8 Inflación 4,5
9 Exportaciones 4,7
Moda
10 Productividad (Fabricación)
80
5,2
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
95
Medidas de Tendencia Central, de Dispersión y de Localización
min (peso, na.rm = FALSE)

max (peso, na.rm = FALSE)
mean (peso, na.rm = FALSE)
median (peso, na.rm = FALSE)
mode(peso)
quantile(peso, probs = c(0.25, 0.75))
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
96
var(x, na.rm = FALSE) var(peso, na.rm = TRUE)

sd(x, na.rm = FALSE) sd(peso, na.rm = TRUE)
IQR(x, na.rm = FALSE) IQR(peso, na.rm = TRUE)
skewness(peso)
kurtosis(peso)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
97
MEDIDAS DE LOCALIZACIÓN NO TAN COMUNES

Media Geométrica:
Esta estadística se usa frecuentemente para datos que tienen un sesgo positivo, ya que estará más
cerca del pico de la distribución que la media aritmética.
Media Geométrica: MG
Ventajas
Es menos sensible que la media aritmética a los valores extremos.
Utiliza todos los datos.
Nota: esta estadística sólo está definida para una muestra de datos en80la cual todos los valores son
mayores que 0. 60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
98
Media Geométrica =
peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5, 56.5,73, 61,72.5,
71.5, 59.5, 74.5, 63)
# Inicialmente creamos la función “geometric”, y luego la usamos con el vector de datos “peso”
geometric<-function(x) exp(sum(log(x))/length(x))
geometric(peso)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
99

Media Armónica (H):
La media armónica se define como el recíproco de la media aritmética de los recíprocos; así, dados
n registros x1, x2, ... , xn, la Media Armónica será igual a:
Nota: Esta estadística se emplea particularmente para promediar variaciones con respecto al
tiempo (como velocidades). La media armónica resulta ser muy poco influida por la existencia
de determinados valores mucho más grandes (atípicos) que los demás, siendo en cambio
sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida
en el caso de que exista algún valor nulo.
100

Media Armónica (H):
peso<-c( 68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 71.5,56, 81.5,69, 59,67.5, 61,68, 59.5,
56.5,73, 61,72.5, 71.5, 59.5, 74.5, 63)
armonic<-1/mean(1/peso)
armonic
101

Media Recortada en 100α% :
Calcula la media de la muestra después de remover una fracción α de los
valores de los datos más pequeños y la misma fracción de los mayores:
Donde:
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
102
Media Recortada en 100α% :
Ejemplo:
set.seed(1234) # Semilla, es para asegurar repetibilidad
x <- rnorm(50) # Distr. Normal Estándar
plot(x, col="blue", pch=8, lwd=1 )
x[1] <- x[1] * 10 # introduciendo un outlier

x[2] <- x[2] * -15 # introduciendo un outlier
plot(x, col=1, cex = 1, pch = 21, bg="red") #ylim=c(-15,15)
abline(h=-5,lty=2,col="blue" , lwd=2)
abline(h=5,lty=2,col="blue" , lwd=2)
## Trim data: Corta y elimina los valores atípicos a un 10% a cada lado.
library(DescTools)
Trim(x, trim=0.1)
# (Número fijo de cortes - por ejemplo cortar 3 outliers en cada lado)

Trim(x, trim=3)
# Para Calcular la Media Recortada:
103
Media Winsorizada: Es una extensión de la media recortada, puesto que los valores
eliminados, en la media recortada, se sustituyen por los extremos inferior y superior de dicha
media recortada, y así no perder el tamaño de muestra inicial.
Ejemplo:
library(psych) #Paquete útil para calcular la media Winsorizada:
T_peso= winsor(peso, trim=0.30, na.rm = T) # Proporciona el vector de pesos con los extremos reemplazados
# Comparando ordenadamente:
sort(peso)
sort(T_peso)
# Comparando:
as.table(cbind(peso,W_peso))
# Media Winsorizada:
winsor.mean(peso, trim = 0.2, na.rm = TRUE)
104
MEDIDAS DE DISPERSIÓN
Varianza: Es la media de los desvíos al cuadrado:
Desviación Estándar:
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
105
MEDIDAS DE DISPERSIÓN
Coeficiente de Variación:
Es una medida de variabilidad relativa a la media de los datos.
Es un valor adimensional que se emplea para comparar la variabilidad de
muestra (o poblaciones) diferentes.
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
106
MEDIDAS DE DISPERSIÓN NO TAN COMUNES
Sigma Winsorizada en 100α%:

Una estimación Winsorizada de variabilidad alrededor de la media
Winsorizada:
107
Sigma Winsorizada en 100α%:
# Cálculo de la Varianza y la Desviación Estándar Winsorizada:

library(psych)
winsor.var(peso, trim = 0.2, na.rm = TRUE)
winsor.sd(peso, trim = 0.2, na.rm = TRUE)
108
DAM – La Desviación Mediana Absoluta:
La MidVarianza:
Es una estadística basada en una suma ponderada de cuadrados
alrededor de la mediana muestral y un cuartil definido.
109
MEDIDAS DE FORMA:
Sesgo: Medida de simetría en la distribución de los datos
Su forma de cálculo original es
3( X  Me)
También se puede escribir como: Sesgo 
S
Pero como aproximadamente se cumple que “Media – Moda = 3 (Media-Mediana)”, se usa la

siguiente forma de cálculo práctico del sesgo:
( X  Moda)
Sesgo 
S
110
MEDIDAS DE FORMA:
Sesgo:
# Para Calcular el Sesgo:
library(e1071)
skewness(x)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
111
MEDIDAS DE FORMA:
Curtosis: La curtosis es una medida que indica o mide lo plano o puntiaguda que es una curva
de distribución. Cuando esta es cero (curtosis = 0), significa que se trata de una curva
aproximadamente Normal. Si es positiva, quiere decir que la curva o distribución o polígono es
más puntiaguda o levantada que la curva normal (curva leptocúrtica). Si es negativa quiere
decir que es más plana (curva mesocúrtica).
n
 i
( x
i 1
 x ) 4
Curtosis  n
S4
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
112
MEDIDAS DE FORMA:
Curtosis: El exceso de curtosis de una población univariada se define mediante la siguiente
fórmula, donde μ2 y μ4 son, respectivamente, el segundo y cuarto momento central.
γ2 = μ4 ∕ μ22 - 3
Intuitivamente, el exceso de curtosis describe la forma de la cola de la distribución de datos.

La distribución normal tiene un exceso de curtosis cero (0) y, por lo tanto, la forma estándar de la
cola, esto es llamado mesocúrtica.
El exceso negativo de curtosis indicaría una distribución de datos de cola delgada, y se dice que
es platicúrtica.
El exceso positivo de curtosis indicaría una distribución de cola gruesa, y se dice que es
leptocúrtica.
80
# Para Calcular la curtosis

60
40
kurtosis(x) 20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
113
R - Software de lenguaje y programación estadística
summary(x) mean(x) sd(x) IQR(x) library(e1071) library(fBasics)
skewness(x) basicStats(x)
median(x) kurtosis(x)
quantile(x, c(0, 0.25, 0.50, 0.75, 1)) # Diagrama de Tallo y Hoja

stem(x)
boxplot(x, col="Orange", horizontal=T, main="Diagrama de Caja y Bigotes")
# Media Recortada (10%) #Desviación Mediana Absoluta

mean(x, trim=10/100) DAM=sum(abs(x-mean(x)))/(n-1)
hh=hist(x, scale="frequency", breaks="Sturges", col="green“, plot=F)

hh
library(agricolae)
data(growth) 80
attach(growth) 60
h2=graph.freq(height, plot=F) 40
table.freq(h2) 20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
Análisis de Datos Bivariados
Principio de análisis gráfico

Bivariado y Multivariado
115
Análisis Exploratorio Bivariado:
“Resumen de Dos Variables Cualitativas”
 Tablas Cruzadas
 Diagramas de Barras Comparativos
 Diagrama de Barras Apiladas
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
116
“Resumen de Dos Variables Cuantitativas”
 Análisis Gráfico - Gráfico (X,Y)
 Análisis de Correlación (Coeficiente de Correlación de Pearson)
 Análisis de Regresión Lineal Simple
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
117
Estadística Descriptiva – Análisis Bivariado

Dos Variables Cuantitativas
Una vez observado que en análisis

bidimensional existe una cierta
dependencia entre las dos
características o variables que la
forman, se puede precisar el grado
de dicha dependencia.
Para cuantificar el grado de dicha

correlación se usa el Coeficiente de
Correlación.
25 97 80 63 82 90
118
Análisis Exploratorio: Análisis de Regresión Lineal
names(Airpoll)
regresion <- lm(Popden ~ Nonwhite+NOX+SO2+Mortality, data = Airpoll)
summary(regresion)
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
11
Regresión Lineal
9
Ejemplo: Calentador Caso de estudio.
Costo de Temperatura Aislamiento del Antigüedad del Caso de Estudio:

Casa
calefacción externa media (°F) ático (pulgadas) calentador (años)
Salsberry Realty vende casas en la zona este de Estados Unidos. Una de
1 $250 35 3 6 las preguntas más frecuentes de los compradores potenciales es:
2 360 29 4 10
3 165 36 7 3 ¿Si compramos esta casa, cuanto gastaremos en calefacción durante el
4 43 60 6 9 invierno? Al departamento de investigación de Salsberry se le pidió
5 92 65 5 6 desarrollar algunas directrices respecto de los costos de calefacción de
6 200 30 5 5 casas unifamiliares. Se consideraron tres variables que se relacionan con
7 355 10 6 7 los costos de calefacción: 1) la temperatura externa diaria media, 2) el
8 290 7 10 10
número de pulgadas de aislamiento en el ático y 3) la antigüedad en
9 230 21 9 11
10 120 55 2 5 años del calentador. Para el estudio, el departamento de investigación
11 73 54 12 4 de Salsberry selecciono una muestra aleatoria de 20 casas de venta
12 205 48 5 1 reciente.
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
120
“Resumen de Una Variable Cualitativa y Una Variable Cuantitativa”

Es común querer explorar la distribución de una variable cuantitativa, en especial continua,
desglosada por una variable cualitativa (categórica). En este contexto, se relaciona la
variable cuantitativa versus la cualitativa generando (desde lo exploratorio) la visualización
de la variable continua desde los diversos grupos o categorías de la variable categórica.
Desde las medidas de resumen, se desarrollaros grupos de estadísticas como grupos o
categorías tiene la variable cualitativa. Y desde lo inferencial, se pueden desarrollar
metodologías de comparación global (ANOVA) o de comparaciones múltiples (Diferencias de
Medias).
80
60
40
20
0
1/5/2002 1/6/2002 1/7/2002 1/8/2002 1/9/2002
121
library(ggplot2)
head(diamonds)
ggplot(data = diamonds, mapping = aes(x = price)) +

geom_freqpoly(mapping = aes(colour = cut), binwidth = 500)
122
ggplot(diamonds) +
geom_bar(mapping = aes(x = cut))
123
# Una mirada de la distribución del precio por "corte de diamante" usando geom_boxplot ():
ggplot(data = diamonds, mapping = aes(x = cut, y = price)) +
geom_boxplot()

geom_boxplot(fill = "white", colour = "#3366FF", outlier.colour = "red", outlier.shape = 1)

geom_boxplot(fill = "white", colour = "#3366FF", outlier.colour = "red", outlier.shape = NA) +
geom_jitter(width = 0.2) # para agregar color a los puntos: , colour="red"
124
125
126
Transformación de Variables:
“Cuando y porqué se hace transformación de variables”
Si los datos con los que queremos realizar un ajuste, no cumplen algunos supuesto previos o
definidos inicialmente, se puede intentar transformar las variable para que adopte una
distribución conocida.
Si decidimos transformar la variable, tendremos varias posibilidades según su tipo de
distribución (asimétrica positiva o negativa). La literatura nos habla de la llamada escalera
de las transformaciones de Tukey, la cual muestra el tipo de transformación recomendada
según sea la intensidad de la asimetría o la dirección en la que van los casos extremos
(Sánchez 1999). La siguiente figura es una modificación del gráfico realizado por Erickson &
Nosanchuk
(1977).
127
Transformación de Variables:
“Cuando y porqué se hace transformación de variables”
En la siguiente tabla se muestran las transformaciones que hay que hacer para que la
relación entre variables sea lineal.
128
Extensión del Modelo de Regresión

Regresión Lineal Múltiple
129

Modelos de Regresión: Análisis de Regresión Lineal Múltiple
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable
dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes
llamadas predictores (X1, X2, X3…Xk).
Esta técnica es una generalización de la Regresión Lineal Simple, donde se da por hecho que
la explicación de un fenómeno a través de una variable dependiente no solo se da por una
única variable independiente.
Los modelos de Regresión Múltiple pueden emplearse para predecir el valor de la variable
dependiente o para evaluar la influencia que tienen los predictores sobre ella.
130

Definición:
Un vector de variables aleatorias sigue un Modelo de Regresión Lineal si:
+e n
donde es una matriz de dimensión
es un vector de parámetros -dimensional
es una matriz identidad de orden
en es un vector de parámetros -dimensional

131

Los modelos lineales múltiples tienen la siguiente ecuación:
• β0: es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son
cero.
• βi: es el efecto medio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable
dependiente Y, manteniéndose constantes el resto de variables.
Se conocen como coeficientes parciales de regresión.
• ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
132

Los modelos lineales múltiples tienen la siguiente ecuación:
Evaluación, en conjunto, de la calidad del Modelo: Coeficiente de Determinación R^2
R^2 (Coeficiente de Determinación): Es un cuantificador de la bondad de ajuste del modelo.
Se define como el porcentaje de varianza de la variable Y que se explica mediante el modelo respecto al
total de variabilidad. Por lo tanto, permite cuantificar cuan bueno es el modelo para predecir el valor de las
observaciones.
En los Modelos Lineales Múltiples, cuantos más predictores se incluyan en el modelo mayor es el valor de R2,
ya que, por poco que sea, cada predictor va a explicar una parte de la variabilidad observada en Y.
Es por esto que R^2 no puede utilizarse para comparar modelos con distinto número de predictores.
R^2_ajustado: Introduce una penalización al valor de R2 por cada predictor que se introduce en el modelo.
133


Supuestos:
1. No Colinialidad (multicolinialidad):
Los predictores deben ser independientes, no debe de haber colinialidad entre ellos.
No existe un método estadístico concreto para determinar la existencia de colinialidad o multicolinialidad

entre los predictores de un modelo de regresión, sin embargo, se han desarrollado numerosas reglas
prácticas que tratan de determinar en qué medida afecta a la estimación y contraste de un modelo.
Los pasos recomendados a seguir son:
a. Si el coeficiente de determinación R2 es alto pero ninguno de los predictores resulta significativo, hay
indicios de colinialidad (revisar rápidamente con una matriz de correlación).
b. Generar un modelo de regresión lineal simple entre cada uno de los predictores frente al resto. Si en alguno
de los modelos el coeficiente de determinación R2 es alto, estaría señalando a una posible colinialidad.
134


Supuestos:
1. No Colinialidad (multicolinialidad):
Los predictores deben ser independientes, no debe de haber colinialidad entre ellos.
c. Tolerancia (TOL) y Factor de Inflación de la Varianza (VIF): Se trata de dos parámetros que vienen a
cuantificar lo mismo (uno es el inverso del otro). El VIF de cada predictor se calcula según la siguiente
fórmula:
Donde R2 se obtiene de la regresión del predictor Xj sobre los otros predictores. Esta es la opción más
recomendada, los límites de referencia que se suelen emplear son:
• VIF = 1: Ausencia total de colinialidad
• 1 < VIF < 5: La regresión puede verse afectada por cierta colinialidad.
• 5 < VIF < 10: Causa de preocupación
• El termino tolerancia es 1/VIF por lo que los límites recomendables están entre 1 y 0.1.
135


Supuestos:
2. Parsimonia:
Este término hace referencia a que el mejor modelo es aquel capaz de explicar con mayor precisión la
variabilidad observada en la variable respuesta, empleando el menor número de predictores (Xi), por lo tanto,
con menos condiciones.
3. Relación lineal entre los predictores numéricos y la variable respuesta:

Cada predictor tiene que estar linealmente relacionado con la variable respuesta, mientras los demás
predictores se mantienen constantes, de lo contrario no se puede introducir en el modelo. La forma más
recomendable de comprobarlo es representando los residuos del modelo frente a cada uno de los predictores.
Si la relación es lineal, los residuos se distribuyen de forma aleatoria entorno a cero.
Estos análisis son solo aproximados, ya que no hay forma de saber si realmente la relación es lineal cuando
el resto de predictores se mantienen constantes.
136


Supuestos:
4. Distribución normal de los residuos:

Los residuos se deben distribuir de forma normal con media cero. Para comprobarlo se recurre a histogramas,
a los cuantiles normales o a test de hipótesis de normalidad.
5. Variabilidad constante de los residuos (Homoscedasticidad):

La varianza de los residuos debe de ser constante en todo el rango de observaciones. Para comprobarlo se
grafican los residuos. Si la varianza es constante, se distribuyen de forma aleatoria manteniendo una misma
dispersión y sin ningún patrón específico alrededor de cero.
Una distribución de residuales con tendencia cónica es un claro identificador de falta de homoscedasticidad.
También se puede recurrir a contrastes de homoscedasticidad como el test de Breusch-Pagan
137


Supuestos:
6. No autocorrelación (Independencia):
Los valores de cada observación son independientes de los otros, esto es especialmente importante de
comprobar cuando se trabaja con mediciones temporales. Se recomienda representar los residuos ordenados
acorde al tiempo de registro de las observaciones, si existe un cierto patrón hay indicios de autocorrelación.
También se puede emplear el test de Durbin-Watson.
7. Valores atípicos, con alto leverage o influyentes:

Es importante identificar observaciones que sean atípicas o que puedan estar influenciando al modelo. La
forma más fácil de detectarlas es a través de los residuos.
8. Tamaño de la muestra:
No se trata de una condición de por sí pero, si no se dispone de suficientes observaciones, predictores que no
son realmente influyentes podrían parecerlo.
138

Selección de los Predictores (Evaluación de las Variables Explicatorias):
La validación de las variables explicatorias, en un modelo de regresión múltiple, sigue

dos pasos fundamentales:
1. Prueba global:
2. Pruebas individuales
Explicaremos esto a través de un ejemplo concreto.

(Scripts R)
Gráficos
Multivariados
140
Gráficos Multivariados
Análisis Exploratorio: “Resumen De Varias Variables”
Introducción:
Como se entiende generalmente, la expresión Análisis de Datos Multivariados representa un conjunto

de métodos estadísticos cuyas misión principal es la de realizar técnicas de tratamiento de
información de varias variables, para un gran conjunto de datos.
El término Multidimensional (Multivariado) en sí cubre tres o más aspectos o condiciones, lo que

implica que las observaciones o individuos sean descritos por varias variables.
Pero, más allá del hecho de que tenemos muchos valores de muchas variables para cada
observación, la intención es estudiarlos simultáneamente, lo que es característico de un enfoque
multidimensional. Por lo tanto, utilizaremos estos métodos cada vez que la noción de perfil sea
relevante al considerar a un individuo, por ejemplo, el perfil de respuesta de los consumidores, el
perfil biométrico de las plantas, el perfil financiero de las empresas, etc.
141
Introducción:
Desde otro punto de vista, el interés de considerar los valores de los individuos a través de un
conjunto de variables, de manera global, radica en el hecho de identificar si estas variables están
causadas o vinculadas.
Teniendo en cuenta que estudiar las relaciones de entre todas las variables, tomadas dos en dos, no
constituye un enfoque multidimensional en sentido estricto; el enfoque (multivariado) implica la
consideración simultánea de las relaciones de todas variables de análisis.
El concepto de variable sintética es intrínsecamente multidimensional, y de hecho, es una herramienta

poderosa para la descripción o resumen de una base completa de variables individuales.
Para un gran conjunto de datos multivariados, es más difícil visualizar sus relaciones.
Descubrir el comportamiento de estos datos requiere técnicas estadísticas específicas.
El Análisis de Datos Multivariado (MDA) se refiere a una serie de enfoques utilizados para analizar
(medir) un conjunto de datos que contiene múltiples variables.
142
Objetivos:
Los objetivos que persigue el análisis de datos multivariados, entre otros, son:
 Resumir el conjunto de variables originales en unas pocas nuevas variables, construidas

como trasformaciones de las originales, con la mínima pérdida de información.
 Encontrar grupos en los datos si existen.
 Clasificar nuevas observaciones en grupos definidos.
 Relacionar dos conjuntos de variables.

143
Aplicaciones:
Algunas de las aplicaciones del análisis multivariado según son:
Administración de Empresas: Construir tipologías de clientes.

Agricultura: Clasificar terrenos de cultivo por fotos aéreas.
Arqueología: Clasificar restos arqueológicos.
Biometría: Identificar los factores que determinan la forma de un organismo vivo.
Ciencias de la Computación: Diseñar algoritmos de clasificación automática.
Ciencias de la Educación: Investigar la efectividad del aprendizaje a distancia.
Ciencias Ambientales: Investigar las dimensiones de la contaminación ambiental.
Documentación: Clasificar revistas por sus artículos y construir indicadores bibliométricos.
Economía: Identificar las dimensiones del desarrollo económico.
Geología: Clasificar sedimentos.
Historia: Determinar la importancia relativa de los factores que caracterizan los periodos pre-evolucionarios.
Ingeniería: Transmitir óptimamente señales por canales digitales.
Lingüística: Encontrar patrones de asociación de palabras.
Medicina: Identificar tumores mediante imágenes digitales.
Psicología: Determinar los factores que componen la inteligencia humana.
Sociología y Ciencia Política: Construir tipologías de los votantes de un partido.
144
En síntesis:
El análisis multivariado es una línea de la estadística que estudia, analiza, representa e

interpreta los datos que resultan de observar más de una variable estadística sobre muestras
de individuos. Las variables observables son homogéneas y correlacionadas sin que alguna
predomine sobre las demás. La información estadística en el Análisis Multivariado es de
carácter multidimensional, por lo tanto la geometría, el cálculo matricial (la información
multivariante) y las distribuciones multivariantes juegan un papel fundamental.
145
Gráficos Básicos Mejorados (Gráficos de dispersión 2D mejorados)

1. Diagrama de Dispersión Codificado por Color (Diagrama de Color):
Una "gráfica de color" básica muestra los valores de tres variables a la vez usando símbolos
de colores, donde el valor de una variable determina la posición relativa del símbolo a lo
largo del eje X y el valor de una segunda variable determina la posición relativa de el símbolo
a lo largo del eje Y, y el valor de la tercera variable se usa para determinar el color del
símbolo.
CASO:
El conjunto de datos de Specmap ilustró las variaciones en el tiempo de los datos de isótopos de oxígeno
(que registran el volumen de hielo global, los valores negativos significan poco hielo o condiciones de
calor global, valores positivos, implica grandes capas de hielo y condiciones de frío global) que
teóricamente deberían depender de la insolación (radiación solar entrante) a 65 N, que se ha denominado
el "marcapasos de las edades de hielo". Sin embargo, un diagrama simple de “O18~ Insolation” sugiere lo
contrario.
146
library(sp)
library(raster)
attach(specmap)
fix(specmap) # 783 casos
plot(O18 ~ Insol, pch=16, cex=0.6)
La nube de puntos (a primera vista) es bastante irregular, y el coeficiente de correlación

también es bastante bajo:
cor(O18, Insol)
147
El gráfico de O18 en función de la edad, y la codificación de colores de los símbolos por

niveles de Insol, revela la naturaleza del control del volumen de hielo por insolación:
library(classInt) # class-interval recoding library
plotvar <- Insol
nclr <- 8 # Divide el rango de las medidas en 8 categorías, para luego asignarles colores distintos.
plotclr <- brewer.pal(nclr,"PuOr")
plotclr <- plotclr[nclr:1] # reorder colors
class <- classIntervals(plotvar, nclr, style="quantile")
colcode <- findColours(class, plotclr)
plot(O18 ~ Age, ylim=c(2.5,-2.5), type="l")

points(O18 ~ Age, pch=16, col=colcode, cex=1.5)
148
2. Colores y Símbolos:
También se puede mostrar información de cuatro variables a la vez.
En este ejemplo para la Summit Cr. Data (a scatter plot of WidthWS as a function of CumLen -
fluvial geomorph data), el carácter de gráfico está determinado por Reach y su color por HU.
Aunque estos son factores, las variables numéricas también podrían graficarse.
attach(sumcr)
fix(sumcr)
plot(WidthWS ~ CumLen, pch=as.integer(Reach), col=as.integer(HU))

legend(25, 2, c("Reach A", "Reach B", "Reach C"), pch=c(1,2,3), col=1)
legend(650, 2, c("Glide", "Pool", "Riffle"), pch=1, col=c(1,2,3))
detach(sumcr)
Reach:
Uso de dos aplicaciones de la función leyenda (): los círculos indican el alcance de pastoreo aguas arriba (alcance A), los triángulos indican
el alcance de exclusión del ganado (B), y también indican el alcance de pastoreo aguas abajo (C), mientras que el negro indica
deslizamientos, el rojo indica piscinas y el verde indica rápidos.
149
3. Diagrama de Burbujas:
El gráfico de burbujas muestra los valores de tres variables a la vez utilizando símbolos
graduados (generalmente círculos), donde el valor de una variable determina la posición
relativa del símbolo a lo largo del eje X y el valor de una segunda variable determina la
posición relativa de el símbolo a lo largo del eje Y, y el valor de la tercera variable se usa para
determinar el tamaño del símbolo. Aquí hay un mapa crudo de las elevaciones de las
estaciones climáticas de Oregon, que refleja la topografía general del estado.
attach(orstationc)
plot(lon, lat, type="n")
symbols(lon, lat, circles=elev, inches=0.1, add=T)
150
3. Diagrama de Burbujas:
# Otro Bubble Chart, algo más elaborado:

#---------------------------------------
library(ggplot2)
theme_set(theme_bw() +
theme(legend.position = "top")
)
# Cargando los datos

data("mtcars")
df <- mtcars
# Convirtiendo cyl como una variable de agrupación

df$cyl <- as.factor(df$cyl)
# Inspeccionando los datos

head(df[, c("wt", "mpg", "cyl", "qsec")], 4)
# Graficando con ggplot:

ggplot(df, aes(x = wt, y = mpg)) +
geom_point(aes(color = cyl, size = qsec), alpha = 0.5) +
scale_color_manual(values = c("#00AFBB", "#E7B800", "#FC4E07")) +
scale_size(range = c(0.5, 12)) # Ajustando el tamaño de los puntos
151
4. Diagramas de dispersión 3-D

Los diagramas de dispersión tridimensionales (a diferencia de las matrices de diagramas de dispersión que involucran
tres variables), ilustran la relación entre tres variables trazándolas en un "cuadro de trabajo" tridimensional.
Este gráfico muestra los valores de tres variables a la vez, trazandolas en un "cuadro de trabajo" tridimensional donde el
valor de una variable determina la posición relativa del símbolo a lo largo del eje X y el valor de una segunda variable
determina el valor relativo posición del símbolo a lo largo del eje Y, y el valor de la tercera variable se utiliza para
determinar la posición relativa a lo largo del eje Z. Esta trama hace uso del paquete de celosía.
library(lattice)
cloud(elev ~ lon*lat)
152
Gráficos de dispersión en 3D (usando el paquete scatterplot3d)
library(scatterplot3d)
# get colors for labeling the points

plotvar <- pann # pick a variable to plot
nclr <- 8 # number of colors
plotclr <- brewer.pal(nclr,"PuBu") # get the colors
colornum <- cut(rank(plotvar), nclr, labels=FALSE)
colcode <- plotclr[colornum] # assign color
# scatter plot
plot.angle <- 45
scatterplot3d(lon, lat, plotvar, type="h", angle=plot.angle, color=colcode, pch=20, cex.symbols=2, col.axis="gray",
col.grid="gray")
153
Gráficos de dispersión en 3D (usando el paquete scatterplot3d)

La variable z, en este caso, la precipitación anual, se traza como un punto, y para interpretar una línea de caída se
traza debajo del punto. Esta simple adición facilita encontrar la ubicación de cada punto (donde golpea el plano x-y,
o el plano de latitud-longitud), así como el valor de la precipitación anual.
Se pueden agregar MAPAS al diagrama de dispersión en 3-D para mejorar la interpretación:
library(scatterplot3d)
# get colors for labeling the points

plotvar <- pann # pick a variable to plot
nclr <- 8 # number of colors
plotclr <- brewer.pal(nclr,"PuBu") # get the colors
colornum <- cut(rank(plotvar), nclr, labels=FALSE)
colcode <- plotclr[colornum] # assign color
# scatter plot
plot.angle <- 45
scatterplot3d(lon, lat, plotvar, type="h", angle=plot.angle, color=colcode, pch=20, cex.symbols=2, col.axis="gray",
col.grid="gray")
154
5. Gráficos de Superficie y Puntos OpenGL
El paquete rgl (por D. Alder) se puede usar para trazar puntos (y superficies y líneas) en un espacio tridimensional.
La característica principal que distingue este enfoque es la capacidad de rotar la nube de puntos "sobre la marcha“,
tal como se ve el código, y cuando aparece la imagen, se puede girar arrastrando el mouse dentro de la ventana. Si
mantiene presionado el botón izquierdo mientras arrastra, las bolas giran, mientras que si mantiene presionado el
botón derecho cambia la perspectiva.
library(rgl)
example(rgl.surface)
rgl.clear()
example(rgl.spheres)
155
6. Gráficos Trellis / Lattice
Muchos conjuntos de datos incluyen una mezcla de variables "continuos" (variables de escala de relación o intervalo
ordinal) y variables "discretas" (variables de escala nominal). A menudo, puede surgir el problema de cómo una
relación particular entre las variables puede diferir entre los grupos.
La información de esa naturaleza se puede obtener utilizando gráficos de acondicionamiento (o parcelas). Dichos
gráficos son parte de un esquema general de análisis de datos visuales, conocido como Trellis Graphics, creado por
los desarrolladores del lenguaje S.
Básicamente, lo que sucede es que la función coplot () está determinando qué subconjunto de observaciones debe
aparecer en cada panel, mientras que las dos funciones dentro de la función panel () (panel.smooth () y abline () ),
realizan sus tareas en ese subconjunto de observaciones
library(lattice)
attach(scanvote) # Scandinavian EU preference votes
coplot(Yes ~ log10(Pop) | Country, columns=3,

panel=function(x,y,...) {
panel.smooth(x,y,span=.8,iter=5,...)
abline(lm(y ~ x), col="blue") }
)
156
7. Gráficos Trellis (Glifos) / Lattice
Muchos conjuntos de datos incluyen una mezcla de variables "continuos" (variables de escala de relación o intervalo
ordinal) y variables "discretas" (variables de escala nominal). A menudo, puede surgir el problema de cómo una
relación particular entre las variables puede diferir entre los grupos.
La información de esa naturaleza se puede obtener utilizando gráficos de acondicionamiento (o parcelas). Dichos
gráficos son parte de un esquema general de análisis de datos visuales, conocido como Trellis Graphics, creado por
los desarrolladores del lenguaje S. Los Trellis Graphics se implementan en R utilizando el paquete Lattice.
library(lattice)
attach(scanvote) # Scandinavian EU preference votes
coplot(Yes ~ log10(Pop) | Country, columns=3,

panel=function(x,y,...) {
panel.smooth(x,y,span=.8,iter=5,...)
abline(lm(y ~ x), col="blue") }
)
157
8.1 Cluster Analysis
El término clustering hace referencia a un amplio abanico de técnicas unsupervised cuya finalidad es encontrar
patrones o grupos (clusters) dentro de un conjunto de observaciones. Las particiones se establecen de forma que, las
observaciones que están dentro de un mismo grupo, son similares entre ellas y distintas a las observaciones de otros
grupos. Se trata de un método unsupervised, ya que el proceso ignora la variable respuesta que indica a que grupo
pertenece realmente cada observación (si es que existe tal variable)..
El análisis de conglomerados es uno de los métodos más importantes de minería de datos, para descubrir
conocimiento en multidimensionalidad. El objetivo de la agrupación es identificar patrones o clúster de objetos
similares dentro de un conjunto de datos de interés.
library(factoextra)
USArrests %>%
scale() %>% # Scale the data
dist() %>% # Compute distance matrix
hclust(method = "ward.D2") %>% # Hierarchical clustering
fviz_dend(cex = 0.5, k = 4, palette = "jco") # Visualize and cut into 4 groups
158
8.2. Heatmaps
Los heatmaps son el resultado obtenido al representar una matriz de valores en la que, en lugar de números, se
muestra un gradiente de color proporcional al valor de cada variable en cada posición. La combinación de un
dendrograma con un heatmap permite ordenar por semejanza las filas y o columnas de la matriz, a la vez que se
muestra con un código de colores el valor de las variables. Se consigue así representar más información que con un
simple dendrograma y se facilita la identificación visual de posibles patrones característicos de cada cluster.
datos <- mtcars

# Para que las variables sean comparables bajo un mismo esquema de colores se
# estandarizan.
datos <- scale(datos)
heatmap(x = datos, scale = "none", distfun = function(x){dist(x, method = "euclidean")},
hclustfun = function(x){hclust(x, method = "average")},
cexRow = 0.7)
159
9. Análisis de Correspondencias Múltiple
Dicho en términos muy simples, el Análisis de Correspondencia Múltiple (MCA) es una técnica estadística
multivariada de variables cualitativas. Al igual que PCA, el MCA es una herramienta que nos permite analizar los
patrones sistemáticos de variaciones con datos categóricos. Identificando asociación y frecuencia de la categorías
de las variables de estudio.
# load packages
require(FactoMineR)
require(ggplot2)
# load data tea

data(tea)
# take a peek
head(tea)
# select these columns
newtea = tea[, c("Tea", "How", "how", "sugar", "where", "always")]
# take a peek
head(newtea)
# number of categories per variable
cats = apply(newtea, 2, function(x) nlevels(as.factor(x)))
cats
160
9. Análisis de Correspondencias Múltiple
# load packages
require(FactoMineR)
require(ggplot2)
# load data tea

data(tea)
# take a peek
head(tea)
# select these columns
newtea = tea[, c("Tea", "How", "how", "sugar", "where", "always")]
# take a peek
head(newtea)
# number of categories per variable
cats = apply(newtea, 2, function(x) nlevels(as.factor(x)))
cats
TIME FOR RELAX
…. Nueva Sesión…
Muestreo
Probabilístico
163
Muestreo Probabilístico
Estimaciones Poblacionales
Universos de estudio
Marcos Muestrales
Diseños Probabilísticos.
Estimaciones
Estimaciones de parámetros
poblacionales de interés.
25 97 80 63 82 90
Eco-Biológico Contaminación Mercados Epidemias

Migración Niveles Preferencias Propagación
Análisis de percepción Conteo de unidades
Conteo de aves, peces, etc. Partículas por millón.
experimentales infectadas.
164
¿Población o Muestra?
Muestreo Probabilístico: Es la selección de unidades muestrales, proceso que se realiza utilizando un

esquema basado en las probabilidades (posibilidades o chances) que tienen los sujetos de la población en
formar parte de dicha selección.
165
Muestreo
Casos de Estudio
Ejemplo 1: Liquen para los Caribú en Alaska
Para estimar la cantidad de unidades disponibles de liquen, como alimento para un caribú en Alaska, los biólogo recoge liquen de
pequeñas parcelas seleccionadas dentro del área de estudio.
Basado en el peso seco de estos especímenes, se estima la biomasa disponible para toda la región.
166
Muestreo
Casos de Estudio
Ejemplo 2: Posos Petroleros
Del mismo modo, para estimar la cantidad de petróleo recuperable en una región, unos pocos (muy costosos) orificios de muestreo se
perforan.
167
Muestreo
Casos de Estudio
Ejemplo 3: Encuestas de Opinión
La situación es similar en una encuesta nacional de opinión, en el que se pone en contacto sólo una muestra de las personas en la
población, y las opiniones de la encuesta se utilizan para estimar las proporciones de las distintas opiniones en toda la población.
168
Muestreo
Casos de Estudio
Ejemplo 4: Enfermedades Extrañas
Para estimar la prevalencia de una enfermedad rara, la muestra puede consistir en una serie de instituciones médicas, cada una de las
cuales tiene registros de los pacientes tratados.
169
Muestreo
Casos de Estudio
Ejemplo 5: VIH
En un estudio de los comportamientos de riesgo asociados con la transmisión del virus de la inmunodeficiencia humana (VIH), una muestra
de usuarios de drogas inyectables se obtiene siguiendo los vínculos sociales de un miembro de la población a otro.
170
Muestreo
Casos de Estudio
Ejemplo 6: Aves Raras
Para estimar la abundancia de una especie de aves raras y en peligro de extinción, la abundancia de aves en la población se estima con
base en el patrón de las detecciones de una muestra de sitios en la región de estudio.
171
Muestreo
Casos de Estudio
Ejemplo 7: Muestreo en Auditorías
El empleo de procedimientos de muestreo eficaces mejorará el alcance, el enfoque y la eficiencia de las auditorías y permite al auditor
proporcionar aseguramiento sobre los procesos de negocio que sean relevantes para que la organización cumpla con sus metas y
objetivos. Es importante que los auditores internos comprenda los consejos y los estándares aceptados en materia de muestreo, junto con
los procesos del negocio y los datos con los que esté trabajando, cuando proceda a elegir la técnica de muestreo más apropiada para la
auditoría.
172
Muestreo
Unas de las preguntas obvias para tales estudios, es:
¿Cuál es la mejor manera de obtener una buena muestra?
Y una vez se tenga la muestra, ¿cuál es la manera óptima de utilizar esta muestra para
estimar la característica y que represente toda la población?
La obtención de las observaciones involucra cuestiones de:
 Definir el tamaño de la muestra.

 Definir cuales son las unidades a escoger.
 Definir los métodos para la selección de la muestra.
 Puntualizar las medidas a evaluar.
173
Muestreo
En términos más generales, el campo de MUESTREO se refiere a todos los aspectos relacionados con la selección de los datos,
de entre todas las posibilidades que podrían haber sido observadas; esto, sin importa que el proceso de selección esté bajo el
control de los investigadores o sea determinado por la misma naturaleza del fenómeno, o simplemente por la casualidad;
Adicionalmente, el muestreo trata de cómo utilizar los resultados para hacer inferencias sobre un gran número de parámetros
de la población investigada.
174
Muestreo
175
Muestreo
Ideas Básicas de la Selección de Muestras y Estimaciones
UNIDADES DE MUESTREO
Con muchas poblaciones de personas e instituciones, es
sencillo identificar el tipo de unidades a muestrear, y
concebir una lista o marco de las unidades de la
población, independientemente de los problemas
prácticos de la obtención de una muestra probabilística.
Una lista completa de personas, hogares, instituciones

médicas, empresas, especies o plantas, en la población
objetivo proporcionaría un marco ideal del cual se podrían
seleccionar las unidades de la muestra.
En la práctica, a menudo es difícil obtener una lista que

corresponde exactamente a la población de interés.
(Subcobertura y Sobrecobertura).
176
Muestreo
Para una población difícil de alcanzar con problemas de detectabilidad, el concepto de unidades o
parcelas puede ser reemplazado por el de las funciones de detectabilidad, que están asociadas con los
métodos de observación poblacional, y los lugares son seleccionados para hacer las mediciones.
Por ejemplo, en la selección de la ubicación de los transectos de línea, en un muestreo de aves, las líneas y
la velocidad a la que se recorren las líneas, determina las "áreas efectivas" observadas en la zona de
estudio, en lugar de unidades o parcelas de muestreo tradicionales.
En algunas situaciones de muestreo, la variable de interés puede variar continuamente a lo largo de una
región. Por ejemplo, en un estudio para evaluar las reservas de petróleo en una región, la variable medida
puede ser el volumen y la profundidad para ubicar el núcleo de aceite de la zona.
El valor de una variable de este tipo no está necesariamente asociada con ningún conjunto finito de
unidades experimentales de la región, sino más bien, puede medirse o estimarse ya sea en un punto o
como un total de más de una subregión de cualquier tamaño o forma.
177
Muestreo
178
Muestreo
¿QUÉ NOS PUEDE OFRECER UNA ESTRATÉGIA DE MUESTREO PROBABILÍSTICO?
179
Muestreo
Ver sintaxis R
180
Muestreo
Independientemente del esquema de muestreo (MAS, ME, MC, MS, Muestreos Multetápico, con
probabilidades no iguales, etc); un muestreo probabilístico deberá solucionar tres preguntas
básicas que se presentan en cualquier escenario de investigación, o intervención:
1. ¿CUÁNTA MUESTRA SELECCIONAR?

2. ¿CUÁLES MUESTRAS TOMAR?
3. ¿CÓMO SELECCIONAR ESTAS MUESTRAS?
n=?
Identificar las unidades Determinar el esquema o
muestrales a seleccionar escenario donde cohabitan las
unidades experimentales a
seleccionar, y así determinar de
qué manera extraer la muestra.
181
Muestreos Básicos
Muestreo Aleatorio Simple (MAS)

Muestreos Básicos
182
El muestreo aleatorio simple (sin reemplazamiento), es un diseño de muestreo en el que las unidades de n
elementos distintos se seleccionan de las N unidades en la población de tal manera que todas las combinaciones
posibles de n unidades tienen la misma probabilidad de ser la muestra seleccionada.
De manera equivalente, se puede hacer una secuencia de selecciones independientes de toda la población,
donde cada unidad tiene igual probabilidad de selección en cada paso, descartando selecciones de repetición y
continuando hasta que se obtienen las n distintas unidades requeridas.
Como ejemplo visual, una Muestra Aleatoria Simple (MAS) de n = 40 unidades de una población de N = 400
unidades se representa en la Figura en la siguiente figura (generada a través de R).
Muestreos Básicos
183

popnx <- runif(100)
popny <- runif(100)
# Gráfico Espacial de la Distribución de la Población

plot(popnx,popny)
# Selección de una Muestra Aleatoria, sin reemplazamiento, de 10 objetos de una población de 100 posibles.
muestra<- sample(1:100,10)
muestra
# Dibujando los puntos de muestra, en la misma gráfica

points(popnx[oursample],popny[oursample])
# Identificando los puntos de muestreados de los otros puntos.

points(popnx[oursample],popny[oursample], pch=21,bg="red",cex=2)
Muestreos Básicos
184

Cada una de las posibles combinaciones de 40 unidades de esta población tiene la misma probabilidad de ser la
muestra seleccionada.
Con el MAS, la probabilidad de que la i-ésima unidad de la población esté incluida en la muestra es pi = n / N,
de modo que la probabilidad de inclusión es la misma para cada unidad.
Diseños de Muestreo diferentes al MAS puede dar a cada unidad experimental una probabilidad de ser incluidas
en la muestra, pero sólo con el muestreo aleatorio simple cada posible muestra de n unidades tienen la misma
probabilidad.
Muestreos Básicos
185

Estimación de la Media Poblacional:
Bajo un Muestreo Aleatorio Simple, la media de la muestra (media muestral) es un estimador insesgado de la
media poblacional μ.
La media poblacional μ es el promedio de los valores de y en toda la población:
y su estimación, es:
La varianza poblacional, es: y su estimación, es:
La varianza de la estimación del promedio muestral, es: y su estimador insesgado,
es:
Muestreos Básicos
186

Estimación del Total Poblacional:
Para el Total Poblacional t, se tiene que y su estimación, es:
De forma similar a la varianza de la estimación de la media, la varianza de la estimación del Total, es:
Muestreos Básicos 187

Ejemplo:
En un estudio experimental de Caribús en la llanura costera de Alaska ártico, un grupo de caribús fueron contados
desde un avión, volando sobre las líneas seleccionadas en toda la región de estudio (Davis et al 1979;. Valkenburg
1990). Se registraron todos los caribú dentro de 1/2 milla a cada lado de cada línea que fue sobrevolada,
implicando esto que el ancho de banda fue de 1 milla. Una muestra aleatoria simple de 15 bandas de norte a sur
fue seleccionada de la región de estudio (286 kilómetros de ancho), por lo que n = 15 y N = 286.
Los números de caribúes en las 15 unidades de la muestra fueron: 1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5 y 4.
______________________________________________________________________________________________________
La estimación de la media muestral, es:
La varianza muestra, es:
Y la varianza estimada de la estimación del promedio, es: CV ??
y el error estándar de la estimación, es:


Ejemplo:
En un estudio experimental de Caribú en la llanura costera de Alaska ártico, un grupo de caribú se contaron
desde un avión volando sobre las líneas seleccionadas en toda la región de estudio (Davis et al 1979;. Valkenburg
1990). Todo caribú dentro de 1/2 milla a cada lado de cada línea que fue sobrevolada fueron registrados, por lo
que cada ancho de banda fue de 1 milla. Una muestra aleatoria simple de 15 bandas de norte a sur fue
seleccionada de la región de estudio (286 kilómetros de ancho), por lo que n = 15 y N = 286.
______________________________________________________________________________________________________
La estimación del Total Poblacional de Caribús, es:
La varianza estimada de la estimación del Total, es:
y el error estándar de la estimación, es:

Muestreos Básicos
189

Intervalos de Confianza para la Media o el Total Poblacional:
Bajo un muestreo aleatorio simple, los Intervalos de Confianza para las estimaciones anteriores, son:
Para la estimación de la media poblacional m, es:
Y para la estimación del total poblacional t, es:
Actividad: “Calcule un I.C. del 90% para la media y el total estimado de Caribú del ejemplo anterior”.

Estimaciones con R: “Generando un escenario de selección de muestras aleatorias simples”
# Generando el Universo de Estudio:
popnx <- runif(100)
popny <- runif(100)
# Graficando la distribución especial de la población

plot(popnx,popny)
# Seleccionando una muestra aleatoria, sin reemplazamiento, de 10 elementos de los 100 posibles de
la
# población.
MAS<- sample(1:100,10)
MAS
# Seleccionando los puntos de la MAS en la misma gráfica

points(popnx[oursample],popny[oursample])
# Resaltando la MAS a través de colores


Estimaciones con R: “Generando un escenario de selección de muestras aleatorias simples”

Estimaciones con R: “Estimaciones Basadas en las Muestras Aleatorias Simples”
Los datos de caribú del ejemplo anterior se pueden introducir y almacenar como un vector llamado "y" de la
siguiente manera.
y <- c(1, 50, 21, 98, 2, 36, 4, 29, 7, 15, 86, 10, 21, 5, 4)
# La media y la varianza muestral, son:

mean(y)
var(y)
# La varianza del promedio estimado:

(1-15/286) *var(y)/15
# El Error Estándar (EE) de esta estimación:

sqrt(58.06)
Actividad: “Calcule un I.C. del 98% para la media estimada de Caribú del ejemplo anterior”.

Estimaciones con R: “Estimaciones Basadas en las Muestras Aleatorias Simples”
Los datos de caribú del ejemplo anterior se pueden introducir y almacenar como un vector llamado "y" de la
siguiente manera.
# La estimación del Total Poblacional, es:

N <- 286
N * mean(y)
# La varianza del Total estimado, es:

(286^2 )* 58.0576
#El Error Estándar (EE) de la estimación, es:

sqrt(4748879)
Actividad: “Calcule un I.C. del 95% para el Total estimado de Caribú del ejemplo anterior”.
Estimaciones Muestrales
En síntesis, se presenta a continuación un resumen de las estimaciones de parámetros, en un MAS.


Estimaciones con R: “Simulaciones: Teorema Central de Límites”
La eficacia de una Estrategia de Muestreo se puede evaluar mediante el uso de la simulación estocástica.
En este método, una “Población" de N unidades con Y valores, lo más similar posible al tipo de parámetro a ser
estudiado, se obtiene o se mide a través de una herramienta de captura.
Entonces:
(i) Una muestra de n unidades de esta información se selecciona mediante un diseño muestral, tal como un MAS.
(ii) Con los datos de la muestra seleccionada, se obtiene una estimación de la característica poblacional de
interés.
Estos dos pasos se repiten b veces, donde el número de iteraciones b es un número grande.
Las b repeticiones del procedimiento de muestreo producen b diferentes muestras, cada una de n unidades, y b
valores correspondientes de la estimación.
Entonces:
1. El promedio de estos valores se aproxima al valor esperado del estimador conforme al diseño.
2. El error cuadrático medio (ECM) de los valores de b se aproxima al ECM del estimador conforme al diseño.
Con una estrategia de muestreo no sesgada, el ECM será igual que la varianza poblacional.
TIME FOR RELAX
…. Nueva Sesión…
Muestreos Básicos
197
Tamaños Mínimos de Muestra (MAS):

Estimación de Tamaños Mínimos de Muestra:
La primera pregunta cuando se está planeando una encuesta es,
¿Qué tamaño de la muestra se debe utilizar?
La respuesta no siempre es tan simple.
Supongamos que se desea estimar el parámetro poblacional θ, que puede ser la media poblacional o el total, etc.
Desearíamos que la estimación de este parámetro esté lo más cerca posible del valor real, esto con una alta
probabilidad.
Entonces se especifica una diferencia máxima permitida d entre la estimación y el valor real del parámetro, y
permitiendo una pequeña probabilidad (α) de que el error pueda superar esa diferencia; el objeto entonces es
elegir un tamaño de la muestra n de tal manera que:
Muestreos Básicos
198

Estimación de Tamaños Mínimos de Muestra:
Si el estimador de θ, es un estimador insesgado, normalmente distribuido alrededor del parámetro θ, entonces:
tiene una distribución normal estándar.
Si Z denota un valor α/2 superior de una distribución normal estándar, entonces:
La varianza de la estimación de θ disminuye al aumentar el tamaño de la muestra n, de modo que la desigualdad

anterior se cumplirá si podemos elegir lo suficiente para hacer n grande para que se cumpla:
( Z )*Raiz[Var (θ)] ≤ d.
Muestreos Básicos
199

TAMAÑO DE LA MUESTRA PARA ESTIMAR UNA MEDIA POBLACIONAL:
Con el muestreo aleatorio simple, la media muestral de y , es un estimador insesgado de la media poblacional μ,
con varianza .
Luego
y despejando n da el tamaño mínimo de muestra:
con:
“el punto débil en el sistema es generalmente la estimación de la varianza de la población utilizada”.

Muestreos Básicos
200

DE LA MUESTRA PARA ESTIMAR UNA POBLACIÓN TOTAL:
Para estimar el τ total de la población, la ecuación que hay que resolver para determinar n, es:
Lo que da como resultado el tamaño de la muestra necesaria:
Donde: .
Ignorando el factor de corrección para poblaciones finitas, la fórmula para el tamaño de la muestra se reduce a la
simple expresión n=n0.
Un aspecto molesto del cálculo del tamaño mínimo de muestra es que dependen directamente de la varianza de
la población, que generalmente es desconocido.
“En la práctica, uno debe ser capaz de estimar la varianza de la población utilizando una varianza de la muestra
de estudios pasados de la misma población o de una población similar, o a través de una muestra piloto de la
población de estudio”.
Muestreos Básicos
201

Estimación de Tamaños Mínimos de Muestra - EJEMPLO:
Ejemplo: ¿Qué tamaño de muestra sería necesario estimar la población total de caribú dentro d=2.000 animales
del verdadero total poblacional, con 90% de confianza (α = 0,10)?
Sin ignorar el tamaño total de la población, y usando la varianza de la muestral del estudio preliminar (del
ejemplo inicial) como una estimación de la varianza poblacional (σ^2), se tiene que s^2 = 919;
donde la constante de 1,645 es el cuantil superior (bajo α / 2 = 0,05) de una distribución normal estándar; luego el
tamaño de la muestra aleatoria, bajo un MAS, daría:
Muestreos Básicos
202

Estimación de Tamaños Mínimos de Muestra - EJEMPLO:
Ejemplo 2 – “Dataset – winter":
De la base de datos “winter”, seleccione una variable objetivo para determinar un tamaño mínimo de muestra,
determine la confianza y el error de muestreo.
Proporcione estimaciones de un promedio, de un total y de una proporción, junto la estimación de sus márgenes de
error.
Muestreos Básicos
203

Taller de Muestreo:
Caso: "Desastres Naturales":
En la base de datos relacionada, se encuentra el "Registro de Eventos Naturales o Antrópicos no Intencionales"
ocurridos durante el año 2019, que fueron reportados a la UNGRD (Unidad Nacional para la Gestión del Riesgo de
Desastres) con su respectiva afectación y atención prestada a cada uno.
https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Emergencias-UNGRD-2019/4fd8-ptcr
(Base Excel Depurada)
Actividad:
1. Asumiendo que esta base datos es el marco de muestreo de su investigación, y teniendo en cuenta que el atributo más
importante para su investigación son los EVENTOS, y en especial el evento , el evento INCENDIO DE COBERTURA VEGETAL, bajo
un nivel de confianza del 93%, y asumiendo un error de muestreo en las estimaciones no superior a 3%; proporcione un tamaño
mínimo de muestra (bajo un muestreo aleatorio simple), para realizar las estimaciones que se indican a continuación, semilla
(3564). (Peso 30%)
2. A través de la muestra seleccionada, proporcione las siguientes estimaciones con su margen de error (Var, EE, CV, IC):
Estimación del total de personas fallecidas, promedio de personas heridas, y la proporción de casos de EVENTOS: INCENDIO DE
COBERTURA VEGETAL (Peso 30%).
3. Tome la estimación del promedio de personas heridas (calculado anteriormente), desagréguelo por departamentos, y haga una
representación cartográfica (EXCLUSIVAMENTE CON LA METODOLOGÍA - CÓDIGO R usado en la clase anterior) de su
estimación promedio. (Peso 30%).
NOTA IMPORTANTE: Este informe EJECUTIVO se debe entregar en un formato HTLM R-Markdown – página web
(en winzip COMPROBADO SU FUNCIONAMIENTO); bajo el tiempo establecido.
20
4
l e a Bibliografía 205
r >
Ĥ LEVIN / RUBÍN /BALDERAS / DEL VALLE / GÓMEZ. Estadística para

Administración y Economía. Pearson.
2 MENDENHALL /BEAVER/BEAVER. Estadística Matemática con
Aplicaciones.
E
LIND DOUGLAS / MARCHAL WILLIAMS / WATHEN SAMUEL. Estadística
Aplicada a los negocios y la economía. Edición 13a. Editorial Mc. Graw
Hill. 2008.
i WEIER RONALD. Introducción a la Estadística para los Negocios.
a
ANDERSON / SWEENEY / WILLIAMS. Estadística para Administración y
Economía. Cengage Learning.
e JAY L. DEBORE. Probabilidad y Estadística para Ingeniería y Ciencias.
Bogotá - Colombia
César Augusto Serna csernam@ucentral.edu.co

Magister en Ciencias Estadística
Universidad Nacional de Colombia
Consultor Estadístico
Thanks
for Coming

Presentación Herramientas Estadísticas I - Sesión 7 - 2020-2b

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentación Herramientas Estadísticas I - Sesión 7 - 2020-2b

Cargado por

Copyright:

Formatos disponibles

Fundamentos de Estadística

Maestría en Analítica de Datos

Introducción a Software Estadístico Fuentes de Información

EDA Inferencia y Pruebas de Hipótesis

Un Paseo Rápido por la Herramienta

Un Paseo Rápido por la Herramienta

Un Paseo Rápido por la Herramienta

Un Paseo Rápido por la Herramienta

Un Paseo Rápido por la Herramienta

Windows: Click en:

Un Paseo Rápido por la Herramienta

Consola Area de script Ventana de gráficas

Un Paseo Rápido por la Herramienta

Area de script Ventana de gráficas

Un Paseo Rápido por la Herramienta

Una gráfica interactiva en tres dimensiones, para ello es necesario

Un Paseo Rápido por la Herramienta

Las funciones básicas de R se agrupan en paquetes (packages, libraries), los

Un Paseo Rápido por la Herramienta

# Maneras clásicas de consultar la ayuda

# Maneras más fuerte

# Consulta de ayuda para funciones con caracteres especiales y para

Un Paseo Rápido por la Herramienta

#Ayuda en HTML: abre el navegador (sólo si está instalada la ayuda en

# Búsqueda de términos relacionados

# Ejecución de ejemplos de una función. Las comillas son opcionales.

Un Paseo Rápido por la Herramienta

R distingue entre mayúsculas y minúsculas:

#Dos objetos diferentes

#Expresión: El resultado se muestra por pantalla y no se guarda.

Un Paseo Rápido por la Herramienta

Los comandos se separan por ";" o por un salto de línea.

#Comandos separados por ";"

#Comando escrito en más de una línea

Un Paseo Rápido por la Herramienta

#En Windows, también está disponible en el menú:

Guardar la salida (resultado) de nuestros comandos

Por defecto R busca los archivos en el directorio activo. Para verlo/cambiarlo ir al

Un Paseo Rápido por la Herramienta

Si queremos referenciar archivos mediante su ruta completa tenemos que utilizar

#Hacemos un source poniendo la ruta completa del archivo

Un Paseo Rápido por la Herramienta

#Para ver los objetos que están en una lista.

Un Paseo Rápido por la Herramienta

R trabaja sobre estructuras de datos. La estructura más simple es un

#Creamos un vector de reales mediante la función c y lo guardamos en la

#Un número por sí mismo es un vector de longitud 1

#Otras maneras de asignar menos utilizadas

Un Paseo Rápido por la Herramienta

Si no se utiliza ninguna de las tres maneras de asignación

#Expresión: el resultado no se guarda

#Objeto especial de R que guarda el resultado del último comando

Un Paseo Rápido por la Herramienta

Un Paseo Rápido por la Herramienta

R dispone de instrucciones para generar secuencias de números.

# Generamos un vector con los números 1, 2, 3, 4, …, 29, 30.

# El operador ":" tiene la máxima preferencia

1:n-1 #Aquí prevalece ":" sobre "-"

1:(n-1) # Forzamos la prioridad del "-"

Un Paseo Rápido por la Herramienta

Con la función seq también se pueden generar secuencias de números

# La función seq admite también la longitud de la secuencia que

La función rep sirve para generar repeticiones de objetos (escalares o