Está en la página 1de 213

Curso de Nivelación en Estadistica Mg.

Claudia Castro Kuriss

Preliminares del Curso

En este curso repasaremos las nociones de probabilidad y estadística vistas en los cursos de grado.
La idea es tener una base y un lenguaje común entre todos los interesados en cursar la carrera de
Posgrado.
Las nociones de estadística son fundamentales hoy en todos los aspectos de la ciencia aplicada y
en particular para tratar de analizar grandes bases de datos, en machine learning y en data minig.
Este curso empleará el software libre R ya que es el que se empleará en el resto de la carrera.
Como profesionales ya no es necesario realizar cuentas a mano sino que se hace fundamental
conocer el empleo de un software estadístico adecuado para manejar los archivos de datos y
poder extraer conclusiones y características de los mismos: el tipo de datos que contiene, la
cantidad de variables y el tipo de cada una, los datos faltantes o missing, para luego establecer
las estrategias necesarias que permitirán hacer inferencia y establecer modelos que ajusten los
datos de manera adecuada. Para ello el software R reúne una cantidad de atributos que lo
convierte en uno de los más empleados en la actualidad, la ventaje de ser libre lo hace accesible
obviamente pero además tiene enormes posibilidades gráficas y de modelizar que resulta
sumamente atractivo y útil a la hora de elegir un software.
Para comenzar copio aquí la introducción que escribí para otro curso de Modelos Estadísticos con
R. No es necesario tener conocimientos previos de este lenguaje ya que iremos viendo como
emplearlo para obtener los resultados estadísticos que veremos, pero incluyo nociones
elementales para que el curso resulte cerrado con toda la información contenida en este apunte.

Según la Free Software Foundation, software libre, significa poseer las siguientes cuatro
libertades:
• La libertad de ejecutar el programa, para cualquier propósito (libertad 0).
• La libertad de estudiar cómo funciona el programa y adaptarlo a sus necesidades (libertad 1).
El acceso al código fuente es una condición previa para ello.
• La libertad de redistribuir copias para que pueda ayudar a otros (libertad 2).
• La libertad de mejorar el programa, y proporcionar sus mejoras al público, para que toda la
comunidad se beneficie (libertad 3).
En el sitio web de Free Software Foundation se puede obtener más información sobre el software
libre. La Free Software Foundation fue fundada por Richard Stallman en 1985. Ver también
https://www.gnu.org/philosophy/free-sw.html

2021 1
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Introducción al R

R, también conocido como ”GNU S”, es un entorno y un lenguaje para el cálculo estadístico y la
generación de gráficos. El R se origina el lenguaje S, desarrollado en los Laboratorios Bell
por John Chambers et al. que se utilizaba en el software comercial S-plus que fue muy difundido
pero que ya no se distribuye más.
“S ha modificado para siempre la forma en la que las personas analizan, visualizan y manipulan
los datos” (Association of Computer Machinery Software System Award 1998 a John Chambers).
El lenguaje R, es ” uno de los lenguajes de programación más utilizados en investigación por la
comunidad estadística; siendo además muy popular en el campo de la minería de datos, la
investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la
posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y
graficación. R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL. Está
disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux ”.
Fuente Wikipedia , https://es.wikipedia.org/wiki/R_lenguaje_de_programaci%C3%B3n

Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Es-
tadística de la Universidad de Auckland en 1993.
Se suele considerar que se empleó R ya que es la letra que sucede a la S. Muchos
especialistas consideran que programar en S y en R es muy similar. Sin embargo, en un progrma
y en otro hay diferencias importantes, en S la importación y exportación de archivos era mucho
más simple que lo que es con R. Por otro lado R abarca muchos más temas y es un lenguaje más
conectado a otros como el C++. Pero la diferencia fundamental es que mientras el S-plus era un
software comercial el R es de difusión gratuita. Todo se puede hacer con R, la dificultad es
encontrar cómo hacerlo, ya sea mediante un paquete que abarque el problema que se tiene que
resolver o bien, efectuando uno mismo una función o una rutina que genere el resultado que se
requiere obtener. Por ejemplo, una regresión lineal múltiple ya está desarrollada en R en una
librería apropiada, esto nos resulta de gran utilidad ya que si quisieramos nosotros mismos
hacer funciones para obtener las salidas respectivas, tardaríamos mucho tiempo en obtenerlas
pero si quisieramos podriamos hacerlo de todos modos.
Los diseñadores iniciales, Gentleman y Ihaka mencionan que: ” El lenguaje resultante es
muy similar en apariencia a S, pero en el uso de fondo y la semántica es derivado desde
Scheme”. El resultado se llamó R ”en parte al reconocimiento de la influencia de S y en parte para
hacer gala de sus propios logros”.
2021 2
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Su desarrollo actual es responsabilidad del R Development Core Team. Para saber más al respecto
y en el entorno del programa, puede escribirse en la consola contributors(); en la lista desplegada
aparecen los nombres de los autores iniciales y los actuales pertenecientes al R Development
Core Team (Equipo Central de Desarrolladores R). Lo que es importante destacar es que en
general, cualquier manual de aprendizaje de programación en S o S plus servirá para aprender a
programar en R. Consultar la vasta y excelente bibliografía de Venables and Ripley (por ejemplo,
2000, 2002).
Para instalar el software se debe elegir un CRAN Mirror (Comprehensive R Archive Network), red
de servidores en todo el mundo que almacenan R. Para instalar R por primera vez en un entorno
Windows se debe descargar el archivo R-3.5.2-win.exe y ejecutarlo de la misma manera que se
instalan otros softwares en Windows. Para más detalles se puede consultar
http://cran.r-project.org/

La última versión de R disponible es R version 4.0.3 (2020-10-10) -- "Bunny-Wunnies


Freak Out" Copyright (C) 2020 The R Foundation for Statistical Computing Platform: i386-w64-
mingw32/i386 (32-bit). Esta version se instaló en enero de 2021 y será la que se empleará
durante 2021. Para ingresar se hace clic en el ícono de R tal como se muestra en la Figura 1.1.
Conocer la versión con la que se trabaja es importante ya que algunos paquetes se
sustentan a partir de una versión en adelante.

Figura 1.1 :Logo de R

Cuando ingresamos a R, aparece algo similar a lo que se copia a continuación, donde figura
la versión de trabajo.

###############################################
R version 4.0.3 (2020-10-10) -- "Bunny-Wunnies Freak Out"
Copyright (C) 2020 The R Foundation for Statistical Computing
Platform: i386-w64-mingw32/i386 (32-bit)

2021 3
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

R es un software libre y viene sin GARANTIA ALGUNA.


Usted puede redistribuirlo bajo ciertas circunstancias.
Escriba 'license()' o 'licence()' para detalles de distribucion.

R es un proyecto colaborativo con muchos contribuyentes.


Escriba 'contributors()' para obtener más información y
'citation()' para saber cómo citar R o paquetes de R en publicaciones.

Escriba 'demo()' para demostraciones, 'help()' para el sistema on-line de ayuda,


o 'help.start()' para abrir el sistema de ayuda HTML con su navegador.
Escriba 'q()' para salir de R.
###################################################

Para salir se cierra la ventana, desde el menú File, eligiendo la opción Exit, o bien
escribiendo en la lı́nea de comandos q() tal como lo indica el mismo programa al iniciar la
sesión. Todo lo que se escribe en R luego de un sı́mbolo # es ignorado y es en general
empleado cuando se generan funciones para hacer comentarios sobre ellas que luego
nos servirán de ayuda para el uso de esas funciones, o bien, para quien quiera
emplearlas sin ser su autor.

1.1. Objetos en R

Todas las variables que se emplean en R son objetos que se guardan en el denominado
workspace. Para listarlos se pueden usar el comando ls() y se tendrá una lista de todos
los objetos que se han guardado o generado, ya que por default R guarda todo lo que se
genera en una sesión y luego al cerrar el programa pregunta si se quiere guardar o no lo
que se ha trabajado para que esté disponible en futuras sesiones.

1.1.1. Vectores

Suponemos al lector familiarizado con la creación de vectores empleando c de


concatenación que es lo más simple que se puede hacer y comentamos aquı́ que el R es
case sensitive, es decir, distingue minúsculas de mayúsculas por lo que para R, el objeto
Casa es distinto del objeto casa. Esto es importante de recordar ya que cuando invocamos
un objeto tiene que estar escrito exactamente como cuando fue creado.

Para la creación de un nuevo objeto hay que asignarlo con un nombre distinto a alguno
de los que tenemos y guardamos. Hay dos formas de hacerlo básicamente. Veamos por
2021 4
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

ejemplo: creamos el vector old, old=1:10 , que es la secuencia de números naturales del
1 al 10. A partir de este vector generamos otro, que llamaremos new, podemos hacerlo
de dos formas, con el signo = o con los signos <-

new=old/2

o bien

new< −old/2
En cualquiera de las opciones hemos creado un nuevo objeto new a partir de otro llamado
old vector numérico del 1 al 10, que es un nuevo vector que va de 0.5 a 5 con paso 0.5 pues
es el anterior dividido 2. Si ya existía un objeto con el nombre new, al asignarle old/2 y hacer
enter perdemos el objeto viejo new que es reemplazado por este nuevo que hemos creado.
El R no avisa que ya existı́a otro objeto con el mismo nombre. El objeto old es la secuencia
de números del 1 al 10. Esto se puede lograr también con el comando seq(1,10), pero este
comando es más útil cuando queremos crear una secuencia más complicada, por ejemplo,
seq(10,1,-1) que produce el vector que se encuentra en la Tabla 1.1.

[1] 10 9 8 7 6 5 4 3 2 1

Tabla 1.1: Vector generado por seq(10,1,-1).

El comando seq(1,5,0.05) produce un vector de tamaño 81 que se encuentra en la Tabla


1.2. que se muestra a continuación.

1.00 1.05 1.10 1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.60 1.65 1.70
[16] 1.75 1.80 1.85 1.90 1.95 2.00 2.05 2.10 2.15 2.20 2.25 2.30 2.35 2.40 2.45
[31] 2.50 2.55 2.60 2.65 2.70 2.75 2.80 2.85 2.90 2.95 3.00 3.05 3.10 3.15 3.20
[46] 3.25 3.30 3.35 3.40 3.45 3.50 3.55 3.60 3.65 3.70 3.75 3.80 3.85 3.90 3.95
[61] 4.00 4.05 4.10 4.15 4.20 4.25 4.30 4.35 4.40 4.45 4.50 4.55 4.60 4.65 4.70
[76] 4.75 4.80 4.85 4.90 4.95 5.00

Tabla 1.2: Vector generado por seq(1, 5, 0,05).

Otro comando útil para crear vectores es rep(), rem(old,new) eliminará a los dos vectores
que recién creamos. El comando length() que devuelve la longitud del vector. Todos los
componentes de un vector tienen que tener el mismo tipo: numérico, complejo, lógico,

2021 5
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

caracter o raw ( datos crudos). Pueden contener un dato faltante que se llama ”NA”que
quiere decir ”Not Available”.
Surge la pregunta cuántos ”NA” contiene un vector, pues podrı́an ser más los valores
faltantes que los observados, con lo cual la información contenida en el vector serı́a poco
valiosa para hacer inferencias con ella. Daremos un ejemplo de cómo calcular cuantos
valores perdidos tiene un vector cuando veamos factores un poco más adelante.
1.1.2. Matrices

Con respecto a matrices tambien hay varias formas de crearlas,por ejemplo, matrix(old,5,2) da
como resultado la matriz que se incluye en la Tabla 1.3,

Tabla 1.3: Matriz generada por matrix(old; 5; 2)

Mientras que, matrix(old,5,2, byrow=TRUE) produce la salida que se obtiene en la


Tabla 1.4,

Tabla 1.4: Matriz generada por matrix(old,5,2, byrow=TRUE).

En cambio, matrix(old,2,5, byrow=TRUE), da como resultado la matriz de la Tabla 1.5.


Resulta entonces evidente que cuando no se le indica nada en el comando matrix(), va
ubicando los elementos de la matriz por columna.
2021 6
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Las operaciones de matrices incluyen, entre muchas otras, hallar la dimensión dim(A),
trasponer t(A) , hallar su determinante si es cuadrada det(A), hallar su inversa si existe
solve(A) y obtener sus autovalores eigen(A).

Tabla 1.5: Matriz generada por matrix(old,2,5,byrow=TRUE).

Para multiplicar matrices se emplean los sı́mbolos siguientes juntos % * % . Resultarán


útiles también los comandos rbind() y cbind() que permiten unir vectores y arreglos por
fila (row) o por columna(column) creando matrices de este modo.
Por ejemplo sean los vectores, x1=c(1,2,3) y1=c(4,5,6) , el resultado de hacer rbind(x1,y1)
es igual a la matriz de la Tabla 1.6 y cbind(x1,y1) da como resultado la matriz que se
indica en la Tabla1.7.

Tabla 1.6: Matriz generada con el comando rbind().

Tabla 1.7: Matriz generada con el comando cbind().

1.1.3 Factores

Los factores son muy importantes en los análisis estadisticos, en particular para el
tema de Análisis de la Varianza (AOV). Como ejemplo de una variable factor podemos dar
2021 7
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

la variable Tipo de motor en coches eléctricos, se trata de cuatro tipos de motores en


coches eléctricos.
• Motor Asíncrono o de Inducción (AC) .
• Motor síncrono de imanes permanentes (AC)
• Motor síncrono de reluctancia conmutada o variable (AC)
• Motor sin escobillas de imanes permanentes (DC)
Según el tipo de motor el coche eléctrico tendrá un rendimiento diferente que se desea investigar,
o tendrá una eficiencia distinta o un costo según el tipo.
Otro ejemplo puede ser la zona de GBA donde un individuo reside: GBA norte, GBA sur, GBA
Oeste, CABA norte y CABA sur, zonas que definimos nosotros para un estudio sobre condiciones
socio-economicas y de salubridad. Estas zonas las podemos numerar como 1, 2, 3, 4 y 5
respectivamente pero nuestra asignación la definimos porque se nos ocurrió, de modo que tiene
que figurar en algún lado para que no nos olvidemos luego o para que otro pueda interpretarla.
Cada individuo de la base de datos vive en alguna zona de estas 5 por lo que se le asigna un
número entre 1 y 5 de forma unívoca. No hay orden en esta clasificación si bien los números están
ordenados naturalmente. Algo similar ocurre con la variable Género que también es un factor,
que usualmente se asigna como 0 y 1, si bien no hay orden entre géneros de los individuos si los
hay entre 0 y 1. Veamos ejemplos en R.
Los factores son, entonces,vectores que se usan para clasificar otros de la misma longitud
de acuerdo a grupos que definen justamente los factores. R permite trabajar tanto con
factores ordenados como no ordenados. Un factor puede estar definido a través de
números pero es importante indicarle al R que se trata de un objeto factor sino lo
trabajará como numérico y recı́procamente, si por algún error un vector numérico R lo
interpreta como factor, habrá errores en las salidas por lo que habrá que indicar que se
trata de números.
Creamos un ejemplo que contiene en la primer columna el nivel socio económico de un hogar
2

y en la segunda columna el ingreso del principal sostén sin unidades de mil. Este ejemplo se
importó al R desde Excel y se lo llamó como NSEI en R. Si pedimos que nos muestre las
primeras 6 filas del archivo obtenemos lo contenido en la Tabla 1.8. Este archivo tiene algunos
valores faltantes de ingreso. Si pedimos la estructura del archivo, nos indica que la variable
NSE es un factor con 3 niveles: ” Alto”, ”Bajo ”Medio”. R los ordena de acuerdo al orden
alfabético. Y también nos indica que la variable ingreso es numérica. Vamos a reordenar este
factor de acuerdo al orden que tienen como variable ordinal: alto, medio y bajo (o a la inversa).
Una forma sencilla de hacerlo es mediante la siguiente instrucción donde creamos un nuevo
factor con el orden que queremos. Notar que podrı́amos ordenar el mismo factor que ya
tenı́amos.

2021 8
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

NSEI$NIVELord = factor( NSEI$NIVEL, levels = levels( NSEI$NIVEL )[ c( 1,3,2 ) ] )


Si solicitamos el orden de este nuevo factor, obtenemos el orden que deseamos:
levels( NSEI$NIVELord )
[1] ”Alto” ”Medio” ”Bajo”

Notar que hemos usado la expresión NSEI$NIVEL, eso alude a la variable NIVEL ( factor en este caso)
del archivo NSEI, la otra variable Ingreso( numérica en este caso) se obtiene con el comando
NSEI$Ingreso.

Tabla 1.8: primeras 6 filas del archivo inventado denominado NSEI

Ahora queremos conocer la mediana de los ingresos de los hogares según sea su nivel,una forma
sencilla de hacerlo es a través del comando tapply().
El comando es:
tapply(NSEI$Ingreso,NSEI$NIVEL,median)
obtenemos:
Alto Bajo Medio
67 NA NA

Como había ingresos faltantes en algunos hogares entonces el resultado es NA, para excluir esos
valores faltantes, tenemos que agregar: na.rm=TRUE o sea que elimine los valores NA para el
cálculo,

tapply(NSEI$Ingreso,NSEI$NIVEL,median,na.rm=TRUE)

obtenemos, lo que deseamos conocer la mediana de los ingresos según nivel sin tener en cuenta los
valores faltantes.

2021 9
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Alto Bajo Medio


67 15 33

Claro que si los datos faltantes son muchos, estas medianas de ingresos en los niveles Bajo y Medio
podrían no resultar de interés, por lo que primero tendríamos que averiguar cuantos valores
faltantes hay para cada factor del NIVEL. Una forma posible es la siguiente,

length(NSEI$Ingreso)-length(NSEI$Ingreso[which(NSEI$Ingreso!= ”NA”)])


que nos devuelve el valor 7 que es el resultado de hacer 358 -351 que es la longitud total menos los
valores distintos de NA, no podemos pedir en forma directa que cuente cuantos son iguales a NA
porque los componentes de un vector numérico no pueden igualarse a NA, ya que obviamente son
números y NA no.
Hay muchas formas de obtener cuantos NA tiene una variable, a veces, pidiendo un resumen del
archivo por variable ya se puede conocer. Pero es muy importante detectar la presencia de datos
faltantes en un archivo y conocer cuantos hay ya que pueden afectar las estimaciones si son muchos
por lo que a veces es preferible omitir toda una variable que considerarla para un estudio cuando la
cantidad de información que provee es escasa.

1.1.4 Data Frames y Listas

Muchas veces los conjuntos de datos contienen observaciones de un objeto de distintas variables,
por ejemplo, para un paciente podemos registrar su edad, su género, su nivel educativo, su nivel
socio economico, su presión arterial, si es fumador o no, si es casado, viudo, separado u otra
situación, etc. Cada caracterıstica relevada constituye una variable y estas variables tienen distinta
naturaleza, pueden ser cuantitativas, cualitativas, lógicas, ordinales, nominales, etc. Se puede
construir un objeto con las variables como columnas y los datos de cada paciente como filas. Esto
constituye un data frame.
Un data frame se puede considerar muchas veces como una matriz y se lo puede convertir a matriz
cuando se lo necesite, también las filas tienen que tener la misma longitud, si faltara un
dato, el R lo completa como NA. Puede ser frecuente que falte relevar alguna o varias variables para
un objeto o especímen bajo estudio pero como se tiene alguna información se la deja en el
conjunto de datos de todas formas.
Para ver un ejemplo, tenemos el famoso conjunto de datos iris de Fisher , que se invoca como
data(iris) en R que ya lo trae cargado, es un data frame que contiene para 50 flores de 3
especies distintas, la medición de la longitud de sus sépalos y pétalos en cm., el ancho de
sus sépalos y pétalos en cm., y la especie de cada flor relevada (versicolor, virginica y setosa).
No hay datos faltantes, cuatro de las variables son numéricas y la cuarta es nominal o cualitativa.
Para R es una variable factor. Si queremos saber si un objeto es un data frame se tipea
2021 10
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

is.data.frame() y la respuesta es TRUE o FALSE. Para saber si pertenece a otro tipo de objeto se
procede de manera similar, por ejemplo, is.numeric().
Para ver la estructura de un objeto se emplea el comando, str(). También resultan muy útiles para
visualizar conjuntos de datos, sobre todo cuando contienen muchos filas los comandos head() y
tail() que despliegan las primeras 6 y las últimas 6 filas del archivo respectivamente por default. Si
queremos ver una cantidad determinada de filas que no sea 6, basta aclararlo en el comando, por
ejemplo, head(XX,9) mostrará las 9 primeras filas del archivo XX.
Cuando queremos invocar una columna de nuestro data frame hay que emplear la siguiente
convención: iris$Petal.Width, es decir el nombre del data frame seguido de un signo $ y
luego el nombre de la variable como ya indicamos previamente. Para evitar tener que tipear tanto
se puede hacer attach(iris) y luego se puede invocar a la variable Petal. Width sin el signo $ delante
o la referencia al archivo del cual proviene. Antes de cerrar la sesión es conveniente volver esto
hacia atrás, es decir, escribir detach(iris). En general es preferible no hacer attach cuando uno
están empleando varios archivos conjuntamente ya que puede haber variables con igual nombre y
se podría perder información valiosa.
Una lista u objeto de tipo list, es una colección de objetos ordenados, denominados componentes
de la lista. No es necesario que los componentes sean de un mismo tipo y tampoco que tengan la
misma longitud. Esta posibilidad lo convierte en un objeto muy general.
Por ejemplo, creamos el siguiente objeto de tipo lista:

mi.lista = list("Nombre" = c("Silvia", "Juana", "Pedro"),"Fumador" = c(TRUE,TRUE, FALSE),


"HIJOS" = c(0,3,2),"Edades HIJOS" = c(2,5,7,21,26))

Las listas están siempre numeradas por sus componentes y nos referimos a ellas de esa forma, así
[[1]] en nuestro ejemplo alude al primer componente que es Nombre.

mi.lista[[1]]
devuelve,
[1] ”Silvia” ”Juana” ”Pedro”

A su vez mi.lista[[3]][2] da como resultado 3 que significa que Juana tiene 3 hijos, pues buscamos
en la componente 3 que es HIJOS lo que corresponde a la segunda persona que es Juana.
mi.lista[1] devuelve,

$Nombre
[1] ”Silvia” ”Juana” ”Pedro”

La importancia de las listas se verá más adelante cuando se aborde el tema de modelos de regresión
ya que las salidas de estos modelos son en general objetos de formato listas.
2021 11
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Una forma de ver la estructura de nuestro archivo es mediante el comando str(), que nos devuelve
la estructura del mismo. De esta forma podemos visualizar si un vector de nuestro archivo no se
importó correctamente y resulta un factor en lugar de un vector numérico, y viceversa, por ejemplo.

Ahora creamos un objeto data frame y lo vamos a ordenar según varios criterios, por ejemplo
respecto de dos columnas. Se puede pedir ordenar en el orden natural o en orden inverso, aclarando
esto con un signo menos delante de la columna respectiva. El R entiende el orden natural de las
letras y de los números, el orden de los factores se lo tenemos que indicar porque sino los asigna en
forma alfabética o numérica según corresponda.
Sentencias en R.

mi.data=data.frame(a=factor(c("alto","medio","bajo","alto","bajo"),
levels=c("alto","medio","bajo"),ordered=TRUE),
b=c("A","B","D","A","B"),d=c(2,6,7,7,6),e=c(1,2,2,2,1))
# creamos el data frame que se llama mi.data

mi.data[with(mi.data,order(-e,a)),]
# ordenamos respecto a la columna e en sentido inverso y luego respecto a la a.

mi.data[order(-mi.data[,4],mi.data[,1]),]
# lo mismo que antes escrito de otra forma. mi.data[order(-mi.data[,4],mi.data[,3]),]
# ordenamos respecto a la columna 4 sentido inverso y luego respecto a la 3.

mi.data[order(-mi.data[,4],mi.data[,3],mi.data[,1]),]
# ordenamos respecto a la 4, sentido inverso, luego respecto a la 3 y luego respecto a la 1.
Con las sentecias anteriores hemos creado los data frame de las Tablas 1.9, 1.10 , 1.11 y 1.12
respectivamente.

Para más información sobre objetos en R y como extraerles información, como operar, obtener
subconjuntos, dividir el archivo, etc., consultar por ejemplo, el libro An Introduction to R, Venables
et al.
El paquete dplyr es muy conocido y posibilita el manejo de archivos en forma práctica. Por supuesto
no es el único y hay otros también muy interesantes que también permiten manejar archivos y
extraerles información, combinar varios archivos, extraer filas, columnas, etc. Aunque se puede
trabajar sin invocar a paquetes si se aprenden las sentencias adecuadamente pero puede resultar
obviamente más laborioso.

2021 12
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 13
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Una conocida librería para trabajar y analizar datos es la librería tidyverse, que es es un conjunto de
8 paquetes en R diseñados especialmente para ciencia de datos. Esto significa que ayuda en todo el
proceso de importar transformar visualizar modelar y comunicar toda la información que
normalmente utilizamos en procesos de ciencia de datos. La ventaja que tienen estos paquetes que
comparten nombre y estructuras comunes. Por ejemplo, todos los nombres están en minúscula o
utilizan la barra baja para llamar a las funciones.
Esto mantiene una consistencia a lo largo de todos sus paquetes que permite que sea más fácil
utilizarlos. Estos paquetes de R son mantenidos por la comunidad y por el RStudio. Los paquetes
que trae son: ggplot2, dplyr, tidyr, readr, purrr, tibble, stringr, forcats. De todas formas esto es
mucho más complejo que lo que necesitaremos para analizar estadísticamente en un archivo de
datos en este curso. Seguramente lo verán en cursos posteriores de R y de programación en R en la
carrera.
Se puede consultar más información en los siguientes links en español, por ejemplo,

https://gonzalezgouveia.com/que-es-tidyverse-8-paquetes-para-ciencia-de-datos/

https://rafalab.github.io/dslibro/tidyverse.html

1.2 Ayuda en R

R dispone de un sistema de ayuda que se puede invocar bien desde el menú que aparece al iniciar
el programa (opción Help), o bien se lo puede invocar en línea. La ayuda desde el menú se puede
resumir de la siguiente manera,
Console Ayuda sobre el uso de las teclas y sus combinaciones en R.
R language (standard) Proporciona ayuda sobre funciones concretas.
R language (html) Arranca un entorno de ayuda completo en formato html.
Manuals Da acceso al manual de referencia de R en formato pdf
Apropos Da información sobre las funciones relacionadas con una dada.
About Informa de la versión de R actual.

Algunos ejemplos de ayuda en línea de comandos:

help() Muestra una ventana de ayuda general sobre R.

help.start() Arranca un manual de ayuda completo en formato html, utilizando el navegador del
sistema.

help(median) Muestra una ventana de ayuda sobre la funci´on ”mediana”.

2021 14
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

?median Lo mismo que el ejemplo anterior.

apropos(”median”) Muestra las funciones y los objetos que tengamos almacenados relacionadas
con la funci´on median o con la palabra median.

help.search(”median”) Busca ayuda sobre objetos o funciones que tengan nombre o título que
contenga la cadena ”median” abriendo una nueva pestaña en internet tal como se muestra
en la Figura 1.2.

Figura 1.2: Ventana parcial de lo que se obtiene al tipear help.search(”median”) en la


consola de R

1.3 Paquetes en R

Los paquetes o packages son una colección de funciones, datos y código R que se almacenan
en una carpeta conforme a una estructura bien definida y accesible para R. En la web de R se puede
consultar la lista de paquetes disponibles por orden alfabético. Encontramos código fuente y
documentaci´on. Cada paquete también incluye información sobre sus funcionalidades.
Cuando uno carga por primera vez R ya contiene una cantidad de librer´ıas que son las básicas para
comenzar a trabajar, como la base. Podemos conocer cuáles son tipeando en la consola
library(). Algunos de los paquetes más usuales ya instaladas cuando se instala R por primera vez, se
encuentran listadas en la Tabla 1.13.
2021 15
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Tabla 1.13: Paquetes estándard en R

También se puede conocer los paquetes que tenemos instalados haciendo clic en la pestaña Pa-
quetes, donde se despliega una lista de posibilidades, la primera de ellas es ’cargar paquete’, esto
significa que ya lo hemos bajado en nuestro equipo y que lo estamos invocando, pues cada vez que
necesitemos uno en particular que ya hemos bajado lo tenemos que llamar. Supongamos
necesitamos el paquete ficticio XXX, podemos poner require(XXX), library(XXX) o bien desde la
ventana Paquetes, elegimos el paquete XXX que necesitamos.
Para cargar un paquete o librería por primera vez, hay que Seleccionar un espejo CRAN en esta
misma pestaña y luego, cuando se abre, seleccionar en la lista que se despliega en forma alfabética,
aquel package que nos interesa. Si a su vez, este paquete necesita de otros que no tenemos
aún, también los instalará. La lista de paquetes es muy amplia.
Al finalizar estas acciones con éxito, escribe en la consola:

package XXX successfully unpacked and MD5 sums checked

También nos indica la ruta donde fue descargado.

Hay una diferencia entre library() y require(), require() fue diseñado más específicamente para
su uso dentro de funciones, así require(XXX) devuelve TRUE o FALSE según si el paquete
esté o no instalado en la PC del usuario. Además, si existe lo carga en memoria, y si no existe
lanza un “warning” advirtiendo de ello. De esta forma el programador de la función puede utilizar
require() para comprobar si el usuario dispone o no de los paquetes necesarios para ejecutar el
resto de comandos incluídos en una función, sin que esta se interrumpa.
Por otro lado, library(XXX), si detecta que el paquete solicitado no existe, lanza un error y detiene
2021 16
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

el proceso en marcha. Si no estamos creando una función, en los hechos prácticos, nos resultará
lo mismo usar require() o library(), pero cuando creemos una función que invoque librerías,
recordar esta diferencia resulta importante para que un proceso no se detenga y no sepamos que
ocurrió.
Puede ser necesario eliminar paquetes de la memoria, esto se hace con el comando:

detach(”package:XXX”, unload=TRUE)

Si queremos eliminar del disco duro un paquete que tenemos instalado, basta ejecutar la
función

remove.packages(XXX).

La función old.packages() compara los paquetes que tenemos instalados con los que se
encuentran en CRAN, y proporciona una lista de aquellos que cuentan con una versión
m´as moderna. Para actualizarlos se ejecuta el comando: update.packages(). R va preguntando
uno por uno si queremos o no actualizar los paquetes que tienen versiones más actuales.
Actualmente ( 28 de enero 2021) el R dispone de 17028 paquetes, pero esto es muy
dinámico y seguramente si se consulta el día en que se lea este apunte, el número habrá
crecido bastante. Para consultar los paquetes disponibles en R en forma alfabética o según
fecha de publicación se puede consultar la página:

https://cran.r-project.org/web/packages/

1.4 Importar y Exportar archivos


Una parte importante del trabajo con R consiste en importar y exportar archivos ya que no será
frecuente que trabajemos con datos ya contenidos en los conjuntos de datos contenidos
en distintas librerias de R y tampoco que los generemos dentro del mismo software. Volviendo
al tema de leer archivos en R, debemos decir que no es fácil aunque en la actualidad se ha
simplificado bastante este tema. Muchos usuarios cuando tienen un archivo Excel, lo
convierten al formato .csv, comma-separated values,que es un archivo que representa los datos
en forma de tabla, en las que las columnas se separan por comas (o punto y coma) en donde la
coma es el separador. Cuando se pasa un archivo de Excel a la extensión csv pueden ocurrir
errores o cuando se levanta de R también puede suceder esto, por eso es conveniente siempre
chequear que el archivo importado en R es el original que queríamos emplear. También
puede suceder que las variables no tengan las propiedades que tendrían que tener y entonces
hay que convertirlas o bien hay que chequear que en el archivo inicial la variable numérica lo es
efectivamente, por ejemplo.
2021 17
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Existen varias opciones para leer 1 archivo dependiendo de su formato. Si tenemos un archivo
de texto, que es el más simple de todo, se pueden emplear algunos de los tres primeros
comandos que detallamos a continuación y que están en el paquete utils que ya viene con el R al
instalarlo como el base. Para los de extensión .csv se emplean los dos últimos comandos.
read.table(file, header = FALSE, sep = ” ”, quote = ”’”, dec = ”.”,...)
read.delim(file, header = FALSE, sep = ” \”, quote = ”’ ”,dec=”.”, fill = TRUE,
comment.char= ” ”, ...)
read.delim2(file, header = FALSE, sep = ” \”, quote = ”\ ”,dec=”.”, fill = TRUE,
comment.char= ” ”, ...)
read.csv(file, header = TRUE, sep = ”,”, quote = ”\”, dec = ”.”, fill = TRUE,
comment.char = ” ”, ...)

read.csv2(file, header = TRUE, sep = ”;”, quote = ”\”, dec = ”,”, fill =
TRUE, comment.char = ” ”, ...)
Hay una diferencia entre estos dos últimos comandos, son casi iguales pero en el
cuadro siguiente se indican las diferencias.

Argumento read.csv read.csv2 Descripción


header TRUE TRUE The CSV file has a header row.
sep '','' '';'' The separator is a comma or semicolon.
quote ''\'''' ''\'''' If quotes are used they are double quotes.
dec ''.'' '','' The decimal is a period or a comma.
fill TRUE TRUE If rows are not all the same length, blank cells are added
comment.char '''' '''' You have no comments in your CSV.

En el siguiente link está la explicación de cada función y la descripción de sus


argumentos, además de ejemplos de su aplicación.
https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/read.table

2021 18
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Otra forma de generar un conjunto de datos cuando es pequeño es mediante el comado scan()
que permite ingresar los elementos desde la consola. Desde luego esto puede hacerse
solamente con pocos datos.
También se puede elegir un archivo dentro de nuestro equipo con el comando
read.table(file.choose()), que nos abre una pantalla que nos lleva a elegir que archivo de texto
que queremos abrir. También podemos usar read.csv(file.choose()) que nos importará un
archivo con extensión .csv de nuestro equipo.

Para exportar archivos que hemos creado o que están dentro de R, se emplean los
comandos siguientes:

write.table(x, file, append = FALSE, sep = ” ”, dec = ”.”, row.names = TRUE,


col.names = TRUE) donde x es el nombre en R y file es con el que lo queremos
exportar.

write.csv() , usa . para el punto decimal y la coma , como separador.

write.csv2() en cambio usa la coma , para el punto decimal y el punto y coma ;


como separador. En forma análoga a read.csv() y read.csv2().

Por supuesto lo mencionado anteriormente sobre la importación de archivos es fácil cuando


quremos abrir un solo archivo pero si queremos abrir por ejemplo uno diferente
correspondiente a cada dia de tres meses diferentes, o sea, 92 archivos, este método se hace
inviable, como lo será también si tenemos 92 archivos diferentes en Excel que prentendemos
pasar previamente a extensión .csv antes de importarlos a R, lo que implicaría abrir cada
archivo y guardarlo con ese formato. Para este tipo de problemas lo más fácil es directamente
importar el archivo desde Excel lo que resulta fácil con las librerı́as adecuadas. Luego se las
llama cada vez y se reemplaza nada más el nombre del archivo respectivo. Desde luego
también se puede exportar a Excel directamente. Versiones viejas de R permitı́an leer y
exportar archivos con extensión .xls, las versiones actuales permiten importarlas pero solo
exportan en la extensión .xlsx.

Para poder hacer esto se necesitan las siguientes librerías que hay que llamar cada vez,
algunas son necesarias para que se abran las otras.
Veamos dos formas de leer y exportar archivos Excel. Con el RStudio estas operaciones de
archivos son más fáciles.
Una forma,

2021 19
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

require(RJava)
require(xlsx)
require(xlsxjars)
require(xlsReadWrite)
Por ejemplo con el archivo llamado OZONO.xlsx que se verá en el curso, que se encuentra
ubicado en una carpeta local (de mi equipo) se usa el comando:
OZONO<-read.xlsx("C:\\Users\\ccast\\ Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx",1)
head(OZONO)
El comando importó en R el archivo Excel OZONO ubicado en la carpeta local que indicamos, y a su
vez, la primera hoja del archivo. Notar que para indicar un camino a una carpeta local, hay que poner
dos barras invertidas \\.
SIEMPRE conviene verificar como se importó el archivo, lo más fácil inicialmente es usar el comando
head().Hemo importado la primera hoja del archivo OZONO, cambiando el número 1 por 2 o más,
importamos la hoja que deseamos.
Podría suceder que los datos de interés estén en la hoja 2
OZONO.2=read.xlsx("C:\\Users\\ccast\\ Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx",2)

Nota:
1. read.xlsx conserva el tipo de datos. Intenta adivinar el tipo de clase de la variable
correspondiente a cada columna de la hoja de cálculo. Tenga en cuenta que, la
función .xlsx es lenta para conjuntos de datos grandes (hoja de trabajo con más de
100 000 celdas).
2. read.xlsx2 es más rápido en archivos grandes en comparación con la función de
lectura.xlsx.

Para el lector interesado, dejamos el siguiente link:


http://www.sthda.com/english/wiki/r-xlsx-package-a-quick-start-guide-to-manipulate-excel-files-in-r

Con esta misma librería, vamos a exportar el archivo iris, que se encuentra dentro de R y contiene
52 observaciones de flores iris, donde para cada flor se determinó su variedad ( versicolor, setosa y
virginica), la longitud y ancho de sus pétalos y la longitud y ancho de sus sépalos. Este archivo es
famoso , se debe a Sir Ronald Fisher, famoso estadístico inglés, que lo empleó en 1936 en su

2021 20
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

paper The use of multiple measurements in taxonomic problems. Se emplea como ejemplo también
en análisis multivariado de clasificación, el problema a resolver sería el siguiente ¿ con los datos que
tenemos, será posible determinar la variedad de una nueva flor iris que yo encuentre o que me den,
a partir de 4 mediciones realizadas sobre sus pétalos y sépalos?
Exportamos el archivo iris a uno Excel que lo llamaremos IRIS con el siguiente comando,eligiendo la
carpeta donde lo alojaremos,

write.xlsx(iris,"C:\\Users\\ccast\\ Escritorio\\Trabajo en R\\Datos\\IRIS.xlsx")

Para agregar varios conjuntos de datos en el mismo libro de Excel, se tiene que utilizar el
argumento append = TRUE y comenzar por un comando del paquete xlsx que es librowrite. Esto
se ilustra en el siguiente código R:
Escribir el primer conjunto de datos en un nuevo

librowrite.xlsx(USArrests, file="myworkbook.xlsx",
sheetName="USA-ARRESTS", append=FALSE)

Agregar el segundo conjunto de datos en un nuevo libro

write.xlsx(mtcars, file="myworkbook.xlsx", sheetName="MTCARS",


append=TRUE)

Agregar un tercer conjunto de datos

write.xlsx(Titanic, file="myworkbook.xlsx", sheetName="TITANIC",


append=TRUE)

De esta forma exportamos 3 archivos que se encuentran en R a un solo archivo Excel con 3 hojas
distintas, en cada una figura un archivo diferente: USArrests,mtcars y Titanic. El lector interesado
puede consultar el contenido de estos conocidos archivos en internet.

Otra forma para importar y exportar archivos excel, con la librería readxl,
library(readxl)
OZONO=read_excel("C:\\Users\\ccast\\Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx",1)

2021 21
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Podría suceder que los datos de interés estén en la hoja 2 y además que no empiecen en A1, esto se
indica también en el comando que establece el rango de la hoja en el que estamos interesados en
importar a R.
OZONO.MIO=read_excel(("C:\\Users\\ccast\\Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx", sheet
= 'Hoja2', range = 'A7:B18')

Y para exportar, se usa la librería writexl,


library(writexl)
write_xlsx(iris,"C:\\Users\\ccast\\ Escritorio\\Trabajo en R\\Datos\\IRIS.mio.xlsx")

También se puede importar todo un archivo Excel que contiene varias hojas, pero será en R un
archivo de tipo lista, donde en cada elemento de la lista habrá una hoja del archivo Excel. Para ello
se emplea un comando que lee cada hoja y la ubica como elemento de una lista:

library(readxl)
EJEMPLO=readxl_example("datasets.xlsx")
read_excel(EJEMPLO)

Para que escriba los nombres de las hojas el comando es:


excel_sheets(EJEMPLO)
[1] "iris" "mtcars" "chickwts" "quakes"

Especificamos la hoja por nombre o número:


read_excel(EJEMPLO, sheet="iris")
read_excel(EJEMPLO sheet = 1) # lo mismo que antes

Ver como referencia:


https://www.rdocumentation.org/packages/readxl/versions/1.3.1

Es posible que deseemos importar todas las hojas de un libro de trabajo. Haremos esto a través de
la función lapply(), iterando sobre los nombres (o rango) de nuestras hojas; pasando read_excel()
como nuestra función. El objeto resultante debe ser una lista de cuatro (4) archivos de datos; uno
(1) por pestaña en este ejemplo que estamos trabajando.
tab_names <- excel_sheets(path = EJEMPLO)

MILISTA <- lapply(tab_names, read_excel, path = EJEMPLO)


str(MILISTA)
2021 22
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

# nombro mis data frames que constituyen mi lista:


names(MILISTA) =tab_names
str(MILISTA)

La hoja de calculo se capturará como una lista con el nombre de la hoja como nombre del data frame
en la lista.
Si se quiere sacar los data frames de la lista, se puede usar el siguiente Código:

list2env(MILISTA ,.GlobalEnv)

Esto se encuentra más allá del alcance de este curso, puede verse por ejemplo,
https://rpubs.com/tf_peterson/readxl_import

Desde luego también se puede importar a R otros tipos de archivo como lo son los que se emplean
en SPSS que tienen extensión .sav, los de STATA que tiene extensión .dta, y también datos en
formatos especiales o de páginas oficiales. Dejamos este link para el lector interesado.
https://www.datacamp.com/community/tutorials/r-data-import-tutorial

Hay mucha bibliografía referente a R y como tabajar los archivos , sus definiciones y tipos. La
mayoría está disponible on-line y se puede descargar en extensión .pdf. Recomendamos como
autores a Venables W., Santana y Farfan (2014) quienes tienen un libro de R en español muy
completo.
En la siguiente página,

http://cmdlinetips.com/2018/01/free-online-resources-books-to-learn-r-and-data-science/

puede accederse a 21 libros en forma gratuita on line de R, varios escritos por Hadley Wickham.
Recomiendo estos textos para quien desea profundizar los temas de R además de aprender a
programar en el. La cantidad de libros se actualiza, así que es posible que en el momento de la
consulta haya aún más que en el momento actual ( marzo 2021), en el 2020 había 18 por ejemplo.
Por ejemplo, el siguiente tiene varios tópicos de estadística que les será útil a partir de ahora.
https://moderndive.com/

También dejo el link a un texto que escribí para un curso que dicté de R y modelos estadísticos,
que puede ser útil en los cursos siguientes. Tiene un capítulo dedicado a técnicas gráficas con R.

https://www.researchgate.net/publication/331503559_Taller_de_Modelos_Estadisticos_con_R

2021 23
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

1.4.2 Directorio de trabajo


El directorio o carpeta de trabajo es el lugar en nuestra computadora en el que se encuentran los
archivos con los que estamos trabajando en R. Este es el lugar donde R buscara archivos para
importarlos y al que serán exportados, a menos que indiquemos otra cosa mediante todo el
camino como ya se dijo antes, eso depende de como se quiera trabajar.
Se puede encontrar cuál es el directorio de trabajo con la función getwd(). Se escribe la función
en la consola y se ejecuta, que quiere decir literalmente obtener el working directory
getwd()

Este directorio se puede cambiar obviamente con setdw() y dando como argumento el directorio
que se desee, por ejemplo:
setwd("C:\ Escritorio")

Por último, si se desea conocer el contenido del directorio de trabajo, se puede usar la
función list.files(), sin argumentos, que devolverá una lista con el nombre de los archivos del
directorio de trabajo. La función list.dirs(), también sin argumentos, dará una lista de los
directorios dentro del directorio de trabajo.
# Ver archivos
list.files()

# Ver directorios
list.dirs()

2021 24
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Sección 1: Introducción. Estadística Descriptiva

La Estadística nos permite realizar inferencias y sacar conclusiones a partir de los datos.
Extrayendo la información contenida en ellos, podremos comprender mejor las situaciones que
representan.
Los métodos estadísticos abarcan todas las etapas de la investigación, desde el diseño de la
investigación hasta el análisis final de los datos.

Podemos distinguir tres grandes etapas:

1. Diseño: Planeamiento y desarrollo de las investigaciones

2. Descripción: Resumen y exploración de los datos

3. Inferencia: Predicciones y toma de decisiones sobre las características de una población,


sobre la base de información recogida en una muestra de la población.

• En la etapa de Diseño se define cómo se desarrollará la investigación con el fin de responder


las preguntas que le dieron origen. Un diseño bien realizado puede ahorrar esfuerzos en
etapas posteriores y puede redundar en un análisis posterior más sencillo.

• Esta etapa es crucial, pues un estudio pobremente diseñado o con datos incorrectamente
recolectados o registrados puede ser incapaz de responder las preguntas que originaron el
estudio.

• Una vez formulado el problema con el Diseño se definirá, entre otras cosas, la población
objetivo, los tamaños de muestra, los mecanismos de selección de individuos, los criterios de
inclusión y exclusión de sujetos, los métodos de asignación de personas en grupos, las
variables que se medirán y cómo se entrenará al equipo de trabajo para el cumplimiento del
protocolo establecido, etc.

• Los métodos de Análisis Exploratorio o Estadística Descriptiva ayudan a comprender la


estructura de los datos, de manera de detectar tanto un patrón de comportamiento general
como apartamientos al mismo. Una forma de realizar esto es mediante gráficos de sencilla
realización e interpretación. Otra forma de describir los datos es resumiendo los datos en uno,
dos o más números que caractericen al conjunto de datos con fidelidad.

2021 25
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

• Explorar los datos permitirá detectar datos erróneos o inesperados y nos ayudará a decidir
qué métodos estadísticos pueden ser empleados en etapas posteriores del análisis de manera
de obtener conclusiones válidas.

• Finalmente, la Inferencia Estadística nos permite tanto hacer predicciones y estimaciones


como decidir entre dos hipótesis opuestas sobre como es la población de la cual provienen
los datos (test de hipótesis).

• La calidad de las estimaciones puede ser muy variada y además están afectadas por errores.
La ventaja de los métodos estadísticos es que aplicados sobre datos obtenidos a partir de
muestras aleatorias permiten cuantificar el error que podemos cometer en una estimación o
calcular la probabilidad de cometer un error al tomar una decisión en un test de hipótesis.

Estadística Descriptiva

Examinaremos los datos en forma descriptiva para:

• Organizar la información
• Sintetizar la información
• Ver sus características más relevantes
• Presentar la información
Factores necesarios para un buen análisis estadístico:

• Diseño del Experimento o Investigación


• Calidad de los Datos
Población -----------> Muestra

<-----------
Inferencia

2021 26
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Población

Muestra 2

Muestra 1
Inferencia

Población: conjunto total de los sujetos o unidades de análisis de interés en el estudio


Muestra: cualquier subconjunto de sujetos o unidades de análisis de la población en
estudio.

Se define:

• UNIDAD DE ANÁLISIS O DE OBSERVACIÓN: al objeto bajo estudio. Puede ser una persona, una
familia, un país, un espécimen, una institución o en general, cualquier objeto.

• VARIABLE: a cualquier característica de la unidad de observación que interese registrar y que


en el momento de ser registrada puede ser transformada en un número.

• VALOR: de una variable, DATO u OBSERVACIÓN o MEDICIÓN, al número que describe a la


característica de interés en una unidad de observación particular.

• CASO o REGISTRO al conjunto de mediciones realizadas sobre una unidad de observación.

¿Qué observamos?

Cualquier característica de un individuo u objeto que nos resulte de interés y la expresaremos


numéricamente

VARIABLE

Variable -----------> Dato


sujeto
2021 27
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Consideremos el siguiente ejemplo:

Caso Sexo Nivel socio- Edad Trabaja


economico
1 F Bajo 35 si
2 M Alto 28 no ⇐ CASO
3 M Medio 59 so

VARIABLE NSE

Ejemplo: Sexo: F (0)


M (1)

Nivel Socio-economico ( Alto,Medio, Bajo)


Edad : númerica.
Trabaja : Si (1) o No (0)
Para comenzar a manejar un conjunto de datos es importante que identifiquemos cuantas
variables se han registrado y como fueron registradas cada una de ellas, de esta manera
podremos definir una estrategia adecuada de análisis.

Las variables se analizan:


• individualmente
• relacionadas entre sí

2021 28
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss



  Nominales
 Cualitativas 
  Ordinales
 


Variables 


  Discretas
 
Cuantitativas 
 Continuas




Variables Cualitativas o Categóricas:

Registran la presencia de un atributo. Registran la categoría a la que pertenece el individuo. Las


categorías deben ser mutuamente excluyentes y exhaustivas.
Ejemplo:
• Sexo: 1=Hombre 0=Mujer

• Grado de coma: 1 2 3 4

 Nominales: no hay un orden natural entre las categorías. Entre ellas distinguimos las

Binarias o Dicotómicas que sólo tienen dos categorías: ausencia o presencia de un atributo.

Ejemplo:
• Fuma - No Fuma
• Trabaja-No Trabaja
• Diabético - No Diabético

2021 29
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Más de dos Categorías:

Ejemplo:
• Diabético desde niño / Diabético desde adulto / No Diabético

• No Fumador / Ex Fumador / Fumador

• Grupo Sanguíneo: A / B / AB / O

 Ordinales: existe un orden natural en las categorías.

Ejemplo:
• Estadío de cáncer de colon: I - II - III - IV

• Severidad de una herida:


1: leve 2: moderada 3:severa 4: fatal
------------>
aumenta la severidad

Obs.: en algunos casos las categorías pueden ser determinadas subjetivamente.

Ejemplo: dolor, sensaciones en general

Variables Cuantitativas:

El resultado de la medición u observación es un número. Se refieren a una cantidad en la que


importa el orden y la magnitud.

 Discretas: sólo pueden tomar cierto conjunto de valores, frecuentemente surgen por conteo.

Ejemplo:
• no de hijos, no de empleados, no de vagones

Diferencia con el caso anterior:

 Estadío de cáncer IV: ¿ es el doble de grave que el estadío II? ¿La diferencia que
hay entre el I y el II es la misma que la que existe entre II y III o entre III y IV?

2021 30
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

 no de hijos=4 es el doble que no de hijos=2.

 Continuas: corresponden a una medición que se expresa en unidades. Las mediciones


pueden tomar, al menos teóricamente, un número infinito de valores dentro de un rango. En
la práctica los valores posibles están limitados por la precisión del instrumental de medición
o por el modo de registro.

Ejemplo: longitud, profundidad, área, duración de un aparato, altura, peso, capacidad vital.

Observaciones:

• Toda variable cuantitativa puede ser transformada en cualitativa definiendo cortes


adecuados, si fuese necesario.

• En general, conviene registrar el dato original y luego se lo trata como cualitativo o


cuantitativo según convenga.

Ejemplo: Edad es una variable cuantitativa que puede hacerse cualitativa si se necesita, por
ejemplo, a partir de la edad de una persona podemos definir los cortes siguientes: niños, jóvenes,
adultos, adultos mayores.

Otro tipo de datos


Porcentajes: cociente de dos cantidades multiplicado por 100.

Ejemplos:
Variación porcentual que se utiliza para describir la relación entre un valor pasado y uno
presenteEspecíficamente, la variación porcentual representa la diferencia entre un valor pasado
y uno presente en términos de un porcentaje del valor pasado. Generalmente se puede calcular
la variación porcentual con la fórmula ((V2-V1)/V1) × 100 en la que V1 representa el valor pasado
o inicial y V2 representa el valor presente o final y el resultado se expresa como un porcentaje.
Ejemplo particular: un producto aumento un 20%. Si originariamente valía $20 ahora tiene un
valor de $24.

Reducción porcentual de la presión arterial luego de la aplicación de una droga.

Peso corporal relativo = peso corporal x 100


peso corporal deseable
2021 31
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Obs.: es recomendable registrar cada cantidad por separado

Tasas: proporción tomada sobre un número fijo de eventos

Ejemplo:

mortalidad perinatal= no de muertos / 1000 nacimientos

Scores o puntuaciones: si nos interesa clasificar un individuo respecto a varios síntomas puede
usarse un código para cada síntoma y luego calcular un puntaje total. Los scores son indicadores
de la condición de un individuo basados en la observación de varias variables, generalmente
categóricas.

Ejemplo:

Score APGAR (para evaluar el estado de un recién nacido)

Signo 0 1 2
Latidos Ausente Lento (100) > 100
Esfuerzo respiratorio Ausente Llanto Débil Llanto fuerte
Tono muscular Fláccido Leve Buena Flexión
Reflejos Ausente Leve Llanto
Color Azul Pálido Cuerpo rosado, extremidades Rosado completo
azules

El recién nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de 0 a 2,
los cuales se suman y el score resultante es un número entre 0 a 10. Se considera que un score ≥
7 es de buen pronóstico, y que un Apgar ≤ 3 es de mal pronóstico.

Observemos algunas características de este score:


• Al transformar las categorías en números, estamos valorando las diferencias entre 0 y
1 y entre 1 y 2 como equivalentes.
• Los 5 signos son considerados igualmente importantes.
• Hay cierta subjetividad en la apreciación de algunos ítems.

Otro ejemplo: Sistema de puntuación APACHE II y cálculos aproximados de mortalidad (sistema II


de clasificación fisiológica de enfermedades agudas y crónicas , Acute Physiology and Chronic

2021 32
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Health Disease Classification System II). APACHE II es el acrónimo en inglés de


«Acute Physiology And Chronic Health Evaluation II», es un sistema de clasificación de severidad
o gravedad de enfermedades (Knaus et al., 1985) uno de varios sistemas de puntuación (tipo
score) usado en las unidades de cuidados intensivos (UCI). Este es aplicado dentro de las 24 horas
de admisión del paciente a una UCI: un valor entero de 0 a 67 es calculado basado en varias
medidas; A mayores scores o puntuación, le corresponden enfermedades más severas y un mayor
riesgo de muerte. Están basados en 12 parámetros como la temperatura, la tensión arterial
media, la frecuencia cardíaca, la respiratoria, Na sérico, K sérico, creatinina sérica, hematocrito,
recuento de leucocitos, Glasgow, edad en años y problemas crónicos de salud. La ventaja de este
score, basado en el APACHE, es que se puede repetir cada día e ir evaluando un cambio en la
gravedad del paciente, no depende de escalas subjetivas, y no tiene muchos ítems.
Ver https://www.merckmanuals.com/medical-calculators/ApacheScore-es.htm

Otros ejemplos: existen varios indices de severidad de pancreatitis aguda. Entre ellos cabe
mencionar, a parte de la Escala de Ranson, los scores de Atlanta, Apache, Glasgow, Banks, Agarwal
and Pitchumoni. Ninguno de los mencionados es ideal, pero sí son herramienta de ayuda que
mejora la valoración exclusivamente clinica que sólo identifica un 35-45 % de las pancreatitis
severas. Suelen requerir 48 horas para su evaluación y no presentan elevadas tasas de
sensibilidad ni especificidad.

Escalas Analógicas Visuales: se utilizan para que el paciente indique el grado de alguna variable
“no medible” como dolor, bienestar, agrado, acuerdo o sensaciones en general.

Ejemplo: intensidad de dolor

sin |------------------------------| dolor


dolor intolerable

ubicación del encuestado

• son adecuadas para comparar respuestas de un mismo individuo, por ejemplo para
valorar cambios en el mismo individuo.
• se debe tener cuidado al tratar este tipo de datos, ya que a diferencia de los datos
numéricos, aún cuando el registro sea con números, la escala subyacente no es
necesariamente la misma para dos individuos distintos.
• es aconsejable un método de análisis basado en rangos de scores.

2021 33
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Datos censurados: observaciones que se pueden medir hasta cierto límite y no más allá de éste, de
manera que conocemos una cota inferior o superior para el dato. A veces se confunden con datos
truncados, en el primer caso se conoce la cantidad de individuos bajo estudio y en el segundo caso
no.

Ejemplo:
• límite del instrumental
• límite impuesto por la duración del estudio

Entrada de Datos

La entrada de datos depende del software que se utilice. Por ejemplo, en el EXCEL los datos
pueden ser vistos como una tabla o planilla en la que las columnas son las variables y las filas
corresponden a los individuos, es decir son los casos o registros.

Por ejemplo se registran para un conjunto de personas, su nombre, su fecha de nacimiento, su


edad actual, su peso y altura, entonces:
• La primera variable es Nombre y (s20) indica que es una variable de tipo string o caracteres
de longitud 20.
• La segunda variable se llama Fnac (fecha de nacimiento) y (d) indica que contiene un dato de
tipo fecha ( se puede especificar el formato)
• La tercera es Edad e (i) indica que es de tipo integer o entera, es decir que sólo toma los
valores enteros(...,-3, -2, -1, 0, 1, 2, 3, 4....) que en este caso son positivos.
• Las dos últimas variables son Altura y Peso son de tipo real, habrá que verificar que el software
lo carga de ese modo.

Una vez finalizada la etapa de definición de variables se puede comenzar a cargar los datos en la
planilla.

Manejo de Archivos de Datos-Estrategias aconsejables

• Codificación de variables (preferentemente con números).


• Registro de las mediciones con la exactitud original, no redondear o truncar.
• No categorizar variables continuas.
• Usar el mismo código para variables que toman los mismos valores (sí, no, sexo, etc.).
• Cuando un individuo es observado más de una vez, no debe considerarse como un caso
independiente. Estas observaciones repetidas no deben tratarse como si fueran distintos
individuos.

2021 34
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Valores Faltantes (o Missing)

Debemos acordar un código para representar un dato faltante. En general, no es aconsejable usar
blancos ó 0 para su codificación. En R los datos faltantes se indican con NA, cada software tiene
su notación particular.
Si transformamos una variable que en un caso tiene missing el resultado será missing.
Cuando se computan medidas estadísticas, como el promedio, sólo se usan los registros sin NA.
La presencia de datos faltantes puede ser un problema para realizar una buena inferencia. Es
necesario investigar el porque de su existencia y también cuantificarlos.

Consistencia de los Datos

Fuentes posibles de error:

• al realizar la medición
• al transcribir de la fuente original
• al ser tipeados

Usualmente no podemos saber si los datos son correctos, pero trataremos de asegurarnos que
los datos entrados sean “razonables” o “posibles”.
La consistencia de los datos es el proceso por el cual tratamos de identificar los errores groseros
de los datos y, de ser posible, también de rectificarlos. Los errores groseros pueden afectar
análisis posteriores.

Chequeo de data entry:

• Podemos entrar los datos dos veces: costoso y requiere más tiempo, no es aconsejable.

• Hacer un chequeo de una submuestra, si contiene muchos errores, será necesario ampliar
esa muestra inicial.

• Chequear que los valores de las variables coinciden con los valores posibles. Si la variable
es categórica es simple chequear si todos los valores de la variable son posibles, ya que
hay un conjunto fijo de valores posibles para la variable. Ejemplo: Grupo sanguíneo: 0, A,
B, AB. Es suficiente con producir una tabla de frecuencias para cada variable categórica en
la que se controla que las categorías coinciden con las categorías definidas. Algunos
paquetes diferencian letras mayúsculas de minúsculas, por lo tanto consideran que la
categoría “a” de grupo sanguíneo es diferente de la “A”.

2021 35
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Es aconsejable hacer un listado de todas las tablas de frecuencia de las variables


categóricas antes de comenzar con el análisis estadístico de los datos.

• Podemos controlar el máximo y el mínimo de cada variables o establecer un rango


razonable. Existen valores que son poco probables y valores que son imposibles,
lamentablemente el límite entre ambos es difícil de definir
Ejemplo: Edad materna al parto: 12 a 50 años.

Observación:
 Los valores fuera del rango no son necesariamente incorrectos.
 Los valores poco probables deben ser corregidos sólo si hay evidencia del
error.

• Cuando en un mismo individuo medimos una variable a lo largo del tiempo debemos
controlar que el comportamiento de dicha variable sea razonable.

• Fechas:
 chequear si las fechas caen en un período razonable
 secuencia correcta de las fechas para un caso
 chequeo de fechas válidas.

• Hay información que sólo se releva en ciertos casos. Por ejemplo, número de embarazos
es relevante si sexo = femenino, pero para sexo = masculino, esta variable debería ser NA
o “no corresponde”.

• Los datos deben satisfacer los criterios de inclusión y exclusión del estudio. Ejemplo:
Estudio de agentes anti-hipertensivos, los pacientes que entran en el estudio deben tener
valores de la presión arterial dentro de un cierto rango al ingreso

• Relación entre variables: Evaluar la consistencia de los datos es algo más complicado
cuando existen valores de algunas variables que dependen de valores de otras variables.
Existen combinaciones de valores de ciertas variables que son inaceptables, aún cuando
cada una de ellas se encuentre dentro de límites razonables.

• Cambio de Software: Cuando la base ha sido importada desde un programa (software)


diferente al que se está usando es importante controlar que durante la exportación se
haya respetado el tipo de variable. En particular, que las variables que originalmente
estaban definidas como numéricas, no hayan sido transformadas a texto durante la

2021 36
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

transformación porque no se reconoce el indicador de símbolo decimal (coma, punto).


Cuando la variable es de tipo texto no es posible realizar operaciones algebraicas con ella.

Datos Cuantitativos

Ejemplo: Los siguientes datos corresponden a 25 pacientes que padecen fibrosis quística.
Variables medidas: Edad y Pimax: máxima presión de inspiración estática (cm H2O).

Edad Pimax
7 80
7 85
8 110
8 95
8 95
4 100
11 45
12 45
12 130
13 75
13 80
14 70
14 80
15 100
16 120
17 110
17 125
17 75
17 100
19 40
19 75
20 110
23 150
23 75
23 95

2021 37
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Comenzaremos por examinar la variación presente en nuestros datos.

Nos interesa tener en cuenta los valores posibles de una variable y la frecuencia con la que
ocurren, para ello una primera aproximación consite en ordenar los datos y luego representarlos
gráficamente.

Gráficos de Tallo y Hoja

Nos dan una primera aproximación rápida a la distribución de los datos sin perder de vista las
observaciones.

1. Separamos a cada observación en dos partes: tallo y hoja

2. Listamos en forma vertical y creciente los tallos y agregamos las hojas a la derecha
del tallo correspondiente.

Ejemplo. Consideremos el segundo dato:

8 5

TALLO HOJA

Esquema de Tallo y Hoja


4| 055
5|
6|
7| 05555
8| 0005
9| 555
10 | 000
11 | 000
12 | 05
13 | 0
14 |
15 | 0

2021 38
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

¿Qué podemos ver en este diagrama?

• Rango de las observaciones, valores máximos y mínimos.


• Forma de la distribución: simetría, asimetría a derecha, asimetría a izquierda y cuántos picos
tiene la distribución.

• Posición del centro de la distribución y concentración de los datos.


• Desviaciones marcadas respecto al comportamiento general: outliers o valores atípicos.

¿Cómo elegimos el número de tallos?

El número de tallos debe ser tal que permita mostrar una imagen general de la estructura del
conjunto de datos. Aunque existen algunos criterios para definir el número de tallos, la decisión
depende fundamentalmente del sentido común. Demasiados detalles en general serán poco
informativos, demasiado agrupamiento puede distorsionar la imagen del conjunto. Como criterio:
la cantidad de tallos preferiblemente deben ser mayores o iguales a 5 y menores o iguales a 20.
Ejemplo: Consideremos el siguiente ejemplo con datos sobre consumo diario per cápita de
proteínas en 32 países desarrollados. Los datos se presentan ordenados de menor a mayor por
simplicidad.
Consumo de proteínas per cápita en países desarrollados.

7.83 9.03 10.56


8.06 9.16 10.52
8.45 9.23 10.75
8.49 9.34 10.86
8.53 9.39 10.89
8.60 9.42 11.07
8.64 9.56 11.27
8.70 9.89 11.36
8.75 10.00 11.58
8.92 10.28 11.76
8.93 10.41

Seleccionando como tallo la unidad obtenemos el gráfico de tallo-hojas de la izquierda de la


figura:

2021 39
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Variaciones de los tallos. Datos de consumo de proteínas per cápita.


7 8 7 8
8 0445667799 8 044
9 01233458 8 5667799
10 0 2 4 5 5 7 8 8 9 012334
11 0 2 3 5 7 9 58
10 0 2 4
10 5 5 7 8 8
11 0 2 3
11 5 7
En este gráfico se acumula un número importante de hojas en cada tallo, por lo que podríamos
estar perdiendo información acerca de la estructura de los datos. Dividiremos cada tallo en dos,
es decir, representaremos dos veces cada tallo, la primera vez que este aparezca irá acompañado
por las hojas 0 a 4 y la segunda vez por las hojas 5 a 9. Obtenemos, entonces, el gráfico de la
derecha. Como puede observarse, al expandir la escala se observan más detalles y parece haber
dos “grupos” de países, uno con mayor consumo per cápita de proteínas y otro con menor
consumo, ya que la distribución de la variable tiene dos picos.

El problema de expandir la escala es que comienzan a aparecer detalles superfluos, o


simplemente atribuibles al azar. Observemos una salida de R:

stem(Consumo2)

The decimal point is at the |


7|8
8 | 14
8 | 55667899
9 | 022344
9 | 69
10 | 034
10 | 56899
11 | 134
11 | 68

2021 40
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

A cada dato le podemos asignar un valor de ranking o rango contando desde cada extremo de la
muestra ordenada. La profundidad es el menor de los dos valores. El R devuelve la profundidad
en un tallo-hoja a la izquierda pero dentro de un paquete especial ( alpack) . Ver Sección 5.
En el stem and leaf plot el número en la columna de la izquierda es la mayor profundidad de la
línea, excepto en aquella en la que el número está entre paréntesis, pues en ese caso el número
que figura es la cantidad de hojas que hay en dicha línea.

Gráfico de tallo-hojas espalda con espalda. Comparación de grupos.


Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos
condiciones o grupos. El gráfico se denomina tallo-hojas espalda con espalda porque ambos
grupos comparten los tallos.
A continuación se muestra un gráfico de la presión arterial sistólica a los 30 minutos de
comenzada la anestesia en pacientes sometidos a dos técnicas anestésicas diferentes a las que
nos referiremos como T1 y T2.

Comparación de la presión arterial sistólica en pacientes sometidos a dos técnicas anestésicas


(30 minutos del inicio de la anestesia).
T1 T2
5 7
6 2
74 7 37
963 8 77899
660 9 0358
9662 10 222
821 11 37
70 12
2 13
14
15
4 16

Recordemos que la presión sistólica normal es de 120 mmHg, que se indicaría como 12|0 .
El gráfico nos muestra las siguientes características de la TAS en los dos grupos de pacientes.
- La distribución de TAS tiene forma similar en ambos grupos: Un pico o moda y forma simétrica
y aproximadamente acampanada.

2021 41
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

- Diferencias en posición. Los pacientes del grupo T1 tienen niveles de TAS levemente mayores
que los pacientes del grupo T2.
- Similar dispersión. Los valores de TAS de los pacientes de ambos grupos se encuentran en
rangos aproximadamente iguales, salvo por el valor atípico (outlier) que se observa en el
grupo T1.
Histogramas

 Dividimos el rango donde viven los datos en intervalos o clases, que no se superpongan.
Las clases deben ser excluyentes y exhaustivas.

 Contamos la cantidad de datos en cada intervalo o clase, es decir la frecuencia. También


podemos usar para cada intervalo la

frecuencia
frecuencia relativa =
cantidad total de datos

 Graficamos el histograma en un par de ejes coordenados representando en las abscisas


los intervalos y sobre cada uno de ellos un rectángulo cuya área es proporcional a la
frecuencia relativa de dicho intervalo.

Observaciones:
 No existen criterios óptimos para elegir la cantidad de intervalos. En general, entre 8 y 15
intervalos deberían ser suficientes. Muchos o muy pocos intervalos puede ser poco
informativo. Se busca un equilibrio entre un histograma muy irregular y uno demasiado
suavizado.

 Un criterio muy conocido para establecer el número de intervalos en un histograma es


la regla de Sturges ( 1926). Este número viene dado por la siguiente expresión:
𝑐𝑐 = 1 + 𝑙𝑙𝑙𝑙𝑙𝑙2 𝑀𝑀, donde M es el tamaño de la muestra.
Que puede pasarse a logaritmo base 10 de la siguiente forma:
𝑐𝑐 = 1 + 3.322 𝑙𝑙𝑙𝑙𝑙𝑙10 𝑀𝑀. El valor de c (número de clases) es común redondearlo al
entero más cercano. Este criterio es el que usa el R por default.

 Otro criterio es emplear como 𝑐𝑐 = √𝑀𝑀, siendo M el tamaño muestral, que se emplea en
general cuando dicho tamaño es grande.

 No es necesario que todos los intervalos tengan la misma longitud, pero es recomendable
que así sea. Esto facilita la lectura.

2021 42
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

 El histograma representa la frecuencia o la frecuencia relativa a través del área y no a


través de la altura.

 Es recomendable tomar :
frecuencia relativa
altura del rectángulo =
longitud del intervalo

 De esta manera el área es 1 y dos histogramas son fácilmente comparables


independientemente de la cantidad de observaciones en las que se basa cada uno.

Ejemplo datos de PIMAX: Las observaciones están entre 40 y 150. Podemos considerar los
intervalos: [40,48), [48,56), etc.

Intervalos Frecuencia Frecuencia relativa


[40,48) 3 0.12
[48,56) 0 0.00
[56,64) 0 0.00
[64,72) 1 0.04
[72,80) 4 0.16
[80,88) 4 0.16
[88,96) 3 0.12
[96,104) 3 0.12
[104,112) 3 0.12
[112,120) 0 0.00
[120,128) 2 0.08
[128,136) 1 0.04
[136, 144) 0 0.00
[144, 152) 1 0.04
Total 25 1

Histogramas para datos de PIMAX

2021 43
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

0.015

0.020 0.025
Probabilidad

Probabilidad
0.010

0.010 0.015
0.005

0.000 0.005
0.000

40 60 80 100 120 140 160


40 60 80 100 120 140
pimax
pimax

Default de un software (R) Límites Fijados por el Usuario

En general, si el histograma es muy irregular puede ser imposible descubrir la forma, en ese caso
es conveniente tomar intervalos más anchos.
Vemos que la distribución es asimétrica, con mayor acumulación en los valores bajos y muestra
un solo pico (o moda).

¿Qué forma puede tener un histograma?

Un aspecto a tener en cuenta en la distribución de los datos es la simetría. Un conjunto de datos


que no se distribuye simétricamente, se llama asimétrico.
La asimetría puede verse en el esquema de Tallo y Hoja o en el Histograma.
También se puede apreciar a través de la posición relativa entre media y mediana.
Más adelante, en un boxplot lo haremos a través de la posición relativa entre la mediana y los
cuartos. En los siguientes gráficos mostramos algunas de las formas posibles que puede tener un
histograma.

2021 44
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Histograma con intervalos de distinta longitud.

Los datos de la siguiente tabla presentan los casos de rubéola notificados al SINAVE durante el
año 2000 según grupos de edad. Notemos que los intervalos de edad tienen diferente longitud.

Notificaciones de casos de rubéola. Argentina, año 2000. Fuente: SINAVE

Intervalo Frecuencia Frecuencia


(años) (fi) relativa (fr)
[ 0, 1) 497 10.5%
[ 1, 2) 387 8.2%
[ 2, 5) 1100 23.3%
2021 45
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

[ 5, 10) 1389 29.4%


[10, 15) 798 16.9%
[15, 50) 521 11.0%
≥ 50 28 0.6%
Total 4720 100.00%

Si erróneamente se construye un histograma considerando como altura de la barra la frecuencia


relativa se obtiene la gráfica siguiente. La última categoría de edad se truncó arbitrariamente en
80 años para poder representarla.

35%

30%

25%

20%

15%

10%

5%

0%
0 10 20 30 40 50 60 70 80
edad

A partir de este gráfico concluiríamos que la proporción de casos es notablemente mayor en los
grupos de 2 a 5 años, de 5 a 10 años o de 10 a 15 años que en los grupos de menores de 1 año o
de 1 a 2 años. Además, la proporción de casos en el grupo de 15 a 50 años impresiona como
notable.
El problema es que en la imagen visual asociamos la frecuencia de casos con el área de la barra,
por ello parece haber más notificaciones de gente de 15 a 50 que de cualquier otro grupo de
edad.
Recordemos que la barra debe tener una altura tal que el área (base x altura) sea igual a la
frecuencia (o a la frecuencia relativa). Es decir,

frecuencia en el intervalo
altura de la barra =
longitud del intervalo
2021 46
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

De este modo el área de la barra coincide con la frecuencia en el intervalo.


La altura de la barra definida de este modo se denomina escala densidad porque indica el número
de datos por unidad de la variable. La última columna de la siguiente tabla muestra la escala
densidad para los datos de rubéola y la figura siguiente muestra el histograma que se obtiene
usando la escala densidad.

Escala densidad. Notificaciones de casos de rubéola. Argentina, año 2000.


Fuente: SINAVE.

Categoría Frecuencia Frecuencia Escala


(años) (fi) relativa (fr) densidad
[ 0, 1) 497 10.5% 10.53%
[ 1, 2) 387 8.2% 8.20%
[ 2, 5) 1100 23.3% 7.77%
[ 5, 10) 1389 29.4% 5.89%
[10, 15) 798 16.9% 3.38%
[15, 50) 521 11.0% 0.32%
≥ 50 28 0.6% 0.01%
Total 4720 100.00% --

Que se obtiene según los cálculos indicados en la última columna de la tabla siguiente.

Categoría Frecuencia Frecuencia Longitud Escala


Cuentas efectuadas
(años) (fi) relativa (fr) intervalo densidad
[ 0, 1) 497 10,50% 1 10,53 B3/(B10*D3)*100
[ 1, 2) 387 8,20% 1 8,20 B4/(B10*D4)*100
[ 2, 5) 1100 23,30% 3 7,77 B5/(B10*D5)*100
[ 5, 10) 1389 29,40% 5 5,89 B6/(B10*D6)*100
[10, 15) 798 16,90% 5 3,38 B7/(B10*D7)*100
[15, 50) 521 11,00% 35 0,32 B8/(B10*D8)*100
≥ 50 28 0,60% 50 0,01 B9/(B10*D9)*100
Total 4720 100.00%

2021 47
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

12%

10%

8%

6%

4%

2%

0%
0 10 20 30 40 50 60 70 80
edad

Histograma usando escala densidad. Notificaciones de casos de rubéola. Argentina, año 2000.
Fuente: SINAVE

En este gráfico, el porcentaje de casos de rubéola notificados para cada grupo está representado
en el área de la barra.
Si tuviéramos individuos notificados por rubéola parados en cada grupo etáreo, la altura del
histograma representaría el aglutinamiento en cada clase: hay partes del eje de abscisas que
están más densamente pobladas que otras.

El histograma muestra que una gran proporción de casos ocurre en menores de 1 año, y que la
proporción desciende a medida que aumenta la edad. En este gráfico estamos representando la
“densidad de notificaciones” por cada año de edad.

Medidas de Resumen

Resumiremos la información de los datos provenientes de variables numéricas mediante


medidas de fácil interpretación que reflejen sus características más relevantes.

La medida a elegir dependerá de cada problema.

2021 48
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Medidas de Posición o Centrado

Un modo de resumir un conjunto de datos numéricos es a través de un número que represente


a todos, en el sentido de ser un valor típico para el conjunto.

¿Cuál es el valor central o que mejor representa a los datos?


Buscamos un valor típico que represente a los datos.
Si la distribución es simétrica diferentes medidas darán resultados similares. Si es asimétrica no
existe un centro evidente y diferentes criterios para resumir los datos pueden diferir
considerablemente, en tanto tratan de captar diferentes aspectos de los mismos.

Supongamos que tenemos un conjunto de n datos u observaciones que genéricamente


representaremos por:
x1 , x2 ,......, xn

Promedio o Media Muestral


• Sumamos todas las observaciones y dividimos por el número total datos.

x1 + x 2 + ....... + x n n
x= = ∑ xi Promedio o Media Muestral
n i =1

2021 49
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ejemplo: 2, 1, 0, 4, 8

2 + 1 + 0 + 4 + 8 15
Entonces x = = =3
5 5

Es el punto de equilibrio del conjunto de datos.

X´s: 1, 2, 2, 3

1 2 3

X´s: 1, 2, 2, 7

1 2 3 7

Es una medida muy sensible a la presencia de datos anómalos, apartados del conjunto total de
los datos (outliers).

Mediana Muestral

Es una medida del centro de los datos en tanto divide a la muestra ordenada en dos partes de
igual tamaño.

Para calcularla:

1. Ordenamos los datos de menor a mayor.

2. Si el número de datos es impar la mediana es el dato que ocupa la posición central


2021 50
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

 n +1
  en la muestra ordenada.
 2 

3. Si el número de datos es par la mediana es el promedio de los dos datos centrales en la


muestra ordenada.

Si la distribución es simétrica la mediana y la media identifican al mismo punto.


Sin embargo, si la distribución de los datos es asimétrica, la media y la mediana diferirán según el
siguiente patrón:

Asimetría derecha (cola larga hacia la derecha) ~


⇒X >X
Asimetría izquierda (cola larga hacia la izquierda) ~
⇒X <X

La mediana es resistente a la presencia de datos atípicos.


Ejemplo:
1) Supongamos que los datos son:

X´s: 3, 5, 2, 4, 6, 8, 7, 7, 6 n=9 (n+1)/2 = 5

Ordenamos la muestra: 2 3 4 5 6 6 7 7 8

~
x =6

2) Supongamos que los datos son:

X´s: 3, 5, 2, 4, 6, 8, 7, 7 n=8 (n+1)/2 = 4.5

Ordenamos la muestra: 2 3 4 5 6 7 7 8

~ 5+6
x= = 5 .5
2

2021 51
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

• Si la distribución es simétrica la mediana y la media identifican al mismo punto.

• La mediana es robusta ante la presencia de datos atípicos:


En el ejemplo anterior teníamos:

X´s: 1,2,2,3 x=2 ~


x =2

X´s: 1,2,2,7 x =3 ~
x =2

¿Qué pasa si tenemos un 70 en lugar de 7? La media cambia mucho y la mediana es igual!

• La mediana es especialmente útil cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo en ocasiones puede ser posible computar
la mediana

Ejemplos:
Tiempo de supervivencia (en meses) de pacientes con cierta patología. Los datos que se indican
entre paréntesis tienen censura a derecha, es decir, se sabe que el paciente sobrevivió ese
tiempo, pero no se conoce el tiempo real de supervivencia.

I) 1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
~
Como n = 15 la mediana es el octavo dato, por lo tanto X = 28. Es posible calcularla aunque
haya datos censurados, porque los mismos se encuentran más allá de la posición 8 que
define la mediana. Aunque no conocemos exactamente el tiempo que sobrevivió el
paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupará el lugar 11 o uno
superior.

II) 1 5 10 (12) 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15


No es posible calcular la mediana debido al dato indicado como (12). Sabemos que este
paciente sobrevivió por lo menos 12 meses, pero desconocemos el verdadero valor, el que
puede ocupar cualquier posición entre la quinta y la última.

2021 52
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Comparación de la media y la mediana

MEDIA MEDIANA
VENTAJAS Usa toda la información que Representa el centro de la distribución
proveen los datos. (en un sentido claramente definido).
Es de manejo algebraico Robusta a la presencia de outliers.
simple. Útil para datos ordinales y
eventualmente para censurados
DESVENTAJAS Muy sensible a la presencia Usa poca información de los datos.
de datos outliers.
Pregunta:
Si tenemos una muestra de salarios de una población dada, ¿Qué sería más adecuado tomar la
media o la mediana muestral para representarlos?

Medias α-Podadas

Es un promedio calculado sobre los datos una vez que se han eliminado α % de los datos más
pequeños y un α % de los datos más grandes. Es una medida intermedia entre la media y la
mediana.
¿Cómo elegimos α?
Depende de cuantos outliers se pretenden excluir y de cuan robusta queremos que sea la medida
de posición. Cuando seleccionamos α = 0 tenemos la media, si elegimos el máximo valor posible
para α (lo más cercano posible a 0.5) tenemos la mediana. Cualquier poda intermedia representa
un compromiso entre ambas.
Una elección bastante común es α = 0.10, que excluye un 20% de los datos.

¿Cuándo usamos esta medida?

Cuando se sospecha que hay errores groseros en los datos, pero no tenemos modo de decidir si
el dato es erróneo. Esto permite excluir datos aberrantes de un modo menos sesgado, porque
estamos excluyendo datos de ambos extremos.

Es más resistente a datos atípicos que la media.

Los datos en la siguiente tabla corresponden al número de pulsaciones por minuto en pacientes
con asma durante un espasmo:

2021 53
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Paciente Pulsaciones
1 167
2 150
3 125
4 120
5 150
6 150
7 40
8 136
9 120
10 150

Ordenamos los datos:

40 120 120 125 136 150 150 150 150 167

x = 130.8 ~
x = 143 x10 = 137.625

Sentencias en R
parapoda<-c(40 , 120 , 120 , 125 , 136, 150, 150, 150, 150, 167)
median(parapoda)
[1] 143
mean(parapoda,trim=0.1)
[1] 137.625
mean(parapoda,trim=0.2)
[1] 138.5

Para más información sobre cuando es conveniente emplear este medida de tendencia central,
dejo el siguiente link, https://hollyemblem.medium.com/when-to-use-a-trimmed-mean-
fd6aab347e46

Moda

Corresponde al valor que ocurre con mayor frecuencia en el conjunto de datos.


Es una medida de escasa utilidad como medida de posición.
Para calcularla en R hace falta instalar un paquete:

2021 54
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

install.packages("modeest")
library(modeest)

Usamos como ejemplo el data frame trees que consta de 31 observaciones de árboles de cereza
negra, con 3 columnas: diámetro, ancho y volumen del especimen. Ver la siguiente referencia.
https://stat.ethz.ch/R-manual/R-patched/library/datasets/html/trees.html
El commando es el siguiente:

mlv(trees$Volume, method = "mfv") # O mlv(trees$Volume, method = "discrete")

Mode (most frequent value): 10.3


Bickel's modal skewness: 0.8709677
Call: mlv.default(x = trees$Volume, method = "discrete")

#Si tan sólo queremos el valor más frecuente:


mlv(trees$Volume, method = "mfv")[1]

#Calcular la moda de múltiples columnas:


apply(trees, 2, mlv, method = "mfv")
# nota: el 2 indica que aplico por columna, si pusiera 1 sería por fila

$Girth
Mode (most frequent value): 13.325
Bickel's modal skewness: -0.1612903
Call: mlv.default(x = newX[, i], method = "discrete")

$Height
Mode (most frequent value): 80
Bickel's modal skewness: -0.3870968
Call: mlv.default(x = newX[, i], method = "discrete")

$Volume
Mode (most frequent value): 10.3
Bickel's modal skewness: 0.8709677
Call: mlv.default(x = newX[, i], method = "discrete")

Medidas de Dispersión o Variabilidad


2021 55
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

¿Cuán dispersos están los datos? ¿Cuán cercanos son los datos al valor típico?

Supongamos que tenemos datos x1 , x2 ,......, xn


Veamos un ejemplo:
X´s: 0 2 6 7 10

Y´s: 2 3 6 6 8

X =Y =5
~ ~
X =Y =6

¿Cómo medir la diferencia que se


observa entre ambas muestras?

Rango Muestral

Es la diferencia entre el valor más grande y el más pequeño de los datos:

Rango = máx(Xi) – mín(Xi)

Ejemplo: en nuestros conjuntos de datos:

RX= 10 RY= 6

• Esta medida es muy sensible a la presencia de outliers.

2021 56
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Veamos otro ejemplo:

X´s: 0 1 5 9 10
Y´s: 0 5 5 5 10
R X = RY

~ ~
X =Y X =Y

Varianza Muestral

Mide la variabilidad de los datos alrededor de la media muestral.

( x1 − x ) 2 + ( x 2 − x ) 2 + .......... + ( x n − x ) 2
Varianza muestral = S2 =
n −1

Desvío estándar muestral = S = S 2

Ejemplo: en los dos ejemplos anteriores obtenemos


S2x= 20.5 Sx= 4.258

S2y= 12.5 Sy= 3.536

• El desvío estándar tiene la misma unidad que los datos, mientras que la varianza no ( está
elevada al cuadrado).

• Al basarse en promedios, es sensible a la presencia de datos atípicos. Por ejemplo, si en la


muestra de los Y´s cambiamos el 10 por un 15 obtenemos S2y= 30 y Sy= 5.477, mientras que
si lo cambiamos por un 20 obtenemos S2y= 57.5 y Sy= 7.583.

Coeficiente de Variación:

Es una medida que relaciona el desvío standard con la media de una muestra:

2021 57
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

S
CV =
X

Es una medida que está en desuso ya que no tiene propiedades estadísticas muy interesantes, sin
embargo no depende de las unidades y si lo multiplicamos por 100 nos da una idea de la
variabilidad relativa.

Distancia Intercuartil

Es una medida más resistente que el desvío estándar.


Comenzaremos por definir los percentiles.
El percentil α % de la distribución de los datos es el valor por debajo del cual se encuentran el α
% de los datos en la muestra ordenada.
Para calcularlo:

 Ordenamos la muestra de menor a mayor

α (n + 1)
 Buscamos el dato que ocupa la posición (si este número no es entero se promedian
100
los dos adyacentes o se interpolan los dos adyacentes)

Ejemplo: Tenemos 19 datos que ordenados son

1 1 2 2 3 4 4 5 5 6 7 7 8 8 9 9 10 10 11

Percentil Posición Valor


10% 10 (19+1)/100=2 1
25% 25 (19+1)/100=5 3 Cuartil Inferior
50% 50 (19+1)/100=10 6 Mediana
75% 75 (19+1)/100=15 9 Cuartil Superior
95% 95 (19+1)/100=19 11

El percentil 50% coincide con la mediana. Llamamos cuartil inferior al percentil 25% y cuartil
superior al percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente pobladas.
Entre los cuartiles se hallan aproximadamente el 50% central de los datos y el rango de estos es:

2021 58
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

dI =distancia intercuartil= cuartil superior-cuartil inferior

Observación: Si en el ejemplo cambiáramos el último dato por 110, la distancia intercuartil no


cambiaría, mientras que el desvío pasaría de 3.2 a 24.13.

Cuartos y Distancia entre Cuartos

Una medida muy cercana a los cuartiles inferior y superior son el cuarto inferior y el cuarto
superior. Se calculan de la siguiente manera:

 Se ordena la muestra y computamos la mediana de los datos.

 Dividimos a la muestra ordenada en dos partes: la primera corresponde a los datos más
pequeños que la mediana y la segunda parte a la los datos más grandes que la mediana

 Si el tamaño de la muestra es par, el cuarto inferior es la mediana de la primera mitad,


mientras que el cuarto superior es la mediana de la segunda mitad.

 Si el tamaño de la muestra es impar, a la primera y a la segunda parte se las expande


agregándoseles a cada una de ellas la mediana de todos los datos. El cuarto inferior es la
mediana de la primera parte expandida y el cuarto superior es la mediana de la segunda
parte expandida. Es decir, en el caso impar, la mediana interviene en el cómputo de los
dos cuartos.

Definimos la distancia entre cuartos como:

dC=distancia entre cuartos= cuarto superior-cuarto inferior

Ejemplo: Si la muestra ordenada es:

Cuarto inferior=3 Cuarto inferior=4

2 3 5 6 8 9 2 3 5 6 7 8 9

2021 59
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Cuarto superior=8 Cuarto superior=7.5

Desvío Absoluto Mediano (Desviación absoluta respecto de la Mediana)

Es una versión robusta del desvío estándar basada en la mediana.

Definimos la MAD como:


~ |)
MAD = mediana (| X i − X
¿Cómo calculamos la MAD?

1. Ordenamos los datos de menor a mayor.


2. Calculamos la mediana.
3. Calculamos la distancia de cada dato a la mediana.
4. Despreciamos el signo de las distancias y las ordenamos de menor a mayor.
5. Buscamos la mediana de las distancias sin signo.

En R se usa el comando mad()

Ejemplo: En la siguiente tabla se muestran las mediciones de BOCE (cansancio emocional) en 13


docentes. El interés por medir esta variable surge porque se quiere estudiar su influencia en la
enfermedad de Bernoud.

Docente 1 2 3 4 5 6 7 8 9 10 11 12 13
BOCE 7 4 26 18 33 35 28 39 22 31 19 23 39

A “mano “sería así:


BOCE=c(7,4,26,18,33,35,28,39,22,31,19,23,39)
sort(BOCE)
[1] 4 7 18 19 22 23 26 28 31 33 35 39 39
La mediana ocupa la posición 13+1/2=7 en la muestra ordenada, o sea, es 26
Distancia de cada dato a la mediana:

sort(BOCE)-26
[1] -22 -19 -8 -7 -4 -3 0 2 5 7 9 13 13
Sin considerar el signo:

2021 60
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

abs(sort(BOCE)-26)
[1] 22 19 8 7 4 3 0 2 5 7 9 13 13

Lo ordeno:
sort(abs(sort(BOCE)-26))
[1] 22 19 8 7 4 3 0 2 5 7 9 13 13
[1] 0 2 3 4 5 7 7 8 9 13 13 19 22

Y ahora le encuentro la mediana a este nuevo vector que ocupa la posición 7, o sea que obtengo:
7, la mad vale 7
median(sort(abs(sort(BOCE)-26)))
[1] 7
Si hago mad(BOCE) obtengo 10.3782 que obviamente no es 7. Esto es porque R aplica una
corrección para lograr una distribución normal asintotica. Con una muestra pequeña entonces
aclaramos que la constante es 1, de esta si obtenemos 7 como respuesta que es lo correcto.
mad(BOCE,constant=1)
[1] 7
Ver,
http://127.0.0.1:26714/library/stats/html/mad.html

Estadística descriptiva ( obtenida de Excel)


N Media SD Varianza CV Minimo Primer Mediana Tercer Maximo MAD
cuartil cuartil

13 24.923 11.049 122.08 44.332 4 18.5 26 34 39 7

Cuarto inferior:19 Cuarto superior:33

5 Números de Resumen

Los 5 números de resumen de la distribución de un conjunto de datos consisten en el mínimo, el


cuartil inferior, la mediana, el cuartil superior y el máximo.

En R, se usa la sentencia fivenum()


En el ejemplo:

2021 61
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Mínimo Cuartil inferior Mediana Cuartil superior Máximo


4 18.5 26 34 39

En R:
fivenum(BOCE)
4 19 26 33 39
Notar que no coincide el cuartil superior calculado en Excel y en R, esto es habitual ya que no
existe un único cuartil sino un intervalo y cada software elige uno.

Box-Plots

Con las medidas anteriores podemos construir un gráfico de fácil realización y lectura.
¿Cómo lo hacemos?

1. Representamos una escala vertical u horizontal

2. Dibujamos una caja cuyos extremos son los cuartos y dentro de ella un segmento que
corresponde a la mediana.

3. A partir de cada extremo dibujamos un segmento hasta el dato más alejado que está a lo
sumo 1.5 di del extremo de la caja. Estos segmentos se llaman bigotes.

4. Marcamos con * a aquellos datos que están entre 1.5 diy 3 di de cada extremo y con o a
aquellos que están a más de 3 di de cada extremo.

Observación: Muchos paquetes estadísticos realizan el boxplot usando la distancia entre cuartos
en lugar de la distancia intercuartil. Como estas medidas son muy próximas, en general los
resultados son análogos. Lo importante es que entre los cuartos o entre los cuartiles se
encuentran aproximadamente el 50% central de los datos. El cálculo a mano o con diferentes
paquetes estadísticos puede brindar distintos resultados para cuartos y cuartiles, cada uno
establece un cálculo default cuando hay que aproximar la ubicación de un dato.

Ejemplo:
Si tenemos los siguientes datos ya ordenados:

10 25 50 91 92
2021 62
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

108 109 113 114 115


120 126 132 133 141
146 151

Cuartil inferior= 91.5 Cuartil superior= 132.5

di = 41 1.5 di = 61.5 3 di = 123

stem(ejemplo2)
The decimal point is 2 digit(s) to the right of the |

0 | 13
0 | 599
1 | 1111223334
1 | 55
Como los datos aprecen muy juntos es difícil apreciar que sucede con ellos. Notamos que el
número 50, por ejemplo, se representó como |5 .Podemos pedir que el grafico contenga más
tallos, de esta forma separamos los datos y obtenemos una representación mas satisfactoria de
los mismos. Notamos que la mayoría se concentra en valores altos mientras que hay pocos valores
bajos: 10, 25 y 50 aprecen alejados de la mayoría de los datos.

stem(ejemplo2,3)
The decimal point is 1 digit(s) to the right of the |
1|0
2|5
3|
4|
5|0
6|
7|
8|
9 | 12
10 | 89
11 | 345
12 | 06
13 | 23
14 | 16
15 | 1
2021 63
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Si realizamos el box-plot de estos datos obtenemos en R el siguiente gráfico por default.


boxplot(ejemplo2)

Otra opción possible de gráfico: boxplot(ejemplo2, col="light blue",notch=TRUE)

2021 64
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

R permite muchísimas posibilidades para este gráfico, incluyendo la posición horizontal o vertical.
Si pedimos que no grafique, entonces devuelve los limites del gráfico y los outliers.
boxplot(ejemplo2,plot=FALSE)
$stats
[,1]
[1,] 50
[2,] 92
[3,] 114
[4,] 132
[5,] 151

$n
[1] 17

$conf
[,1]
[1,] 98.67175
[2,] 129.32825

$out
[1] 10 25

2021 65
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

$group
[1] 1 1

$names
[1] "1"

A partir de un box-plot podemos apreciar los siguientes aspectos de la distribución de un


conjunto de datos:
 posición
 dipersión
 asimetría
 longitud de las colas
 puntos anómalos o outliers.

Los box-plots son especialmente útiles para comparar varios conjuntos de datos, pues nos dan
una rápida impresión visual de las características de cada conjunto y de las diferencia entre
ellos. Para poder realizar la comparación los datos tienen que estar en una misma escala.
Outliers

Los métodos que hemos visto nos permiten identificar puntos atípicos, que pueden aparecer en
una o más variables. Su detección es importante pues pueden determinar o influenciar
fuertemente los resutados de un análisis estadístico clásico, pues muchas de las técnicas
habitualmente usadas son muy sensibles a la presencia de datos atípicos.
Los outliers deben ser cuidadosamente inspeccionados, si no hay evidencia de error y su valor es
posible no deberían ser eliminados. Sin embargo, si el individuo tiene algo particular, como una
enfermedad, su inclusión debería ser reconsiderada.

Podemos tener una idea de cuán influyentes son los datos.


Asimismo, en ciertos casos, la presencia de outliers puede indicar que la escala elegida no es la
más adecuada.

Otro ejemplo
El siguiente ejemplo lo obtuvimos modificando el anterior, agregando valores pequeños y altos a
los datos originales.

ejemplo3<-c(-10,10,25,50,91,92,108,109,113,114,115,120,126,132,133,141,146,151,
152,153,154,160,500)

2021 66
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

stem(ejemplo3,3)

The decimal point is 2 digit(s) to the right of the |


-0 | 1
0 | 13
0 | 599
1 | 1111223334
1 | 555556
2|
2|
3|
3|
4|
4|
5|0

boxplot(ejemplo3,col="light blue")

boxplot(ejemplo3,plot=FALSE)
2021 67
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

$stats
[,1]
[1,] 50.0
[2,] 100.0
[3,] 120.0
[4,] 148.5
[5,] 160.0

$n
[1] 23

$conf
[,1]
[1,] 104.0215
[2,] 135.9785

$out
[1] -10 10 25 500
$group
[1] 1 1 1 1

$names
[1] "1"

Boxplots Paralelos

Una aplicación muy útil de los boxplots es la comparación de la distribución de dos o más
conjuntos de datos graficando en una escala común los boxplots paralelos de cada una de las
muestras. En este sentido los boxplots se muestran como un método muy efectivo de presentar
y resumir los datos, tal como veremos en el siguiente ejemplo.Notemos también que mientras es
sumamente difícil comparar histogramas de un mismo fenómeno,aun en la misma escala, es fácil
hacerlo con boxplots. Por ejemplo resultaría imposible comparar un fenómeno en un año con un
histograma por mes, en cambio 12 boxplots paralelos y en la misma escla pueden darnos una idea
de lo que ha sucedido en el tiempo bajo estudio.

Ejemplo: Los siguientes boxplots corresponden a datos sobre la respuesta en el crecimiento de


odontoblastos ( células responsables del crecimiento de los dientes) de 60 cerdos de Guinea
tratados con tres niveles de dosis de vitamina C ( 0.5, 1 y 2 mg/dia) en uno de dos métodos de
administración ( como jugo de naranja o acido ascórbico). Son 60 observaciones de 3 variables ,
2021 68
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

para cada cerdo se registró la longitud de los dientes, la dosis de vitamina C y el método de
administración.

Ref:
McNeil, D. R. (1977) Interactive Data Analysis. New York: Wiley.
Crampton, E. W. (1947) The growth of the odontoblast of the incisor teeth as a criterion of
vitamin C intake of the guinea pig. The Journal of Nutrition 33(5): 491–504.
http://jn.nutrition.org/content/33/5/491.full.pdf

Realizamos dos boxplots: uno que grafica los longitud de los dientes en función de la dosis recibida
de vitamina C independiente del método de suministro. El segundo muestra el crecimiento en
función de la dosis de la vitamina y según la forma de su administración. Los boxplots muestran
algunas características de estos datos en forma muy rápida. A mayor dosis más crecimiento y en
las dosis menores el jugo produjo más variabilidad y crecimiento, en cambio en la dosis mayor, la
mediana es similar y la mayor variabilidad se observó con el ácido ascórbico.

Crecimiento de los dientes


35
Longitud de Dientes

30
25
20
15
10
5
0

0.5 1 2

Dosis de Vitamina C mg

2021 69
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Crecimiento de los diente

35
Longitud de Dientes

30
25
20
15
10

Acido Ascorbico
5

Jugo de Naranja
0

0.5 0.5 1 1 2 2

Dosis de Vitamina C mg

El último de los gráficos es solamente ilustrativo de las muchas posibilidades que tiene de
visualización de datos pero no se recomienda hacer un boxplot con menos de 15 datos!!

Sentencias en R de estos gráficos


boxplot(len ~ dose, data = ToothGrowth, boxwex = 0.25, at = 1:3 - 0.2 , col = "light green",
main = "Crecimiento de los dientes de Cobayos", xlab = "Dosis de Vitamina C mg", ylab =
"Longitud de Dientes", xlim = c(0.5, 3.5), ylim = c(0, 35), yaxs = "i")
boxplot(len ~ dose, data = ToothGrowth, boxwex = 0.25, at = 1:3 - 0.2, subset = supp == "VC",
col = "light blue", main = " Crecimiento de los dientes de Cobayos ", xlab = " Dosis de
Vitamina C mg ", ylab = " Longitud de Dientes ", xlim = c(0.5, 3.5), ylim = c(0, 35), yaxs = "i")
boxplot(len ~ dose, data = ToothGrowth, add = TRUE, boxwex = 0.25, at = 1:3 + 0.2,
subset = supp == "OJ", col = "dark blue")
legend(2, 9, bty="n", c("Acido Ascorbico", "Jugo de Naranja"), fill = c("light blue", "dark blue"))

NOTA:Boxwex es un factor de escala que se aplica a todos los boxplots. Cuando los grupos son
pocos, la apariencia del gráfico se puede mejorar haciendo las cajas más pequeñas para que no
se superpongan entre sí.

Datos Categóricos
Gráficos para datos cualitativos.
2021 70
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Como en el caso de los datos cuantitativos podemos calcular la distribución de las frecuencias, es
decir registrar el número de unidades de análisis en la muestra que pertenecen a cada una de las
clases de la variable cualitativa.
Las categorías deben ser mutuamente excluyentes y exhaustivas.
El número de clases debería ser lo suficientemente pequeño como para resumir la información y
lo suficientemente grande como para evitar la pérdida de información valiosa. En algunas
situaciones las clases son naturales y no es posible elegirlas.

Ejemplo:
Consideremos los casos de meningitis notificados durante el año 2000 al SINAVE (Argentina)
clasificados según tipo de meningitis.

Notificaciones de meningitis en la Argentina, año 2000. Fuente: SINAVE


Notación Número de Frecuencia
notificaciones relativa (%)
(frecuencia)
Meningitis bacteriana sin aislar BSA 446 22.85 %
Haemophilus infuenzae HI 34 1.74 %
Meningitis tuberculosa MTB 17 0.87 %
Neisseria meningitidis NM 489 25.05 %
Otros gérmenes OG 89 4.56 %
Sin especificar SE 228 11.68 %
Streptococo neumoniae SN 304 15.57 %
Total viral TV 345 17.67 %
Total país 1952 100.00 %
En la tercera columna se presenta el número de casos de meningitis de cada tipo notificados, es
decir la frecuencia o frecuencia absoluta, en tanto que la última columna se presenta la frecuencia
relativa o el porcentaje de casos notificados de cada tipo de meningitis.

Por ejemplo, la frecuencia relativa de la categoría BSA se calcula del siguiente modo:

números de casos de BSA f 446


frBSA = ⋅ 100 = BSA ⋅ 100 = ⋅ 100 = 22.85%
número total de casos n 1952

Gráfico de Barras

2021 71
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Estos gráficos se utilizan para representar tanto datos categóricos nominales como ordinales.

 La frecuencia relativa (absoluta) de cada clase se representa como la altura de la barra.

 Las barras difieren sólo en altura, no en ancho.

 La escala en el eje horizontal es arbitraria y en general las barras se dibujan


equiespaciadas.

 Es importante que el eje vertical comience en 0 para no introducir deformaciones.

 En un gráfico de barras, así como en cualquier tipo de gráfico se debe indicar el número
total de datos ya que el gráfico sólo muestra porcentajes o frecuencias relativas y la fuente
de la que se obtuvieron los mismos.

 Cuando la variable observada es ordinal tiene sentido ordenar las barras según el orden
creciente de las categorías. En este caso es válido interpretar a partir del gráfico una
tendencia, si la hay, a diferencia de lo que ocurre cuando la variable es nominal en la que
el orden de las clases es arbitrario.

Notificaciones de meningitis en Argentina. Año 2000. Fuente:SINAVE.

Para comparar dos o más distribuciones cualitativas, el modo más sencillo de representación es
el gráfico de barras combinadas. En la figura siguiente se presentan las distribuciones de casos
notificados de meningitis en Argentina para los años 1999 y 2000.

2021 72
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Notificaciones de meningitis en la Argentina. 1999 y 2000. Fuente: SINAVE.

NOTA: El Sistema Nacional de Vigilancia Epidemiológica (SINAVE) es el conjunto de estrategias y


acciones epidemiológicas que permiten la producción de información epidemiológica útil para la
salud pública.

En la literatura es habitual encontrar gráficos de barras que corresponden a distintas categorías,


representadas a veces por cantidades porcentuales. Corresponden a varias variables que son
cuantitativas pero se presenta la información resumida de las mismas por la media de cada una
más y menos el desvío estándar. Entonces con fines comparativos, cuando además se presentan
dos o más tipos de las mismas variables ( por ejemplo la edad considerada en una muestra de
hombres y mujeres) se suelen representar estos datos como un diagrama de barras a las que se
les agrega un segmento que representa el intervalo de confianza de 95% para la media, es decir,
la media ± 1.96* desvío estándar. Veremos intervalos de confianza en el capítulo 4 de este
apunte.

Por ejemplo del siguiente paper, Rheological Properties of Wheat-Flaxseed Composite Flours
Assessed by Mixolab and Their Relation to Quality Features, C. Codina et al., Foods,2019,8,33,
se presenta, entre otras, la siguiente tabla.

2021 73
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

En este caso se está comparando la harina de linaza de dos variedades marrón y dorada ( dos
categorías) en las siguientes variables: contenido de humedad, grasa, contenido de proteínas,
cenizas y carbohidratos. Todas estas cantidades están representadas en contenido porcentual y
resumidas por su media ± su desvío estándar. El paper contiene otros gráficos pero no el que
incluimos a continuación como ejemplo.

Representaremos esta Tabla 2 como diagrama de barras con desvío estándar ya que están los
datos consignados en la misma. Obtenemos el gráfico siguiente,

2021 74
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Gráfico de barras del contenido porcentual comparativo de humedad, grasa, proteínas, ceniza y
carbohidratos de las variedades de harina de linaza marrón y dorada.

Del gráfico observamos que son muy similares los dos tipos de harina, pero la marrón tiene mayor
contenido de grasa y menos proteínas. En el caso de algunas variables, los desvíos estándar son
tan pequeños que no se distinguen los segmentos en el gráfico. El ancho de las barras las fija el R
por default. La comparación visual incluyendo la media ± 1.96 su desvío estándar, puede dar una
evidencia visual si puede existir diferencia significativa entre las medias consideradas en las dos
categorías estudiadas de cada variable. Esto no parece ocurrir en el ejemplo ya que los intervalos
obtenidos se solapan.

Comandos en R.
Necesitamos crear una función porque el R no tiene una rutina que grafique las barras de error.

error.bar <- function(x, y, upper, lower=upper, length=0.1,...){

2021 75
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

if(length(x) != length(y) | length(y) !=length(lower) | length(lower) != length(upper))


stop("vectors must be same length")
arrows(x,y+upper, x, y-lower, angle=90, code=3, length=length, ...)
}
brown.seed.means=c(6.2,42.25,19.74,3.5,28.31)
brown.seed.sd=c(0.07,1.15,0.46,0.03,0.02)
golden.seed.means=c(5.6,41.12,20.85,3.41,29.02)
golden.seed.sd=c(0.04,1.03,0.42,0.02,0.01)
colors12=c("blue","deeppink","blue","deeppink","blue","deeppink","blue","deeppink","blue","de
eppink")
namesxx=c("humedad","grasa","proteina","ceniza","carbohid.")
bgol =matrix(c(brown.seed.means,golden.seed.means),2,5,byrow=TRUE)
eerrr = matrix(c(brown.seed.sd,golden.seed.sd),2,5,byrow=TRUE)*1.96
barseed = barplot(bgol, beside=TRUE,col=colors12, ylim=c(0,45), names.arg=namesxx, axis.lty=1,
ylab="Contenidos en porcentaje")
error.bar(barseed,bgol,eerrr)
legend("topright", inset=.02, title="Harina de linaza ",
c("Marron","Dorada"), fill=c("blue","deeppink"), bty="n",horiz=TRUE, cex=0.8)

Gráficos de tortas

Cada una de las clases de una variable cualitativa se representa como una porción de un círculo
que representa a la frecuencia relativa de dicha clase.
Este tipo de gráfico no se recomienda por sus características limitadas. Se prefiere un diagrama
de barras o un dot-plot en R porque se puede apreciar mejor longitudes o alturas que ángulos.
Se recomienda además añadir el porcentaje en el gráfico para una mejor comparación con otro
gráfico de torta similar pero de otra cualidad de una misma variable.

2021 76
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

TV
TV BSA BSA
21%
18%
22% 22%

HI
HI
3%
2%
MTB
1% SN MTB
16% 1%
SN
14%

NM
SE NM
25%
SE
12% 24%
11% OG OG
3% 5%

En los diagramas de torta se representaron las notificaciones de meningitis en la Argentina en


1999 y 2000. Fuente: SINAVE.

Observemos que los dos tipos de gráficos dan información equivalente, sin embargo, en el gráfico
de barras resulta más natural comparar las distribuciones de dos grupos, ya que estamos más
entrenados a discernir diferencias de alturas que diferencias entre ángulos. Por otra parte, en el
gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación.

Harina de linaza dorada

grasa 41%

humedad 6%

proteina 21%

carbohid. 29%
ceniza 3%

Gráficos de torta de del contenido porcentual comparativo de humedad, grasa, proteínas, ceniza
2021 77
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

y carbohidratos de las variedades de harina de linaza marrón y dorada.

Pareciera que son iguales, pero los porcentajes nos indican las diferencias en proteína y grasa
básicamente. No parece poder distinguirse entre ambos gráficos visualmente.

Sentencias en R
pct1 <- round(brown.seed.means/sum(brown.seed.means)*100)
lbls1 <- paste(namesxx, pct1) # agrego porcentajes a la tabla
lbls1 <- paste(lbls1,"%",sep="") # agrego % en el grafico
pct2 <- round(golden.seed.means/sum(golden.seed.means)*100)
lbls2 <- paste(namesxx, pct2) #
lbls2 <- paste(lbls2,"%",sep="") #
pie(brown.seed.means,labels=lbls1,main="Harina de linaza marron")
pie(golden.seed.means,labels=lbls2,main="Harina de linaza dorada")

Dos variables categóricas.

Supongamos que queremos estudiar y representar la relación entre dos variables categóricas.

Consideremos el siguiente estudio observacional.

Ejemplo:
Clasificamos a una muestra de 3888 individuos según su estado civil y según su consumo diario
de cafeína (considerado como el promedio del consumo de cafeína registrado en una semana). El
consumo diario de cafeína es una variable cuantitativa, sin embargo al ser muy imprecisa su
medición y dependiente de la memoria del individuo puede ser preferible manejarla como una
variable categórica.
La variable consumo semanal de cafeína tiene 4 categorías y la estado civil tiene 3, codificadas
como se indica:

Consumo
Sin consumo 1-150 mg/d 151-300 mg/d >300 mg/d

Código 0 1 2 3

2021 78
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Estado Civil Casado Divorciado o Soltero


Separado o Viudo

Código 1 2 3

Tabla de contingencia o de doble entrada


En el ejemplo resultaría:

Consumo 0 1 2 3 Total
Estado Civil
1 652 1537 598 242 3029
2 23 40 38 40 141
3 218 327 106 67 718
Total 893 1904 742 349 3888

¿Qué indica cada número en el interior de la tabla? En la tabla anterior, los números que están
en los casilleros interiores indican la cantidad de casos que fueron clasificados según los dos
criterios, así por ejemplo se observaron 652 individuos casados que no consumieron cafeína
durante la semana anterior al estudio y se observaron 67 individuos solteros que tuvieron un
consumo de cafeína superior a los 300 mg/d.

La pregunta que nos hacemos es: ¿El consumo diario de cafeína está asociado con el estado civil?
Podemos calcular los porcentajes de individuos que han sido clasificados en cada casillero.

Consumo 0 1 2 3
Estado Civil
1 16.77% 39.53% 15.38% 6.22%
2 0.59% 1.03% 0.98% 1.03%
3 5.61% 8.41% 2.73% 1.73%

El 39.53 % de los individuos está casado y consume entre y 1 y 150 mg/d de cafeína, mientras que
sólo el 1.03 % está divorciado o separado o viudo y consume esta cantidad de cafeína diariamente.

Podemos calcular otros porcentajes:


Por ejemplo si consideramos la columna y la fila con los totales obtenemos la distribución de cada
variable. Esto es lo que conocemos como distribuciones marginales. Se obtiene en los márgenes

2021 79
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

de la tabla de doble entrada, de allí su nombre. En general a partir de las marginales no se puede
describir la naturaleza de la relación entre las variables.

Estado Civil Frecuencia Porcentaje


1 3029 77.9%
2 141 3.6%
3 718 18.5%
Total 3889 100%

Consumo Frecuencia Porcentaje

0 893 23%

1 1904 49%

2 742 19.1%

3 349 8.9%

Total 3888 100%

Distribución Condicional
Observemos que en los casados, el porcentaje de individuos con mayor consumo de cafeína es:
242/3029=0.079=7.9%,

pero entre los divorciados, separados o viudos es:

40/141=0.284=28.4%

Calculamos la distribución dentro de los individuos que satisfacen cierta condición.

Ejemplo: calculamos la distribución condicional del consumo diario de cafeína al estado civil
“casado”.

Consumo 0 1-150 151-300 >300 Total


21.5% 50.8% 19.8% 7.9% 100%
2021 80
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Calculamos la condicional para cada categoría de la variable estado civil:

Consumo 0 1-150 151-300 >300 Total


Est. Civil
1 21.5% 50.8% 19.8% 7.9% 100%
2 16.2% 28.4% 27.0% 28.4% 100%
3 30.4% 45.5% 14.8% 9.3% 100%

Comparemos con la marginal de consumo diario de cafeína:

Consumo 0 1-150 151-300 >300 Total


23% 49% 19.1% 8.9% 100%

Observaciones:

 Las condicionales parecen diferir de la marginal.


 El patrón de comportamiento de casados y solteros parece ser similar, pero parecen diferir
del otro grupo.
 La distribución condicional del grupo de casados parece muy similar a la distribución
marginal.

Representación Gráfica.
Gráfico de Barras Segmentadas

¿Cómo se construye?

 Cada barra describe un grupo de estado civil y tiene una altura de 100%.
 Dentro de cada una de ellas, los segmentos indican la partición en los distintos niveles de
consumo diario de cafeína.
 Las porciones representan el % de individuos del grupo que pertenece a cada categoría de
consumo diario de cafeína.
 Como el consumo es una variable ordinal, los segmentos siguen este orden.

2021 81
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Estos gráficos nos permiten “leer” la distribución condicional del nivel de consumo diario de
cafeína dado el estado civil (no permiten leer la concional al revés).

Otra alternativa son los Gráficos de Barras Paralelas.


En este caso se representan las distribuciones condicionales en paralelo.

2021 82
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ejercicios

Tipo A 1.76 1.45 1.03 1.53 2.34 1.96 1.79 1.21


Tipo B 0.49 0.85 1.00 1.54 1.01 0.75 2.11 0.92
1) Los siguientes datos corresponden a diametros de dos tipos de roscas A y B.

Para cada conjunto de datos:


a) Halle la media y la mediana.
b) Halle el primer y tercer cuartil.
c) Halle el rango, la distancia intercuartil, la desviación estándar y la MAD.

2) Estamos interesados en la variable X=“Tiempo de vida (en días)”de una especie de


insectos. En una muestra pequeña de 11 insectos, los resultados muestrales fueron:
20, 25, 13, 18, 32, 25, 20, 15, 28, 40, 27
Halle las medidas de posición y de dispersión.

3) Los siguientes datos corresponden a la duración en días de 25 lámparas de una clase.


6 7 8 8 3 3 5 5 8 6 5 4 12 12 14 14 4 15 17 12 6 5 4 3 25
a) Halle las medidas de posición y dispersión
b) Realice el boxplot y el histograma
c) ¿Qué tipo de distribución observa?
d) ¿hay outliers?

4) Dado el siguiente gráfico de barras comparativas, extraído de un paper sobre problemas


musculo-esqueléticos en trabajadores full y part time operando máquinas de coser, indique las
características más relevantes que observa entre ambos grupos.
b) Dentro de cada grupo ¿qué significan los datos y barras consignadas? ¿A qué conclusión se
puede llegar a partir de estos gráficos?

2021 83
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 84
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Distribuciones de probabilidad

En un histograma graficamos la frecuencia o la frecuencia relativa de casos en cada intervalo.

Las frecuencias (frecuencias relativas) son representadas por el área del rectángulo

Consideremos los siguientes datos de nivel de colesterol en jóvenes de 25 a 34 años recogidos en


EE.UU. en el período 1976-1980:

Nivel de Nº de Hombres Si observásemos el doble


Colesterol
(mg/100ml)
80-119 13 26
120-159 150 300
160-199 442 884
200-239 299 598
240-279 115 230
280-319 34 68
320-359 9 18
360-399 5 10

2021 85
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Frecuencia

Frecuencia
Relativa

Cuando representamos las frecuencias relativas nos independizamos del tamaño muestral. Si el
área de cada rectángulo es la frecuencia relativa, el área total es 1.

Polígono de frecuencias

Es similar al histograma, pero en cada intervalo se representa un punto en el centro del


intervalo de manera que la altura del punto es la frecuencia o la frecuencia relativa. Luego, los
puntos son unidos por una poligonal.

Nivel de Nº de Hombres Nº de Hombres


Colesterol de 25-34 años de 55-64 años
(mg/100ml)
80-119 13 5
120-159 150 48
160-199 442 265
200-239 299 458
240-279 115 281

2021 86
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

280-319 34 128
320-359 9 35
360-399 5 7

El histograma y el polígono de frecuencia pueden ser utilizados para “descubrir” la distribución


de la variable en estudio.

Hombres de 25 a 34 años Hombres de 55 a 64 años

40

30
30
Percent of Total

Percent of Total
20
20

10 10

0
0
100 150 200 250 300 350
100 150 200 250 300 350
colesterol
colesterol

Los Polígonos de frecuencias superpuestos para estos dos conjuntos de datos se muestran en el
siguiente gráfico:
Polígono de Frecuencias: Jovenes y Adultos
0.4
0.3
0.2
0.1
0.0

50 100 150 200 250 300 350


colesterol

Si tuviésemos miles de mediciones y con mayor precisión, se podría trabajar con intervalos de
longitud muy pequeña y el histograma y el polígono de frecuencias tendrían el aspecto de una
“curva suave”.

2021 87
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Por ello, suele decirse que el histograma es una aproximación a una distribución suave
subyacente, que es la distribución de probabilidad.

Primero repasaremos los conceptos de probabilidad para poder llegar al concepto de la


distribución de probabilidad de una variable aleatoria.

Sección 2
Repaso de Probabilidades y de Distribuciones de probabilidad Discretas y Continuas.

¿Qué hacemos con la información que obtuvimos de una muestra?

• VARIABLE ⇒ cualquier característica o atributo de la unidad de observación que interese


observar o registrar.

• PARÁMETRO ⇒ valor que resume o caracteriza a la variable de interés en la población.

• ESTADÍSTICO (o estimador de un parámetro) ⇒ cualquier función de los datos de una muestra,


con el cual se pretende ESTIMAR el valor de un parámetro poblacional.

Los datos de la MUESTRA se resumen a través de medidas tales como: media, varianza, desvío
estándar, mediana, porcentajes, percentiles, etc. (ESTADÍSTICOS).
Si el valor de la variable de interés pudiera medirse en todos los sujetos de la POBLACIÓN (censo),
podríamos calcular estas mismas medidas resúmenes en la población (PARÁMETROS).

Ejemplo :
• Población: Habitantes de la ciudad de Buenos Aires, sexo masculino, 20 a 60 años de edad.
• Se selecciona una muestra aleatoria de 100 varones de esa población.
• Se miden o se registran las siguientes variables:

2021 88
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

VARIABLE PARÁMETROS POBLACIONALES ESTADÍSTICOS MUESTRALES


Media del nivel de colesterol en Media del nivel de colesterol en una
Nivel de colesterol en la población (µ). muestra de 100 personas ( X )
sangre.
Varianza del nivel de colesterol Varianza del nivel de colesterol en una
en la población (σ2). muestra de 100 personas (S2)
¿Es fumador? (si/no) Proporción poblacional de gente Proporción de gente fumadora en la
fumadora (π). muestra (p).

En general utilizamos:
- letras griegas para identificar parámetros poblacionales
- letras latinas para identificar estadísticos y variables aleatorias.
¿Por qué tomar una muestra?
• Porque generalmente es imposible estudiar a toda la población.
• Porque es más económico.
• Porque se obtienen observaciones de mayor calidad.

Pero... distintas muestras tomadas de la misma población producirán distintos valores del
estadístico de interés. Por lo tanto, es razonable preguntarse,
- ¿Cuán variables son los valores del estadístico de muestra en muestra?
- ¿Cuán confiable es la estimación producida por una muestra particular?
- ¿Cuál es el error cometido al utilizar una muestra para estimar el valor de un parámetro
poblacional?

Para responder estas preguntas es necesario estudiar la distribución de probabilidades del


estadístico que estamos utilizando. Para ello presentaremos nociones elementales de la
distribución de probabilidad de una variable aleatoria. Haremos especial referencia a una
distribución muy útil en estadística, sobre la cual se apoyan muchos resultados importantes, la
distribución normal o de Gauss.

Definición intuitiva de probabilidad

Consideremos un ensayo aleatorio que se repite n veces y en cada ensayo observamos si ocurre
un cierto evento A.

2021 89
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Por ejemplo, tiramos un dado n veces, contamos el número de veces que sale el número 6
(Evento A = “sale el número 6”). Definimos la frecuencia con que ocurrió el evento A en las n
repeticiones:
nA
fA =
n
donde nA = número de veces que ocurre el evento A en las n repeticiones
n = número de veces que repetimos el ensayo.

Intuitivamente, la probabilidad del evento A, que notaremos P(A), es la frecuencia con que
ocurre A en infinitas repeticiones del experimento, o expresado de otra forma,
nA
fA = → P( A)
n n→∞
con 0 ≤ P ( A) ≤ 1 .

Espacio Muestral.- Se llama espacio muestral (𝒮𝒮) asociado a un experimento aleatorio, el


conjunto de todos los resultados posibles de dicho experimento.
Al lanzar una moneda, el espacio muestral es 𝒮𝒮 ={c, s}.

Al lanzar un dado de seis caras, el espacio muestral es 𝒮𝒮 = {1, 2, 3, 4, 5, 6}

Al lanzar dos monedas, el espacio muestral es


𝒮𝒮 = {(c,c), (c,s), (s,c), (s,s)}.

Al lanzar tres monedas, el espacio muestral es 𝒮𝒮 = {(c,c,c), (c,c,s), (c,s,c), (c,s,s), (s,c,c), (s,c,s),
(s,s,c), (s,s,s)}

Evento o Suceso. Se llama evento o suceso a todo subconjunto de un espacio muestral. Por
ejemplo en el espacio muestral 𝒮𝒮 = {1, 2, 3, 4, 5, 6} del lanzamiento de un dado, los siguientes son
eventos:
1. Obtener un número primo A = {2, 3, 5}
2. Obtener un número primo y par B = {2}
3. Obtener un número mayor o igual a 5 C = {5, 6}
Eventos mutuamente excluyentes.- Dos eventos son mutuamente excluyentes si y sólo si su
intersección es vacía. Por ejemplo, en el lanzamiento de un dado los eventos B = {2} y C = {5, 6}
son mutuamente excluyentes pues B C =

Eventos Complementarios.- Si A B = y A B = 𝒮𝒮, se dice que A y B son eventos


complementarios: Ac = B y Bc = A
2021 90
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Algunas Propiedades

Además de P(𝒮𝒮) = 1, P( ) = 0, 0 P(A) 1, tenemos:


1) Si A B = (A y B se excluyen mutuamente) entonces:
P(A B) = P(A) + P(B)
2) P(A) + P(Ac) = 1
3) Si A B entonces
P(A B) = P(A) + P(B) - P(A B)
4) Si A y B son eventos independientes ( la ocurrencia de A no influye en la ocurrencia de B),
entonces
P(A B) = P(A) * P(B)
Probabilidad condicional

P(B/A) es la probabilidad del evento B, sabiendo que ha ocurrido A.


Si A y B son eventos dependientes (la ocurrencia de A influye en la ocurrencia de B), entonces
P(A B) = P(B/A) * P(A)

Distribución de Probabilidad de una Variable Aleatoria Discreta

Como ya hemos visto en Estadística Descriptiva, las variables aleatorias se clasifican en


categóricas (cuando se observa un atributo) o numéricas (cuando se mide una magnitud o se
registra el número de veces que ocurre un evento). El objetivo ahora es presentar métodos
estadísticos para variables numéricas, por lo que sólo haremos referencia a este tipo de variables.
Las variables numéricas se clasifican del siguiente modo:

 discreta ⇒ conjunto finito o infinito numerable de valores posibles



Variable 
 continua ⇒ conjunto infinito de valores posibles

Llamaremos Distribución de probabilidades de una variable aleatoria discreta al listado de


valores posibles de la variable acompañado de sus correspondientes probabilidades.

Ejemplo 2
Consideremos una caja que contiene cuatro tarjetas del mismo tamaño. Cada tarjeta tiene
registrado un número (10, 20, 30 ó 40).
Sea X = valor obtenido al sacar una tarjeta de la caja.

2021 91
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Esta caja podría representar una población con cualquier número de unidades de análisis, en la
que ¼ de las unidades tiene el valor 10, ¼ el valor 20, etc.
La distribución de probabilidades de la variable X es:

x 10 20 30 40 suma
px 0.25 0.25 0.25 0.25 1

Gráfico 1. Representación de la distribución de probabilidades de X

0.3

0.25
probabilidad

0.2

0.15

0.1

0.05

0
0 10 20 30 40 50
X

¿Cuál es la media de la variable X? O dicho de otro modo, ¿Cuál es la media en la población


representada por nuestra caja?
10 + 20 + 30 + 40
MEDIA POBLACIONAL = E(X) = µ = = 25
4
También podemos escribir,
1 1 1 1
µ = 10 ⋅ + 20 ⋅ + 30 ⋅ + 40 ⋅ = 25
4 4 4 4
La media poblacional o ESPERANZA de la variable representa el punto de equilibrio de la
distribución de probabilidades (Gráfico 1).

¿Cuál es la varianza de la variable X? Dicho de otro modo, ¿cuál es la varianza de la población


que representa esta caja?
(10 − 25) 2 + (20 − 25) 2 + (30 − 25) 2 + (40 − 25) 2
2
V (X ) = σ = = 125
4 ó
σ2 = (10 – 25)2⋅0.25+(20–25)2⋅0.25+(30–25)2⋅0.25+(40–25)2⋅0.25 = 125

2021 92
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Notar que en este caso, como estamos calculando la varianza poblacional dividimos por el número
total de individuos de la población y no por el total menos 1 como hacemos al calcular la varianza
muestral.

2
El desvío estándar σ = σ = 125 = 11.18 es una medida de cuán dispersos se encuentran
los valores de la variable.

Ejemplo 3
Consideremos ahora otra caja que contiene 10 tarjetas del mismo tamaño. Cada tarjeta tiene
registrado un número y supongamos que

4 tarjetas tienen el número 10


3 tarjetas tienen el número 20
2 tarjetas tienen el número 30
1 tarjeta tiene el número 40

Esta caja podría representar la variable ingresos mensuales (en miles) en una pequeña empresa
con 10 empleados. O podría representar los salarios de una gran empresa con cientos de
empleados en la que sólo hay cuatro salarios posibles y en la que 40% de los empleados ganan
10000 al mes, 30% reciben 20000, etc.

Sea X = valor obtenido al sacar una tarjeta de la caja (salario de un empleado elegido al azar).

¿Cuál es la distribución de probabilidades de la variable X?

x P(X = x) Gráfico 2. Representación de la distribución de


probabilidades de X.

2021 93
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

10 0.40 0.45
20 0.30 0.4
30 0.20 0.35
40 0.10 0.3

probabilidad
0.25
0.2
0.15
0.1
0.05
0
0 10 20 30 40 50

La media para esta caja (población) es

4 ⋅ 10 + 3 ⋅ 20 + 2 ⋅ 30 + 1 ⋅ 40
µ = E( X ) = = 0.4 ⋅ 10 + 0.3 ⋅ 20 + 0.2 ⋅ 30 + 0.1 ⋅ 40 = 20
10
y la varianza
2 4 ⋅ (10 − 20) 2 + 3 ⋅ (20 − 20) 2 + 2 ⋅ (30 − 20) 2 + 1 ⋅ (40 − 20) 2
V (X ) = σ =
10
2
= 0.4 ⋅ (10 − 20) + 0.3 ⋅ (20 − 20) + 0.2 ⋅ (30 − 20) 2 + 0.1 ⋅ (40 − 20) 2 = 100
2

y por lo tanto, el desvío estándar es σ = 100 = 10 .

Notar que, aún cuando X toma los mismos valores que en el Ejemplo 2, la media y la varianza
difieren en las dos cajas, debido al hecho de que la probabilidad asociada a cada valor no es la
misma. En particular σ2 es menor en la segunda caja.

En resumen,
La media o esperanza de una variable X se calcula multiplicando cada valor posible de la variable
por su probabilidad.
Del mismo modo, la varianza de X es una suma ponderada de las distancias a la media elevadas
al cuadrado, donde el peso corresponde a la probabilidad de que ocurra cada valor de la variable.

Distribución de probabilidad para variables continuas

2021 94
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

La Tabla 1 presenta datos de información sobre consumo de energía en determinado momento


en 90 hogares calentados a gas en Wisconsin.

Tabla 1. Consumo de energía en BTU en 90 hogares de una región de Estados Unidos.

Consumo de Consumo de
energía (BTU) Frecuencia energía (BTU) Frecuencia

< 20 0 [12,14) 16
[2,4) 2 [14,16) 4
[4,6) 4 [16,18) 2
[6,8) 18 [18,20) 1
[8,10) 23 ≥ 20 0
[10,12) 20

Una variable continua toma valores en todo un intervalo de números reales. Si, en vez de 90
datos tuviésemos miles de datos, se podrían definir intervalos muy angostos de modo que el
histograma tendría el aspecto de una curva suave, como la que hemos superpuesto sobre el
Gráfico 3 a la derecha.

Gráfico 3
20

0.15
Frecuencia

15

Probabilidad

0.10
10

0.05
5

0.00
0

5 10 15 20 5 10 15 20

Consumo de energía Consumo de energía

2021 95
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Observando el histograma parece razonable proponer que:

 la distribución de la variable consumo de energía en hogares de Wisconsin es una curva suave


y acampanada.
 la diferencia entre el histograma y la curva suave puede deberse al hecho que estamos
observando sólo una muestra de datos.

Consideremos ahora un segundo conjunto de datos correspondiente a 48 mediciones de la fuerza


adhesiva ( en newtons por mm2 o MPa, megapascales) en barras de resfuerzo hechas de un
material compuesto para evitar la corrosión del acero de refuerzo en estructuras de concreto.

Tabla 2. Fuerza de ahesión en barras de un material compuesto


Fuerza Frecuencia Fuerza Frecuencia
<5 15 [15,20) 2
[5,10) 20 [20,25) 1
[10,15) 9 [25,30) 1

Gráfico 4.

2021 96
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

En este caso, el histograma sugiere que la distribución de probabilidades de la variable Fuerza


adhesiva en la población a partir de la cual se tomó la muestra, es una curva suave con asimetría
derecha (cola larga hacia la derecha). Se incluyó en el gráfico una densidad estimada que
claramente no es acampanada.
El histograma de un conjunto de datos continuos es una aproximación a una distribución suave
subyacente: la función de densidad o DISTRIBUCIÓN DE PROBABILIDAD de la variable en la
población de todas las unidades de observación. En algunos casos es posible proponer una
función matemática para la distribución de probabilidad y a partir de ella calcular probabilidades
teóricas de ocurrencia de determinados conjuntos de valores de la variable.
Recordemos que el área bajo el histograma es 1 (100%). El área bajo la función de densidad
también debe ser igual a 1 (100%).
La mayoría de los métodos estadísticos se basan en suponer que los datos observados son una
muestra aleatoria de una población con una cierta distribución de probabilidad ⇒ MÉTODOS
PARAMÉTRICOS.
Existe además otro conjunto de métodos que no hacen supuestos sobre la distribución de la
variable ⇒ MÉTODOS NO PARAMÉTRICOS o DISTRIBUCIÓN LIBRE.

Presentamos a continuación la distribución de probabilidad más importante en Estadística, la


curva normal o curva de Gauss. Esta distribución es importante en parte porque aproxima bien el
histograma de los datos de distintas variables naturales, pero la razón fundamental de su

2021 97
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

importancia es que muchos métodos estadísticos hacen uso de las propiedades de la distribución
normal aún cuando los datos no tengan un histograma acampanado y simétrico.

Distribución Normal (o Campana de Gauss o gaussiana)

Es la más conocida de las distribuciones de probabilidad y está representada por una curva suave
en forma de campana.
Normal no implica que se use para datos normales en el sentido usual de la palabra, ni que las
otras distribuciones sean anormales. Consideremos los datos de consumo de energía en
determinado momento en 90 hogares calentados a gas en Wisconsin del Gráfico 3 nuevamente.

Gráfico 3
0.15
Probabilidad

0.10
0.05
0.00

5 10 15 20

Consumo de energía

Observamos cierta simetría alrededor de un valor central y un único pico. También podemos
observar que la curva que hemos sobrepuesto proporciona un buen ajuste a la distribución de los
datos.
Decimos que una variable tiene distribución normal si su función de densidad de probabilidades
es:
1 2
1 − 2 (x−µ)
f ( x) = e 2σ
2π σ
Donde µ ∈ ℛ, y 𝜎𝜎 ≥ 0 .
2021 98
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Notación: X ∼ N(µ, σ2)

Se lee ‘X tiene distribución Normal con media µ y varianza σ2.

Características de la distribución Normal:

La distribución Normal es unimodal y simétrica.

La distribución Normal queda completamente descripta por dos parámetros:

• Su centro que se llama media o esperanza, µ, que coincide


con el punto de simetría.
N(µ,σ2)
• Su variabilidad medida por el desvío standard σ o por
la varianza σ2.

En realidad, lo que existe una familia de distribuciones Normal, para cada valor de media y desvío
obtenemos una curva normal diferente. Veamos algunos ejemplos.
0.4

σ=1
0.4

0.3

µ=0 µ=5
0.3

0.2
0.2

σ=2
0.1
0.1

σ=4
0.0
0.0

-10 -5 0 5 10
-5 0 5 10

x x

El gráfico de la izquierda corresponde a dos normales con distinta media e igual desvío, mientras
que el de la derecha a normales centradas en 0, pero con distinto desvío standard. Se puede
observar que al aumentar el desvío σ se produce un mayor aplastamiento en la curva. Este
aumento en la variabilidad produce que valores muy alejados del centro µ sean probables.

2021 99
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Características
• Curva suave, acampanada y simétrica, con un único pico.
• El punto de simetría corresponde a la media µ de la variable.
• La desviación estándar σ determina el ancho de la campana.
• La curva presenta dos puntos de inflexión (cambios de concavidad) a distancia σ del eje
de simetría µ, es decir en (µ - σ) y (µ + σ).
• µ es el parámetro que indica la posición.
• σ es el parámetro que indica la escala o la dispersión de la función.
• El área bajo la curva es 1.

Dados µ y σ2 podemos calcular la probabilidad teórica de determinados conjuntos de valores. Así,


la probabilidad de obtener un valor en el rango (a,b) será el área bajo la curva entre a y b.

Algunas áreas con características de la curva normal:

Rango Area (Prob.)


µ±σ 0.683
µ±2σ 0.954
µ±3σ 0.9973

Gráficamente corresponden a:

2021 100
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

µ-σ µ+σ µ-2σ µ +2 σ


0.683 0.954

µ -3 σ µ +3 σ
0.9973

Cualquier posición puede expresarse como una distancia a la media medida en desvíos standard.
Es equivalente a considerar una normal con media 0 y desvío 1, que se conoce como Normal
Standard.

Cualquier normal puede llevarse a una Standard mediante una simple operación: restando la
media y dividiendo por el desvío. ¿Cómo se calculan las probabilidades?

2021 101
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ejemplo: Supongamos que es razonable suponer que el consumo de energía tiene distribución
Normal con media 10 y desvío 3 . Si deseamos calcular la probabilidad teórica de que un hogar de
la población estudiada tenga un consumo de energía mayor que 13.87, calculamos su distancia a
13.87−10
la media en desvíos standard: =1.29
3

Unidades Standard

Una vez obtenido el valor correspondiente podemos usar una tabla como la que se incluye más
abajo que proporciona estas probabilidades o bien el Excel o mediante cualquier software
estadistico o calculadora adecuada.
En nuestro caso, resulta 0.0985(≈ 0.10) pues la tabla indica que P(X<=1,29)=0.9015
Usando las siguientes características de la normal es posible calcular áreas asociadas a cualquier
conjunto de valores de Z:

• El área bajo la curva es 1, por lo tanto P(Z < a) = 1 – P(Z ≥ a)


• La curva es simétrica, por lo tanto P(Z ≤ −a) = P(Z ≥ a)

Sentencias en R
pnorm(0) # 0.5
qnorm(0.5) # 0
2021 102
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

pnorm(3,3,0.5) # 0.5
qnorm(0.5,3,0.5) #3
pnorm(1.29) # 0.9014747
pnorm(13.87,10,3) # 0.9014747
1- pnorm(13.87,10,3) # 0.0985253

Si bien, en muchos casos el supuesto de normalidad de las observaciones es razonable, en muchos


otros no lo es.
Hay métodos formales que nos ayudan a decidir si la hipótesis de normalidad es aceptable o no.

ÁREAS BAJO LA DISTRIBUCIÓN DE PROBABILIDAD NORMAL ESTÁNDAR,


N(0, 1)

z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09


0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
2021 103
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

2021 104
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Hoy ya no necesitamos estas tablas, contamos con los resultados que nos devuelve el Excel o
cualquier programa estadístico como ya dijimos. Las siguientes son tomas de pantallas de la
aplicación para móviles Probability Distributions que no solo tiene la distribución normal sino
muchas otros discretas y continuas con gráficos y los primeros momentos de cada una.

Método Gráfico: QQ-Plot (o Plot Normal)

En un par de ejes coordenados se representan los percentiles teóricos de la distribución Normal


y en el otro eje los percentiles de la muestra.

• Si la muestra realmente proviene de una población Normal, el gráfico debería estar, salvo
fluctuaciones aleatorias, sobre una recta (y=x).

• Las distintas curvaturas que pueden presentar estos gráficos, nos sugieren que tipo de
distribución puede tener la población de origen.

2021 105
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

R realiza estos gráficos y además podemos además obtener el valor del estadístico de Shapiro-
Wilk, W, que mide la asociación entre los percentiles poblacionales y muestrales.
La distribución teórica de W también está tabulada, así que podemos comparar el valor obtenido
con los de la tabla correspondiente.
R nos devuelve el valor del estadístico W y un valor P(W) que nos indica si el W observado es
grande o pequeño. Este test lo volveremos a mencionar en la Sección 4 del curso.
Entonces el QQ-plot se realiza según se indica en el siguiente cuadro:

Distribución F(x) Abscisa Ordenada


𝑥𝑥𝑖𝑖 −𝜇𝜇
Normal 𝜙𝜙( ) 𝜙𝜙 −1 (𝑝𝑝𝑖𝑖 ) 𝑋𝑋𝑖𝑖
𝜎𝜎

𝑖𝑖−0.5
Donde 𝑝𝑝𝑖𝑖 = para 1 ≤ 𝑖𝑖 ≤ 𝑛𝑛 .
𝑛𝑛

Por lo que se podrá graficar en Excel también muy fácilmente, si no se posee un software
estadístico.

Veamos a continuación varios ejemplos.

Primer conjunto de datos:

Datos
Nº obs ordenados pi=(i-0.5)/19 Distr. Norm. Inv.

1 140 0,02631579 -1,93793038

2 142 0,07894737 -1,41218792

3 145 0,13157895 -1,1189586


150
4 0,18421053 -0,89943478

5 158 0,23684211 -0,71649726

6 160 0,28947368 -0,55492284

2021 106
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

7 162 0,34210526 -0,40672437

8 165 0,39473684 -0,26699428

9 170 0,44736842 -0,13231277

10 173 0,5 0

11 175 0,55263158 0,13231277

12 177 0,60526316 0,26699428

13 180 0,65789474 0,40672437

14 181 0,71052632 0,55492284

15 183 0,76315789 0,71649726

16 186 0,81578947 0,89943478

17 190 0,86842105 1,1189586

18 191 0,92105263 1,41218792

19 195 0,97368421 1,93793038

Segundo conjunto de datos:

Nº obs Datos ord. pi=(i-0.5)/19 Distr. Norm. Inv.

1 140 0,02631579 -1,93793038

2 160 0,07894737 -1,41218792

3 165 0,13157895 -1,1189586

4 166 0,18421053 -0,89943478

2021 107
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

5 170 0,23684211 -0,71649726

6 170 0,28947368 -0,55492284

7 173 0,34210526 -0,40672437

8 175 0,39473684 -0,26699428

9 177 0,44736842 -0,13231277

10 178 0,5 0

11 178 0,55263158 0,13231277

12 179 0,60526316 0,26699428

13 179 0,65789474 0,40672437

14 180 0,71052632 0,55492284

15 180 0,76315789 0,71649726

16 180 0,81578947 0,89943478

17 181 0,86842105 1,1189586

18 181 0,92105263 1,41218792

19 183 0,97368421 1,93793038

2021 108
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Conjunto 1 Conjunto 2

2021 109
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

The decimal point is 1 digit(s) to the right of The decimal point is 1 digit(s) to the right of
the | the |

14 | 02 14 | 0
14 | 5 14 |
15 | 0 15 |
15 | 8 15 |
16 | 02 16 | 0
16 | 5 16 | 56
17 | 03 17 | 003
17 | 57 17 | 578899
18 | 013 18 | 000113
18 | 6
19 | 01
19 | 5

Sentencias en R
par(mfrow=c(1,2))
boxplot(conjunto1,col="light blue",main="Boxplot Conjunto 1")
boxplot(conjunto2,col="light green",main="Boxplot Conjunto 2")
par(mfrow=c(1,1))

2021 110
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

qqnorm(conjunto1,main="QQ-plot Conjunto 1")


qqline(conjunto1)
qqnorm(conjunto2,main="QQ-plot Conjunto 2")
qqline(conjunto2)
shapiro.test(conjunto1)
shapiro.test(conjunto2)

El primer conjunto de datos no presenta datos atipicos y su distribución es simétrica, de acuerdo


al QQ-plot podemos considerar que la distribución subyacente de los datos es normal.
En el caso del segundo conjunto de datos, los mismos están más dispersos, se observa un valor
atípico, más pequeño que el resto, y el QQ plot nos indica que la distribución subyacente no puede
considerarse normal.
Mediante el test de Shapiro-Wilk podemos confirmalo, como puede observarse de la salida en R.
Shapiro-Wilk normality test
data: conjunto1
W = 0.95077, p-value = 0.4073
Shapiro-Wilk normality test
data: conjunto2
W = 0.76642, p-value = 0.0003867
Veamos otro ejemplo.
Los siguientes datos corresponden a la reducción en la FVC en pacientes con fibrosis quística.
después de 25 semanas de tratamiento cuando fueron tratados con la droga amiloride y con
placebo.
NOTA: CAPACIDAD VITAL FORZADA (FVC o CVF) es el máximo volumen de aire espirado, con el
máximo esfuerzo posible, partiendo de una inspiración máxima. Se considera un indicador de la
capacidad pulmonar. Se expresa como volumen (en ml). FEV1 es el volumen máximo de aire
expirado en el primer segundo. FVC se considera normal cuando FEV1/FVC es 80% o más. Tanto
FVC como FEV1 están tabuladas para hombres y para mujeres.

Placebo Amiloride
224 213
80 95
75 33
541 440
74 -32
85 -28
293 445
-23 -178

2021 111
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

525 367
-38 140
508 323
255 10
525 65
1023 343

QQ-plot Amiloride QQ-plot Placebo

1000
400
Cuantiles muestrales

Cuantiles muestrales

800
300
200

600
100

400
0

200
-100
-200

-1 0 1 -1 0 1

Cuantiles teoricos Cuantiles teoricos

Los valores de W y de P(W) obtenidos son

W P(W)
Amiloride 0.9410 0.4314
Placebo 0.8803 0.0588

Por lo tanto no es razonable que las diferencias de FVC de los placebos sean normales, mientras
que este supuesto no parece contradecirse en el caso de los tratados con Amiloride.
Sobre el test de Shapiro –Wilk volveremos más adelante dentro de la sección Test de Hipotesis.
En los siguientes gráficos ilustramos con algunos ejemplos las posibles distribuciones con los
gráficos histogramas, boxplots y QQ-plots asociados que se pueden observar en la práctica.

2021 112
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 113
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 114
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 115
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Relación entre dos variables cuantitativas


Scatter Plot

Es la forma gráfica más usada para mostrar la relación entre dos variables cuantitativas.
Se representan en un sistema de coordenadas cartesianas los valores de una de las variables
graficada en función de la otra.
Este gráfico es muy útil para explorar la posible relación entre dos variables y también para
proponer un modelo para la posible relación funcional entre ambas.

Ejemplo:

1. En el siguiente gráfico se muestran los datos de 18 adultos en el que se estudia la relación entre
el % de grasa corporal y la edad.
Se observa una tendencia: a mayor edad mayor porcentaje de grasa corporal.

Scatter Plot of GRASA vs EDAD

40

30
GRASA

20

10

20 30 40 50 60
EDAD

2. Ejemplo de PIMAX vs. Edad

2021 116
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

140
120
Pimax

100
80
60
40

5 10 15 20

Edad

No parece haber una clara relación entre las dos variables.

3. Semanas de gestación vs. Peso Medio de Nacimiento

Observamos una tendencia creciente, pero no parece ser lineal.

Scatter Plot of PESOMEDIO vs SEMANAS


3.2

PE2.7
S
O
M
E
DI
2.2

1.7

32 36 40 44

SEMANAS

2021 117
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ejemplo:
El archivo iris en R contiene la información de las longitudes y anchos de sepalos y pétalos de esta
flor según variedad ( versicolor, virginica y setosa). Podemos hacer la correlación lineal entre estas
variables ( en R el comando es pairs)

2.0 3.0 4.0 0.5 1.5 2.5

4.5 5.5 6.5 7.5


Sepal.L
4.0

Sepal.W
3.0
2.0

7
5
Petal.Le

3
1
2.5
1.5

Petal.W
0.5

4.5 5.5 6.5 7.5 1 3 5 7

2021 118
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Como podemos observar en el gráfico la relación entre las variables no es en todos los casos lineal.
Por ejemplo, parece serlo entre la longitud y el ancho de los pétalos pero no entre estas medidas
consideradas en los sépalos.

¿Qué pasa cuando tenemos muchos puntos a graficar?

Por ejemplo en R.
Generamos dos muestras normales de tamaño 105=1e+05
c1=rnorm(1e5)
c2=rnorm(1e5)
plot(c1,c2)

Obtenemos el gráfico que se incluye a continuación.

Una forma de obtener algo más interesante se obtiene graficando una submuestra.
2021 119
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

3
c2[samplepoints]

2
1
0
-1
-2

-3 -2 -1 0 1 2 3

c1[samplepoints]

En R.
samplepoints=sample(1e5,size=1000,replace=FALSE)
plot(c1[samplepoints],c2[samplepoints])
Así obtuvimos el gráfico anterior.

Otra posibilidad es hacer un scatter plot suavizado que nos permite observar donde está la
mayor concentración de los pares de datos.
En R
smoothScatter(c1,c2)

Y se obtiene el gráfico que se incluye a continuación.

2021 120
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Por último mostramos otra forma muy interesante de representar estos datos en la librería
hexbin que nos permite cuantificar esa densidad observada.

library(hexbin)
hhhh=hexbin(c1,c2)
plot(hhhh)

2021 121
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

4
Coun
1053
987
2 922
856
790
724
c2

0 658
593
527
461
396
-2 330
264
198
132
-4 67
1

-4 -2 0 2 4
c1

Y con algunas modificaciones obtenemos las variaciones siguientes del gráfico anterior

En R.
plot(hhhh,style="lattice")
plot(hhhh,colramp=BTY,colorcut=c(0,.1,.2,.3,.4,.6,1))
plot(hhhh, style = "nested.lattice",border=2,density=35)
plot(hhhh, style = "nested.lattice")

Con estos gráficos de puntos podemos presenter de forma atractiva la relación entre dos
conjuntos de datos con muchas obervaciones. Por supuesto que si existe alguna relación entre
las variables se haría más notable en los últimos gráficos que con el primero que es sencillamente
una gran masa de puntos.

2021 122
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

4
4
Coun
1053 Coun
987 2
2 922
856 1053
790
724 632

c2
658 0
c2

0 593 422
527
461 317
396 -2
-2 330 211
264
198 106
132 -4
67 1
-4 1
-4 -2 0 2 4
-4 -2 0 2 4 c1
c1

4 4

2 2

Thousand Thousand
c2
c2

0 0
13579 13579
Hundreds Hundreds
-2 13579 -2 13579
Tens Tens
13579 13579
-4 Ones -4 Ones
13579 13579
-4 -2 0 2 4 -4 -2 0 2 4
c1 c1

Como ejemplo del último comentario incluimos dos gráficos adicionales


2021 123
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

plot(hexbin(c1,c2+c1))

plot(hexbin(c1,log(abs(c1))*log(abs(c2))))

log(abs(c1)) * log(abs(c2))
6
Coun Coun
4 1530 30 5732
1434 5374
1339 5016
c2 + c1

2 1243 4657
1148 20 4299
1052 3941
0 957 3583
861 3225
766 10 2866
-2 670 2508
574 2150
479 1792
-4 383 0 1434
288 1076
192 717
-6 97 359
1 -10 1

-4 -2 0 2 4 -4 -2 0 2 4
c1 c1

¿Cómo podemos medir el grado de asociación entre dos variables?

Correlación

Permite medir la posible asociación entre dos variables continuas.

En el Ejemplo 1 teníamos,

2021 124
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Scatter Plot of GRASA vs EDAD

40

30

GRASA 20

10

20 30 40 50 60
EDAD

• Observamos que parecía haber cierta asociación entre las dos variables, en tanto hay una
tendencia a que la gente mayor tenga mayor % de grasa.

• El grado de asociación entre las dos variables puede ser estimado a través del Coeficiente de
Correlación Lineal (de Pearson) que mide el grado de asociación lineal entre las variables.

Supongamos que tenemos una muestra de n individuos en los que medimos 2 variables: x e y.
Por lo tanto tenemos observados: (x1,y1), (x2,y2), (x3,y3),....... (xi,yi),...... (xn,yn).
Entonces el Coeficiente de Correlación Lineal se calcula como
n
∑ ( xi − x )( yi − y )
i =1
r=
n n
∑ ( xi − x ) 2 ∑ ( yi − y ) 2
i =1 i =1

Trataremos de interpretar porqué el coeficiente así definido mide la asociación entre las 2
variables.

n
Consideremos el numerador: ∑ ( xi − x )( yi − y )
i =1

Este define el signo de r.


Dividamos al diagrama de dispersión en cuatro cuadrantes tomando como centro al
punto ( x , y )

2021 125
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

¿qué signo tendría el producto ( xi − x )( yi − y ) en cada cuadrante?

( xi − x ) ( yi − y ) ( xi − x )( y i − y )
NE + + +
SE + - -
SO - - +
NO - + -

Entonces, si los puntos tienden a estar sobre una recta que va del cuadrante SO al NE, r tenderá
a ser positivo.
Si los puntos tienden a estar sobre una recta que va del cuadrante NO al SE, r tenderá a ser
negativo.

Si los puntos se distribuyen homogéneamente en los cuatro cuadrantes (no hay relación entre las
variables), r tenderá a ser 0.

Propiedades de la correlación:

2021 126
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

 Toma valores entre –1 y 1.

 No depende de las unidades en las que se miden las variables.

 El valor r=1 se obtiene cuando todos los puntos se encuentran sobre una recta con
pendiente positiva. (cuadrante SO a NE)

 El valor r=-1 se obtiene cuando todos los puntos se encuentran sobre una recta con
pendiente negativa. (cuadrante NO a SE).

 Cuanto más grande es el valor absoluto de r, mayor es la asociación lineal entre las
variables.

 Si r=0, no hay asociación lineal entre las variables.

 El coeficiente de correlación lineal trata simétricamente a las variables en tanto no


identifica cual es la variable dependiente y cual la independiente.

En el ejemplo del % de Grasa y Edad r = 0.9589.


En el ejemplo del conjunto de datos iris verificamos lo que habíamos observado, r=0.9629 entre
la longitud y ancho de los pétalos y r= -0.11757 entre la longitud y ancho de los sépalos. También
obtuvimos que la correlación entre la longitud del pétalo y el ancho del sépalo es
r=-0.4284401

Sentencias en R,
cor(iris$Petal.Length,iris$Petal.Width)
cor(iris$Sepal.Length,iris$Sepal.Width)
cor(iris$Petal.Length,iris$Sepal.Width)

Y podemos hacer el gráfico siguiente para visualizer la situación pero además según especie ( esta
variable es un factor). Tal vez podamos determinar que hay correlación entre la longitud del
pétalo y el ancho del sépalo más importante dentro de alguna variedad.

Sentencias en R,
Species2=ifelse(iris$Species=="setosa","blue",ifelse(iris$Species=="versicolor","violet","grey"))
plot(iris$Sepal.Width,iris$Petal.Length,pch=19,cex=0.7,col=Species2)
legend(3.5,4,bty="n",legend=c("setosa","versicolor","virginica"),
col=c("blue","violet","grey"),pch=c(19,19,19),cex=c(0.7,0.7,0.7))

2021 127
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

7
Longitud de Pétalo

6
5
4

setosa
versicolor
virginica
3
2
1

2.0 2.5 3.0 3.5 4.0

Ancho de sépalo

El gráfico parece indicar que la relación lineal es más evidente en las especies versicolor y
virginica.
Por ejemplo obtuvimos que la correlación entre estas variables para la variedad versicolor es igual
a 0.5605

Sentencia en R
cor(iris$Petal.Length[iris$Species=="versicolor"],iris$Sepal.Width[iris$Species=="versicolor"])

2021 128
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Otros Ejemplos

Como r mide asociación lineal no debería


ser usado cuando la tendencia general de los puntos es No Lineal.

2021 129
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

r=0

En este último ejemplo r=0 pues no hay asociación lineal, sin embargo la asociación entre las
dos variables es perfecta ( es cuadrática).

En el ejemplo que creamos de dos variables con 105 datos, c1 y c2, podemos hacer las
correlaciones entre las transformaciones que creamos para los dos últimos gráficos.
En R,
cor(c1,c1+c2)
cor(c1,log(abs(c1))*log(abs(c2)))
Y obtenemos r=0.7069253 y r=0.001573182 respectivamente como podíamos esperar de los
gráficos obtenidos, además de las relaciones entre las variables que nosotros propusimos.
En cuanto a la correlación de Spearman se puede calcular así en R,
cor(c1,c2+c1, method="spearman")
cor(c1,log(abs(c1))*log(abs(c2)),method="spearman")
Y obtenemos ρ= 0.6898331 y ρ=1.714885e-05 respectivamente.

Aquí indicamos un link para probar correlaciones:

http://istics.net/stat/Correlations/

En el link se dan ejemplos para chequear la posible correlación entre dos conjuntos de datos.
Aquí hay una pantalla que ilustra un ejemplo de su uso.

2021 130
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 131
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

¿Cómo afectan los outliers a r? Observemos algunos ejemplos:

Como vemos a partir de los ejemplos la correlación r es muy sensible a los datos atípicos.

Existen algunas alternativas, entre ellas el coeficiente de correlación de rangos de Spearman.


Es equivalente al coeficiente r, pero calculado sobre los rangos, es decir la posición que ocupa en
la muestra ordenada cada dato (para cada coordenada por separado).

Procedimiento: Tenemos x1,x2,x3,...... xi,..... xn, e y1, y2,y3,...... yi,.....yn obtenidos a partir de los
pares (x1,y1), (x2,y2), (x3,y3),.. (xi,yi),.. (xn,yn).

1. Ordenamos los valores de cada variable por separado y a cada uno le asignamos la posición
que ocupa en el orden establecido, es decir el rango.
De manera que obtenemos R(xi) y R(yi) para cada dato.
Si R(xi)=1 quiere decir que xi es la primera observación en la muestra ordenada de las x´s, si
R(xi)=2 quiere decir que xi es la segunda y así sucesivamente. De la misma forma, para las y´s.
Los rangos tomarán valores entre 1 y n.

2. Computamos el coeficiente de correlación de Pearson para (R(x1),R(y1)), ..., (R (xn), R(yn)).


2021 132
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Si en el punto 1 tenemos empates, a las observaciones con el mismo valor les asignamos el
promedio de los rangos correspondientes.

Ejemplo:
Espécimen Húmero Rango Fémur Rango
A 312 3.5 430 3
B 335 5 458 5
C 286 1 407 1
D 312 3.5 440 4
E 305 2 422 2

El rango de Spearman resulta 0.9747, mientras que el de Pearson es 0.9751.

¿Cuándo es aconsejable usar la correlación de Spearman?

• Cuando las variables no se correlacionan linealmente.


• Cuando hay datos que son outliers.
• Cuando el scatter plot no es claramente elíptico.

Ejemplo 1

En un estudio realizado en Italia, 10 pacientes con hipertrigliceridemia siguieron una dieta baja
en grasas y alta en hidratos de carbono. Antes de realizar el estudio se midió el colesterol y los
triglicéridos en los pacientes, obteniéndose los siguientes resultados:

Paciente Colesterol Triglicéridos


1 5.12 2.30
2 6.18 2.54
3 6.77 2.95
4 6.65 3.77
5 6.36 4.18
6 5.90 5.31

2021 133
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

7 5.48 5.53
8 6.02 8.83
9 10.34 9.48
10 8.51 14.20

TRIGLICERIDOS vs. COLESTEROL


CORRELATIONS SPEARMAN
16

(PEARSON) RANK
11
CORRELATIONS
TRIGLI

COLEST COLEST
6 TRIGLI 0.6497 TRIGLI 0.4182

5 7 9 11
COLEST

Ejemplo 2

En el siguiente ejemplo ficticio mostramos el efecto de un outlier sobre ambas medidas.

X Y
10 17
13 14
12 16
15 13
16 15
17 15
14 12
30 30

2021 134
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

CORRELATIONS
(PEARSON)

X
Y 0.8472

SPEARMAN RANK
CORRELATIONS
X
Y 0.0599

Como se ve en el ejemplo, un solo dato atípico puede afectar muchisimo la correlación de


Pearson, indicando una correlación lineal donde no la hay.

Sección 3
NOCIONES DE INFERENCIA

2021 135
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Hasta ahora hemos aprendido formas de caracterizar los datos, resumirlos y describirlos. Además
hemos aprendido algunas nociones de probabilidad que nos permitirán en lo que sigue obtener,
a partir de los datos, conclusiones acerca de la población de la cual éstos proceden.
En general, como resultado de una investigación pretendemos INFERIR el valor de algún
parámetro poblacional a partir de una muestra.

Recordemos,
PARÁMETRO ⇒ es un número que describe a una población
ESTADÍSTICO ⇒ es cualquier número calculado a partir de los datos.

Una de las armas más importantes que provee la Estadística es la posibilidad de obtener
conclusiones generales a partir de un conjunto limitado – pero representativo – de datos. Cuando
inferimos no tenemos garantía de que la conclusión que obtenemos sea exactamente correcta.
Sin embargo, la teoría estadística nos permite cuantificar el error asociado a la estimación.
En lo que sigue, centraremos nuestra atención en el problema de estimar la media poblacional µ,
aunque las ideas que presentaremos son similares a las que se utilizan para realizar inferencia
sobre cualquier otro parámetro poblacional.

Distribución de muestreo de un estadÍstico.

Distintas muestras tomadas de la misma población (aún cuando tengan el mismo tamaño y sean
obtenidas con los mismos criterios) producirán distintos valores del estadístico de interés, es
decir, nuestra estimación dependerá de la muestra que hayamos seleccionado. Por lo tanto, una
pregunta clave a responder es:
¿Cuán variables son los valores del estadístico de muestra en muestra?
Para responder a esta pregunta consideraremos nuevamente la caja del Ejemplo 2. Recordemos
que la caja contiene cuatro tickets, con los números 10, 20, 30 y 40. Sea X = valor obtenido al
sacar un ticket de la caja.
La distribución de probabilidad de la variable X es:

x P(X = x)
10 0.25
20 0.25
30 0.25
40 0.25
1.00

2021 136
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Recordemos que los valores de la media y la varianza de esta variable en la población son:
µ = E(X) = 25 V(X) = σ2 = 125
Supongamos que nos interesa estimar la media en la caja (µ), y para hacerlo tomamos una
muestra aleatoria de tamaño n = 2. ¿Cuáles son los valores de X que podemos obtener? ¿Cuán
variables son?

La tabla siguiente presenta un listado de todas las muestras aleatorias de tamaño n = 2 que
pueden obtenerse a partir de nuestra caja, cuando se utiliza muestreo con reposición (se extrae
un ticket, se registra su valor y se devuelve a la caja).

Muestras posibles x P( x )
1º obs. 2º obs.
10 10 10 1/16
10 20 15 1/16
10 30 20 1/16
10 40 25 1/16
20 10 15 1/16
20 20 20 1/16
20 30 25 1/16
20 40 30 1/16
30 10 20 1/16
30 20 25 1/16
30 30 30 1/16
30 40 35 1/16
40 10 25 1/16
40 20 30 1/16
40 30 35 1/16
40 40 40 1/16

Las muestras que obtenemos son aleatorias, en consecuencia, el valor del estadístico que nos
interesa (en este ejemplo la media muestral) también es aleatorio. Es decir, la media muestral es
una variable aleatoria (varía de muestra en muestra) y tiene asociada una distribución de
probabilidades a la que denominamos DISTRIBUCIÓN DE MUESTREO DE LA MEDIA.

La distribución de muestreo de X cuando n = 2 se obtiene a partir de la tabla anterior y resulta


ser:

2021 137
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

x P( x ) P( x )
10 1/16 0.063
15 2/16 0.125
20 3/16 0.188
25 4/16 0.250
30 3/16 0.188
35 2/16 0.125
40 1/16 0.063
1 1.00

0.3

0.25

0.2

0.15

0.1

0.05

0
0 5 10 15 20 25 30 35 40 45 50

Calculemos la media y la varianza de la media muestral:


1 2 2 1
µ X = E ( X ) = 10 ⋅ + 15 ⋅ +  + 35 ⋅ + 40 ⋅ = 25
16 16 16 16
2 1 2 1
σX = V ( X ) = (10 − 25) 2 ⋅ + (15 − 25) 2 ⋅ +  + (40 − 25) 2 ⋅ = 62.5
16 16 16

En este ejemplo, la esperanza de la media coincide con la media en la caja (µ), y la varianza de los
promedios muestrales resulta ser la mitad de la varianza de la variable (σ2).

2021 138
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

¿Cuál será la distribución de la media muestral cuando tomamos muestras de tamaño n = 5? En


este caso existen 1024 muestras posibles, por lo que no presentaremos el listado de todas las
muestras y sólo resumiremos su distribución de probabilidad.

x P( x )
10 0.001
12 0.005
14 0.015
16 0.034
18 0.063
20 0.099
22 0.132
24 0.151
26 0.151
28 0.132
30 0.099
32 0.063
34 0.034
36 0.015
38 0.005
40 0.001
1.000

Cuando tomamos muestras de tamaño n = 5 la media y la varianza de X resultan ser:


µ X = E (X) = 10 ⋅ 0.001 + 12 ⋅ 0.005 +  + 38 ⋅ 0.005 + 40 ⋅ 0.001 = 25
σ X2 = V ( X ) = (10 − 25) 2 ⋅ 0.001 + (12 − 25) 2 ⋅ 0.005 +  + (40 − 25) 2 ⋅ 0.001 = 25

σ2 125
V (X ) = = = 25
Por lo tanto, con n = 5 n 5

2021 139
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Las gráficas siguientes muestran cómo cambia la distribución del estadístico X cuando se toman
muestras de tamaño 2, 5, 10, 25 y 100 de esta población. En los gráficos se respetó siempre la
misma escala en el eje horizontal, para mostrar cómo disminuye la dispersión de la distribución
de muestreo al aumentar el tamaño de muestra. El hecho de usar siempre la misma escala
distorsiona la imagen de la distribución, por esa razón se presenta al pie, la distribución
correspondiente a n = 100 en una escala apropiada.

¿Qué se observa?

1. Cualquiera sea el tamaño de muestra, la media de la distribución de promedios muestrales


𝜇𝜇𝑋𝑋� coincide con la media de la variable 𝜇𝜇.
µX = µ

Gráfico 5. Distribución de la media muestral.

2021 140
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Distribución poblacional Distribución de la media muestral n=2


0.30 0.30

0.25 0.25

0.20
probabilidad

0.20

probabilidad
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0 10 20 30 40 50 0.00
0 5 10 15 20 25 30 35 40 45 50
x
media muestral

Distribución de la media muestral n=5


Distribución de la media muestral n=10
0.20
0.12

0.10
0.15

0.08
probabilidad

probabilidad

0.10
0.06

0.04
0.05

0.02
0.00
0.00
0 5 10 15 20 25 30 35 40 45 50
0 10 20 30 40 50
media muestral
media muestral

Distribución de la media muestral n=25 Distribución de la media muestral n=100


0.20 0.40

0.35

0.15 0.30

0.25
probabilidad
probabilidad

0.10 0.20

0.15

0.05 0.10
0.05

0.00 0.00
0 5 10 15 20 25 30 35 40 45 50 0 10 20 30 40 50
media muestral media muestral

Distribución de la media muestral n=100


0.40

0.35

0.30
0.25
probabilidad

0.20
0.15
0.10
2021 141
0.05
0.00
22 23 24 25 26 27 28
media muestral
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Decimos que X es un estimador insesgado de µ, ya que su esperanza coincide con el parámetro


que pretende estimar.
2. La varianza de X disminuye a medida que aumenta el tamaño de muestra. Por lo tanto,
cuando n es grande la media obtenida en cualquiera de las muestras posibles se parece mucho
a la media de la población. Puede demostrarse que la varianza de los promedios muestrales
es

2 σ2
σX =
n
y en consecuencia el desvío estándar de la distribución de la media muestral, denominado ERROR
ESTANDAR DE LA MEDIA es
σ
σX =
n

Nota: El error estándar de la media nos indica cuán variables son las medias obtenidas en distintas
muestras (tamaño n), mientras que el desvío estándar σ mide la variabilidad de las observaciones
poblacionales (variabilidad en la caja de la cual tomamos muestras).
A medida que aumenta el tamaño de muestra, la forma de la distribución de muestreo (del
histograma de los promedios) se parece más y más a la distribución normal.

Estas características que hemos presentado para el caso de una variable discreta (X puede tomar
sólo cuatro valores: 10, 20, 30, 40), se observan siempre, independientemente de la distribución
de la variable considerada.
A continuación se presentan otros ejemplos en los que se simuló la extracción de muestras de
tamaño 2, 5 y 30, a partir de una población y se realizaron histogramas con los distintos valores
de X obtenidos, con una variable discreta, con una simétrica y una asimétrica ( en la primera
línea para una variable discreta, en la segunda para una variable uniforme y en la última para una
variable exponencial)

2021 142
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Gráfico 6.

2021 143
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Este resultado que hemos presentado empíricamente se conoce con el nombre de TEOREMA
CENTRAL DEL LíMITE, y dice:
Sea X una variable con media µ y varianza σ2, con cualquier distribución. Cuando n es
suficientemente grande, la distribución de la media muestral X es aproximadamente normal con
media µ y desviación estándar σ / n . Es decir, cuando n es suficientemente grande

 σ2
X ≈ N  µ , 
 n 
o lo que es lo mismo,

X−µ
≈ N (0, 1)
σ/ n

(≈ se lee “ tiene distribución aproximada”).


Cuando la variable X tiene distribución normal entonces X tiene distribución normal
independientemente del tamaño de muestra.

Comentarios.
 El Teorema Central de Límite (TCL), en la versión que hemos presentado, supone que las
observaciones son independientes, es decir que la muestra es aleatoria.
 ¿Cuándo consideramos n suficientemente grande para que valga la aproximación normal
al histograma de los promedios?
 Depende de la forma de la distribución de la variable. Si ésta es razonablemente simétrica,
la aproximación vale incluso para valores muy pequeños de n. Si la distribución es
fuertemente asimétrica o con muchos outliers, es necesario un n muy grande para que el
histograma de los promedios pueda ser aproximado por la curva normal.
 En la práctica usualmente se toma una ÚNICA muestra o se realiza un único experimento
y no se los repite. Sin embargo, la idea de que podríamos repetirlo (con sólo tener
suficiente tiempo y dinero) y que ésto resultaría en muestras diferentes de la actual,
constituye la base para interpretar la variabilidad del estadístico y es un paso fundamental
en el razonamiento estadístico. La inferencia se basa en una pregunta simple: ¿Qué
hubiera ocurrido si la muestra o el experimento hubieran sido repetidos muchas veces?
 En general se toma como cota inferior al número 30, es decir, se considera n
suficientemente grande si es mayor o igual que 30.

2021 144
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ejercicio
Supongamos que la distribución del colesterol sérico en hombres de 20 a 74 años es normal con
media µ = 210 mg/100 ml, y desviación estándar σ = 40 mg/100 ml.
a) Se selecciona un hombre al azar de esa población y se determina su nivel de colesterol. ¿Cuál
es la probabilidad de que este señor tenga valor de colesterol mayor que 230 mg/100 ml?

b) ¿Qué proporción de los hombres de esta población tienen valores de colesterol mayor que
230 mg/100 ml?

c) Se toma una muestra aleatoria de 16 individuos de esta población. ¿Cuál es la probabilidad de


que la media muestral sea mayor que 230 mg/100 ml?

d) ¿ Qué proporción de las muestras de tamaño 16 tomadas a partir de esta población producirán
promedios mayores que 230 mg/100 ml?

e) Se toma una muestra aleatoria de 64 individuos de esta población. ¿Cuál es la probabilidad de


que la media muestral sea mayor que 230 mg/100 ml?

f) Si usted no conociera la distribución de la variable colesterol sérico, ¿podría responder cada


una de las preguntas anteriores?

2021 145
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Sección 4
TEST DE HIPÓTESIS

El objetivo en muchos estudios es chequear si los datos concuerdan con ciertas predicciones o
hipótesis acerca de variables medidas en el estudio. Muchos problemas de ingeniería, medicina,
biología y economía (por mencionar sólo algunos ejemplos) requieren que se tome una decisión
entre aceptar o rechazar una afirmación sobre algún parámetro. Esta proposición recibe el
nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto
que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de
la ingeniería, pueden formularse como problemas de prueba de hipótesis. Por ejemplo,
supongamos que se tiene interés en la velocidad de combustión de un agente propulsor sólido
utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés se
centra sobre la velocidad de combustión promedio. De manera específica, el interés recae en
decir si la velocidad de combustión promedio es o no de 50 cm/s.
El valor numérico asociado a la comparación de interés se denomina EFECTO, en este caso 50
cm/s sería el efecto y la comparación de interés se realiza sobre la media o esperanza de la
variable aleatoria: velocidad de combustión ( en cm/s).

Hipótesis
Una hipótesis es una afirmación acerca de alguna característica de una variable o de una colección
de variables.

En los problemas de comparación es posible establecer dos hipótesis contrapuestas


⇒ Hipótesis Nula Ho: No existe efecto (el efecto es cero o nulo).
⇒ Hipótesis Alternativa H1: Existe efecto (el efecto es distinto de cero o no nulo).

En general, la hipótesis nula (Ho) es la negación de la hipótesis del investigador, indica la posición
de que nada cambia, de que el tratamiento no tiene efecto. La hipótesis alternativa (H1),
representa la posición del investigador.
En el ejemplo,
Ho: µ = 50 cm/s
2021 146
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

H1: µ ≠ 50 cm/s
Si interesa probar que el tratamiento A es mejor que el B para curar el dolor de cabeza, las
hipótesis serán:
Ho: los dos tratamientos son igualmente efectivos
H1: el tratamiento A es mejor que el B

Aún cuando no existan diferencias en los tratamientos, es común observar diferencias en los
resultados de los dos grupos debido al hecho de haber tomado muestras aleatorias de pacientes
para realizar el experimento. Un TEST DE HIPÓTESIS responde a la pregunta:

¿La diferencia observada es real o puede ser atribuida al azar?


Las hipótesis son planteadas a partir de la teoría que induce a realizar el experimento o la
investigación. Cuando una hipótesis se relaciona con características poblacionales, tales como
parámetros poblacionales, es posible utilizar métodos estadísticos y un conjunto de datos para
decidir cuál de ambas hipótesis tiene mayor verosimilitud.
Ejemplos de hipótesis que podrían ser testeadas estadísticamente son:
• La supervivencia de pacientes con cáncer de mama tratadas con tamoxifeno es mayor que
la de pacientes no tratadas.
• El nivel de colesterol sérico es mayor en varones que en mujeres de la misma edad.
• La mayoría de los argentinos afiliados a una obra social están satisfechos con el servicio
de salud que la misma les presta.
• La proporción de habitantes de GBA a favor de una propuesta política es mayor que 0.4.
• El porcentaje de la población de hogares que miran un determinado programa de TV de
20 a 21 hs es 15.2 ( “15.2 puntos de rating”).
• El número de aviones que salen de Aeroparque los días lunes tiene una tasa de 5 aviones
por hora.
En este capítulo introduciremos métodos estadísticos que permiten tomar una decisión acerca
de la plausibilidad de las hipótesis, utilizando la evidencia que aportan los datos. El procedimiento
es estadístico en el sentido que usa los datos de una muestra para realizar inferencia y puede
controlar la probabilidad asociada a decisiones incorrectas.
A continuación presentaremos las ideas básicas de un test de hipótesis a través de un ejemplo
relacionado con las ventajas de permitir el horario flexible como forma de reducir el ausentismo
en una gran empresa.

2021 147
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

ELEMENTOS DE UN TEST DE HIPÓTESIS


A instancias de un sociólogo, una gran empresa con 5000 empleados introduce el horario flexible
(cada empleado elige su propio horario dentro de ciertos límites), y le interesa decidir si tal como
ha sido propuesto, este “tratamiento” reduce efectivamente el ausentismo.
Las hipótesis para esta situación son:

Ho: el horario flexible no tiene efecto


H1: el horario flexible reduce el ausentismo
Durante todo un año se hace un seguimiento detallado de una muestra de 100 empleados
elegidos al azar. Al final del año, el promedio de días de ausentismo en esta muestra de 100
empleados (excluyendo días de vacaciones) resultó ser 5.4 días con un desvío estándar de 3 días.
Los registros históricos de la empresa muestran que el ausentismo promedio de un empleado es
de 6.3 días por año.
La pregunta es ¿la disminución observada está indicando que el tratamiento (horario flexible) es
efectivo o puede ser que por azar hayan sido seleccionados en la muestra los empleados que
menos faltan?
Nuestra población son los 5000 empleados de la fábrica, pero sólo tenemos información sobre
una muestra aleatoria de 100 empleados.
Imaginemos que cada empleado de la empresa puede ser representado con un ticket, que tiene
indicado los días que faltó ese empleado en el año. Ponemos los 5000 tickets en una caja y
seleccionamos al azar 100.
X = número de días de ausentismo de un
empleado.
µ = media poblacional desconocida
µ
x = media muestral = 5.4 días
s = desvío estándar muestral = 3 días
n = 100

Interesa saber:
• si la información de la muestra es suficiente evidencia para decidir que el promedio en la
caja (µ) descendió
o
2021 148
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

• si el horario flexible no tiene efecto, es decir el promedio en la caja es igual al promedio


histórico (6.3 días) y por azar se seleccionó una muestra con muchos números bajos
Lo que nos interesa es el promedio en la caja (µ), pero como ya se dijo, sólo tenemos información
sobre una muestra de 100 datos.

¿Cómo decidimos entre las dos hipótesis?

1) Proponemos un MODELO PROBABILÍSTICO para el problema y traducimos las hipótesis


originales en hipótesis estadísticas en términos de parámetros poblacionales:
Ho: µ = 6.3 días (el horario flexible no tiene efecto)
H1: µ < 6.3 días (el horario flexible reduce el ausentismo)

2) Suponemos que la hipótesis nula es VERDADERA (la media en la caja es 6.3 días) y calculamos
cuán alejado está el valor observado en nuestra muestra del valor que esperamos observar
cuando Ho es verdadera. Para ello propondremos un ESTADÍSTICO que mida esta distancia.

media muestral - media poblacional (bajo H o )


ESTADÍSTICO =
ESM

Como no conocemos la desviación estándar poblacional, la estimaremos por la desviación


estándar muestral, s = 3 días. Entonces, el error estándar del promedio es:

3 3
ESM = = = 0.3 días
100 10
valor propuesto en Ho
X − µ 5.4 − 6.3
ESTADÍSTICO = Z = = = −3
ESM 0.3

3) Calculamos la probabilidad de obtener una muestra con una media muestral como la obtenida
o más alejada del valor que propone Ho.

2021 149
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Para calcular esta probabilidad es necesario conocer la DISTRIBUCIÓN DEL ESTADÍSTICO, es


decir la distribución de los promedios muestrales. Como nuestra muestra tiene gran cantidad
de datos, la distribución de los promedios será aproximadamente normal (Teorema Central
del Límite).

1.4

1.2

0.8

0.6

0.4

0.2

5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5

-4 -3 -2 -1 0 1 2 3 4

Usando la Tabla N(0, 1) ⇒ P(X ≤ 5.4) = P(Z ≤ −3) = 0.001

Esta probabilidad se denomina p-valor. Es una medida de cuán consistentes son nuestros
datos con la hipótesis nula.
Cuanto más pequeño el p-valor, mas fuerte es la evidencia para RECHAZAR la hipótesis nula.

¿Cómo interpretamos el p-valor?


Comenzamos suponiendo que la hipótesis nula es verdadera (la caja tiene media µ = 6.3) e
imaginamos a muchos investigadores repitiendo el experimento en idénticas condiciones.
Este p-valor nos dice que sólo 1 de cada 1000 investigadores obtendrán un valor del
estadístico tan alejado del valor propuesto por la Ho como el que Ud. obtuvo. Dicho de otro
modo, sólo 1 de cada 1000 muestras aleatorias tomadas de una caja con µ = 6.3 tendrán un
promedio como el que hemos observado (5.4 días) o más pequeño aún.

4) Finalmente, tomamos una DECISIÓN respecto de si nuestros datos contradicen o no la


2021 150
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

hipótesis nula.
En nuestro ejemplo, el p-valor (la probabilidad de obtener una muestra como la que hemos
obtenido o más extraña) es muy pequeña, por lo que concluimos que la diferencia entre lo
observado en la muestra y lo que esperaríamos observar si Ho es verdadera, es demasiado
grande para ser atribuida al azar. Ésto nos conduce a RECHAZAR Ho y concluir que el promedio
en la caja disminuyó, es decir que la hipótesis alternativa (H1) es verdadera.
Podemos concluir entonces que hemos observado una reducción estadísticamente
significativa en el promedio de días de ausentismo en empleados sometidos al horario flexible
(p = 0.001).
¿Cómo se toma la decisión de rechazar o no la hipótesis nula?
Cuanto más pequeño el p-valor, mayor es la evidencia para rechazar Ho.
Un p-valor cercano a 1 nos dice que los datos son consistentes con la hipótesis nula. Un p-
valor muy pequeño es evidencia en contra de la hipótesis nula, nos dice que los datos son muy
improbables cuando Ho es verdadera.
Pero, ¿qué decisión se toma frente a p-valores no tan extremos? Lo que hacemos es definir
un valor de corte, que se denomina nivel de significación del test y que se denota α y usar el
siguiente criterio: Si
p-valor < α decimos que el resultado es estadísticamente significativo,
p-valor << α decimos que el resultado es altamente significativo.
Usualmente se considera α = 0.05.

Comentarios.
 En el ejemplo hemos demostrado que en la población de empleados el ausentismo
disminuyó. Es decir, la disminución observada en la muestra fue REAL y no atribuible a
variabilidad aleatoria. Sin embargo, ¡no podemos asegurar que la CAUSA de esta
reducción haya sido el horario flexible!. Podría haber muchas otras razones que expliquen
una disminución del ausentismo en este año respecto del promedio histórico (por
ejemplo, un aumento en el índice de desocupación).
 Es importante distinguir entre significación estadística e importancia práctica. Un p-valor
muy pequeño, tal como p=0.0001, no necesariamente implica un hallazgo importante
desde el punto de vista práctico. Simplemente significa que si la hipótesis nula fuera
cierta, la muestra obtenida es realmente atípica.
 En nuestro ejemplo, la reducción de los días de ausentismo fue significativa, sin embargo
2021 151
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

la empresa deberá evaluar si la magnitud del cambio es suficientemente grande como


para justificar que se aplique el nuevo tipo de horario teniendo en cuenta los costos y
beneficios del mismo.
 Un p-valor pequeño provee evidencia en contra de Ho, ya que la muestra observada es
improbable cuando Ho es verdadera. Por otro lado, si el p-valor no es pequeño la hipótesis
nula es plausible. En este caso la conclusión debe reportarse como “No se rechaza Ho”, ya
que los datos no contradicen Ho.
 Ésto no significa que “aceptemos Ho” o que podamos asegurar que Ho es necesariamente
verdadera. Simplemente concluimos que la evidencia en nuestros datos no ha sido
suficiente para rechazarla.
 El p-valor NO ES la probabilidad de que la hipótesis nula sea verdadera. En una aplicación
particular, la hipótesis nula es verdadera o es falsa, no es correcto hablar de probabilidad
de que la hipótesis nula sea verdadera.

HIPÓTESIS ALTERNATIVA UNILATERAL Y BILATERAL.


En nuestro ejemplo sobre el horario flexible, propusimos las siguientes hipótesis
Ho: µ = 6.3 días versus H1: µ < 6.3 días
La misma hipótesis nula puede ser contrastada con 3 diferentes hipótesis alternativas:
Ho: µ = 6.3 días versus
a) H1: µ < 6.3 días (el horario flexible disminuye el ausentismo)
b) H1: µ > 6.3 días (el horario flexible aumenta el ausentismo)
c) H1: µ ≠ 6.3 días (el horario flexible modifica el ausentismo)

Las dos primeras se denominan hipótesis UNILATERALES (a una cola), ya que proponen que el
cambio (si se produce) es en una única dirección. La última hipótesis se denomina BILATERAL (a
dos colas), y pretende detectar apartamientos de la hipótesis nula en cualquier dirección.
La hipótesis alternativa de un test define la región de rechazo, así como la dirección en la que se
calculará el p-valor. En nuestro ejemplo, hemos calculado el p-valor como la probabilidad de que
ocurran valores como el observado o menores que él. Tomamos el área bajo la curva normal a la
izquierda del valor observado en la muestra, porque son éstos los valores del estadístico que
proveen evidencia en contra de Ho pero a favor de H1. Es la hipótesis alternativa la que determina
la dirección (o las direcciones) en la que debe calcularse el p-valor. En los gráficos siguientes se
muestra cómo se calcula el p-valor (p-valor = área sombreada) para cada alternativa.
2021 152
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

H1: µ < 6.3 días H1: µ > 6.3 días H1: µ ≠ 6.3 días
xobs

p
p

x obs
x obs x obs

En la práctica los test bilaterales (a dos colas) son más comunes que los tests unilaterales (a una
cola). Aún cuando el investigador pueda predecir la dirección del cambio, los tests a dos colas
permiten además detectar efectos que se producen en la dirección contraria a la esperada.
Si uno tiene evidencia previa al experimento de que el cambio se producirá en un cierto sentido,
es conveniente plantear una hipótesis unilateral.
Si no se tiene información, se DEBE plantear una hipótesis bilateral. Las hipótesis deben
proponerse ANTES de mirar los datos, la evidencia de la muestra no debe ser usada para decidir
cómo plantear la hipótesis alternativa.
El investigador debería honestamente preguntarse si, de encontrar un resultado que contradice
su expectativa, lo informaría. Si la respuesta es afirmativa, entonces debería plantear una
alternativa bilateral.
Nota. Recordar que las hipótesis se plantean sobre parámetros poblacionales desconocidos (por
ejemplo la media poblacional µ), NUNCA sobre un estadístico muestral (tal como X ). No
tenemos incerteza acerca del valor de un estadístico muestral, ya que dicho valor se calcula a
partir de los datos y, por lo tanto, no tenemos necesidad de hacer inferencia respecto a él.

DECISIONES Y TIPOS DE ERRORES EN UN TEST DE HIPÓTESIS


Un test de hipótesis es un procedimiento que nos permite tomar una decisión en base a
información parcial y limitada proveniente de una única muestra. Cualquiera sea la decisión que

2021 153
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

tomemos, es posible que estemos cometiendo un error. La Tabla siguiente resume los dos tipos
de errores que se pueden cometer.

Realidad
Ho verdadera Ho falsa
Rechazar Ho Error tipo I O.K.
Decisión basada en la
muestra No rechazar Ho O.K. Error Tipo II

Definimos:
• Error de Tipo I ⇒ Rechazar la hipótesis nula cuando es verdadera
• Error de Tipo II ⇒ No rechazar la hipótesis nula cuando es falsa
• α = P(error tipo I) = P(rechazar Ho cuando Ho es verdadera) =
= NIVEL DE SIGNIFICACIÓN DEL TEST

• β = P(error tipo II) = P(no rechazar Ho cuando Ho es falsa)

• π = P(rechazar Ho cuando Ho es falsa) = 1− β = POTENCIA DEL TEST

El nivel de significación de un test (α) es el mayor valor p para el cual se rechazaría la hipótesis
nula. Este valor lo decide el investigador y tal como ocurre con los intervalos de confianza, la
elección de α refleja cuanta protección pretende el investigador respecto de la posibilidad de
cometer error de tipo I. Mientras menor sea α, mayor será la evidencia necesaria para rechazar
la hipótesis nula.
Para evitar sesgos en el proceso de toma de decisión, el nivel α debe seleccionarse ANTES de
analizar los datos.
La probabilidad de cometer error tipo II (β) y la potencia del TEST (π) dependen de la magnitud
del efecto que estamos estudiando (que es desconocida) y del tamaño de muestra. Es posible
obtener un test de una potencia tan grande como se desee (o un β tan pequeño como se desee)
eligiendo un tamaño de muestra apropiado. Más adelante veremos cómo decidir el tamaño de
muestra en función de la potencia deseada para el test para diferentes tipos de estudio.

REGIONES DE RECHAZO Y DE NO RECHAZO

2021 154
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Para cada test de nivel de significación α, existe un conjunto de valores del estadístico que
conducen a rechazar Ho y que proveen evidencia a favor de la hipótesis alternativa, al que
denominaremos región de rechazo y otro conjunto de valores del estadístico que conducen a no
rechazar Ho al que llamaremos región de no rechazo. El gráfico siguiente muestra estas regiones
para un test de nivel α, cuyas hipótesis son:
Ho: µ = 6.3 días versus H1: µ < 6.3 días

1.4

1.2

0.8

0.6

α
0.4

0.2

5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5

-4 -3 -2 -1 0 1 2 3 4

Región de RECHAZO Región de NO RECHAZO


Eligiendo X = 5.81
α = 0.05 
 Z = −1.645

Es decir, en este test, la región de rechazo está constituida por todos los valores de Z ≤ -1.645 ya
que P(Z ≤ -1.645) = 0.05 o equivalentemente por todos los valores de X ≤ 5.8 1, ya que
X − 6.3
Z= = −1.645 ⇒ X = −1.645 ⋅ 0.3 + 6.3 ⇒ X = 5.807
0.3
La región de rechazo depende del nivel del test y de la dirección de la hipótesis alternativa.
El investigador controla la probabilidad de error de tipo I al definir el nivel de significación del
test.
Las regiones de rechazo y no rechazo para los tres tipos de hipótesis se muestran en el gráfico
2021 155
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

siguiente.
H1: µ < 6.3 días H1: µ > 6.3 días H1: µ ≠ 6.3 días
1.4 1.4 1.4

1.2 1.2 1.2

1 1 1

0.8 0.8 0.8

0.6 0.6 0.6

0.4 0.4 0.4

0.2

0
α 0.2

0
α 0.2

0
α/2 α/2
5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5

R. Rechazo R. No Rechazo R. No Rechazo R. Rechazo R Rechazo R. no.R. R Rechazo

¿Cómo elegir el nivel α de un test?


Mientras más grave sean las consecuencias de un error de tipo I más pequeño debe ser α.
Consideremos el caso en que la hipótesis alternativa plantea que una nueva droga para tratar
cierta enfermedad es mejor que una droga de uso estándar, la que se sabe que es segura. Si
rechazamos Ho, debería indicarse la nueva droga en lugar de la droga estándar. Por lo tanto,
puede ser preferible trabajar con un nivel de significación α ≤ 0.01, de modo que los datos deban
contradecir fuertemente la hipótesis nula para que ésta sea rechazada y de este modo disminuir
la probabilidad de error de tipo I. Por otro lado, cuando se trata de proponer futuras hipótesis de
investigación, no es necesario ser demasiado exigente y es posible trabajar, por ejemplo, con α =
0.10.

Potencia y Error tipo II


Un error de tipo II ocurre cuando no rechazamos Ho siendo ésta falsa. Consideremos el test
unilateral planteado al comienzo de este parágrafo, en el cual la hipótesis alternativa es H1: µ <
6.3 días. Como puede observarse en el siguiente gráfico, la probabilidad de error tipo II depende
de cuán lejos está el verdadero valor del parámetro del valor propuesto en Ho. Cuando µ = 5.7 la
probabilidad de error de tipo II es cercana al 50%, mientras que cuando µ = 5.1 la probabilidad de
error tipo II es muy pequeña, y en consecuencia la potencia es cercana a 1.

2021 156
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

1.4

1.2

0.8

0.6

0.4 π β
α
0.2

4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5
Región de Rechazo Región de No Rechazo
1.4

1.2

0.8

0.6
π
0.4
β

α
0.2

4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5

Siguiendo con el test de nuestro ejemplo


Ho: µ = 6.3 versus H1: µ < 6.3
la región de rechazo para un nivel de significación α = 0.05 estaba definida por los valores de Z ≤
−1.645 o equivalentemente de X ≤ 5.8 .
Calcularemos la potencia del test y la probabilidad de error tipo II para distintos valores de µ.

µ = 6.0 Potencia = P(rechazar H o cuando µ = 6.0) = P( X ≤ 5.8 cuando µ = 6.0) =


 X − 6.0 5.8 − 6.0 
= P ≤  = P(Z ≤ −0.66 ) = 0.255
 0.3 0.3 
β = 1 – potencia = 0.745
µ = 5.7 Potencia = P(rechazar H o cuando µ = 5.7) = P( X ≤ 5.8 con µ = 5.7) =
 X − 5.7 5.8 − 5.7 
= P ≤  = P(Z ≤ 0.33) = 0.629
 0 .3 0. 3 
β = 1 – potencia = 0.371

2021 157
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

µ = 5.1 Potencia = P(rechazar H o cuando µ = 5.1) = P( X ≤ 5.8 cuando µ = 5.1) =


 X − 5.1 5.8 − 5.1 
= P ≤  = P(Z ≤ 2.33) = 0.99
 0.3 0.3 
β = 1 – potencia = 0.01

La probabilidad de error de tipo II o la potencia de un test dependen de cuán lejos se encuentre


el verdadero valor del parámetro del valor propuesto en Ho. Si el verdadero valor del parámetro
es cercano al valor propuesto en Ho la probabilidad de error de tipo II (β), puede ser muy grande
y la potencia pequeña. Mientras más alejado esté el verdadero valor del parámetro del valor
especificado en Ho, mayor es la potencia del test. Por esta razón, decimos que el test tiene
asociada una FUNCIÓN DE POTENCIA.

¿Cómo cambia la potencia del test al modificar el nivel de significación α?


Las probabilidades de error de tipo I y II están inversamente relacionadas. Cuando α disminuye,
β aumenta y viceversa (ver Figura siguiente). En otras palabras, mientras más fuerte sea la
evidencia requerida para rechazar Ho (o sea mientras menor sea α) más probable es que
fracasemos en detectar una diferencia real.
1.4 1.4

1.2 1.2

1 1

0.8 0.8

0.6 0.6

0.4

β 0.4

β
α
0.2 0.2

0 0 α
4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2

¿Cómo cambia la potencia del test al modificar el tamaño de muestra?


Consideremos un test de nivel de significación α fijo. Es posible disminuir la probabilidad de error
de tipo II (β) o aumentar la potencia usando una muestra de mayor tamaño.
Si en nuestro ejemplo tomásemos una muestra de tamaño 400 en vez de una muestra de tamaño
100, la distribución de muestreo tendría un ESM = 3/20 = 0.15 y por lo tanto, la probabilidad de
error de tipo II cuando µ = 5.7, se modifica al aumentar el tamaño de muestra, según muestra la
figura.

2021 158
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

1.4

1.2

0.8

n = 100
0.6

0.4

0.2

α β
0

4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5

2.5

1.5

0.5

n = 400
0 α β
4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5

En la práctica el investigador sólo decide el nivel de significación del test. Respecto de la potencia
puede:
• Calcular el tamaño de muestra necesario para asegurar una potencia razonablemente alta
para un valor del parámetro lo suficientemente alejado del valor propuesto en Ho, de modo
que la conclusión sea técnicamente valiosa.
• Cuando los recursos son acotados, y es imposible lograr el tamaño de muestra resultante del
cálculo anterior, es aconsejable calcular la potencia que tendrá el test para este mismo valor
del parámetro y para el tamaño de muestra factible. Cuando esta potencia resulta muy baja,
este sencillo cálculo puede llevar a la decisión de no realizar la investigación.

Comentario
Siempre que aplicamos un test, la conclusión puede o no ser correcta. Cuando rechazamos la
hipótesis nula podemos estar frente a un falso positivo (error de tipo I), mientras que si la
conclusión es no rechazar Ho podemos estar frente a un falso negativo (error de tipo II). Aunque
en una aplicación particular no sabemos si la conclusión es correcta, el procedimiento se justifica
en términos de la proporción de veces que se cometen estos dos tipos de errores en muchas
2021 159
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

repeticiones del procedimiento.

CÁLCULO DEL TAMAÑO DE MUESTRA

En el punto anterior mostramos a través de un ejemplo, la forma en que se calcula la potencia de


un test de nivel α y el tamaño de muestra n.
En la etapa de diseño de una investigación es necesario formularse la siguiente pregunta: ¿Qué
tamaño de muestra deberíamos usar para obtener una potencia grande (cercana a 1) cuando la
media poblacional es µ1?
Para poder calcular ese tamaño de muestra es necesario proponer algún valor para la varianza σ2
de la variable.
Presentamos a continuación expresiones que permiten calcular el tamaño de muestra para un
test de nivel α para las hipótesis unilateral y bilateral, cuando se pretende que la probabilidad de
error de tipo II para un valor dado de la media poblacional µ1 sea un cierto valor β (pequeño,
menor que 0.5).

Ho: µ = µo versus H1: µ > µo


Ho: µ = µo versus H1: µ ≠ µo
Ho: µ = µo versus H1: µ < µo
2 2
 ( zα + z β )σ   ( zα / 2 + z β )σ 
n=  n= 
 ( µ1 − µ o )   ( µ1 − µ o ) 

donde:
µo es el valor del parámetro propuesto en Ho
µ1 es el valor del parámetro para el cual se pretende una determinada potencia
σ2 es un valor de la varianza propuesto por el investigador
zα, zα/2 y zβ son los valores de la N(0, 1) que dejan a su derecha un área α, α/2 y β
respectivamente.

Ejemplo
Supongamos que queremos realizar un test de nivel α = 0.01 para las hipótesis

2021 160
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ho: µ = 100 versus H1: µ > 100


con una potencia del 90% para la alternativa µ1 = 110 . Además, supongamos que se sabe que σ
= 22.

Datos: α = 0.01 entonces zα = 2.33


potencia = 0.90 entonces β = 0.10 y por lo tanto, zβ = 1.28
µo = 100
µ1 = 110
2 2 2
 ( zα + z β )σ   (2.33 + 1.28) ⋅ 22   79.42 
Entonces, n = 
( µ − µ )
 =
(110 − 100 )  =  10  = 63.07 o
 1 o     
n ≥ 64.
COMENTARIOS ACERCA DEL TAMAÑO MUESTRAL Y LA CONCLUSIÓN DEL TEST.

Es frecuente escuchar la opinión de que un estudio basado en una muestra de tamaño pequeño
tiene escaso valor y resulta poco concluyente. Esta afirmación no necesariamente es correcta. A
continuación analizaremos distintas posibilidades.
Cuando el resultado del test es negativo (no significativo) y el tamaño de muestra es pequeño,
esta afirmación es válida, ya que la probabilidad de error de tipo II puede ser muy grande.
Si, a pesar de tener una muestra pequeña, el resultado es positivo (test significativo), ésto indica
que el efecto que estamos analizando es suficientemente importante como para lograr ser
detectado a pesar del tamaño de muestra.
Respecto de los casos en que el tamaño de muestra es muy grande, y el resultado es significativo,
debemos ser cuidadosos en decidir sobre la importancia clínica o técnica del resultado, ya que un
gran tamaño de muestra puede conducir a declarar significativos efectos que en la práctica son
poco relevantes.
Finalmente, cuando el tamaño de muestra es muy grande y el resultado es no significativo,
estamos frente a un estudio concluyente ya que, si trabajando con gran potencia no fue posible
rechazar la hipótesis nula, ésto implica que si el efecto existe, es prácticamente despreciable.
Los comentarios anteriores son simplemente orientativos y no se aplican estríctamente a todas
las situaciones. Sólo son válidos cuando se trata de estudios libres de sesgo, ya que de lo contrario
es imposible decidir cuánto del efecto observado se debe al tratamiento aplicado y cuánto a error
sistemático.

2021 161
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Resumiendo:
n PEQUEÑO n MUY GRANDE
¡CONCLUYENTE! ¡CUIDADO!
RECHAZO HO El efecto es tan grande que aún con Chequear si la magnitud del efecto
un n pequeño pudo ser detectado. es técnicamente importante.
NO CONCLUYENTE
NO RECHAZO ¡CONCLUYENTE!
HO Es posible que el efecto exista y no
Si el efecto existe es despreciable.
pudiera ser detectado.

RELACIÓN ENTRE INTERVALO DE CONFIANZA Y


TEST DE HIPÓTESIS
Existe una equivalencia entre la decisión a la que se llega a través de un test bilateral de nivel α y
un intervalo de confianza de nivel 1–α. Ambos conducen a conclusiones consistentes. Si el test
dice que un particular valor del parámetro es plausible, entonces el intervalo de confianza
contendrá ese valor del parámetro.
Consideremos un test de nivel α = 0.05 basado en una muestra grande, para las hipótesis
Ho: µ = µo versus H1: µ ≠ µo

Si p < 0.05 ⇒ se rechaza Ho. Ésto implica que el estadístico Z del test es tal que:
X − μo X − μo
Z= > 1.96 o Z= < −1.96 .
ESM ESM

Es decir, X se encuentra a más de 1.96 ESM de distancia de µo. Pero, si ésto sucede, el intervalo
de confianza
(X − 1.96 ESM, X + 1.96 ESM)
no contiene a µo, el valor del parámetro propuesto en Ho. Ver figura siguiente.

2021 162
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

1.4

1.2

0.8

0.6

0.4

0.2
α/2 α/2
µo – 1.96 σ X µo µo + 1.96 σ X
0

R. Rechazo R. No Rechazo R. Rechazo


X - 1.96 ESM X + 1.96 ESM

En otras palabras, el intervalo y el test basados en la misma muestra son consistentes. Si el


intervalo de nivel 95% no contiene a µo, entonces el test bilateral de nivel 5% rechaza la hipótesis
nula Ho: µ = µo.

Podemos construir un test de nivel α para la hipótesis


Ho: µ = µo versus H1: µ ≠ µo
a partir del intervalo de confianza de nivel 1-α para el parámetro µ. La regla de decisión es la
siguiente:
Rechace Ho si el intervalo no contiene el valor µo propuesto en Ho.

¿Qué conviene informar: el resultado del test o un intervalo de confianza para el parámetro?
En una investigación en particular, raramente una hipótesis nula tal como Ho: µ = µo será
verdadera. Ésto es, raramente el verdadero valor del parámetro será exactamente igual al valor
propuesto en Ho. Con muestras suficientemente grandes, en las que β (la probabilidad de error
de tipo II) sea pequeña, la hipótesis nula en general será rechazada. Lo que es verdaderamente
relevante es si el verdadero valor del parámetro es suficientemente diferente del valor de la
hipótesis nula para ser de importancia.
Los tests de hipótesis son muy útiles. Sin embargo, su importancia suele estar sobrevaluada,
mientras que se subutilizan los intervalos de confianza.

2021 163
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Es conveniente construir intervalos de confianza para los parámetros que solamente informar las
conclusiones de los tests de hipótesis. Cuando un p-valor es pequeño, el test nos dice que el valor
del parámetro en la Ho no es plausible, pero no nos dice nada acerca de cuáles son los valores
posibles para el parámetro. Un intervalo de confianza, en cambio, nos muestra el conjunto de
valores plausibles para el parámetro.

Consideremos el siguiente ejemplo.


En una investigación, interesa estudiar si una nueva droga alivia el dolor lumbar agudo. Se
selecciona una muestra aleatoria de 225 pacientes que concurren al Servicio de Traumatología
consultando por dolor lumbar agudo y que satisfacen un conjunto de criterios de inclusión y
exclusión. Cuando el paciente es seleccionado y acepta participar, se le solicita que indique en
una escala analógica visual (0 a 100) su sensación de dolor, se le administra el medicamento y 30
minutos después se le solicita que indique nuevamente la sensación de dolor.
Llamaremos:
X = sensación dolor antes – sensación de dolor después = diferencia ( esta muestra se dice
apareada)
µ = media poblacional de las diferencias

Interesa realizar un test de nivel 0.05 para las hipótesis


Ho: µ = 0 versus H1: µ > 0

El estudio produce los siguientes resultados:

X= 6.7 s = 26.3 n = 225 mínimo = −61 máximo = 78


El estadístico del test es
X − μo 6.7 − 0 6.7
Z= = = = 3.82
ESM 26.3 / 225 1.753
Como n es grande, Z ≈ N(0, 1). Entonces,
p-valor = P(Z ≥ 3.82) = 0.00007
Conclusión: La nueva droga produce una disminución altamente significativa de la sensación de
dolor (p = 0.0007).

2021 164
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

El intervalo del 95% de confianza para la media de la disminución de la sensación de dolor es:
26.3
X ± 1.96 ESM = 6.7 ± 1.96 = 6.7 ±1.96 ⋅1.753 = 6.7 ± 3.4 = (3.3, 10.1)
225
Por lo tanto, estimamos que la media de la reducción del dolor en todos los pacientes de la
población a partir de la cual se seleccionó la muestra es un valor entre 3 y 10. La pregunta que
debemos hacernos aquí es: ¿Una reducción de entre 3 y 10 puntos en una escala de 100 es
importante desde el punto de vista clínico? (Notar que el rango de cambio de dolor reportado por
los pacientes va de un mínimo de −61 a un máximo de 78 puntos).
Si solamente informásemos el p-valor asociado al test podemos producir la impresión en los
lectores de que el efecto es muy importante, cuando en realidad el efecto es leve, pero tenemos
un tamaño de muestra que permite declararlo significativo.
Resumiremos a continuación los elementos básicos de un test de hipótesis.

ELEMENTOS BÁSICOS DE UN TEST DE HIPÓTESIS


1) Supuestos.
• Tipo de datos. Cada test se aplica a un tipo particular de datos: categóricos o
numéricos.
• Distribución de la variable. Para algunos tests se requiere que la variable tenga una
distribución particular, tal como la normal.
• Método de muestreo. Los tests presentados en este curso suponen que la muestra es
aleatoria simple.
• Tamaño de muestra. La validez de algunos tests basados en el Teorema Central del
Límite aumenta cuando el tamaño de muestra aumenta. Éstos requieren que la
muestra sea suficientemente grande para ser válidos.

2) Hipótesis.
• Ho ⇒ Hipótesis nula (valor del parámetro que indica “no efecto”)
• H1 ⇒ Hipótesis alternativa (intervalo de valores del parámetro que indican el efecto
propuesto por el investigador)
3) Estadístico del test
• Compara la estimación muestral del parámetro con el valor propuesto en la hipótesis
nula.
• Debe tener distribución conocida, exacta o aproximada.
2021 165
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

4) p – valor
• Peso de la evidencia acerca de Ho.
• Menor valor de p, mayor evidencia en contra de Ho.
5) Conclusión
• Reportar la conclusión acompañada del p-valor.
• Indicar la decisión formal.
TESTS DE HIPÓTESIS PARA LA MEDIA
En los ejemplos anteriores trabajamos con situaciones en las que el número de datos en la
muestra era suficientemente grande como para considerar que la distribución de la media
muestral era aproximadamente normal. Es común que la cantidad de observaciones en la muestra
sea pequeña, por lo que presentaremos distintos tests para este caso.
En primer lugar, resumiremos las características del test para muestras grandes. A continuación,
presentaremos el test t de Student, válido para el caso en que la variable de interés tiene
distribución normal y recordaremos los métodos que permiten evaluar si la distribución de los
datos es normal. Finalmente, presentaremos dos tests que no hacen supuestos fuertes acerca de
la distribución (tests no paramétricos).
En los casos en que sea posible, mostraremos cómo obtener un intervalo de confianza para el
parámetro de interés.
1 Test para muestras grandes
1.1 Test Z
Elementos del test
I. Supuestos
• Tamaño de muestra suficientemente grande (si la variable es cuantitativa, muchos autores
afirman que con n > 30 la aproximación es adecuada).
• Muestra aleatoria (ésto equivale a pedir observaciones independientes y con idéntica
distribución).

II. Hipótesis
• La hipótesis nula tiene la forma
Ho: µ = µo

2021 166
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

donde µo es algún valor particular propuesto por el investigador.


• La hipótesis alternativa puede ser cualquiera de las siguientes

a) H1: µ < µo b) H1: µ > µo c) H1: µ ≠ µo

III. Estadístico del test


X − μo X − μo
Z= = ≈ N (0,1)
ESM s/ n
IV. Cálculo del p-valor
a) H1: µ < µo b) H1: µ > µo c) H1: µ ≠ µo
p = P(Z ≤ Zobs) p = P(Z ≥ Zobs) p = 2 P(Z ≥ |Zobs|)
1.4 1.4 1.4

1.2 1.2 1.2

1 1 1

p
0.8 0.8 0.8

0.6 0.6 0.6

0.4

0.2
p
0.4

0.2
p 0.4

0.2

0 0 0

Z obs Z obs Z obs

donde:
• Zobs es el valor del estadístico calculado con los datos de nuestra muestra.
• |Zobs| = valor absoluto o módulo de Zobs.

V. Conclusión del test


Para un test de nivel de significación α, rechazamos Ho si p < α.
1.1.2. Intervalo de confianza para µ
El intervalo de confianza de nivel 1 – α para la media poblacional µ es

2021 167
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

s
X ± zα/2 n
donde zα/2 es el percentil de la distribución N(0, 1) que deja a su derecha un área α/2.
1.2 Test t de Student
El intervalo de confianza y el test para µ presentados arriba son válidos cuando la muestra es
grande. Ésto asegura que la distribución de muestreo de X es aproximadamente normal.
Además, asegura que la desviación estándar muestral estará suficientemente cerca de la
desviación estándar poblacional desconocida.
Sin embargo, en muchas investigaciones el número de observaciones es pequeño debido, por
ejemplo, al costo o al tiempo necesario para obtener un dato. Consideraremos ahora una
distribución propuesta por W. S. Gosset, en el año 1908, quién firmaba sus papers bajo el
seudónimo de Student.

1.2.1 Distribución t de Student


Gosset demostró que, si las observaciones tienen distribución normal con varianza desconocida,
la media muestral estandarizada usando el desvío estándar muestral, ya no tiene distribución
normal, sino que tiene una distribución “parecida” a la normal. Esta distribución se conoce como
distribución t de Student.
Entonces, si X ~ N( µ, σ2) , la distribución de muestreo del estadístico
X−μ X−μ
T= =
ESM s/ n
se denomina distribución t de Student con n – 1 grados de libertad, siendo n el tamaño de la
muestra.
Notación.
T ~ tn-1 se lee “T tiene distribución t de Student con n – 1 grados de libertad”.

Características de la distribución t
• Es una distribución unimodal, simétrica y acampanada, centrada en cero.
• Tiene un único parámetro, que se denomina grados de libertad (df).
• La dispersión de la distribución depende de los grados de libertad:
2021 168
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

df
σT =
df − 2
Cuando los grados de libertad aumentan la dispersión tiende a 1.
• La distribución t tiene colas “más pesadas” que la N(0,1), es decir acumula mayor probabilidad
en las colas.
• Cuando los grados de libertad aumentan, la distribución t se parece más y más a la N(0, 1). En
el siguiente gráfico podemos apreciar curvas de la distribución t para 1,2 y 8 grados de libertad
junto con una curva normal estándar.

-8 -6 -4 -2 0 2 4 6 8

df = 1 df = 2 df = 8 N(0, 1)

• En nuestro contexto (una muestra con n observaciones) los grados de libertad coinciden con
n – 1, el denominador de la varianza muestral.
• La distribución t es una familia de curvas. El área debajo de una distribución particular está
tabulada para diferentes valores de n.

1.2.2 Test t
Elementos del test
I. Supuestos

2021 169
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

• Variable con distribución normal, media µ y varianza σ2 desconocida.


• Muestra aleatoria de n observaciones.
II. Hipótesis
Ho: µ = µo versus
a) H1: µ < µo b) H1: µ > µo c) H1: µ ≠ µo

III. Estadístico del test


X − μo X − μo
T= = ~ t n−1
ESM s/ n
IV. Cálculo del p-valor
a) H1: µ < µo b) H1: µ > µo c) H1: µ ≠ µo
p = P(T ≤ Tobs) p = P(T ≥ Tobs) p = 2 P(T ≥ |Tobs|)

VI. Conclusión del test


Para un test de nivel de significación α, rechazamos Ho si p < α.

Nota. El estadístico sobre el cual se construye el test t es el mismo que el estadístico sobre el cual
se basa el test para muestras grandes. ¿Por qué tienen distinta distribución? Porque en este caso
estamos suponiendo que la variable tiene distribución normal y por lo tanto, cualquiera sea el
tamaño de muestra, el estadístico tiene distribución t de Student.

1.2.3 Intervalo de confianza para µ


El intervalo de confianza se construye en base a la distribución t de Student. Un intervalo de
confianza de nivel 1 – α para la media poblacional µ está dado por
s
t n −1, a / 2
X± n
t
donde n−1, α / 2 es el percentil de la distribución t con n – 1 grados de libertad, que deja a su
derecha un área α/2.

2021 170
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

La interpretación de este intervalo es similar a la que hemos presentado para intervalos basados
en la distribución normal.

Ejemplo 1
Volviendo al ejemplo inicial que motivó esta sección: supongamos que se tiene interés en la
velocidad de combustión de un agente propulsor sólido utilizado en los sistemas de salida de
emergencia para la tripulación de aeronaves. El interés el interés recae en decir si la velocidad de
combustión promedio es o no de 50 cm/s.

Ho: µ = 50 cm/s ( la velocidade promedio es igual a 50)


H1: µ ≠ 50 cm/s ( la velocidade promedio no es igual a 50)

Supongamos que tenemos uma muestra de 64 observaciones, y se obtuvo una media muestral
de 48.7 cm/s y un desvío de 4 cm/s , entonces el estadistico observado es:
X − μ o 48.7 − 50 − 1.3
Z obs = = = = −2,6
ESM 4 / 64 0.5
Utilizamos un test asintótico normal usando el hecho de tener una muestra grande. No tenemos
las 64 observaciones por lo que no podremos comprobar aproximadamente la distribución
subyacente de los mismos.
Como se trata de un test a dos colas, entonces, p-valor=2*P(Z>2.6)=2*(1-
0.9953)=2*0.0047=0.0094
Trabajando con nivel de significación 5%, el test rechaza la hipótesis nula (p = 0.0094 < 0.05). Se
concluiya que la velocidad de combustión promedio es significativamente distinta de 50 cm/s. (p
= 0.0094).

1.2.4 Usando R
Desarrollaremos un ejemplo de aplicación del test y del intervalo de confianza para la media de
una población normal usando R.
Ejemplo 2
Consideraremos datos de un estudio aleatorizado y controlado diseñado para comparar tres
tratamientos para adolescentes de sexo femenino que sufren anorexia. Las jóvenes fueron
asignadas aleatoriamente a uno de tres tratamientos. Se registró el peso de cada joven antes y

2021 171
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

después de un período fijo de tratamiento. La variable de interés es


X = peso al final del estudio – peso al inicio del estudio.
Valores positivos de X indican ganancia de peso mientras que valores negativos indican pérdida
de peso. Se espera que cualquiera de los tratamientos utilizados produzca ganancia de peso.
Vemos que con una muestra de datos apareados, mediante la variable diferencia X, podemos
efectuar un test para una sola muestra. Usaremos el test t para la variable X. Se lo llama también
test t para muestras apareadas.
Los datos de este estudio se encuentran en la base anorexia.xls que contiene 4 variables:

subj = número de identificación de la paciente


THERAPY= variable categórica con tres niveles que indican el tratamiento recibido por la
paciente (1 = cognitive behavioral, 2 = family therapy, 3 = control).

BEFORE= peso antes del inicio del tratamiento


peso al finalizar el tratamiento
AFTER =

En este ejemplo, sólo consideraremos los datos de las jóvenes que recibieron tratamiento 2
(terapia familiar). Sea,
µ = media del cambio de peso en la hipotética población de jóvenes anoréxicas de la cual hemos
“seleccionado” la presente muestra de jóvenes asignadas a tratamiento 2.
Seleccionamos sólo las pacientes con therapy = 2, por lo que quedarán activos 17 registros
(casos).
Nos interesa testear la hipótesis:
Ho: µ = 0 (La terapia familiar no modifica el peso de jóvenes anoréxicas)
Ho: µ > 0 (porque los investigadores suponen que cualquiera de los tratamientos tendrá un
efecto positivo)
Como la muestra consiste de n = 17 datos, estudiaremos a través de un box-plot si la variable X
tiene distribución aproximadamente normal, de modo de poder basarnos en la distribución t para
el test y el intervalo.
El box-plot es simétrico y no hay outliers, por lo tanto, parece razonable suponer que la
distribución de la variable cambio de peso es normal para jóvenes que reciben terapia familiar.
Sentencias en R:
2021 172
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

boxplot(Anorexia$AFTER-Anorexia$BEFORE,subset= Anorexia$THERAPY==2,col="blue")
Anorexia22<-subset(Anorexia2, Anorexia2$THERAPY==2)
t.test(Anorexia22$AFTER-Anorexia22$BEFORE,alternative="greater")
Seleccionamos la variable de interés, el valor del parámetro bajo Ho y la hipótesis alternativa
(recordar que interesa Ho:µ = 0 versus H1: µ > 0). Si la diferencia a testear fuese 3, por ejemplo,
la sentencia tendría que ser; t.test( variable, 3), cuando no se aclara alternativa, por default el
programa hace igual vs distinto.

Obtenemos el siguiente output:


One Sample t-test
data: Anorexia2$AFTER - Anorexia2$BEFORE
t = 4.1849, ⇐ Estadístico del test t
df = 16, ⇐ grados de libertad
p-value = 0.0003501 ⇐ p-valor del test
2021 173
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

alternative hypothesis: true mean is greater than 0


mean of x 7.264706 ⇐ Media muestral
Para obtener el IC del 95% tenemos que pedir el test t con la alternativa distinto.
One Sample t-test
data: Anorexia2$AFTER - Anorexia2$BEFORE
t = 4.1849, df = 16, p-value = 0.0007003
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
3.58470 10.94471
sample estimates:
mean of x 7.264706
Conclusiones:
• Estimamos con un 95% de confianza que el aumento medio de peso en jóvenes anoréxicas
sometidas a terapia familiar es algún valor entre 3.5 y 10.9. Si suponemos que estas jóvenes
son una muestra representativa de la población de jóvenes anoréxicas que potencialmente
podrían haber ingresado al estudio, podríamos inferir que la terapia familiar produce un
aumento de peso importante.
• Trabajando con nivel de significación 5%, el test rechaza la hipótesis nula (p = 0.0004 < 0.05)
por lo que concluimos que el cambio medio en el peso de jóvenes en terapia familiar es
significativamente mayor que cero (p = 0.0004).
• Esta última conclusión podría haberse obtenido observando el intervalo de confianza, ya que
el valor propuesto para µ en Ho no está contenido en el intervalo del 95% de confianza.

1.2.5 Comentarios
Los métodos que hemos visto para el caso en que la muestra es pequeña requieren del supuesto
que la variable de interés tiene distribución (aproximadamente) normal.
Si la distribución de la variable es fuertemente asimétrica, tiene outliers o es marcadamente
diferente de la normal en algún sentido, el test NO ES VÁLIDO y además es poco eficiente en
detectar diferencias verdaderas. Lo mismo ocurre con el intervalo de confianza.
En estos casos, cuando interesa un test para el parámetro de posición es preferible realizar un
test para la mediana, que es menos sensible al efecto de colas pesadas en la distribución, o utilizar
2021 174
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

tests basados en rangos, y no tests basados en estadísticos sensibles como la media y la


desviación estándar.
Estos tests que NO suponen una distribución dada para los datos, se denominan tests de
DISTRIBUCIÓN LIBRE o tests NO PARAMÉTRICOS y son los métodos alternativos disponibles
cuando la muestra es pequeña y no se satisface el supuesto de distribución normal. Veremos
luego el test no parámetrico propuesto por Wilcoxon para estos casos.
Consideraremos a continuación los distintos métodos para evaluar si la distribución de la variable
es normal.

1.3 Evaluación del supuesto de normalidad


Dado un conjunto de datos existen al menos dos estrategias para evaluar si es razonable suponer
que, en la población de la cual proviene la muestra, la variable de interés tiene una distribución
aproximadamente normal.
a) Métodos Gráficos ( que ya vimos)
 Box-plot
 Histograma
 Gráfico de tallo-hojas
 Gráfico de Probabilidad normal (Q-Q plot)

b) Métodos Analíticos (Tests de hipótesis)


 Test de Shapiro-Wilk
 Otros tests que no veremos en este curso tales como: Lilliefords, Kolmogorov-Smirnov,
etc.
En general, la estrategia será decidir si no existen GROSEROS apartamientos de la distribución
normal. Si alguno (o varios) de los métodos muestra claramente que la distribución de los datos
no puede suponerse normal, habrá que abandonar los métodos estadísticos que suponen esta
distribución.
Consideraremos cada una de estas estrategias aplicándolas a los datos de peso en jóvenes
anoréxicas y comentaremos brevemente los resultados.
1.3.1 Métodos Gráficos
stem(Anorexia22$AFTER-Anorexia22$BEFORE,2)

2021 175
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

hist(Anorexia22$AFTER-Anorexia22$BEFORE,probability=TRUE)
The decimal point is 1 digit(s) to the right of the |

-0 | 5
-0 | 430
0|4
0 | 66799
1 | 111334
1|
2| 2

El gráfico de cajas (box-plot) se presentó al desarrollar el ejemplo. ¿Qué concluimos a partir de


estos tres gráficos?
A partir del box-plot no hay razones para dudar de la normalidad de los datos. Sin embargo, el
histograma y el gráfico de tallo y hojas, no muestran una distribución precisamente acampanada
2021 176
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

y simétrica, pero tenemos q tener en cuenta que tenemos solo 17 datos.


El último gráfico que disponemos es el q-q plot. Recordemos que este gráfico muestra los
percentiles de la muestra versus los percentiles teóricos de la distribución normal. Si la muestra
proviene de una distribución normal los puntos se encontrarán, salvo fluctuaciones, sobre una
recta. Apartamientos de la distribución normal producen diferentes curvaturas que sugieren qué
tipo de distribución puede tener la variable.
El q-q plot para nuestros datos muestra una imagen compatible con asimetría izquierda (cola larga
hacia la izquierda).

La pregunta que debemos hacernos aquí es: ¿Podría ser que la variable “cambio de peso” tenga
una distribución aproximadamente normal en la población y que por azar esta muestra de 17
datos que hemos observado, presente un histograma que no reproduce exactamente la
distribución poblacional o un gráfico de probabilidad normal que no es exactamente una recta?
El test de Shapiro-Wilk responde a esta pregunta. Ya lo hemos mencionado en una sección
anterior, veamos ahora que plantea este test concretamente y como entender la salida que se
obtiene en R.

2021 177
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

1.3.2 Test de Shapiro-Wilk


Las hipótesis del test son:
Ho: la variable tiene distribución normal (con cualquier media y varianza)
H1: la variable no tiene distribución normal
El estadístico del test puede interpretarse como una medida de la asociación entre los percentiles
observados en la muestra y los percentiles teóricos de la normal que muestra el gráfico de
probabilidad normal.

shapiro.test(Anorexia22$AFTER-Anorexia22$BEFORE)

Shapiro-Wilk normality test


data: Anorexia22$AFTER - Anorexia22$BEFORE
W = 0.95358, p-value = 0.5156
Conclusión: No hay evidencia suficiente para rechazar la hipótesis de que la distribución de la
variable es normal.
Notar que en el test de Shapiro-Wilk, la hipótesis que nos interesaría demostrar es la nula, lo cual
es imposible, ya que no rechazar Ho no implica que ésta sea verdadera. Por lo tanto, cuando
rechazamos Ho estamos razonablemente seguros que la muestra no fue obtenida desde una
población con distribución normal, pero cuando no rechazamos la hipótesis de normalidad, no
podemos estar seguros que efectivamente la distribución de la variable sea normal.

1.3.4 La familia de transformaciones de Box-Cox

Una forma de salvar la no normalidad de los datos es transformarlos para llevarlos a la


normalidad. Esto presenta dos dificultades evidentes:

1. ¿Cómo encontrar la distribución que resulte adecuada?


2. ¿Cómo se interpretan los resultados luego de la transformación?

Para la pregunta 1. se ha encontrado una respuesta satisfactoria: la familia de transformaciones


más utilizada para resolver los problemas de falta de normalidad y de heterocedasticidad es
la familia de Box-Cox, cuya definición damos a continuación.
2021 178
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

λ Transformación
Se desea transformar la variable Y, cuyos valores
-1 1
muestrales se Z(λ)= suponen positivos ( en caso contrario
𝑌𝑌
se suma una cantidad -0.5 1 fija M tal que Y + M > 0). La
transformación de Z(λ)= Box-Cox depende de un
√𝑌𝑌
parámetro λ a 0 Z(λ)=ln (𝑌𝑌) determinar y viene dada por
0.5 Z(λ)=√𝑌𝑌
𝑦𝑦 𝜆𝜆 − 1
1 Z(λ)=𝑌𝑌 𝑍𝑍(𝜆𝜆) = � 𝜆𝜆 , 𝜆𝜆 ≠ 0
ln (𝜆𝜆), 𝜆𝜆 = 0

El mejor método para estimar el parámetro 𝜆𝜆 es el de máxima verosimilitud. Omitiremos aquí el


desarrollo.
Se elige el parámetro que maximiza la función de verosimilitud L(λ). En la práctica, se
calcula L(λ) para una grilla de valores de λ que permite dibujar aproximadamente la función L(λ) y
se obtiene el máximo de la misma.

𝜆𝜆̂𝑀𝑀𝑀𝑀 = 𝜆𝜆0 tal que 𝐿𝐿(𝜆𝜆0 ) ≥ 𝐿𝐿(𝜆𝜆), ∀ 𝜆𝜆

Valores muy utilizados del parámetro λ son los siguientes:

Pero la pregunta 2 es algo más compleja ya que no siempre es claro o sencillo explicar en términos
del problema con datos transformados.Por ejemplo sí lo es cuando el parámetro obtenido sea 0,
los datos originales se dicen que tienen una distribución log-normal y de este modo se puede
explicar la naturaleza del problema pero si los datos se transforman elevándolos a la quinta quizás
esto no tenga mucho sentido para ciertas variables de vida o de medición ya que las unidades no
tendrían un sentido físico claro. En algunos casos se prefiere elegir un test no paramétrico en
lugar de transformar los datos para llevarlos a la normalidad y luego aplicar los tests paramétricos
que hemos visto.
2021 179
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Veamos con un ejemplo como se procede para transformar los datos. Generamos al azar una
muestra aleatoria en R de una distribución no normal, asimétrica a derecha ( en este caso una
chi-cuadrado con 3 grados de libertad). Graficamos el box-plot y el histograma de los datos.

shapiro.test(muestrachi)
Shapiro-Wilk normality test

data: muestrachi
W = 0.90477, p-value = 0.002639

El test de Shapiro-Wilks rechaza la normalidad de la muestra analizada.


Para encontrar el valor de λ estimado que normaliza estos datos, una forma de hacerlo es
empleando la librería forecast, si bien en la librería MASS podemos obtener el gráfico con la grilla
y tratar de estimar visualmente donde se maximiza el valor de λ.

Sentencias en R
library("forecast")
lambdamuestrachi = BoxCox.lambda( muestrachi,method="loglik" ) # la respuesta es 0.4
trans.muestrachi = BoxCox( muestrachi, lambdamuestrachi)

2021 180
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

shapiro.test(trans.muestrachi)

Shapiro-Wilk normality test


data: trans.muestrachi
W = 0.97691, p-value = 0.5763

En este vector trans.muestrachi se guardan los datos transformados según el valor de λ estimado
en 0.4. La ventaja que tenemos es que no hace falta que calculemos nosotros la transformación
de las observaciones ya que directamente R nos devuelve estos valores.
Vemos que ahora estos datos transformados no rechazan la normalidad.

En la librería MASS obtuvimos el gráfico que copiamos arriba donde se observa cuando se
maximiza la función de verosimilitud que podemos estimar en 0.4 aproximadamente.

Senetencias en R
library(MASS)
boxcox(muestrachi~1, lambda = seq(-0.2, 1, length = 100))

1.3.3 Comentarios sobre la validez de los supuestos.


Las expresiones obtenidas para calcular intervalos de confianza o tests, sólo son válidas bajo
ciertas condiciones especificadas. Un método estadístico se denomina ROBUSTO si se comporta
2021 181
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

adecuadamente aún cuando algún supuesto sea violado. El estudio de la robustez de los métodos
estadísticos es importante ya que rara vez todos los supuestos del método se cumplirán
perfectamente.
Afortunadamente, el test t a dos colas y el intervalo de confianza basado en la distribución t son
bastante robustos a la violación del supuesto de distribución normal, especialmente cuando n >
15. Es decir, el p-valor o el intervalo de confianza son bastante exactos. Pero cuando la
distribución es muy asimétrica, el test unilateral puede dar p-valores incorrectos. La presencia de
datos outliers en una dirección es evidencia de asimetría fuerte.
Las conclusiones del test t o del intervalo de confianza NO son robustas a la violación del supuesto
de muestra aleatoria. Si este supuesto no se cumple, no podemos decir nada acerca de la
distribución de muestreo del estadístico, sobre la cual se construye toda la inferencia.

PRUEBAS DE HIPÓTESIS SOBRE LA IGUALDAD DE MEDIAS DE DOS POBLACIONES.

1. Varianzas conocidas

Supóngase que hay dos poblaciones de interés X1 y X2 con distribución normal, Suponemos que X1
tiene media desconocida µ1 y varianza conocida σ 1 2 y que X2 tiene media desconocida µ 2 y
varianza conocida σ 2 2 . Estaremos interesados en testar la igualdad de las medias µ1 y µ 2 .

Considérense primero la hipótesis alternativa bilateral:

H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2

Donde

H0 = Hipótesis nula

H1 = Hipótesis alternativa.

µ1 = media de la población 1

µ 2 = media de la población 2

2021 182
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

El procedimiento para probar H 0 : µ1 = µ 2 es calcular el estadístico de prueba Z0 mediante la


siguiente fórmula:

X1 − X 2
Z0 =
σ 21 σ 22
+
n1 n2

Donde:

X 1 = media de la muestra 1

X 2 = media de la muestra 2

σ 21 = varianza de la población 1

σ 2 2 = varianza de la población 2

n1 = tamaño de la muestra 1

n2 = tamaño de la muestra 2

La distribución del estadístico bajo Ho es normal con media 0 y varianza 1.

La hipótesis nula H0 se rechaza si:

Z 0,obs > Z α 2 o Z 0,obs < − Z α 2

Donde

Z0,obs = Valor calculado del estadístico de prueba en una muestra

Z α 2 = Valor obtenido de las tablas de la distribución normal, indica cuantil normal que deja un
área α/2 a la derecha.

Las hipótesis alternativas unilaterales se analizan de manera similar. Para probar


2021 183
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

H 0 : µ1 = µ 2
H 1 : µ1 > µ 2

Se calcula el estadístico de prueba Z0 , y se rechaza H 0 : µ1 = µ 2 si Z 0,obs > Z α .

Para probar la otra hipótesis alternativas unilateral,

H 0 : µ1 = µ 2
H 1 : µ1 < µ 2

Se utiliza el estadístico de prueba Z0 y se rechaza H 0 : µ1 = µ 2 si Z 0,obs < − Z α

Ejemplo 1:

Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El
2
proceso de llenado puede suponerse normal, con varianzas σ 1 = .015 y σ 2 2 = .018 (en onzas2).
Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo volumen neto, sin
importar que este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de
cada máquina.

¿Piensa usted que ingeniería de calidad está en lo correcto? Utilizar α = .05 .

máquina 1 máquina 2
16.03 16.02
16.04 15.97
16.05 15.96
16.05 16.01
16.02 15.99
16.01 16.03
15.96 16.04
15.98 16.02
16.02 16.01
15.99 16

H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2

2021 184
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Calculando las medias de cada máquina obtenemos x1 = 16.015, x 2 = 16.005 .

El estadístico de prueba es:

X1 − X 2
Z0 = cuya distribución es normal estándar si Ho es verdadera.
σ 21 σ 22
+
n1 n2

Y el observado es:

16.015 − 16.005
Z 0,obs = = 0,174077
.015 .018
+
10 10

Z α 2 = Z.025 = 1.96

Mediante el uso de la tabla se obtiene:

1-.025 =.975 buscando el valor de Z correspondiente a .975 encontramos Z = 1.96

Utilizando el criterio de decisión Z 0 > Z α 2 para rechazar la hipótesis nula H0, notamos que
0,174077 no es mayor que 1.96. Entonces no rechazamos H0. No existe suficiente evidencia
estadística para pensar que las medias son diferentes al 5%.

En este caso dado que no rechazamos Ho podemos calcular el p-valor y ver si es grande (digamos
mayor que 0.3) para tener mayor seguridad sobre el no rechazo.

PROCEDIMIENTO EN EXCEL

Seleccionar análisis de datos en el menú herramientas. En funciones para análisis elegir la


opción: Prueba z para medias de dos muestras.

2021 185
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Se obtiene la siguiente tabla:

Prueba z para medias de dos muestras


Variable 1 Variable 2
Media 16,015 16,005
Varianza (conocida) 0,015 0,018
Observaciones 10 10
Diferencia hipotética de las
medias 0
z 0,17407766
P(Z<=z) una cola 0,43090222
Valor crítico de z (una cola) 1,64485363
Valor crítico de z (dos colas) 0,86180443
Valor crítico de z (dos colas) 1,95996398

El p-valor a 1 cola (por mayor) es 0.43 y a dos colas es 0,86180443 que resulta en ambos casos
alto. No hay suficiente evidencia para rechazar Ho con un p-valor alto, no podemos afirmar que
las medias de las dos maquinas sean significativamente diferentes (p-valor=0.86)

2021 186
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Este test está implementado en R en la librería BSDA que acompaña un libro de estadística, pero
no es necesario bajarla ya que es muy sencillo su cálculo mediante sentencias hechas por el
usuario. Por ejemplo, damos las siguientes,

Sentencias en R:
Maq1=c(16.03,16.04,16.05,16.05,16.02,16.01,15.96,15.98,16.02,15.99)
Maq2=c(16.02,15.97,15.96,16.01,15.99,16.03,16.04,16.02,16.01,16)
Medias=lapply(list(Maq1,Maq2),mean)
VarMaq1=0.015
VarMaq2=0.018
Estad1=(Medias[[1]]-Medias[[2]])/sqrt( (VarMaq1+VarMaq2)/10)
pvalorEj1=2*(1-pnorm(Estad1))# test a dos colas

Resultados
Estad1
[1] 0.1740777
pvalorEj1
[1] 0.8618044

Obviamente, obtenemos los mismos resultados que obtuvimos antes con Excel.

PRUEBAS PARA LA IGUALDAD DE VARIANZAS de dos poblaciones normales.

Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las
poblaciones de interés normales, por ejemplo X1 y X2, donde µ1,σ 12 , µ 2 , σ 22 , se desconocen.
Deseamos probar hipótesis relativas a la igualdad de las dos varianzas: H 0 : σ 12 = σ 22 .
Considérese que se disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño
n2 de la población 2, y sean S12 y S 22 las varianzas de muestra. Para probar la alternativa bilateral:

H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22

Utilizamos el hecho de que el estadístico

S12
F0 =
S 22

2021 187
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

se distribuye como un modelo F de Fisher, con n1-1 y n2 –1 grados de libertad si Ho es verdadera.


Por la distribución de este estadístico se conoce esta prueba como prueba F de Fisher.

Rechazaríamos H0 si

F0,obs > Fα 2,n1 −1,n2 −1


o si
F0,obs < F1−α 2,n1 −1,n2 −1

Donde Fα 2,n −1,n


1 2 −1
y F1−α 2,n −1,n −1 son los cuantiles de la distribución F con n1-1 y n2-2 grados de
1 2

libertad que dejan un área α 2 y 1- α 2 a la derecha. La tabla F proporciona sólo los puntos de
la cola superior de F, por lo que para determinar F1−α 2,n −1,n −1 debemos emplear la siguiente
1 2

propiedad:

1
F1−α 2,n1 −1,n2 −1 =
Fα 2,n1 −1,n2 −1

El mismo estadístico de prueba puede utilizarse para probar hipótesis alternativas unilaterales.
La hipótesis en el caso de mayor en la alternativa son,

H 0 : σ 12 = σ 22

H 1 : σ 12 > σ 22

Si F0,obs > Fα , n1 −1, n 2 −1 , rechazaríamos H 0 : σ 12 = σ 22 .

Ejemplo 2: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos
tipos diferentes.

Tipo 1 Tipo 2
63 64
81 72
57 83
66 59
82 65
82 56
68 63
2021 59 74
188
75 82
73 82
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Pruebe la hipótesis de que las dos varianzas son iguales. Use α = .05

H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22

X 1 = 70.6
X 2 = 70
S12 = 88.71
S 22 = 100.44

S12 88.71
F0 = F0,obs = = .877
S 22 100.44

Fα 2,n1 −1,n2 −1 = F.025,9,9= 4.03 y F1−α 2,n1 −1,n2 −1 =.248

.877 no es mayor que 4.03, por lo cual no se rechaza la hipótesis nula H 0 : σ 12 = σ 22 . Concluimos
que no hay suficiente evidencia que las varianzas de los tipos de quemado sean significativamente
distintas al 5%.

PROCEDIMIENTO EN R: Con los datos cargados, se usará la función var.test que efectúa la prueba
F de Fisher para varianzas de dos muestras.
Sentencias en R
tipo1<-c(63,81,57,66,82,82,68,59,75,73)
tipo2=c(64,72,83,59,65,56,63,74,82,82)
var.test(tipo1,tipo2)

Produce la siguiente salida.

F test to compare two variances

data: tipo1 and tipo2

2021 189
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

F = 0.8832, num df = 9, denom df = 9, p-value = 0.8562


alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2193709 3.5557010
sample estimates:
ratio of variances
0.8831858

El resultado obtenido muestra un p-valor de 0.8562 por lo que no hay evidencia significativa para
rechazar Ho con un p-valor muy alto.

Si queremos testear que una varianza es mayor que la otra, en este ejemplo usamos:
Sentencia en R
var.test(tipo1,tipo2,alternative="greater")

y la salida siguiente:

F test to compare two variances

data: tipo1 and tipo2


F = 0.8832, num df = 9, denom df = 9, p-value = 0.5719
alternative hypothesis: true ratio of variances is greater than 1
95 percent confidence interval:
0.2778281 Inf
sample estimates:
ratio of variances
0.8831858

Observamos que en este caso el p-valor es menor pero también es elevado, por lo que no
rechazamos Ho.

2. Varianzas desconocidas:

Consideraremos ahora pruebas de hipótesis respecto a la igualdad de las medias µ1 y µ 2 de dos


distribuciones normales donde no se conocen las varianzas σ 12 yσ 22 . Tenemos dos casos en el
primero las varianzas son iguales y en el segundo las varianzas no lo son, a continuación
analizaremos cada uno de ellos.

2021 190
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Caso 1 varianzas iguales


Sean X1 y X2 dos poblaciones normales independientes con medias desconocidas µ1 yµ 2 , y
varianzas conocidas pero iguales σ 12 = σ 22 = σ 2 . Deseamos probar:

H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2

Sean X1, X2, S12 , S 22 , las medias y las varianzas de las muestras, respectivamente. Puesto que tanto
2
S12 como S 22 estiman la varianza común σ , podemos combinarlas para producir una sola
estimación. El estimador en este caso se conoce como estimador “pooled” de la varianza:

(n1 − 1)S12 + (n2 − 1)S 22


Sp =
n1 + n 2 − 2

Para probar H 0 : µ1 = µ 2 , el estadístico de prueba es:


X1 − X 2
t0 =
1 1
Sp +
n1 n2

Este estadístico tiene una distribución t con n1+n2-2 grados de libertad si Ho es verdadera. Si
t0,obs > tα 2,n1 +n2 −2 o si t0,obs < −tα 2,n +n
1 2 −2
, rechazamos H 0 : µ1 = µ 2

Las alternativas unilaterales se tratan de modo similar. Para probar:

H 0 : µ1 = µ 2
H 1 : µ1 > µ 2

Se emplea el mismo estadístico ya mencionado cuya distribución es t con n1+n2-2 grados de


libertad bajo Ho como ya se indicó. Se calcula el estadístico de prueba t0 observado y se rechaza
H 0 : µ1 = µ 2 , para un nivel α de significación, si: t0,obs > tα , n1 + n 2 − 2
Para la otra alternativa unilateral,

H 0 : µ1 = µ 2
H 1 : µ1 < µ 2
2021 191
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Se calcula el estadístico de prueba t0 observado y se rechaza H 0 : µ1 = µ 2 , para un nivel α de

significación, si: t0,obs < −t a ,n1 + n2 − 2


En este caso se suele primero testear la igualdad de las varianzas con el test de Fisher y luego se
prueban las hipótesis sobre las medias.

Ejemplo 3: Se está investigando la resistencia de dos alambres, con la siguiente información de


muestra.

Alambre Resistencia (ohms)


1 .140 .141 .139 .140 .138 .144
2 .135 .138 .140 .139 - -

Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse respecto a la
resistencia media de los alambres?

H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2

Calculando la media y la desviación estándar de la muestra:

x1 = .140
x 2 = .138
S1 = .0021
S 2 = .0022

Sp =
(n1 − 1)S12 + (n2 − 1)S 22 Sp,obs= .0021
n1 + n2 − 2

X1 − X 2
t0 = t0,obs= 1.72
1 1
Sp +
n1 n2

2021 192
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Buscamos en la tabla de distribución t el valor tα 2,n +n


1 2 , −2
= t.025,8 =2.306
Utilizando el criterio de rechazo t0,obs > tα 2,n + n −2 , como 1.72 no es mayor que 2.306, por lo tanto
1 2

no rechazamos H0. No hay suficiente evidencia al 5% para rechazar que la resistencia media de
los alambres difiere.

PROCEDIMIENTO EN R: Con los datos cargados, se usará la función t.test que efectúa la prueba t
para dos muestras suponiendo varianzas iguales. Produce la siguiente salida.

Sentencias em R:
Alambre1=c(0.14,0.141,0.139,0.14,0.138,0.144)
Alambre2=c(0.135,0.138,0.14,0.139)
t.test(Alambre1,Alambre2,var.equal=TRUE)

Two Sample t-test

data: Alambre1 and Alambre2


t = 1.72, df = 8, p-value = 0.1237
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.000794919 0.005461586
sample estimates:
mean of x mean of y
0.1403333 0.1380000

Por lo que a partir del p-valor 0.1237 concluimos que no rechazamos Ho para un nivel del 5%.
Por supuesto también se pueden testear las alternativas menor y mayor.

Caso 2 Varianzas diferentes. Test de Welch.

Cuando las varianzas σ 12 yσ 22 son diferentes utilizamos el estadístico de prueba:

X1 − X 2
t0 =
S12 S 22
+
n1 n2

Para el cálculo de los grados de libertad utilizamos:

2021 193
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2
 S12 S 22 
 + 
 n1 n2 
ν= −2
(
S12 n1
2

+
) (
S 22 n2
2
)
n1 + 1 n2 + 1

El procedimiento para llevar a cabo la prueba de hipótesis es el mismo que el caso 1, varianzas
iguales excepto que se emplean t0 como estadístico de prueba y n1 + n2 -2 se sustituye por ν (
letra griega nu) en la determinación de los grados de libertad.

Ejemplo 4 : Se están investigando dos métodos para producir gasolina a partir de petróleo crudo.
Se supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes
datos de rendimiento se han obtenido de la planta piloto.

Proceso Rendimiento %
1 24.2 26.6 25.7 24.8 25.9 26.5
2 21.0 22.1 21.8 20.9 22.4 22.0

¿Hay alguna razón para creer que el proceso 1 tiene un rendimiento medio mayor?

H 0 : µ1 = µ 2
H 1 : µ1 > µ 2

Calculamos la media y la varianza para ambos procesos:

x1 = 25.62
x 2 = 21.70
S12 = .9017
S 22 = .3760

2021 194
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

X1 − X 2
t0 = t0,obs= 25.62 − 21.70 = 8.48
S2
S 2
.9017 .376
1
+ 2 +
n1 n2 6 6

2
 .9017 .376 
 + 
 6 6 
ν= − 2 = 9.32 ≈ 9
(.9017 6)2 + (.376 6)2
7 7

Buscando el valor en la tabla t encontramos t.05,9 = 1,833, mediante el criterio de rechazo para
una cola t0.obs>t.05,9 , 8.48>1.833, por lo tanto rechazamos la hipótesis nula. Se concluye que el
proceso 1 tiene mayor rendimiento medio que el proceso 2 para un nivel del 5%.
PROCEDIMIENTO EN R: Con los datos cargados, se usará la función t.test que efectúa la prueba t
para dos muestras suponiendo varianzas no iguales y con la alternativa de mayor, produce la
siguiente salida.
Sentencias en R
t.test(Alambre1,Alambre2,var.equal=FALSE)

Welch Two Sample t-test

data: Proceso1 and Proceso2


t = 8.4876, df = 8.552, p-value = 9.461e-06
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
3.065691 Inf
sample estimates:
mean of x mean of y
25.61667 21.70000

Con un p-valor tan pequeño podemos estar seguros del no rechazo de Ho.

PRUEBAS DE HIPÓTESIS SOBRE DOS PROPORCIONES

En las pruebas de hipótesis sobre proporciones tratamos de probar:

2021 195
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

H 0 : p1 = p 2
H 1 : p1 ≠ p 2

Considérese que se toman dos muestras aleatorias de tamaño n1 y n2 de dos poblaciones, y sea
X1 y X2 el número de observaciones que pertenecen a la clase de interés en la muestra 1 y 2
respectivamente.

Una estimación del parámetro común p es:

X1 + X 2
pˆ =
n1 + n2

El estadístico de prueba para H 0 : p1 = p 2 es entonces:

pˆ 1 − pˆ 2
Z0 =
1 1
pˆ (1 − pˆ )  + 
 n1 n2 

X1 X2
pˆ 1 = pˆ 2 =
n1 n2

Si
Z 0,obs > Z α 2 o Z 0,obs < − Z α 2 , la hipótesis nula se rechaza.

Ya que el estadístico tiene una distribución asintótica normal por el Teorema Central del Límite.

Ejemplo 5: La fracción de productos defectuosos producidos por dos líneas de producción se está
analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto
que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿Es razonable
concluir que la línea de producción 2 produce una fracción más alta de producto defectuoso que
la línea 1? Use α = .01 .

H 0 : p1 = p 2
H 1 : p1 < p 2

2021 196
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

X1 + X 2 10 + 25
pˆ = pˆ obs = = .015909
n1 + n2 1000 + 1200

X1 10
pˆ 1 = pˆ 1,obs = = .01
n1 1000

X2
pˆ 2 = 25
n2 pˆ 1,obs = = .020833
1200

pˆ 1 − pˆ 2 .01 − .020833
Como Z 0 = entonces , Z 0,obs = = =-
1 1  1 1 
pˆ (1 − pˆ )  +  . .015909(.98409)  +
 n1 n2  1000 1200 
2.02

Z α = Z .01 = 2.35

Se rechaza H 0 : p1 = p 2 si Z 0,obs < − Z α

Como -2.02 no es menor que –2.35, H0 no se rechaza.

PROCEDIMIENTO EN R: Con los datos cargados, se usará la función prop.test que efectúa la
prueba asintótica para dos proporciones, además se puede pedir o no la corrección por
continuidad. Produce la siguiente salida en este ejemplo,

Sentencias en R
pro1=c(10,25)
pro2=c(1000,1200)
prop.test(pro1,pro2, correct=FALSE, alternative="less")

2-sample test for equality of proportions without continuity correction

data: pro1 out of pro2


X-squared = 4.0889, df = 1, p-value = 0.02158
alternative hypothesis: less
2021 197
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

95 percent confidence interval:


-1.000000000 -0.002302357

sample estimates:
prop 1 prop 2
0.01000000 0.02083333

El p-valor a una cola es 0.02158 por lo que para un nivel del 1 % no se rechaza Ho y se concluye
que la proporción de defectuosos en la línea 1 no es significativamente menor que en la línea 2
(al 1%).

PRUEBA T PARA MUESTRAS APAREADAS

Cuando es posible resulta ventajoso utilizar muestras apareadas en las pruebas de comparación,
por ejemplo someter al mismo sujeto a dos terapias, un mismo motor a dos testeos de calidad,
etc. En una prueba de comparación apareada, la reducción en la variabilidad experimental puede
permitir la detección de pequeños movimientos en los datos.
Los grados de libertad son menos porque ahora el tamaño de muestra corresponde al número de
comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de la eficacia de un tratamiento antes y
después de ser aplicado, el rendimiento en parcelas antes y después de un fertilizante,
mediciones de un mismo individuo en cada brazo, mediciones de un mismo espécimen en
distintos momentos del tiempo, control de una misma máquina en distintos momentos de
pruebas, etc. Ya mencionamos este test antes cuando comentamos el test t en general.
Para poder emplear este test es necesario que la diferencia entre las variables tenga distribución
normal, no que cada variable sea normal. Se puede testear previamente este supuesto mediante
el test de Shapiro- Wilk y también hacer un boxplot y un QQ-plot para chequear que no haya
apartamientos de esta suposición.
Las hipótesis de prueba en torno a la igualdad µ1 y µ 2 pueden realizarse efectuando una prueba
t de una muestra en µ D .
Específicamente, probar H 0 : µ1 = µ 2 contra H 1 : µ1 ≠ µ 2 es equivalente a probar

H 0 : µD = α
H1 : µD ≠ α

El estadístico de prueba apropiado es

2021 198
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

D −α
t0 =
SD n

donde

D=
∑D j

n
y

(D j − D)
2

SD =
n −1

Rechazaríamos H 0 : µ D = 0 si t0,obs > tα 2,n −1 o si t0,obs < −tα 2,n −1 .

Con las alternativas unilaterales se trabaja de manera similar, ya que la distribución del
estadístico bajo Ho es t con n-1 grados de libertad.

Ejemplo 6:

Un fabricante desea comparar el proceso de armado común para uno de sus productos con un
método propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho
trabajadores de la planta de armado y se les pidió que armaran las unidades con ambos
procesos. Los siguientes son los tiempos observados en minutos.

Trabajador Proceso actual Proceso propuesto


1 38 30
2 32 32
3 41 34
4 35 37
5 42 35
6 32 26
7 45 38
8 37 32

Para α = .05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso actual es
mayor que el del método propuesto por más de dos minutos?

H0 : µD = 2
H1 : µ D > 2
2021 199
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Trabajador Proceso actual Proceso propuesto Dj (Dj-D)^2


1 38 30 8 10.5625
2 32 32 0 22.5625
3 41 34 7 5.0625
4 35 37 -2 45.5625
5 42 35 7 5.0625
6 32 26 6 1.5625
7 45 38 7 5.0625
8 37 32 5 0.0625
4.75 95.5
D=
∑D j
= 4.75
n

(D j − D)
2

= 3.69
SD =
n −1

D −2 4.75 − 2
t0 = = = 2.107
S D n 3.69 8

tα ,n −1 = t .05, 7 = 1.895 , debido a que 2.107 > 1.895 rechazamos H0, y concluimos que: el tiempo de
armado para el proceso actual es significativamente mayor en dos minutos que el método
propuesto.

PROCEDIMIENTO EN R: Con los datos cargados, se usará la función t.test pero indicando que se
efectúa un test de muestras apareadas. Produce la siguiente salida en el ejemplo pedido.
Sentencias en R
Actual<-c(38,32,41,35,42,32,45,37)
Nuevo<-c(30,32,34,37,35,26,38,32)
t.test(Actual,Nuevo+2, paired=TRUE, alternative="greater")

Paired t-test
data: Actual and Nuevo + 2
t = 2.1058, df = 7, p-value = 0.03662
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.2758826 Inf
sample estimates:
2021 200
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

mean of the differences 2.75

El estadístico observado resulta 2.1058 con un p-valor 0.03662 por lo que la conclusión para un
nivel del 5% es el rechazo de Ho. El tiempo de armado para el proceso actual es significativamente
mayor en dos minutos que el método propuesto para un nivel de significación del 5 %.

PRUEBA DE MANN-WHITNEY-WILCOLXON PARA IGUALDAD DE MEDIANAS

El test de rangos signados de Wilcoxon es una prueba no paramétrica utilizada en lugar de la T de


Student cuando los datos no cumplen el supuesto de normalidad. Se utiliza para comprobar si la
tendencia central de dos muestras (la mediana) es la misma o no en ambas muestras. También
se emplea para comprobar si la mediana de una muestra se corresponde con una teórica.
En verdad supone que las distribuciones de ambas poblaciones es la misma, y luego compara si
la distribución de una población es igual a la de la otra pero afectada por un parámetro de posición
que bajo Ho se supone 0.

Se puede utilizar también en el caso de muestras apareadas. En este caso en R deberá utilizarse
el parámetro paired=TRUE.

PROCEDIMIENTO EN R.
Veamos su aplicación con dos ejemplos.

Ejemplo 1
set.seed(9)
m1=rnorm(50,5)
set.seed(8)
m2=rnorm(50,5.6)
boxplot(m1,m2,names=c("Muestra1","Muestra 2"), col=c("lightblue","magenta"))
wilcox.test(m1,m2)

2021 201
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Wilcoxon rank sum test with continuity correction

data: m1 and m2
W = 756, p-value = 0.0006687
alternative hypothesis: true location shift is not equal to 0

Rechazamos la hipótesis nula que dice que ambas poblaciones tienen igual mediana.

Gráficos de Box-plot de las muestras 1 y 2

2021 202
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Ejemplo 2
set.seed(9)
m11=rt(50,5)
set.seed(10)
m12=rweibull(50,5)
boxplot(m11,m12,names=c("Muestra11","Muestra 12"), col=c("lightblue","magenta"))
wilcox.test(m11,m12)
Wilcoxon rank sum test with continuity correction

data: m11 and m12


W = 829, p-value = 0.003745
alternative hypothesis: true location shift is not equal to 0
En este caso se rechaza la Ho que dice que las dos muestras tienen igual mediana, y el p-valor es
pequeño por lo que podemos estar seguros de nuestra decisión.

Gráfico de Box-plot de las muestras 11 y 12

2021 203
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Veamos la normalidad según Shapiro Wilks.


shapiro.test(m1)
Shapiro-Wilk normality test

data: m1
W = 0.96477, p-value = 0.1408

shapiro.test(m2)

Shapiro-Wilk normality test

data: m2
W = 0.98371, p-value = 0.7149

shapiro.test(m11)
Shapiro-Wilk normality test

data: m11
2021 204
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

W = 0.98782, p-value = 0.8825

shapiro.test(m12)
Shapiro-Wilk normality test

data: m12
W = 0.99172, p-value = 0.9778

Obtenemos que no rechazamos la normalidad de las 4 muestras! Más aún, los p-valores más
elevados provienen de las muestras generadas no normales! Los tests no son perfectos, aun
cuando el test de Shapiro Wilks es el más potente para testear normalidad vemos que no detectó
en nuestros ejemplos que los datos provienen de una distribución t y de una Weibull.

Veamos como testear la mediana en una población es igual a un valor fijo.


wilcox.test(m1,5)
Wilcoxon rank sum test with continuity correction

data: m1 and 5
W = 21, p-value = 0.8121
alternative hypothesis: true location shift is not equal to 0

O sea no se rechaza la hipótesis nula que la mediana de la población es igual a 5.

También existe un test para la mediana ( test de Mood) para comparar este parámetro de
locación entre poblaciones sin suponer que tienen igual distribución.
No veremos en el curso este test que se encuentra en varias librerías de R pero en ninguna que
hayamos mencioando para instalar hasta ahora. Dejamos este tema para el lector interesado.
Porr ejemplo: la prueba se realiza con el comando mood.medtest incluido en el
paquete RVAideMemoire (Hervé 2016). También está en el paquete BSDA que mencionamos
en el test Z pero que no indicamos instalar.

2021 205
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Sección 5. Comentarios adicionales sobre gráficos como herramienta visual de comparación


de grupos

1. Gráficos de tallo hoja espalda contra espalda

Para realizar este gráfico es necesario instalar en R el paquete aplpack, que hace un gráfico de
tallo hoja ligeramente diferente al usual que se obtiene con el comando stem, además del
esquema espalda contra espalda.

Consideremos el siguiente ejemplo:


Se han registrado las concentraciones de CO2 expresadas como partes de millón (ppm) en Mauna
Loa: son 468 observaciones tomadas mensualmente desde 1959 hasta 1997. Se trata de una serie
de tiempo, es decir, observaciones de un fenómeno a intervalos regulares de tiempo.
Fuente: Keeling, C. D. and Whorf, T. P., Scripps Institution of Oceanography (SIO), University of
California, La Jolla, California USA 92093-0220. Junio 2004.
ftp://cdiac.esd.ornl.gov/pub/maunaloa-co2/maunaloa.co2

Comencemos con el tallo hoja del conjunto total de los datos.

1 | 2: represents 12
leaf unit: 1
n: 468
8 31* | 33344444
70 31. | 55555556666666666666667777777777788888888888888899999999999999
135 32* | 00000000000000001111111111112222222222222222333333333333444444444
187 32. | 5555555566666666677777777777777778888888889999999999
233 33* | 0000000011111111112222222222233333333344444444
(40) 33. | 5555556666666666777777777888889999999999
195 34* | 000000011111112222222222233333334444444
156 34. | 5555555566666666777777788888889999999
119 35* | 00000111111122222222223333333333444444444
78 35. | 555555555666666667777777788888899999999999999
33 36* | 0000001111112222333333444444
5 36. | 55566
2021 206
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Vemos que el diagrama es diferente al default ya que se indica a la izquierda la profundidad ,


salvo el (40) que indica la cantidad de datos y en ese renglón se ubica la mediana. Como hay dos
tallos iguales, los indica de manera diferente, uno con * y otro sin *.
Ahora comparemos para ilustrar como procede R al dividir el conjunto de datos en 2: al realizar
el plot del conjunto total de datos como serie de tiempo se puede observar como la concentración
de CO2 aumenta en el tiempo, por eso al dividir el conjunto en las primeras 234 observaciones y
en las ultimas 234, notaremos una diferencia entre los dos grupos, valores más pequeños en los
primeros años y altos en los últimos. Debido a la gran cantidad de datos, hemos achicado el
tamaño de letra para que pueda apreciarse adecuadamente en el ancho de la hoja. Hemos pedido
que no indique la profundidad para ahorrar espacio.
_______________________________________________________________________________________________________________________________________
1 | 2: represents 12, leaf unit: 1
co2[1:234] co2[235:468]
_______________________________________________________________________________________________________________________________________
44444333 | 31* |
99999999999999888888888888888777777777776666666666666665555555 | 31. |
44444444433333333333322222222222222221111111111110000000000000000| 32* |
9999999999888888888777777777777777766666666655555555| 32. |
444444333333222222222111111111100000000| 33* |2233344
77766655| 33. |55556666666777777888889999999999
| 34* |000000011111112222222222233333334444444
| 34. |5555555566666666777777788888889999999
| 35* |00000111111122222222223333333333444444444
| 35. |555555555666666667777777788888899999999999999
| 36* |0000001111112222333333444444
| 36. |55566
| 37* |
_______________________________________________________________________________________________________________________________________
n: 234 234
_______________________________________________________________________________________________________________________________________

Sentencias en R
require(aplpack)
stem.leaf(co2)
stem.leaf.backback(co2[1:234],co2[235:468], show.no.depths=TRUE)

2. Boxplots graficados con tamaño de caja proporcional a la cantidad de observaciones


en cada grupo

Otra de las opciones interesantes que tiene este gráfico es la posibilidad de graficar las cajas con
un ancho que resulte proporcional a la cantidad de elementos que compone cada grupo. Para
ilustrarlo, hemos dividido el conjunto anterior de 468 datos en 4: uno conteniendo los primeros

2021 207
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

15 datos, el siguiente con los siguientes 35, el tercer grupo con 100 datos y el cuarto con las
restantes 318 observaciones.
El R grafica el ancho de las cajas proporcional a las raíces cuadradas de la cantidad de
observaciones en cada grupo. Podemos apreciar la diferencia entre ambas formas de obtener los
boxplots en los siguientes gráficos: a la izquierda no se le indica nada y a la derecha se pide que
haga el tamaño de la caja en forma proporcional a la cantidad de observaciones. De esta forma el
primer conjunto de datos es representado con una caja muy pequeña en relación a las otras y nos
muestra visualmente que hay una gran diferencia en el tamaño entre este grupo y los otros. Esta
situación puede ser de relevancia según el contexto de la investigación, a la vez que nos presenta
una realidad que es mejor dejar de manifiesto cuando se realiza una publicación por ejemplo.

Sentencias en R
boxplot(co2[1:15],co2[16:50],co2[51:150],co2[151:468],col=" blue")
boxplot(co2[1:15],co2[16:50],co2[51:150],co2[151:468],col="light blue", varwidth=TRUE)

A continuación se incluyen dos gráficos de la literatura médica donde se muestra su utilidad para
destacar que los tamaños muestrales en cada grupo de estudio son diferentes.

2021 208
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Cuando se indica NOTCH=TRUE, lo que se obtiene es la mediana de cada grupo de observaciones


con su intervalo de confianza del 95%, por lo que se podría comparar si los intervalos se solapan
o no para determinar si hay diferencia significativa en la mediana de los grupos.

2021 209
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

El gráfico de la izquierda a continuación con los mismos datos de concentración de CO2 divididos
en dos grupos de igual tamaño nos muestra los intervalos para cada mediana, podemos apreciar
que la mediana de cada grupo es significativamente distinta al 5%.
En cambio el gráfico de la derecha nos muestra los boxplots de los cuatro grupos con el IC del 95%
para la mediana. Puede apreciarse que no hay diferencia significativa en la mediana de los grupos
1 y 2. La mediana del último grupo es significativamente diferente al 5% de cada una de las
medianas de los otros grupos. En este caso, no se debería indicar la proporcionalidad, ya que
podríamos dejar de notar la diferencia entre medianas. Por otro lado notemos que el ancho de
cada caja es distinto de acuerdo a la longitud del intervalo, que depende del tamaño muestral,
por eso en el gupo 4 es más pequeño pues al haber más datos es más preciso contrario a lo que
hacíamos al graficar el ancho proporcional al tamaño de cada conjunto de datos.

Sentencias en R
boxplot(co2[1:234],co2[235:468], col="violet", notch=TRUE)
boxplot(co2[1:15],co2[16:50],co2[51:150],co2[151:468],col="blue", notch=TRUE)

2021 210
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

En la publicación Tumor Necrosis Factor –α and Interleukin-6 Concentrations in Cerebrospinal Fluid


of Dogs After Seizures ( J. Vet. Interm. Med. 2014;28:1775-1781), cuyos autores no mencionaremos,
se incluyó una comparación entre grupos de perros que en algunos casos son tan pequeños que el
grafico debió omitirse, no tiene ningún sentido realizar un boxplot con 3 datos(¡!). Esto nos indica
que hay que ser cuidadoso con la información en libros y publicaciones pues pueden ser engañosas.

A continuación se incluye otro gráfico que puede emplearse cuando el tamaño muestral es chico
donde se representan todos los datos, el rango y una línea indicando la mediana. La publicación se
llama Serum Adipokine Concentrations in Dogs with Acute Pancreatitis, Paek et al., ( J. Vet. Interm.
Med. 2014;28:1760-1769).
En este caso se ha incorporado una comparación formal entre las medianas de los grupos realizada
mediante un test no paramétrico ( el de Mann Whitney-Wilcoxon cuyo estadístico se nota U).

Existen muchas otras opciones gráficas en R que permiten también ilustrar conjuntos de datos
grandes (o no), por ejemplo, el stripchart y heat-map. Aquí dejamos un link donde se puede obtener
explicación de muchos gráficos, cómo obtenerlos y cómo agregar leyendas, cambiar colores, diseños,
etc. http://www.ling.upenn.edu/~joseff/rstudy/index.html

2021 211
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

2021 212
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss

Referencias

 Agresti A. (3th Ed. 2012 ) Categorical Data Analysis. Wiley


 Devore J. ( 8th Ed. 2012) Probabilidad y Estadistica para Ingeniería y Ciencias. Cengage
Learning.
 Kaplan D. (2009) Statistical Modeling: A Fresh Approach.
 Maronna R. A. (1995) Probabilidad y Estadistica Elementales para Estudiantes de Ciencias.
Universidad Nacional de La Plata.
 Mendenhall W., Beaver R. and Beaver B. ( 13th Ed 2009) Introduction to Probability and
Statistics. Cengage Learning.
 Martinez E. (2009) Notas del curso Comparación de Grupos. Programa de Actualización
en Estadistica para Ciencias de la Salud.
 Orellana L. (2001) Notas del curso Análisis de Datos . Programa de Actualización en
Estadistica para Ciencias de la Salud.
 Rosner B. (2000) Fundamentals of Biostatistics. Duxbury.

2021 213

También podría gustarte