Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este curso repasaremos las nociones de probabilidad y estadística vistas en los cursos de grado.
La idea es tener una base y un lenguaje común entre todos los interesados en cursar la carrera de
Posgrado.
Las nociones de estadística son fundamentales hoy en todos los aspectos de la ciencia aplicada y
en particular para tratar de analizar grandes bases de datos, en machine learning y en data minig.
Este curso empleará el software libre R ya que es el que se empleará en el resto de la carrera.
Como profesionales ya no es necesario realizar cuentas a mano sino que se hace fundamental
conocer el empleo de un software estadístico adecuado para manejar los archivos de datos y
poder extraer conclusiones y características de los mismos: el tipo de datos que contiene, la
cantidad de variables y el tipo de cada una, los datos faltantes o missing, para luego establecer
las estrategias necesarias que permitirán hacer inferencia y establecer modelos que ajusten los
datos de manera adecuada. Para ello el software R reúne una cantidad de atributos que lo
convierte en uno de los más empleados en la actualidad, la ventaje de ser libre lo hace accesible
obviamente pero además tiene enormes posibilidades gráficas y de modelizar que resulta
sumamente atractivo y útil a la hora de elegir un software.
Para comenzar copio aquí la introducción que escribí para otro curso de Modelos Estadísticos con
R. No es necesario tener conocimientos previos de este lenguaje ya que iremos viendo como
emplearlo para obtener los resultados estadísticos que veremos, pero incluyo nociones
elementales para que el curso resulte cerrado con toda la información contenida en este apunte.
Según la Free Software Foundation, software libre, significa poseer las siguientes cuatro
libertades:
• La libertad de ejecutar el programa, para cualquier propósito (libertad 0).
• La libertad de estudiar cómo funciona el programa y adaptarlo a sus necesidades (libertad 1).
El acceso al código fuente es una condición previa para ello.
• La libertad de redistribuir copias para que pueda ayudar a otros (libertad 2).
• La libertad de mejorar el programa, y proporcionar sus mejoras al público, para que toda la
comunidad se beneficie (libertad 3).
En el sitio web de Free Software Foundation se puede obtener más información sobre el software
libre. La Free Software Foundation fue fundada por Richard Stallman en 1985. Ver también
https://www.gnu.org/philosophy/free-sw.html
2021 1
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Introducción al R
R, también conocido como ”GNU S”, es un entorno y un lenguaje para el cálculo estadístico y la
generación de gráficos. El R se origina el lenguaje S, desarrollado en los Laboratorios Bell
por John Chambers et al. que se utilizaba en el software comercial S-plus que fue muy difundido
pero que ya no se distribuye más.
“S ha modificado para siempre la forma en la que las personas analizan, visualizan y manipulan
los datos” (Association of Computer Machinery Software System Award 1998 a John Chambers).
El lenguaje R, es ” uno de los lenguajes de programación más utilizados en investigación por la
comunidad estadística; siendo además muy popular en el campo de la minería de datos, la
investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la
posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y
graficación. R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL. Está
disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux ”.
Fuente Wikipedia , https://es.wikipedia.org/wiki/R_lenguaje_de_programaci%C3%B3n
Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Es-
tadística de la Universidad de Auckland en 1993.
Se suele considerar que se empleó R ya que es la letra que sucede a la S. Muchos
especialistas consideran que programar en S y en R es muy similar. Sin embargo, en un progrma
y en otro hay diferencias importantes, en S la importación y exportación de archivos era mucho
más simple que lo que es con R. Por otro lado R abarca muchos más temas y es un lenguaje más
conectado a otros como el C++. Pero la diferencia fundamental es que mientras el S-plus era un
software comercial el R es de difusión gratuita. Todo se puede hacer con R, la dificultad es
encontrar cómo hacerlo, ya sea mediante un paquete que abarque el problema que se tiene que
resolver o bien, efectuando uno mismo una función o una rutina que genere el resultado que se
requiere obtener. Por ejemplo, una regresión lineal múltiple ya está desarrollada en R en una
librería apropiada, esto nos resulta de gran utilidad ya que si quisieramos nosotros mismos
hacer funciones para obtener las salidas respectivas, tardaríamos mucho tiempo en obtenerlas
pero si quisieramos podriamos hacerlo de todos modos.
Los diseñadores iniciales, Gentleman y Ihaka mencionan que: ” El lenguaje resultante es
muy similar en apariencia a S, pero en el uso de fondo y la semántica es derivado desde
Scheme”. El resultado se llamó R ”en parte al reconocimiento de la influencia de S y en parte para
hacer gala de sus propios logros”.
2021 2
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Su desarrollo actual es responsabilidad del R Development Core Team. Para saber más al respecto
y en el entorno del programa, puede escribirse en la consola contributors(); en la lista desplegada
aparecen los nombres de los autores iniciales y los actuales pertenecientes al R Development
Core Team (Equipo Central de Desarrolladores R). Lo que es importante destacar es que en
general, cualquier manual de aprendizaje de programación en S o S plus servirá para aprender a
programar en R. Consultar la vasta y excelente bibliografía de Venables and Ripley (por ejemplo,
2000, 2002).
Para instalar el software se debe elegir un CRAN Mirror (Comprehensive R Archive Network), red
de servidores en todo el mundo que almacenan R. Para instalar R por primera vez en un entorno
Windows se debe descargar el archivo R-3.5.2-win.exe y ejecutarlo de la misma manera que se
instalan otros softwares en Windows. Para más detalles se puede consultar
http://cran.r-project.org/
Cuando ingresamos a R, aparece algo similar a lo que se copia a continuación, donde figura
la versión de trabajo.
###############################################
R version 4.0.3 (2020-10-10) -- "Bunny-Wunnies Freak Out"
Copyright (C) 2020 The R Foundation for Statistical Computing
Platform: i386-w64-mingw32/i386 (32-bit)
2021 3
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Para salir se cierra la ventana, desde el menú File, eligiendo la opción Exit, o bien
escribiendo en la lı́nea de comandos q() tal como lo indica el mismo programa al iniciar la
sesión. Todo lo que se escribe en R luego de un sı́mbolo # es ignorado y es en general
empleado cuando se generan funciones para hacer comentarios sobre ellas que luego
nos servirán de ayuda para el uso de esas funciones, o bien, para quien quiera
emplearlas sin ser su autor.
1.1. Objetos en R
Todas las variables que se emplean en R son objetos que se guardan en el denominado
workspace. Para listarlos se pueden usar el comando ls() y se tendrá una lista de todos
los objetos que se han guardado o generado, ya que por default R guarda todo lo que se
genera en una sesión y luego al cerrar el programa pregunta si se quiere guardar o no lo
que se ha trabajado para que esté disponible en futuras sesiones.
1.1.1. Vectores
Para la creación de un nuevo objeto hay que asignarlo con un nombre distinto a alguno
de los que tenemos y guardamos. Hay dos formas de hacerlo básicamente. Veamos por
2021 4
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
ejemplo: creamos el vector old, old=1:10 , que es la secuencia de números naturales del
1 al 10. A partir de este vector generamos otro, que llamaremos new, podemos hacerlo
de dos formas, con el signo = o con los signos <-
new=old/2
o bien
new< −old/2
En cualquiera de las opciones hemos creado un nuevo objeto new a partir de otro llamado
old vector numérico del 1 al 10, que es un nuevo vector que va de 0.5 a 5 con paso 0.5 pues
es el anterior dividido 2. Si ya existía un objeto con el nombre new, al asignarle old/2 y hacer
enter perdemos el objeto viejo new que es reemplazado por este nuevo que hemos creado.
El R no avisa que ya existı́a otro objeto con el mismo nombre. El objeto old es la secuencia
de números del 1 al 10. Esto se puede lograr también con el comando seq(1,10), pero este
comando es más útil cuando queremos crear una secuencia más complicada, por ejemplo,
seq(10,1,-1) que produce el vector que se encuentra en la Tabla 1.1.
[1] 10 9 8 7 6 5 4 3 2 1
1.00 1.05 1.10 1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.60 1.65 1.70
[16] 1.75 1.80 1.85 1.90 1.95 2.00 2.05 2.10 2.15 2.20 2.25 2.30 2.35 2.40 2.45
[31] 2.50 2.55 2.60 2.65 2.70 2.75 2.80 2.85 2.90 2.95 3.00 3.05 3.10 3.15 3.20
[46] 3.25 3.30 3.35 3.40 3.45 3.50 3.55 3.60 3.65 3.70 3.75 3.80 3.85 3.90 3.95
[61] 4.00 4.05 4.10 4.15 4.20 4.25 4.30 4.35 4.40 4.45 4.50 4.55 4.60 4.65 4.70
[76] 4.75 4.80 4.85 4.90 4.95 5.00
Otro comando útil para crear vectores es rep(), rem(old,new) eliminará a los dos vectores
que recién creamos. El comando length() que devuelve la longitud del vector. Todos los
componentes de un vector tienen que tener el mismo tipo: numérico, complejo, lógico,
2021 5
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
caracter o raw ( datos crudos). Pueden contener un dato faltante que se llama ”NA”que
quiere decir ”Not Available”.
Surge la pregunta cuántos ”NA” contiene un vector, pues podrı́an ser más los valores
faltantes que los observados, con lo cual la información contenida en el vector serı́a poco
valiosa para hacer inferencias con ella. Daremos un ejemplo de cómo calcular cuantos
valores perdidos tiene un vector cuando veamos factores un poco más adelante.
1.1.2. Matrices
Con respecto a matrices tambien hay varias formas de crearlas,por ejemplo, matrix(old,5,2) da
como resultado la matriz que se incluye en la Tabla 1.3,
Las operaciones de matrices incluyen, entre muchas otras, hallar la dimensión dim(A),
trasponer t(A) , hallar su determinante si es cuadrada det(A), hallar su inversa si existe
solve(A) y obtener sus autovalores eigen(A).
∗
útiles también los comandos rbind() y cbind() que permiten unir vectores y arreglos por
fila (row) o por columna(column) creando matrices de este modo.
Por ejemplo sean los vectores, x1=c(1,2,3) y1=c(4,5,6) , el resultado de hacer rbind(x1,y1)
es igual a la matriz de la Tabla 1.6 y cbind(x1,y1) da como resultado la matriz que se
indica en la Tabla1.7.
1.1.3 Factores
Los factores son muy importantes en los análisis estadisticos, en particular para el
tema de Análisis de la Varianza (AOV). Como ejemplo de una variable factor podemos dar
2021 7
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
y en la segunda columna el ingreso del principal sostén sin unidades de mil. Este ejemplo se
importó al R desde Excel y se lo llamó como NSEI en R. Si pedimos que nos muestre las
primeras 6 filas del archivo obtenemos lo contenido en la Tabla 1.8. Este archivo tiene algunos
valores faltantes de ingreso. Si pedimos la estructura del archivo, nos indica que la variable
NSE es un factor con 3 niveles: ” Alto”, ”Bajo ”Medio”. R los ordena de acuerdo al orden
alfabético. Y también nos indica que la variable ingreso es numérica. Vamos a reordenar este
factor de acuerdo al orden que tienen como variable ordinal: alto, medio y bajo (o a la inversa).
Una forma sencilla de hacerlo es mediante la siguiente instrucción donde creamos un nuevo
factor con el orden que queremos. Notar que podrı́amos ordenar el mismo factor que ya
tenı́amos.
2021 8
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Notar que hemos usado la expresión NSEI$NIVEL, eso alude a la variable NIVEL ( factor en este caso)
del archivo NSEI, la otra variable Ingreso( numérica en este caso) se obtiene con el comando
NSEI$Ingreso.
Ahora queremos conocer la mediana de los ingresos de los hogares según sea su nivel,una forma
sencilla de hacerlo es a través del comando tapply().
El comando es:
tapply(NSEI$Ingreso,NSEI$NIVEL,median)
obtenemos:
Alto Bajo Medio
67 NA NA
Como había ingresos faltantes en algunos hogares entonces el resultado es NA, para excluir esos
valores faltantes, tenemos que agregar: na.rm=TRUE o sea que elimine los valores NA para el
cálculo,
tapply(NSEI$Ingreso,NSEI$NIVEL,median,na.rm=TRUE)
obtenemos, lo que deseamos conocer la mediana de los ingresos según nivel sin tener en cuenta los
valores faltantes.
2021 9
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Claro que si los datos faltantes son muchos, estas medianas de ingresos en los niveles Bajo y Medio
podrían no resultar de interés, por lo que primero tendríamos que averiguar cuantos valores
faltantes hay para cada factor del NIVEL. Una forma posible es la siguiente,
length(NSEI$Ingreso)-length(NSEI$Ingreso[which(NSEI$Ingreso!= ”NA”)])
−
que nos devuelve el valor 7 que es el resultado de hacer 358 -351 que es la longitud total menos los
valores distintos de NA, no podemos pedir en forma directa que cuente cuantos son iguales a NA
porque los componentes de un vector numérico no pueden igualarse a NA, ya que obviamente son
números y NA no.
Hay muchas formas de obtener cuantos NA tiene una variable, a veces, pidiendo un resumen del
archivo por variable ya se puede conocer. Pero es muy importante detectar la presencia de datos
faltantes en un archivo y conocer cuantos hay ya que pueden afectar las estimaciones si son muchos
por lo que a veces es preferible omitir toda una variable que considerarla para un estudio cuando la
cantidad de información que provee es escasa.
Muchas veces los conjuntos de datos contienen observaciones de un objeto de distintas variables,
por ejemplo, para un paciente podemos registrar su edad, su género, su nivel educativo, su nivel
socio economico, su presión arterial, si es fumador o no, si es casado, viudo, separado u otra
situación, etc. Cada caracterıstica relevada constituye una variable y estas variables tienen distinta
naturaleza, pueden ser cuantitativas, cualitativas, lógicas, ordinales, nominales, etc. Se puede
construir un objeto con las variables como columnas y los datos de cada paciente como filas. Esto
constituye un data frame.
Un data frame se puede considerar muchas veces como una matriz y se lo puede convertir a matriz
cuando se lo necesite, también las filas tienen que tener la misma longitud, si faltara un
dato, el R lo completa como NA. Puede ser frecuente que falte relevar alguna o varias variables para
un objeto o especímen bajo estudio pero como se tiene alguna información se la deja en el
conjunto de datos de todas formas.
Para ver un ejemplo, tenemos el famoso conjunto de datos iris de Fisher , que se invoca como
data(iris) en R que ya lo trae cargado, es un data frame que contiene para 50 flores de 3
especies distintas, la medición de la longitud de sus sépalos y pétalos en cm., el ancho de
sus sépalos y pétalos en cm., y la especie de cada flor relevada (versicolor, virginica y setosa).
No hay datos faltantes, cuatro de las variables son numéricas y la cuarta es nominal o cualitativa.
Para R es una variable factor. Si queremos saber si un objeto es un data frame se tipea
2021 10
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
is.data.frame() y la respuesta es TRUE o FALSE. Para saber si pertenece a otro tipo de objeto se
procede de manera similar, por ejemplo, is.numeric().
Para ver la estructura de un objeto se emplea el comando, str(). También resultan muy útiles para
visualizar conjuntos de datos, sobre todo cuando contienen muchos filas los comandos head() y
tail() que despliegan las primeras 6 y las últimas 6 filas del archivo respectivamente por default. Si
queremos ver una cantidad determinada de filas que no sea 6, basta aclararlo en el comando, por
ejemplo, head(XX,9) mostrará las 9 primeras filas del archivo XX.
Cuando queremos invocar una columna de nuestro data frame hay que emplear la siguiente
convención: iris$Petal.Width, es decir el nombre del data frame seguido de un signo $ y
luego el nombre de la variable como ya indicamos previamente. Para evitar tener que tipear tanto
se puede hacer attach(iris) y luego se puede invocar a la variable Petal. Width sin el signo $ delante
o la referencia al archivo del cual proviene. Antes de cerrar la sesión es conveniente volver esto
hacia atrás, es decir, escribir detach(iris). En general es preferible no hacer attach cuando uno
están empleando varios archivos conjuntamente ya que puede haber variables con igual nombre y
se podría perder información valiosa.
Una lista u objeto de tipo list, es una colección de objetos ordenados, denominados componentes
de la lista. No es necesario que los componentes sean de un mismo tipo y tampoco que tengan la
misma longitud. Esta posibilidad lo convierte en un objeto muy general.
Por ejemplo, creamos el siguiente objeto de tipo lista:
Las listas están siempre numeradas por sus componentes y nos referimos a ellas de esa forma, así
[[1]] en nuestro ejemplo alude al primer componente que es Nombre.
mi.lista[[1]]
devuelve,
[1] ”Silvia” ”Juana” ”Pedro”
A su vez mi.lista[[3]][2] da como resultado 3 que significa que Juana tiene 3 hijos, pues buscamos
en la componente 3 que es HIJOS lo que corresponde a la segunda persona que es Juana.
mi.lista[1] devuelve,
$Nombre
[1] ”Silvia” ”Juana” ”Pedro”
La importancia de las listas se verá más adelante cuando se aborde el tema de modelos de regresión
ya que las salidas de estos modelos son en general objetos de formato listas.
2021 11
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Una forma de ver la estructura de nuestro archivo es mediante el comando str(), que nos devuelve
la estructura del mismo. De esta forma podemos visualizar si un vector de nuestro archivo no se
importó correctamente y resulta un factor en lugar de un vector numérico, y viceversa, por ejemplo.
Ahora creamos un objeto data frame y lo vamos a ordenar según varios criterios, por ejemplo
respecto de dos columnas. Se puede pedir ordenar en el orden natural o en orden inverso, aclarando
esto con un signo menos delante de la columna respectiva. El R entiende el orden natural de las
letras y de los números, el orden de los factores se lo tenemos que indicar porque sino los asigna en
forma alfabética o numérica según corresponda.
Sentencias en R.
mi.data=data.frame(a=factor(c("alto","medio","bajo","alto","bajo"),
levels=c("alto","medio","bajo"),ordered=TRUE),
b=c("A","B","D","A","B"),d=c(2,6,7,7,6),e=c(1,2,2,2,1))
# creamos el data frame que se llama mi.data
mi.data[with(mi.data,order(-e,a)),]
# ordenamos respecto a la columna e en sentido inverso y luego respecto a la a.
mi.data[order(-mi.data[,4],mi.data[,1]),]
# lo mismo que antes escrito de otra forma. mi.data[order(-mi.data[,4],mi.data[,3]),]
# ordenamos respecto a la columna 4 sentido inverso y luego respecto a la 3.
mi.data[order(-mi.data[,4],mi.data[,3],mi.data[,1]),]
# ordenamos respecto a la 4, sentido inverso, luego respecto a la 3 y luego respecto a la 1.
Con las sentecias anteriores hemos creado los data frame de las Tablas 1.9, 1.10 , 1.11 y 1.12
respectivamente.
Para más información sobre objetos en R y como extraerles información, como operar, obtener
subconjuntos, dividir el archivo, etc., consultar por ejemplo, el libro An Introduction to R, Venables
et al.
El paquete dplyr es muy conocido y posibilita el manejo de archivos en forma práctica. Por supuesto
no es el único y hay otros también muy interesantes que también permiten manejar archivos y
extraerles información, combinar varios archivos, extraer filas, columnas, etc. Aunque se puede
trabajar sin invocar a paquetes si se aprenden las sentencias adecuadamente pero puede resultar
obviamente más laborioso.
2021 12
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 13
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Una conocida librería para trabajar y analizar datos es la librería tidyverse, que es es un conjunto de
8 paquetes en R diseñados especialmente para ciencia de datos. Esto significa que ayuda en todo el
proceso de importar transformar visualizar modelar y comunicar toda la información que
normalmente utilizamos en procesos de ciencia de datos. La ventaja que tienen estos paquetes que
comparten nombre y estructuras comunes. Por ejemplo, todos los nombres están en minúscula o
utilizan la barra baja para llamar a las funciones.
Esto mantiene una consistencia a lo largo de todos sus paquetes que permite que sea más fácil
utilizarlos. Estos paquetes de R son mantenidos por la comunidad y por el RStudio. Los paquetes
que trae son: ggplot2, dplyr, tidyr, readr, purrr, tibble, stringr, forcats. De todas formas esto es
mucho más complejo que lo que necesitaremos para analizar estadísticamente en un archivo de
datos en este curso. Seguramente lo verán en cursos posteriores de R y de programación en R en la
carrera.
Se puede consultar más información en los siguientes links en español, por ejemplo,
https://gonzalezgouveia.com/que-es-tidyverse-8-paquetes-para-ciencia-de-datos/
https://rafalab.github.io/dslibro/tidyverse.html
1.2 Ayuda en R
R dispone de un sistema de ayuda que se puede invocar bien desde el menú que aparece al iniciar
el programa (opción Help), o bien se lo puede invocar en línea. La ayuda desde el menú se puede
resumir de la siguiente manera,
Console Ayuda sobre el uso de las teclas y sus combinaciones en R.
R language (standard) Proporciona ayuda sobre funciones concretas.
R language (html) Arranca un entorno de ayuda completo en formato html.
Manuals Da acceso al manual de referencia de R en formato pdf
Apropos Da información sobre las funciones relacionadas con una dada.
About Informa de la versión de R actual.
help.start() Arranca un manual de ayuda completo en formato html, utilizando el navegador del
sistema.
2021 14
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
apropos(”median”) Muestra las funciones y los objetos que tengamos almacenados relacionadas
con la funci´on median o con la palabra median.
help.search(”median”) Busca ayuda sobre objetos o funciones que tengan nombre o título que
contenga la cadena ”median” abriendo una nueva pestaña en internet tal como se muestra
en la Figura 1.2.
1.3 Paquetes en R
Los paquetes o packages son una colección de funciones, datos y código R que se almacenan
en una carpeta conforme a una estructura bien definida y accesible para R. En la web de R se puede
consultar la lista de paquetes disponibles por orden alfabético. Encontramos código fuente y
documentaci´on. Cada paquete también incluye información sobre sus funcionalidades.
Cuando uno carga por primera vez R ya contiene una cantidad de librer´ıas que son las básicas para
comenzar a trabajar, como la base. Podemos conocer cuáles son tipeando en la consola
library(). Algunos de los paquetes más usuales ya instaladas cuando se instala R por primera vez, se
encuentran listadas en la Tabla 1.13.
2021 15
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
También se puede conocer los paquetes que tenemos instalados haciendo clic en la pestaña Pa-
quetes, donde se despliega una lista de posibilidades, la primera de ellas es ’cargar paquete’, esto
significa que ya lo hemos bajado en nuestro equipo y que lo estamos invocando, pues cada vez que
necesitemos uno en particular que ya hemos bajado lo tenemos que llamar. Supongamos
necesitamos el paquete ficticio XXX, podemos poner require(XXX), library(XXX) o bien desde la
ventana Paquetes, elegimos el paquete XXX que necesitamos.
Para cargar un paquete o librería por primera vez, hay que Seleccionar un espejo CRAN en esta
misma pestaña y luego, cuando se abre, seleccionar en la lista que se despliega en forma alfabética,
aquel package que nos interesa. Si a su vez, este paquete necesita de otros que no tenemos
aún, también los instalará. La lista de paquetes es muy amplia.
Al finalizar estas acciones con éxito, escribe en la consola:
Hay una diferencia entre library() y require(), require() fue diseñado más específicamente para
su uso dentro de funciones, así require(XXX) devuelve TRUE o FALSE según si el paquete
esté o no instalado en la PC del usuario. Además, si existe lo carga en memoria, y si no existe
lanza un “warning” advirtiendo de ello. De esta forma el programador de la función puede utilizar
require() para comprobar si el usuario dispone o no de los paquetes necesarios para ejecutar el
resto de comandos incluídos en una función, sin que esta se interrumpa.
Por otro lado, library(XXX), si detecta que el paquete solicitado no existe, lanza un error y detiene
2021 16
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
el proceso en marcha. Si no estamos creando una función, en los hechos prácticos, nos resultará
lo mismo usar require() o library(), pero cuando creemos una función que invoque librerías,
recordar esta diferencia resulta importante para que un proceso no se detenga y no sepamos que
ocurrió.
Puede ser necesario eliminar paquetes de la memoria, esto se hace con el comando:
detach(”package:XXX”, unload=TRUE)
Si queremos eliminar del disco duro un paquete que tenemos instalado, basta ejecutar la
función
remove.packages(XXX).
La función old.packages() compara los paquetes que tenemos instalados con los que se
encuentran en CRAN, y proporciona una lista de aquellos que cuentan con una versión
m´as moderna. Para actualizarlos se ejecuta el comando: update.packages(). R va preguntando
uno por uno si queremos o no actualizar los paquetes que tienen versiones más actuales.
Actualmente ( 28 de enero 2021) el R dispone de 17028 paquetes, pero esto es muy
dinámico y seguramente si se consulta el día en que se lea este apunte, el número habrá
crecido bastante. Para consultar los paquetes disponibles en R en forma alfabética o según
fecha de publicación se puede consultar la página:
https://cran.r-project.org/web/packages/
Existen varias opciones para leer 1 archivo dependiendo de su formato. Si tenemos un archivo
de texto, que es el más simple de todo, se pueden emplear algunos de los tres primeros
comandos que detallamos a continuación y que están en el paquete utils que ya viene con el R al
instalarlo como el base. Para los de extensión .csv se emplean los dos últimos comandos.
read.table(file, header = FALSE, sep = ” ”, quote = ”’”, dec = ”.”,...)
read.delim(file, header = FALSE, sep = ” \”, quote = ”’ ”,dec=”.”, fill = TRUE,
comment.char= ” ”, ...)
read.delim2(file, header = FALSE, sep = ” \”, quote = ”\ ”,dec=”.”, fill = TRUE,
comment.char= ” ”, ...)
read.csv(file, header = TRUE, sep = ”,”, quote = ”\”, dec = ”.”, fill = TRUE,
comment.char = ” ”, ...)
read.csv2(file, header = TRUE, sep = ”;”, quote = ”\”, dec = ”,”, fill =
TRUE, comment.char = ” ”, ...)
Hay una diferencia entre estos dos últimos comandos, son casi iguales pero en el
cuadro siguiente se indican las diferencias.
2021 18
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Otra forma de generar un conjunto de datos cuando es pequeño es mediante el comado scan()
que permite ingresar los elementos desde la consola. Desde luego esto puede hacerse
solamente con pocos datos.
También se puede elegir un archivo dentro de nuestro equipo con el comando
read.table(file.choose()), que nos abre una pantalla que nos lleva a elegir que archivo de texto
que queremos abrir. También podemos usar read.csv(file.choose()) que nos importará un
archivo con extensión .csv de nuestro equipo.
Para exportar archivos que hemos creado o que están dentro de R, se emplean los
comandos siguientes:
Para poder hacer esto se necesitan las siguientes librerías que hay que llamar cada vez,
algunas son necesarias para que se abran las otras.
Veamos dos formas de leer y exportar archivos Excel. Con el RStudio estas operaciones de
archivos son más fáciles.
Una forma,
2021 19
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
require(RJava)
require(xlsx)
require(xlsxjars)
require(xlsReadWrite)
Por ejemplo con el archivo llamado OZONO.xlsx que se verá en el curso, que se encuentra
ubicado en una carpeta local (de mi equipo) se usa el comando:
OZONO<-read.xlsx("C:\\Users\\ccast\\ Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx",1)
head(OZONO)
El comando importó en R el archivo Excel OZONO ubicado en la carpeta local que indicamos, y a su
vez, la primera hoja del archivo. Notar que para indicar un camino a una carpeta local, hay que poner
dos barras invertidas \\.
SIEMPRE conviene verificar como se importó el archivo, lo más fácil inicialmente es usar el comando
head().Hemo importado la primera hoja del archivo OZONO, cambiando el número 1 por 2 o más,
importamos la hoja que deseamos.
Podría suceder que los datos de interés estén en la hoja 2
OZONO.2=read.xlsx("C:\\Users\\ccast\\ Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx",2)
Nota:
1. read.xlsx conserva el tipo de datos. Intenta adivinar el tipo de clase de la variable
correspondiente a cada columna de la hoja de cálculo. Tenga en cuenta que, la
función .xlsx es lenta para conjuntos de datos grandes (hoja de trabajo con más de
100 000 celdas).
2. read.xlsx2 es más rápido en archivos grandes en comparación con la función de
lectura.xlsx.
Con esta misma librería, vamos a exportar el archivo iris, que se encuentra dentro de R y contiene
52 observaciones de flores iris, donde para cada flor se determinó su variedad ( versicolor, setosa y
virginica), la longitud y ancho de sus pétalos y la longitud y ancho de sus sépalos. Este archivo es
famoso , se debe a Sir Ronald Fisher, famoso estadístico inglés, que lo empleó en 1936 en su
2021 20
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
paper The use of multiple measurements in taxonomic problems. Se emplea como ejemplo también
en análisis multivariado de clasificación, el problema a resolver sería el siguiente ¿ con los datos que
tenemos, será posible determinar la variedad de una nueva flor iris que yo encuentre o que me den,
a partir de 4 mediciones realizadas sobre sus pétalos y sépalos?
Exportamos el archivo iris a uno Excel que lo llamaremos IRIS con el siguiente comando,eligiendo la
carpeta donde lo alojaremos,
Para agregar varios conjuntos de datos en el mismo libro de Excel, se tiene que utilizar el
argumento append = TRUE y comenzar por un comando del paquete xlsx que es librowrite. Esto
se ilustra en el siguiente código R:
Escribir el primer conjunto de datos en un nuevo
librowrite.xlsx(USArrests, file="myworkbook.xlsx",
sheetName="USA-ARRESTS", append=FALSE)
De esta forma exportamos 3 archivos que se encuentran en R a un solo archivo Excel con 3 hojas
distintas, en cada una figura un archivo diferente: USArrests,mtcars y Titanic. El lector interesado
puede consultar el contenido de estos conocidos archivos en internet.
Otra forma para importar y exportar archivos excel, con la librería readxl,
library(readxl)
OZONO=read_excel("C:\\Users\\ccast\\Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx",1)
2021 21
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Podría suceder que los datos de interés estén en la hoja 2 y además que no empiecen en A1, esto se
indica también en el comando que establece el rango de la hoja en el que estamos interesados en
importar a R.
OZONO.MIO=read_excel(("C:\\Users\\ccast\\Escritorio\\Trabajo en R\\Datos\\OZONO.xlsx", sheet
= 'Hoja2', range = 'A7:B18')
También se puede importar todo un archivo Excel que contiene varias hojas, pero será en R un
archivo de tipo lista, donde en cada elemento de la lista habrá una hoja del archivo Excel. Para ello
se emplea un comando que lee cada hoja y la ubica como elemento de una lista:
library(readxl)
EJEMPLO=readxl_example("datasets.xlsx")
read_excel(EJEMPLO)
Es posible que deseemos importar todas las hojas de un libro de trabajo. Haremos esto a través de
la función lapply(), iterando sobre los nombres (o rango) de nuestras hojas; pasando read_excel()
como nuestra función. El objeto resultante debe ser una lista de cuatro (4) archivos de datos; uno
(1) por pestaña en este ejemplo que estamos trabajando.
tab_names <- excel_sheets(path = EJEMPLO)
La hoja de calculo se capturará como una lista con el nombre de la hoja como nombre del data frame
en la lista.
Si se quiere sacar los data frames de la lista, se puede usar el siguiente Código:
list2env(MILISTA ,.GlobalEnv)
Esto se encuentra más allá del alcance de este curso, puede verse por ejemplo,
https://rpubs.com/tf_peterson/readxl_import
Desde luego también se puede importar a R otros tipos de archivo como lo son los que se emplean
en SPSS que tienen extensión .sav, los de STATA que tiene extensión .dta, y también datos en
formatos especiales o de páginas oficiales. Dejamos este link para el lector interesado.
https://www.datacamp.com/community/tutorials/r-data-import-tutorial
Hay mucha bibliografía referente a R y como tabajar los archivos , sus definiciones y tipos. La
mayoría está disponible on-line y se puede descargar en extensión .pdf. Recomendamos como
autores a Venables W., Santana y Farfan (2014) quienes tienen un libro de R en español muy
completo.
En la siguiente página,
http://cmdlinetips.com/2018/01/free-online-resources-books-to-learn-r-and-data-science/
puede accederse a 21 libros en forma gratuita on line de R, varios escritos por Hadley Wickham.
Recomiendo estos textos para quien desea profundizar los temas de R además de aprender a
programar en el. La cantidad de libros se actualiza, así que es posible que en el momento de la
consulta haya aún más que en el momento actual ( marzo 2021), en el 2020 había 18 por ejemplo.
Por ejemplo, el siguiente tiene varios tópicos de estadística que les será útil a partir de ahora.
https://moderndive.com/
También dejo el link a un texto que escribí para un curso que dicté de R y modelos estadísticos,
que puede ser útil en los cursos siguientes. Tiene un capítulo dedicado a técnicas gráficas con R.
https://www.researchgate.net/publication/331503559_Taller_de_Modelos_Estadisticos_con_R
2021 23
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Este directorio se puede cambiar obviamente con setdw() y dando como argumento el directorio
que se desee, por ejemplo:
setwd("C:\ Escritorio")
Por último, si se desea conocer el contenido del directorio de trabajo, se puede usar la
función list.files(), sin argumentos, que devolverá una lista con el nombre de los archivos del
directorio de trabajo. La función list.dirs(), también sin argumentos, dará una lista de los
directorios dentro del directorio de trabajo.
# Ver archivos
list.files()
# Ver directorios
list.dirs()
2021 24
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
La Estadística nos permite realizar inferencias y sacar conclusiones a partir de los datos.
Extrayendo la información contenida en ellos, podremos comprender mejor las situaciones que
representan.
Los métodos estadísticos abarcan todas las etapas de la investigación, desde el diseño de la
investigación hasta el análisis final de los datos.
• Esta etapa es crucial, pues un estudio pobremente diseñado o con datos incorrectamente
recolectados o registrados puede ser incapaz de responder las preguntas que originaron el
estudio.
• Una vez formulado el problema con el Diseño se definirá, entre otras cosas, la población
objetivo, los tamaños de muestra, los mecanismos de selección de individuos, los criterios de
inclusión y exclusión de sujetos, los métodos de asignación de personas en grupos, las
variables que se medirán y cómo se entrenará al equipo de trabajo para el cumplimiento del
protocolo establecido, etc.
2021 25
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
• Explorar los datos permitirá detectar datos erróneos o inesperados y nos ayudará a decidir
qué métodos estadísticos pueden ser empleados en etapas posteriores del análisis de manera
de obtener conclusiones válidas.
• La calidad de las estimaciones puede ser muy variada y además están afectadas por errores.
La ventaja de los métodos estadísticos es que aplicados sobre datos obtenidos a partir de
muestras aleatorias permiten cuantificar el error que podemos cometer en una estimación o
calcular la probabilidad de cometer un error al tomar una decisión en un test de hipótesis.
Estadística Descriptiva
• Organizar la información
• Sintetizar la información
• Ver sus características más relevantes
• Presentar la información
Factores necesarios para un buen análisis estadístico:
<-----------
Inferencia
2021 26
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Población
Muestra 2
Muestra 1
Inferencia
Se define:
• UNIDAD DE ANÁLISIS O DE OBSERVACIÓN: al objeto bajo estudio. Puede ser una persona, una
familia, un país, un espécimen, una institución o en general, cualquier objeto.
¿Qué observamos?
VARIABLE
2021 28
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Nominales
Cualitativas
Ordinales
Variables
Discretas
Cuantitativas
Continuas
• Grado de coma: 1 2 3 4
Nominales: no hay un orden natural entre las categorías. Entre ellas distinguimos las
Binarias o Dicotómicas que sólo tienen dos categorías: ausencia o presencia de un atributo.
Ejemplo:
• Fuma - No Fuma
• Trabaja-No Trabaja
• Diabético - No Diabético
2021 29
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejemplo:
• Diabético desde niño / Diabético desde adulto / No Diabético
• Grupo Sanguíneo: A / B / AB / O
Ejemplo:
• Estadío de cáncer de colon: I - II - III - IV
Variables Cuantitativas:
Discretas: sólo pueden tomar cierto conjunto de valores, frecuentemente surgen por conteo.
Ejemplo:
• no de hijos, no de empleados, no de vagones
Estadío de cáncer IV: ¿ es el doble de grave que el estadío II? ¿La diferencia que
hay entre el I y el II es la misma que la que existe entre II y III o entre III y IV?
2021 30
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejemplo: longitud, profundidad, área, duración de un aparato, altura, peso, capacidad vital.
Observaciones:
Ejemplo: Edad es una variable cuantitativa que puede hacerse cualitativa si se necesita, por
ejemplo, a partir de la edad de una persona podemos definir los cortes siguientes: niños, jóvenes,
adultos, adultos mayores.
Ejemplos:
Variación porcentual que se utiliza para describir la relación entre un valor pasado y uno
presenteEspecíficamente, la variación porcentual representa la diferencia entre un valor pasado
y uno presente en términos de un porcentaje del valor pasado. Generalmente se puede calcular
la variación porcentual con la fórmula ((V2-V1)/V1) × 100 en la que V1 representa el valor pasado
o inicial y V2 representa el valor presente o final y el resultado se expresa como un porcentaje.
Ejemplo particular: un producto aumento un 20%. Si originariamente valía $20 ahora tiene un
valor de $24.
Ejemplo:
Scores o puntuaciones: si nos interesa clasificar un individuo respecto a varios síntomas puede
usarse un código para cada síntoma y luego calcular un puntaje total. Los scores son indicadores
de la condición de un individuo basados en la observación de varias variables, generalmente
categóricas.
Ejemplo:
Signo 0 1 2
Latidos Ausente Lento (100) > 100
Esfuerzo respiratorio Ausente Llanto Débil Llanto fuerte
Tono muscular Fláccido Leve Buena Flexión
Reflejos Ausente Leve Llanto
Color Azul Pálido Cuerpo rosado, extremidades Rosado completo
azules
El recién nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de 0 a 2,
los cuales se suman y el score resultante es un número entre 0 a 10. Se considera que un score ≥
7 es de buen pronóstico, y que un Apgar ≤ 3 es de mal pronóstico.
2021 32
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Otros ejemplos: existen varios indices de severidad de pancreatitis aguda. Entre ellos cabe
mencionar, a parte de la Escala de Ranson, los scores de Atlanta, Apache, Glasgow, Banks, Agarwal
and Pitchumoni. Ninguno de los mencionados es ideal, pero sí son herramienta de ayuda que
mejora la valoración exclusivamente clinica que sólo identifica un 35-45 % de las pancreatitis
severas. Suelen requerir 48 horas para su evaluación y no presentan elevadas tasas de
sensibilidad ni especificidad.
Escalas Analógicas Visuales: se utilizan para que el paciente indique el grado de alguna variable
“no medible” como dolor, bienestar, agrado, acuerdo o sensaciones en general.
• son adecuadas para comparar respuestas de un mismo individuo, por ejemplo para
valorar cambios en el mismo individuo.
• se debe tener cuidado al tratar este tipo de datos, ya que a diferencia de los datos
numéricos, aún cuando el registro sea con números, la escala subyacente no es
necesariamente la misma para dos individuos distintos.
• es aconsejable un método de análisis basado en rangos de scores.
2021 33
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Datos censurados: observaciones que se pueden medir hasta cierto límite y no más allá de éste, de
manera que conocemos una cota inferior o superior para el dato. A veces se confunden con datos
truncados, en el primer caso se conoce la cantidad de individuos bajo estudio y en el segundo caso
no.
Ejemplo:
• límite del instrumental
• límite impuesto por la duración del estudio
Entrada de Datos
La entrada de datos depende del software que se utilice. Por ejemplo, en el EXCEL los datos
pueden ser vistos como una tabla o planilla en la que las columnas son las variables y las filas
corresponden a los individuos, es decir son los casos o registros.
Una vez finalizada la etapa de definición de variables se puede comenzar a cargar los datos en la
planilla.
2021 34
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Debemos acordar un código para representar un dato faltante. En general, no es aconsejable usar
blancos ó 0 para su codificación. En R los datos faltantes se indican con NA, cada software tiene
su notación particular.
Si transformamos una variable que en un caso tiene missing el resultado será missing.
Cuando se computan medidas estadísticas, como el promedio, sólo se usan los registros sin NA.
La presencia de datos faltantes puede ser un problema para realizar una buena inferencia. Es
necesario investigar el porque de su existencia y también cuantificarlos.
• al realizar la medición
• al transcribir de la fuente original
• al ser tipeados
Usualmente no podemos saber si los datos son correctos, pero trataremos de asegurarnos que
los datos entrados sean “razonables” o “posibles”.
La consistencia de los datos es el proceso por el cual tratamos de identificar los errores groseros
de los datos y, de ser posible, también de rectificarlos. Los errores groseros pueden afectar
análisis posteriores.
• Podemos entrar los datos dos veces: costoso y requiere más tiempo, no es aconsejable.
• Hacer un chequeo de una submuestra, si contiene muchos errores, será necesario ampliar
esa muestra inicial.
• Chequear que los valores de las variables coinciden con los valores posibles. Si la variable
es categórica es simple chequear si todos los valores de la variable son posibles, ya que
hay un conjunto fijo de valores posibles para la variable. Ejemplo: Grupo sanguíneo: 0, A,
B, AB. Es suficiente con producir una tabla de frecuencias para cada variable categórica en
la que se controla que las categorías coinciden con las categorías definidas. Algunos
paquetes diferencian letras mayúsculas de minúsculas, por lo tanto consideran que la
categoría “a” de grupo sanguíneo es diferente de la “A”.
2021 35
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Observación:
Los valores fuera del rango no son necesariamente incorrectos.
Los valores poco probables deben ser corregidos sólo si hay evidencia del
error.
• Cuando en un mismo individuo medimos una variable a lo largo del tiempo debemos
controlar que el comportamiento de dicha variable sea razonable.
• Fechas:
chequear si las fechas caen en un período razonable
secuencia correcta de las fechas para un caso
chequeo de fechas válidas.
• Hay información que sólo se releva en ciertos casos. Por ejemplo, número de embarazos
es relevante si sexo = femenino, pero para sexo = masculino, esta variable debería ser NA
o “no corresponde”.
• Los datos deben satisfacer los criterios de inclusión y exclusión del estudio. Ejemplo:
Estudio de agentes anti-hipertensivos, los pacientes que entran en el estudio deben tener
valores de la presión arterial dentro de un cierto rango al ingreso
• Relación entre variables: Evaluar la consistencia de los datos es algo más complicado
cuando existen valores de algunas variables que dependen de valores de otras variables.
Existen combinaciones de valores de ciertas variables que son inaceptables, aún cuando
cada una de ellas se encuentre dentro de límites razonables.
2021 36
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Datos Cuantitativos
Ejemplo: Los siguientes datos corresponden a 25 pacientes que padecen fibrosis quística.
Variables medidas: Edad y Pimax: máxima presión de inspiración estática (cm H2O).
Edad Pimax
7 80
7 85
8 110
8 95
8 95
4 100
11 45
12 45
12 130
13 75
13 80
14 70
14 80
15 100
16 120
17 110
17 125
17 75
17 100
19 40
19 75
20 110
23 150
23 75
23 95
2021 37
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Nos interesa tener en cuenta los valores posibles de una variable y la frecuencia con la que
ocurren, para ello una primera aproximación consite en ordenar los datos y luego representarlos
gráficamente.
Nos dan una primera aproximación rápida a la distribución de los datos sin perder de vista las
observaciones.
2. Listamos en forma vertical y creciente los tallos y agregamos las hojas a la derecha
del tallo correspondiente.
8 5
TALLO HOJA
2021 38
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El número de tallos debe ser tal que permita mostrar una imagen general de la estructura del
conjunto de datos. Aunque existen algunos criterios para definir el número de tallos, la decisión
depende fundamentalmente del sentido común. Demasiados detalles en general serán poco
informativos, demasiado agrupamiento puede distorsionar la imagen del conjunto. Como criterio:
la cantidad de tallos preferiblemente deben ser mayores o iguales a 5 y menores o iguales a 20.
Ejemplo: Consideremos el siguiente ejemplo con datos sobre consumo diario per cápita de
proteínas en 32 países desarrollados. Los datos se presentan ordenados de menor a mayor por
simplicidad.
Consumo de proteínas per cápita en países desarrollados.
2021 39
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
stem(Consumo2)
2021 40
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
A cada dato le podemos asignar un valor de ranking o rango contando desde cada extremo de la
muestra ordenada. La profundidad es el menor de los dos valores. El R devuelve la profundidad
en un tallo-hoja a la izquierda pero dentro de un paquete especial ( alpack) . Ver Sección 5.
En el stem and leaf plot el número en la columna de la izquierda es la mayor profundidad de la
línea, excepto en aquella en la que el número está entre paréntesis, pues en ese caso el número
que figura es la cantidad de hojas que hay en dicha línea.
Recordemos que la presión sistólica normal es de 120 mmHg, que se indicaría como 12|0 .
El gráfico nos muestra las siguientes características de la TAS en los dos grupos de pacientes.
- La distribución de TAS tiene forma similar en ambos grupos: Un pico o moda y forma simétrica
y aproximadamente acampanada.
2021 41
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
- Diferencias en posición. Los pacientes del grupo T1 tienen niveles de TAS levemente mayores
que los pacientes del grupo T2.
- Similar dispersión. Los valores de TAS de los pacientes de ambos grupos se encuentran en
rangos aproximadamente iguales, salvo por el valor atípico (outlier) que se observa en el
grupo T1.
Histogramas
Dividimos el rango donde viven los datos en intervalos o clases, que no se superpongan.
Las clases deben ser excluyentes y exhaustivas.
frecuencia
frecuencia relativa =
cantidad total de datos
Observaciones:
No existen criterios óptimos para elegir la cantidad de intervalos. En general, entre 8 y 15
intervalos deberían ser suficientes. Muchos o muy pocos intervalos puede ser poco
informativo. Se busca un equilibrio entre un histograma muy irregular y uno demasiado
suavizado.
Otro criterio es emplear como 𝑐𝑐 = √𝑀𝑀, siendo M el tamaño muestral, que se emplea en
general cuando dicho tamaño es grande.
No es necesario que todos los intervalos tengan la misma longitud, pero es recomendable
que así sea. Esto facilita la lectura.
2021 42
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Es recomendable tomar :
frecuencia relativa
altura del rectángulo =
longitud del intervalo
Ejemplo datos de PIMAX: Las observaciones están entre 40 y 150. Podemos considerar los
intervalos: [40,48), [48,56), etc.
2021 43
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
0.015
0.020 0.025
Probabilidad
Probabilidad
0.010
0.010 0.015
0.005
0.000 0.005
0.000
En general, si el histograma es muy irregular puede ser imposible descubrir la forma, en ese caso
es conveniente tomar intervalos más anchos.
Vemos que la distribución es asimétrica, con mayor acumulación en los valores bajos y muestra
un solo pico (o moda).
2021 44
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Los datos de la siguiente tabla presentan los casos de rubéola notificados al SINAVE durante el
año 2000 según grupos de edad. Notemos que los intervalos de edad tienen diferente longitud.
35%
30%
25%
20%
15%
10%
5%
0%
0 10 20 30 40 50 60 70 80
edad
A partir de este gráfico concluiríamos que la proporción de casos es notablemente mayor en los
grupos de 2 a 5 años, de 5 a 10 años o de 10 a 15 años que en los grupos de menores de 1 año o
de 1 a 2 años. Además, la proporción de casos en el grupo de 15 a 50 años impresiona como
notable.
El problema es que en la imagen visual asociamos la frecuencia de casos con el área de la barra,
por ello parece haber más notificaciones de gente de 15 a 50 que de cualquier otro grupo de
edad.
Recordemos que la barra debe tener una altura tal que el área (base x altura) sea igual a la
frecuencia (o a la frecuencia relativa). Es decir,
frecuencia en el intervalo
altura de la barra =
longitud del intervalo
2021 46
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Que se obtiene según los cálculos indicados en la última columna de la tabla siguiente.
2021 47
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
12%
10%
8%
6%
4%
2%
0%
0 10 20 30 40 50 60 70 80
edad
Histograma usando escala densidad. Notificaciones de casos de rubéola. Argentina, año 2000.
Fuente: SINAVE
En este gráfico, el porcentaje de casos de rubéola notificados para cada grupo está representado
en el área de la barra.
Si tuviéramos individuos notificados por rubéola parados en cada grupo etáreo, la altura del
histograma representaría el aglutinamiento en cada clase: hay partes del eje de abscisas que
están más densamente pobladas que otras.
El histograma muestra que una gran proporción de casos ocurre en menores de 1 año, y que la
proporción desciende a medida que aumenta la edad. En este gráfico estamos representando la
“densidad de notificaciones” por cada año de edad.
Medidas de Resumen
2021 48
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
x1 + x 2 + ....... + x n n
x= = ∑ xi Promedio o Media Muestral
n i =1
2021 49
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejemplo: 2, 1, 0, 4, 8
2 + 1 + 0 + 4 + 8 15
Entonces x = = =3
5 5
X´s: 1, 2, 2, 3
1 2 3
X´s: 1, 2, 2, 7
1 2 3 7
Es una medida muy sensible a la presencia de datos anómalos, apartados del conjunto total de
los datos (outliers).
Mediana Muestral
Es una medida del centro de los datos en tanto divide a la muestra ordenada en dos partes de
igual tamaño.
Para calcularla:
n +1
en la muestra ordenada.
2
Ordenamos la muestra: 2 3 4 5 6 6 7 7 8
~
x =6
Ordenamos la muestra: 2 3 4 5 6 7 7 8
~ 5+6
x= = 5 .5
2
2021 51
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
X´s: 1,2,2,7 x =3 ~
x =2
• La mediana es especialmente útil cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo en ocasiones puede ser posible computar
la mediana
Ejemplos:
Tiempo de supervivencia (en meses) de pacientes con cierta patología. Los datos que se indican
entre paréntesis tienen censura a derecha, es decir, se sabe que el paciente sobrevivió ese
tiempo, pero no se conoce el tiempo real de supervivencia.
I) 1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
~
Como n = 15 la mediana es el octavo dato, por lo tanto X = 28. Es posible calcularla aunque
haya datos censurados, porque los mismos se encuentran más allá de la posición 8 que
define la mediana. Aunque no conocemos exactamente el tiempo que sobrevivió el
paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupará el lugar 11 o uno
superior.
2021 52
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
MEDIA MEDIANA
VENTAJAS Usa toda la información que Representa el centro de la distribución
proveen los datos. (en un sentido claramente definido).
Es de manejo algebraico Robusta a la presencia de outliers.
simple. Útil para datos ordinales y
eventualmente para censurados
DESVENTAJAS Muy sensible a la presencia Usa poca información de los datos.
de datos outliers.
Pregunta:
Si tenemos una muestra de salarios de una población dada, ¿Qué sería más adecuado tomar la
media o la mediana muestral para representarlos?
Medias α-Podadas
Es un promedio calculado sobre los datos una vez que se han eliminado α % de los datos más
pequeños y un α % de los datos más grandes. Es una medida intermedia entre la media y la
mediana.
¿Cómo elegimos α?
Depende de cuantos outliers se pretenden excluir y de cuan robusta queremos que sea la medida
de posición. Cuando seleccionamos α = 0 tenemos la media, si elegimos el máximo valor posible
para α (lo más cercano posible a 0.5) tenemos la mediana. Cualquier poda intermedia representa
un compromiso entre ambas.
Una elección bastante común es α = 0.10, que excluye un 20% de los datos.
Cuando se sospecha que hay errores groseros en los datos, pero no tenemos modo de decidir si
el dato es erróneo. Esto permite excluir datos aberrantes de un modo menos sesgado, porque
estamos excluyendo datos de ambos extremos.
Los datos en la siguiente tabla corresponden al número de pulsaciones por minuto en pacientes
con asma durante un espasmo:
2021 53
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Paciente Pulsaciones
1 167
2 150
3 125
4 120
5 150
6 150
7 40
8 136
9 120
10 150
x = 130.8 ~
x = 143 x10 = 137.625
Sentencias en R
parapoda<-c(40 , 120 , 120 , 125 , 136, 150, 150, 150, 150, 167)
median(parapoda)
[1] 143
mean(parapoda,trim=0.1)
[1] 137.625
mean(parapoda,trim=0.2)
[1] 138.5
Para más información sobre cuando es conveniente emplear este medida de tendencia central,
dejo el siguiente link, https://hollyemblem.medium.com/when-to-use-a-trimmed-mean-
fd6aab347e46
Moda
2021 54
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
install.packages("modeest")
library(modeest)
Usamos como ejemplo el data frame trees que consta de 31 observaciones de árboles de cereza
negra, con 3 columnas: diámetro, ancho y volumen del especimen. Ver la siguiente referencia.
https://stat.ethz.ch/R-manual/R-patched/library/datasets/html/trees.html
El commando es el siguiente:
$Girth
Mode (most frequent value): 13.325
Bickel's modal skewness: -0.1612903
Call: mlv.default(x = newX[, i], method = "discrete")
$Height
Mode (most frequent value): 80
Bickel's modal skewness: -0.3870968
Call: mlv.default(x = newX[, i], method = "discrete")
$Volume
Mode (most frequent value): 10.3
Bickel's modal skewness: 0.8709677
Call: mlv.default(x = newX[, i], method = "discrete")
¿Cuán dispersos están los datos? ¿Cuán cercanos son los datos al valor típico?
Y´s: 2 3 6 6 8
X =Y =5
~ ~
X =Y =6
Rango Muestral
RX= 10 RY= 6
2021 56
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
X´s: 0 1 5 9 10
Y´s: 0 5 5 5 10
R X = RY
~ ~
X =Y X =Y
Varianza Muestral
( x1 − x ) 2 + ( x 2 − x ) 2 + .......... + ( x n − x ) 2
Varianza muestral = S2 =
n −1
• El desvío estándar tiene la misma unidad que los datos, mientras que la varianza no ( está
elevada al cuadrado).
Coeficiente de Variación:
Es una medida que relaciona el desvío standard con la media de una muestra:
2021 57
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
S
CV =
X
Es una medida que está en desuso ya que no tiene propiedades estadísticas muy interesantes, sin
embargo no depende de las unidades y si lo multiplicamos por 100 nos da una idea de la
variabilidad relativa.
Distancia Intercuartil
α (n + 1)
Buscamos el dato que ocupa la posición (si este número no es entero se promedian
100
los dos adyacentes o se interpolan los dos adyacentes)
1 1 2 2 3 4 4 5 5 6 7 7 8 8 9 9 10 10 11
El percentil 50% coincide con la mediana. Llamamos cuartil inferior al percentil 25% y cuartil
superior al percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente pobladas.
Entre los cuartiles se hallan aproximadamente el 50% central de los datos y el rango de estos es:
2021 58
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Una medida muy cercana a los cuartiles inferior y superior son el cuarto inferior y el cuarto
superior. Se calculan de la siguiente manera:
Dividimos a la muestra ordenada en dos partes: la primera corresponde a los datos más
pequeños que la mediana y la segunda parte a la los datos más grandes que la mediana
2 3 5 6 8 9 2 3 5 6 7 8 9
2021 59
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Docente 1 2 3 4 5 6 7 8 9 10 11 12 13
BOCE 7 4 26 18 33 35 28 39 22 31 19 23 39
sort(BOCE)-26
[1] -22 -19 -8 -7 -4 -3 0 2 5 7 9 13 13
Sin considerar el signo:
2021 60
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
abs(sort(BOCE)-26)
[1] 22 19 8 7 4 3 0 2 5 7 9 13 13
Lo ordeno:
sort(abs(sort(BOCE)-26))
[1] 22 19 8 7 4 3 0 2 5 7 9 13 13
[1] 0 2 3 4 5 7 7 8 9 13 13 19 22
Y ahora le encuentro la mediana a este nuevo vector que ocupa la posición 7, o sea que obtengo:
7, la mad vale 7
median(sort(abs(sort(BOCE)-26)))
[1] 7
Si hago mad(BOCE) obtengo 10.3782 que obviamente no es 7. Esto es porque R aplica una
corrección para lograr una distribución normal asintotica. Con una muestra pequeña entonces
aclaramos que la constante es 1, de esta si obtenemos 7 como respuesta que es lo correcto.
mad(BOCE,constant=1)
[1] 7
Ver,
http://127.0.0.1:26714/library/stats/html/mad.html
5 Números de Resumen
2021 61
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
En R:
fivenum(BOCE)
4 19 26 33 39
Notar que no coincide el cuartil superior calculado en Excel y en R, esto es habitual ya que no
existe un único cuartil sino un intervalo y cada software elige uno.
Box-Plots
Con las medidas anteriores podemos construir un gráfico de fácil realización y lectura.
¿Cómo lo hacemos?
2. Dibujamos una caja cuyos extremos son los cuartos y dentro de ella un segmento que
corresponde a la mediana.
3. A partir de cada extremo dibujamos un segmento hasta el dato más alejado que está a lo
sumo 1.5 di del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que están entre 1.5 diy 3 di de cada extremo y con o a
aquellos que están a más de 3 di de cada extremo.
Observación: Muchos paquetes estadísticos realizan el boxplot usando la distancia entre cuartos
en lugar de la distancia intercuartil. Como estas medidas son muy próximas, en general los
resultados son análogos. Lo importante es que entre los cuartos o entre los cuartiles se
encuentran aproximadamente el 50% central de los datos. El cálculo a mano o con diferentes
paquetes estadísticos puede brindar distintos resultados para cuartos y cuartiles, cada uno
establece un cálculo default cuando hay que aproximar la ubicación de un dato.
Ejemplo:
Si tenemos los siguientes datos ya ordenados:
10 25 50 91 92
2021 62
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
stem(ejemplo2)
The decimal point is 2 digit(s) to the right of the |
0 | 13
0 | 599
1 | 1111223334
1 | 55
Como los datos aprecen muy juntos es difícil apreciar que sucede con ellos. Notamos que el
número 50, por ejemplo, se representó como |5 .Podemos pedir que el grafico contenga más
tallos, de esta forma separamos los datos y obtenemos una representación mas satisfactoria de
los mismos. Notamos que la mayoría se concentra en valores altos mientras que hay pocos valores
bajos: 10, 25 y 50 aprecen alejados de la mayoría de los datos.
stem(ejemplo2,3)
The decimal point is 1 digit(s) to the right of the |
1|0
2|5
3|
4|
5|0
6|
7|
8|
9 | 12
10 | 89
11 | 345
12 | 06
13 | 23
14 | 16
15 | 1
2021 63
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 64
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
R permite muchísimas posibilidades para este gráfico, incluyendo la posición horizontal o vertical.
Si pedimos que no grafique, entonces devuelve los limites del gráfico y los outliers.
boxplot(ejemplo2,plot=FALSE)
$stats
[,1]
[1,] 50
[2,] 92
[3,] 114
[4,] 132
[5,] 151
$n
[1] 17
$conf
[,1]
[1,] 98.67175
[2,] 129.32825
$out
[1] 10 25
2021 65
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
$group
[1] 1 1
$names
[1] "1"
Los box-plots son especialmente útiles para comparar varios conjuntos de datos, pues nos dan
una rápida impresión visual de las características de cada conjunto y de las diferencia entre
ellos. Para poder realizar la comparación los datos tienen que estar en una misma escala.
Outliers
Los métodos que hemos visto nos permiten identificar puntos atípicos, que pueden aparecer en
una o más variables. Su detección es importante pues pueden determinar o influenciar
fuertemente los resutados de un análisis estadístico clásico, pues muchas de las técnicas
habitualmente usadas son muy sensibles a la presencia de datos atípicos.
Los outliers deben ser cuidadosamente inspeccionados, si no hay evidencia de error y su valor es
posible no deberían ser eliminados. Sin embargo, si el individuo tiene algo particular, como una
enfermedad, su inclusión debería ser reconsiderada.
Otro ejemplo
El siguiente ejemplo lo obtuvimos modificando el anterior, agregando valores pequeños y altos a
los datos originales.
ejemplo3<-c(-10,10,25,50,91,92,108,109,113,114,115,120,126,132,133,141,146,151,
152,153,154,160,500)
2021 66
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
stem(ejemplo3,3)
boxplot(ejemplo3,col="light blue")
boxplot(ejemplo3,plot=FALSE)
2021 67
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
$stats
[,1]
[1,] 50.0
[2,] 100.0
[3,] 120.0
[4,] 148.5
[5,] 160.0
$n
[1] 23
$conf
[,1]
[1,] 104.0215
[2,] 135.9785
$out
[1] -10 10 25 500
$group
[1] 1 1 1 1
$names
[1] "1"
Boxplots Paralelos
Una aplicación muy útil de los boxplots es la comparación de la distribución de dos o más
conjuntos de datos graficando en una escala común los boxplots paralelos de cada una de las
muestras. En este sentido los boxplots se muestran como un método muy efectivo de presentar
y resumir los datos, tal como veremos en el siguiente ejemplo.Notemos también que mientras es
sumamente difícil comparar histogramas de un mismo fenómeno,aun en la misma escala, es fácil
hacerlo con boxplots. Por ejemplo resultaría imposible comparar un fenómeno en un año con un
histograma por mes, en cambio 12 boxplots paralelos y en la misma escla pueden darnos una idea
de lo que ha sucedido en el tiempo bajo estudio.
para cada cerdo se registró la longitud de los dientes, la dosis de vitamina C y el método de
administración.
Ref:
McNeil, D. R. (1977) Interactive Data Analysis. New York: Wiley.
Crampton, E. W. (1947) The growth of the odontoblast of the incisor teeth as a criterion of
vitamin C intake of the guinea pig. The Journal of Nutrition 33(5): 491–504.
http://jn.nutrition.org/content/33/5/491.full.pdf
Realizamos dos boxplots: uno que grafica los longitud de los dientes en función de la dosis recibida
de vitamina C independiente del método de suministro. El segundo muestra el crecimiento en
función de la dosis de la vitamina y según la forma de su administración. Los boxplots muestran
algunas características de estos datos en forma muy rápida. A mayor dosis más crecimiento y en
las dosis menores el jugo produjo más variabilidad y crecimiento, en cambio en la dosis mayor, la
mediana es similar y la mayor variabilidad se observó con el ácido ascórbico.
30
25
20
15
10
5
0
0.5 1 2
Dosis de Vitamina C mg
2021 69
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
35
Longitud de Dientes
30
25
20
15
10
Acido Ascorbico
5
Jugo de Naranja
0
0.5 0.5 1 1 2 2
Dosis de Vitamina C mg
El último de los gráficos es solamente ilustrativo de las muchas posibilidades que tiene de
visualización de datos pero no se recomienda hacer un boxplot con menos de 15 datos!!
NOTA:Boxwex es un factor de escala que se aplica a todos los boxplots. Cuando los grupos son
pocos, la apariencia del gráfico se puede mejorar haciendo las cajas más pequeñas para que no
se superpongan entre sí.
Datos Categóricos
Gráficos para datos cualitativos.
2021 70
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Como en el caso de los datos cuantitativos podemos calcular la distribución de las frecuencias, es
decir registrar el número de unidades de análisis en la muestra que pertenecen a cada una de las
clases de la variable cualitativa.
Las categorías deben ser mutuamente excluyentes y exhaustivas.
El número de clases debería ser lo suficientemente pequeño como para resumir la información y
lo suficientemente grande como para evitar la pérdida de información valiosa. En algunas
situaciones las clases son naturales y no es posible elegirlas.
Ejemplo:
Consideremos los casos de meningitis notificados durante el año 2000 al SINAVE (Argentina)
clasificados según tipo de meningitis.
Por ejemplo, la frecuencia relativa de la categoría BSA se calcula del siguiente modo:
Gráfico de Barras
2021 71
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Estos gráficos se utilizan para representar tanto datos categóricos nominales como ordinales.
En un gráfico de barras, así como en cualquier tipo de gráfico se debe indicar el número
total de datos ya que el gráfico sólo muestra porcentajes o frecuencias relativas y la fuente
de la que se obtuvieron los mismos.
Cuando la variable observada es ordinal tiene sentido ordenar las barras según el orden
creciente de las categorías. En este caso es válido interpretar a partir del gráfico una
tendencia, si la hay, a diferencia de lo que ocurre cuando la variable es nominal en la que
el orden de las clases es arbitrario.
Para comparar dos o más distribuciones cualitativas, el modo más sencillo de representación es
el gráfico de barras combinadas. En la figura siguiente se presentan las distribuciones de casos
notificados de meningitis en Argentina para los años 1999 y 2000.
2021 72
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Por ejemplo del siguiente paper, Rheological Properties of Wheat-Flaxseed Composite Flours
Assessed by Mixolab and Their Relation to Quality Features, C. Codina et al., Foods,2019,8,33,
se presenta, entre otras, la siguiente tabla.
2021 73
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
En este caso se está comparando la harina de linaza de dos variedades marrón y dorada ( dos
categorías) en las siguientes variables: contenido de humedad, grasa, contenido de proteínas,
cenizas y carbohidratos. Todas estas cantidades están representadas en contenido porcentual y
resumidas por su media ± su desvío estándar. El paper contiene otros gráficos pero no el que
incluimos a continuación como ejemplo.
Representaremos esta Tabla 2 como diagrama de barras con desvío estándar ya que están los
datos consignados en la misma. Obtenemos el gráfico siguiente,
2021 74
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Gráfico de barras del contenido porcentual comparativo de humedad, grasa, proteínas, ceniza y
carbohidratos de las variedades de harina de linaza marrón y dorada.
Del gráfico observamos que son muy similares los dos tipos de harina, pero la marrón tiene mayor
contenido de grasa y menos proteínas. En el caso de algunas variables, los desvíos estándar son
tan pequeños que no se distinguen los segmentos en el gráfico. El ancho de las barras las fija el R
por default. La comparación visual incluyendo la media ± 1.96 su desvío estándar, puede dar una
evidencia visual si puede existir diferencia significativa entre las medias consideradas en las dos
categorías estudiadas de cada variable. Esto no parece ocurrir en el ejemplo ya que los intervalos
obtenidos se solapan.
Comandos en R.
Necesitamos crear una función porque el R no tiene una rutina que grafique las barras de error.
2021 75
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Gráficos de tortas
Cada una de las clases de una variable cualitativa se representa como una porción de un círculo
que representa a la frecuencia relativa de dicha clase.
Este tipo de gráfico no se recomienda por sus características limitadas. Se prefiere un diagrama
de barras o un dot-plot en R porque se puede apreciar mejor longitudes o alturas que ángulos.
Se recomienda además añadir el porcentaje en el gráfico para una mejor comparación con otro
gráfico de torta similar pero de otra cualidad de una misma variable.
2021 76
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
TV
TV BSA BSA
21%
18%
22% 22%
HI
HI
3%
2%
MTB
1% SN MTB
16% 1%
SN
14%
NM
SE NM
25%
SE
12% 24%
11% OG OG
3% 5%
Observemos que los dos tipos de gráficos dan información equivalente, sin embargo, en el gráfico
de barras resulta más natural comparar las distribuciones de dos grupos, ya que estamos más
entrenados a discernir diferencias de alturas que diferencias entre ángulos. Por otra parte, en el
gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación.
grasa 41%
humedad 6%
proteina 21%
carbohid. 29%
ceniza 3%
Gráficos de torta de del contenido porcentual comparativo de humedad, grasa, proteínas, ceniza
2021 77
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Pareciera que son iguales, pero los porcentajes nos indican las diferencias en proteína y grasa
básicamente. No parece poder distinguirse entre ambos gráficos visualmente.
Sentencias en R
pct1 <- round(brown.seed.means/sum(brown.seed.means)*100)
lbls1 <- paste(namesxx, pct1) # agrego porcentajes a la tabla
lbls1 <- paste(lbls1,"%",sep="") # agrego % en el grafico
pct2 <- round(golden.seed.means/sum(golden.seed.means)*100)
lbls2 <- paste(namesxx, pct2) #
lbls2 <- paste(lbls2,"%",sep="") #
pie(brown.seed.means,labels=lbls1,main="Harina de linaza marron")
pie(golden.seed.means,labels=lbls2,main="Harina de linaza dorada")
Supongamos que queremos estudiar y representar la relación entre dos variables categóricas.
Ejemplo:
Clasificamos a una muestra de 3888 individuos según su estado civil y según su consumo diario
de cafeína (considerado como el promedio del consumo de cafeína registrado en una semana). El
consumo diario de cafeína es una variable cuantitativa, sin embargo al ser muy imprecisa su
medición y dependiente de la memoria del individuo puede ser preferible manejarla como una
variable categórica.
La variable consumo semanal de cafeína tiene 4 categorías y la estado civil tiene 3, codificadas
como se indica:
Consumo
Sin consumo 1-150 mg/d 151-300 mg/d >300 mg/d
Código 0 1 2 3
2021 78
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Código 1 2 3
Consumo 0 1 2 3 Total
Estado Civil
1 652 1537 598 242 3029
2 23 40 38 40 141
3 218 327 106 67 718
Total 893 1904 742 349 3888
¿Qué indica cada número en el interior de la tabla? En la tabla anterior, los números que están
en los casilleros interiores indican la cantidad de casos que fueron clasificados según los dos
criterios, así por ejemplo se observaron 652 individuos casados que no consumieron cafeína
durante la semana anterior al estudio y se observaron 67 individuos solteros que tuvieron un
consumo de cafeína superior a los 300 mg/d.
La pregunta que nos hacemos es: ¿El consumo diario de cafeína está asociado con el estado civil?
Podemos calcular los porcentajes de individuos que han sido clasificados en cada casillero.
Consumo 0 1 2 3
Estado Civil
1 16.77% 39.53% 15.38% 6.22%
2 0.59% 1.03% 0.98% 1.03%
3 5.61% 8.41% 2.73% 1.73%
El 39.53 % de los individuos está casado y consume entre y 1 y 150 mg/d de cafeína, mientras que
sólo el 1.03 % está divorciado o separado o viudo y consume esta cantidad de cafeína diariamente.
2021 79
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
de la tabla de doble entrada, de allí su nombre. En general a partir de las marginales no se puede
describir la naturaleza de la relación entre las variables.
0 893 23%
1 1904 49%
2 742 19.1%
3 349 8.9%
Distribución Condicional
Observemos que en los casados, el porcentaje de individuos con mayor consumo de cafeína es:
242/3029=0.079=7.9%,
40/141=0.284=28.4%
Ejemplo: calculamos la distribución condicional del consumo diario de cafeína al estado civil
“casado”.
Observaciones:
Representación Gráfica.
Gráfico de Barras Segmentadas
¿Cómo se construye?
Cada barra describe un grupo de estado civil y tiene una altura de 100%.
Dentro de cada una de ellas, los segmentos indican la partición en los distintos niveles de
consumo diario de cafeína.
Las porciones representan el % de individuos del grupo que pertenece a cada categoría de
consumo diario de cafeína.
Como el consumo es una variable ordinal, los segmentos siguen este orden.
2021 81
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Estos gráficos nos permiten “leer” la distribución condicional del nivel de consumo diario de
cafeína dado el estado civil (no permiten leer la concional al revés).
2021 82
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejercicios
2021 83
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 84
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Distribuciones de probabilidad
Las frecuencias (frecuencias relativas) son representadas por el área del rectángulo
2021 85
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Frecuencia
Frecuencia
Relativa
Cuando representamos las frecuencias relativas nos independizamos del tamaño muestral. Si el
área de cada rectángulo es la frecuencia relativa, el área total es 1.
Polígono de frecuencias
2021 86
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
280-319 34 128
320-359 9 35
360-399 5 7
40
30
30
Percent of Total
Percent of Total
20
20
10 10
0
0
100 150 200 250 300 350
100 150 200 250 300 350
colesterol
colesterol
Los Polígonos de frecuencias superpuestos para estos dos conjuntos de datos se muestran en el
siguiente gráfico:
Polígono de Frecuencias: Jovenes y Adultos
0.4
0.3
0.2
0.1
0.0
Si tuviésemos miles de mediciones y con mayor precisión, se podría trabajar con intervalos de
longitud muy pequeña y el histograma y el polígono de frecuencias tendrían el aspecto de una
“curva suave”.
2021 87
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Por ello, suele decirse que el histograma es una aproximación a una distribución suave
subyacente, que es la distribución de probabilidad.
Sección 2
Repaso de Probabilidades y de Distribuciones de probabilidad Discretas y Continuas.
Los datos de la MUESTRA se resumen a través de medidas tales como: media, varianza, desvío
estándar, mediana, porcentajes, percentiles, etc. (ESTADÍSTICOS).
Si el valor de la variable de interés pudiera medirse en todos los sujetos de la POBLACIÓN (censo),
podríamos calcular estas mismas medidas resúmenes en la población (PARÁMETROS).
Ejemplo :
• Población: Habitantes de la ciudad de Buenos Aires, sexo masculino, 20 a 60 años de edad.
• Se selecciona una muestra aleatoria de 100 varones de esa población.
• Se miden o se registran las siguientes variables:
2021 88
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
En general utilizamos:
- letras griegas para identificar parámetros poblacionales
- letras latinas para identificar estadísticos y variables aleatorias.
¿Por qué tomar una muestra?
• Porque generalmente es imposible estudiar a toda la población.
• Porque es más económico.
• Porque se obtienen observaciones de mayor calidad.
Pero... distintas muestras tomadas de la misma población producirán distintos valores del
estadístico de interés. Por lo tanto, es razonable preguntarse,
- ¿Cuán variables son los valores del estadístico de muestra en muestra?
- ¿Cuán confiable es la estimación producida por una muestra particular?
- ¿Cuál es el error cometido al utilizar una muestra para estimar el valor de un parámetro
poblacional?
Consideremos un ensayo aleatorio que se repite n veces y en cada ensayo observamos si ocurre
un cierto evento A.
2021 89
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Por ejemplo, tiramos un dado n veces, contamos el número de veces que sale el número 6
(Evento A = “sale el número 6”). Definimos la frecuencia con que ocurrió el evento A en las n
repeticiones:
nA
fA =
n
donde nA = número de veces que ocurre el evento A en las n repeticiones
n = número de veces que repetimos el ensayo.
Intuitivamente, la probabilidad del evento A, que notaremos P(A), es la frecuencia con que
ocurre A en infinitas repeticiones del experimento, o expresado de otra forma,
nA
fA = → P( A)
n n→∞
con 0 ≤ P ( A) ≤ 1 .
Al lanzar tres monedas, el espacio muestral es 𝒮𝒮 = {(c,c,c), (c,c,s), (c,s,c), (c,s,s), (s,c,c), (s,c,s),
(s,s,c), (s,s,s)}
Evento o Suceso. Se llama evento o suceso a todo subconjunto de un espacio muestral. Por
ejemplo en el espacio muestral 𝒮𝒮 = {1, 2, 3, 4, 5, 6} del lanzamiento de un dado, los siguientes son
eventos:
1. Obtener un número primo A = {2, 3, 5}
2. Obtener un número primo y par B = {2}
3. Obtener un número mayor o igual a 5 C = {5, 6}
Eventos mutuamente excluyentes.- Dos eventos son mutuamente excluyentes si y sólo si su
intersección es vacía. Por ejemplo, en el lanzamiento de un dado los eventos B = {2} y C = {5, 6}
son mutuamente excluyentes pues B C =
Algunas Propiedades
Ejemplo 2
Consideremos una caja que contiene cuatro tarjetas del mismo tamaño. Cada tarjeta tiene
registrado un número (10, 20, 30 ó 40).
Sea X = valor obtenido al sacar una tarjeta de la caja.
2021 91
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Esta caja podría representar una población con cualquier número de unidades de análisis, en la
que ¼ de las unidades tiene el valor 10, ¼ el valor 20, etc.
La distribución de probabilidades de la variable X es:
x 10 20 30 40 suma
px 0.25 0.25 0.25 0.25 1
0.3
0.25
probabilidad
0.2
0.15
0.1
0.05
0
0 10 20 30 40 50
X
2021 92
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Notar que en este caso, como estamos calculando la varianza poblacional dividimos por el número
total de individuos de la población y no por el total menos 1 como hacemos al calcular la varianza
muestral.
2
El desvío estándar σ = σ = 125 = 11.18 es una medida de cuán dispersos se encuentran
los valores de la variable.
Ejemplo 3
Consideremos ahora otra caja que contiene 10 tarjetas del mismo tamaño. Cada tarjeta tiene
registrado un número y supongamos que
Esta caja podría representar la variable ingresos mensuales (en miles) en una pequeña empresa
con 10 empleados. O podría representar los salarios de una gran empresa con cientos de
empleados en la que sólo hay cuatro salarios posibles y en la que 40% de los empleados ganan
10000 al mes, 30% reciben 20000, etc.
Sea X = valor obtenido al sacar una tarjeta de la caja (salario de un empleado elegido al azar).
2021 93
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
10 0.40 0.45
20 0.30 0.4
30 0.20 0.35
40 0.10 0.3
probabilidad
0.25
0.2
0.15
0.1
0.05
0
0 10 20 30 40 50
4 ⋅ 10 + 3 ⋅ 20 + 2 ⋅ 30 + 1 ⋅ 40
µ = E( X ) = = 0.4 ⋅ 10 + 0.3 ⋅ 20 + 0.2 ⋅ 30 + 0.1 ⋅ 40 = 20
10
y la varianza
2 4 ⋅ (10 − 20) 2 + 3 ⋅ (20 − 20) 2 + 2 ⋅ (30 − 20) 2 + 1 ⋅ (40 − 20) 2
V (X ) = σ =
10
2
= 0.4 ⋅ (10 − 20) + 0.3 ⋅ (20 − 20) + 0.2 ⋅ (30 − 20) 2 + 0.1 ⋅ (40 − 20) 2 = 100
2
Notar que, aún cuando X toma los mismos valores que en el Ejemplo 2, la media y la varianza
difieren en las dos cajas, debido al hecho de que la probabilidad asociada a cada valor no es la
misma. En particular σ2 es menor en la segunda caja.
En resumen,
La media o esperanza de una variable X se calcula multiplicando cada valor posible de la variable
por su probabilidad.
Del mismo modo, la varianza de X es una suma ponderada de las distancias a la media elevadas
al cuadrado, donde el peso corresponde a la probabilidad de que ocurra cada valor de la variable.
2021 94
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Consumo de Consumo de
energía (BTU) Frecuencia energía (BTU) Frecuencia
< 20 0 [12,14) 16
[2,4) 2 [14,16) 4
[4,6) 4 [16,18) 2
[6,8) 18 [18,20) 1
[8,10) 23 ≥ 20 0
[10,12) 20
Una variable continua toma valores en todo un intervalo de números reales. Si, en vez de 90
datos tuviésemos miles de datos, se podrían definir intervalos muy angostos de modo que el
histograma tendría el aspecto de una curva suave, como la que hemos superpuesto sobre el
Gráfico 3 a la derecha.
Gráfico 3
20
0.15
Frecuencia
15
Probabilidad
0.10
10
0.05
5
0.00
0
5 10 15 20 5 10 15 20
2021 95
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Gráfico 4.
2021 96
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 97
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
importancia es que muchos métodos estadísticos hacen uso de las propiedades de la distribución
normal aún cuando los datos no tengan un histograma acampanado y simétrico.
Es la más conocida de las distribuciones de probabilidad y está representada por una curva suave
en forma de campana.
Normal no implica que se use para datos normales en el sentido usual de la palabra, ni que las
otras distribuciones sean anormales. Consideremos los datos de consumo de energía en
determinado momento en 90 hogares calentados a gas en Wisconsin del Gráfico 3 nuevamente.
Gráfico 3
0.15
Probabilidad
0.10
0.05
0.00
5 10 15 20
Consumo de energía
Observamos cierta simetría alrededor de un valor central y un único pico. También podemos
observar que la curva que hemos sobrepuesto proporciona un buen ajuste a la distribución de los
datos.
Decimos que una variable tiene distribución normal si su función de densidad de probabilidades
es:
1 2
1 − 2 (x−µ)
f ( x) = e 2σ
2π σ
Donde µ ∈ ℛ, y 𝜎𝜎 ≥ 0 .
2021 98
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
En realidad, lo que existe una familia de distribuciones Normal, para cada valor de media y desvío
obtenemos una curva normal diferente. Veamos algunos ejemplos.
0.4
σ=1
0.4
0.3
µ=0 µ=5
0.3
0.2
0.2
σ=2
0.1
0.1
σ=4
0.0
0.0
-10 -5 0 5 10
-5 0 5 10
x x
El gráfico de la izquierda corresponde a dos normales con distinta media e igual desvío, mientras
que el de la derecha a normales centradas en 0, pero con distinto desvío standard. Se puede
observar que al aumentar el desvío σ se produce un mayor aplastamiento en la curva. Este
aumento en la variabilidad produce que valores muy alejados del centro µ sean probables.
2021 99
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Características
• Curva suave, acampanada y simétrica, con un único pico.
• El punto de simetría corresponde a la media µ de la variable.
• La desviación estándar σ determina el ancho de la campana.
• La curva presenta dos puntos de inflexión (cambios de concavidad) a distancia σ del eje
de simetría µ, es decir en (µ - σ) y (µ + σ).
• µ es el parámetro que indica la posición.
• σ es el parámetro que indica la escala o la dispersión de la función.
• El área bajo la curva es 1.
Gráficamente corresponden a:
2021 100
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
µ -3 σ µ +3 σ
0.9973
Cualquier posición puede expresarse como una distancia a la media medida en desvíos standard.
Es equivalente a considerar una normal con media 0 y desvío 1, que se conoce como Normal
Standard.
Cualquier normal puede llevarse a una Standard mediante una simple operación: restando la
media y dividiendo por el desvío. ¿Cómo se calculan las probabilidades?
2021 101
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejemplo: Supongamos que es razonable suponer que el consumo de energía tiene distribución
Normal con media 10 y desvío 3 . Si deseamos calcular la probabilidad teórica de que un hogar de
la población estudiada tenga un consumo de energía mayor que 13.87, calculamos su distancia a
13.87−10
la media en desvíos standard: =1.29
3
Unidades Standard
Una vez obtenido el valor correspondiente podemos usar una tabla como la que se incluye más
abajo que proporciona estas probabilidades o bien el Excel o mediante cualquier software
estadistico o calculadora adecuada.
En nuestro caso, resulta 0.0985(≈ 0.10) pues la tabla indica que P(X<=1,29)=0.9015
Usando las siguientes características de la normal es posible calcular áreas asociadas a cualquier
conjunto de valores de Z:
Sentencias en R
pnorm(0) # 0.5
qnorm(0.5) # 0
2021 102
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
pnorm(3,3,0.5) # 0.5
qnorm(0.5,3,0.5) #3
pnorm(1.29) # 0.9014747
pnorm(13.87,10,3) # 0.9014747
1- pnorm(13.87,10,3) # 0.0985253
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
2021 104
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Hoy ya no necesitamos estas tablas, contamos con los resultados que nos devuelve el Excel o
cualquier programa estadístico como ya dijimos. Las siguientes son tomas de pantallas de la
aplicación para móviles Probability Distributions que no solo tiene la distribución normal sino
muchas otros discretas y continuas con gráficos y los primeros momentos de cada una.
• Si la muestra realmente proviene de una población Normal, el gráfico debería estar, salvo
fluctuaciones aleatorias, sobre una recta (y=x).
• Las distintas curvaturas que pueden presentar estos gráficos, nos sugieren que tipo de
distribución puede tener la población de origen.
2021 105
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
R realiza estos gráficos y además podemos además obtener el valor del estadístico de Shapiro-
Wilk, W, que mide la asociación entre los percentiles poblacionales y muestrales.
La distribución teórica de W también está tabulada, así que podemos comparar el valor obtenido
con los de la tabla correspondiente.
R nos devuelve el valor del estadístico W y un valor P(W) que nos indica si el W observado es
grande o pequeño. Este test lo volveremos a mencionar en la Sección 4 del curso.
Entonces el QQ-plot se realiza según se indica en el siguiente cuadro:
𝑖𝑖−0.5
Donde 𝑝𝑝𝑖𝑖 = para 1 ≤ 𝑖𝑖 ≤ 𝑛𝑛 .
𝑛𝑛
Por lo que se podrá graficar en Excel también muy fácilmente, si no se posee un software
estadístico.
Datos
Nº obs ordenados pi=(i-0.5)/19 Distr. Norm. Inv.
2021 106
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
10 173 0,5 0
2021 107
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
10 178 0,5 0
2021 108
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Conjunto 1 Conjunto 2
2021 109
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
The decimal point is 1 digit(s) to the right of The decimal point is 1 digit(s) to the right of
the | the |
14 | 02 14 | 0
14 | 5 14 |
15 | 0 15 |
15 | 8 15 |
16 | 02 16 | 0
16 | 5 16 | 56
17 | 03 17 | 003
17 | 57 17 | 578899
18 | 013 18 | 000113
18 | 6
19 | 01
19 | 5
Sentencias en R
par(mfrow=c(1,2))
boxplot(conjunto1,col="light blue",main="Boxplot Conjunto 1")
boxplot(conjunto2,col="light green",main="Boxplot Conjunto 2")
par(mfrow=c(1,1))
2021 110
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Placebo Amiloride
224 213
80 95
75 33
541 440
74 -32
85 -28
293 445
-23 -178
2021 111
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
525 367
-38 140
508 323
255 10
525 65
1023 343
1000
400
Cuantiles muestrales
Cuantiles muestrales
800
300
200
600
100
400
0
200
-100
-200
-1 0 1 -1 0 1
W P(W)
Amiloride 0.9410 0.4314
Placebo 0.8803 0.0588
Por lo tanto no es razonable que las diferencias de FVC de los placebos sean normales, mientras
que este supuesto no parece contradecirse en el caso de los tratados con Amiloride.
Sobre el test de Shapiro –Wilk volveremos más adelante dentro de la sección Test de Hipotesis.
En los siguientes gráficos ilustramos con algunos ejemplos las posibles distribuciones con los
gráficos histogramas, boxplots y QQ-plots asociados que se pueden observar en la práctica.
2021 112
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 113
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 114
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 115
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Es la forma gráfica más usada para mostrar la relación entre dos variables cuantitativas.
Se representan en un sistema de coordenadas cartesianas los valores de una de las variables
graficada en función de la otra.
Este gráfico es muy útil para explorar la posible relación entre dos variables y también para
proponer un modelo para la posible relación funcional entre ambas.
Ejemplo:
1. En el siguiente gráfico se muestran los datos de 18 adultos en el que se estudia la relación entre
el % de grasa corporal y la edad.
Se observa una tendencia: a mayor edad mayor porcentaje de grasa corporal.
40
30
GRASA
20
10
20 30 40 50 60
EDAD
2021 116
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
140
120
Pimax
100
80
60
40
5 10 15 20
Edad
PE2.7
S
O
M
E
DI
2.2
1.7
32 36 40 44
SEMANAS
2021 117
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejemplo:
El archivo iris en R contiene la información de las longitudes y anchos de sepalos y pétalos de esta
flor según variedad ( versicolor, virginica y setosa). Podemos hacer la correlación lineal entre estas
variables ( en R el comando es pairs)
Sepal.W
3.0
2.0
7
5
Petal.Le
3
1
2.5
1.5
Petal.W
0.5
2021 118
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Como podemos observar en el gráfico la relación entre las variables no es en todos los casos lineal.
Por ejemplo, parece serlo entre la longitud y el ancho de los pétalos pero no entre estas medidas
consideradas en los sépalos.
Por ejemplo en R.
Generamos dos muestras normales de tamaño 105=1e+05
c1=rnorm(1e5)
c2=rnorm(1e5)
plot(c1,c2)
Una forma de obtener algo más interesante se obtiene graficando una submuestra.
2021 119
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
3
c2[samplepoints]
2
1
0
-1
-2
-3 -2 -1 0 1 2 3
c1[samplepoints]
En R.
samplepoints=sample(1e5,size=1000,replace=FALSE)
plot(c1[samplepoints],c2[samplepoints])
Así obtuvimos el gráfico anterior.
Otra posibilidad es hacer un scatter plot suavizado que nos permite observar donde está la
mayor concentración de los pares de datos.
En R
smoothScatter(c1,c2)
2021 120
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Por último mostramos otra forma muy interesante de representar estos datos en la librería
hexbin que nos permite cuantificar esa densidad observada.
library(hexbin)
hhhh=hexbin(c1,c2)
plot(hhhh)
2021 121
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
4
Coun
1053
987
2 922
856
790
724
c2
0 658
593
527
461
396
-2 330
264
198
132
-4 67
1
-4 -2 0 2 4
c1
Y con algunas modificaciones obtenemos las variaciones siguientes del gráfico anterior
En R.
plot(hhhh,style="lattice")
plot(hhhh,colramp=BTY,colorcut=c(0,.1,.2,.3,.4,.6,1))
plot(hhhh, style = "nested.lattice",border=2,density=35)
plot(hhhh, style = "nested.lattice")
Con estos gráficos de puntos podemos presenter de forma atractiva la relación entre dos
conjuntos de datos con muchas obervaciones. Por supuesto que si existe alguna relación entre
las variables se haría más notable en los últimos gráficos que con el primero que es sencillamente
una gran masa de puntos.
2021 122
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
4
4
Coun
1053 Coun
987 2
2 922
856 1053
790
724 632
c2
658 0
c2
0 593 422
527
461 317
396 -2
-2 330 211
264
198 106
132 -4
67 1
-4 1
-4 -2 0 2 4
-4 -2 0 2 4 c1
c1
4 4
2 2
Thousand Thousand
c2
c2
0 0
13579 13579
Hundreds Hundreds
-2 13579 -2 13579
Tens Tens
13579 13579
-4 Ones -4 Ones
13579 13579
-4 -2 0 2 4 -4 -2 0 2 4
c1 c1
plot(hexbin(c1,c2+c1))
plot(hexbin(c1,log(abs(c1))*log(abs(c2))))
log(abs(c1)) * log(abs(c2))
6
Coun Coun
4 1530 30 5732
1434 5374
1339 5016
c2 + c1
2 1243 4657
1148 20 4299
1052 3941
0 957 3583
861 3225
766 10 2866
-2 670 2508
574 2150
479 1792
-4 383 0 1434
288 1076
192 717
-6 97 359
1 -10 1
-4 -2 0 2 4 -4 -2 0 2 4
c1 c1
Correlación
En el Ejemplo 1 teníamos,
2021 124
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
40
30
GRASA 20
10
20 30 40 50 60
EDAD
• Observamos que parecía haber cierta asociación entre las dos variables, en tanto hay una
tendencia a que la gente mayor tenga mayor % de grasa.
• El grado de asociación entre las dos variables puede ser estimado a través del Coeficiente de
Correlación Lineal (de Pearson) que mide el grado de asociación lineal entre las variables.
Supongamos que tenemos una muestra de n individuos en los que medimos 2 variables: x e y.
Por lo tanto tenemos observados: (x1,y1), (x2,y2), (x3,y3),....... (xi,yi),...... (xn,yn).
Entonces el Coeficiente de Correlación Lineal se calcula como
n
∑ ( xi − x )( yi − y )
i =1
r=
n n
∑ ( xi − x ) 2 ∑ ( yi − y ) 2
i =1 i =1
Trataremos de interpretar porqué el coeficiente así definido mide la asociación entre las 2
variables.
n
Consideremos el numerador: ∑ ( xi − x )( yi − y )
i =1
2021 125
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
( xi − x ) ( yi − y ) ( xi − x )( y i − y )
NE + + +
SE + - -
SO - - +
NO - + -
Entonces, si los puntos tienden a estar sobre una recta que va del cuadrante SO al NE, r tenderá
a ser positivo.
Si los puntos tienden a estar sobre una recta que va del cuadrante NO al SE, r tenderá a ser
negativo.
Si los puntos se distribuyen homogéneamente en los cuatro cuadrantes (no hay relación entre las
variables), r tenderá a ser 0.
Propiedades de la correlación:
2021 126
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El valor r=1 se obtiene cuando todos los puntos se encuentran sobre una recta con
pendiente positiva. (cuadrante SO a NE)
El valor r=-1 se obtiene cuando todos los puntos se encuentran sobre una recta con
pendiente negativa. (cuadrante NO a SE).
Cuanto más grande es el valor absoluto de r, mayor es la asociación lineal entre las
variables.
Sentencias en R,
cor(iris$Petal.Length,iris$Petal.Width)
cor(iris$Sepal.Length,iris$Sepal.Width)
cor(iris$Petal.Length,iris$Sepal.Width)
Y podemos hacer el gráfico siguiente para visualizer la situación pero además según especie ( esta
variable es un factor). Tal vez podamos determinar que hay correlación entre la longitud del
pétalo y el ancho del sépalo más importante dentro de alguna variedad.
Sentencias en R,
Species2=ifelse(iris$Species=="setosa","blue",ifelse(iris$Species=="versicolor","violet","grey"))
plot(iris$Sepal.Width,iris$Petal.Length,pch=19,cex=0.7,col=Species2)
legend(3.5,4,bty="n",legend=c("setosa","versicolor","virginica"),
col=c("blue","violet","grey"),pch=c(19,19,19),cex=c(0.7,0.7,0.7))
2021 127
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
7
Longitud de Pétalo
6
5
4
setosa
versicolor
virginica
3
2
1
Ancho de sépalo
El gráfico parece indicar que la relación lineal es más evidente en las especies versicolor y
virginica.
Por ejemplo obtuvimos que la correlación entre estas variables para la variedad versicolor es igual
a 0.5605
Sentencia en R
cor(iris$Petal.Length[iris$Species=="versicolor"],iris$Sepal.Width[iris$Species=="versicolor"])
2021 128
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Otros Ejemplos
2021 129
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
r=0
En este último ejemplo r=0 pues no hay asociación lineal, sin embargo la asociación entre las
dos variables es perfecta ( es cuadrática).
En el ejemplo que creamos de dos variables con 105 datos, c1 y c2, podemos hacer las
correlaciones entre las transformaciones que creamos para los dos últimos gráficos.
En R,
cor(c1,c1+c2)
cor(c1,log(abs(c1))*log(abs(c2)))
Y obtenemos r=0.7069253 y r=0.001573182 respectivamente como podíamos esperar de los
gráficos obtenidos, además de las relaciones entre las variables que nosotros propusimos.
En cuanto a la correlación de Spearman se puede calcular así en R,
cor(c1,c2+c1, method="spearman")
cor(c1,log(abs(c1))*log(abs(c2)),method="spearman")
Y obtenemos ρ= 0.6898331 y ρ=1.714885e-05 respectivamente.
http://istics.net/stat/Correlations/
En el link se dan ejemplos para chequear la posible correlación entre dos conjuntos de datos.
Aquí hay una pantalla que ilustra un ejemplo de su uso.
2021 130
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 131
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Como vemos a partir de los ejemplos la correlación r es muy sensible a los datos atípicos.
Procedimiento: Tenemos x1,x2,x3,...... xi,..... xn, e y1, y2,y3,...... yi,.....yn obtenidos a partir de los
pares (x1,y1), (x2,y2), (x3,y3),.. (xi,yi),.. (xn,yn).
1. Ordenamos los valores de cada variable por separado y a cada uno le asignamos la posición
que ocupa en el orden establecido, es decir el rango.
De manera que obtenemos R(xi) y R(yi) para cada dato.
Si R(xi)=1 quiere decir que xi es la primera observación en la muestra ordenada de las x´s, si
R(xi)=2 quiere decir que xi es la segunda y así sucesivamente. De la misma forma, para las y´s.
Los rangos tomarán valores entre 1 y n.
Si en el punto 1 tenemos empates, a las observaciones con el mismo valor les asignamos el
promedio de los rangos correspondientes.
Ejemplo:
Espécimen Húmero Rango Fémur Rango
A 312 3.5 430 3
B 335 5 458 5
C 286 1 407 1
D 312 3.5 440 4
E 305 2 422 2
Ejemplo 1
En un estudio realizado en Italia, 10 pacientes con hipertrigliceridemia siguieron una dieta baja
en grasas y alta en hidratos de carbono. Antes de realizar el estudio se midió el colesterol y los
triglicéridos en los pacientes, obteniéndose los siguientes resultados:
2021 133
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
7 5.48 5.53
8 6.02 8.83
9 10.34 9.48
10 8.51 14.20
(PEARSON) RANK
11
CORRELATIONS
TRIGLI
COLEST COLEST
6 TRIGLI 0.6497 TRIGLI 0.4182
5 7 9 11
COLEST
Ejemplo 2
X Y
10 17
13 14
12 16
15 13
16 15
17 15
14 12
30 30
2021 134
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
CORRELATIONS
(PEARSON)
X
Y 0.8472
SPEARMAN RANK
CORRELATIONS
X
Y 0.0599
Sección 3
NOCIONES DE INFERENCIA
2021 135
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Hasta ahora hemos aprendido formas de caracterizar los datos, resumirlos y describirlos. Además
hemos aprendido algunas nociones de probabilidad que nos permitirán en lo que sigue obtener,
a partir de los datos, conclusiones acerca de la población de la cual éstos proceden.
En general, como resultado de una investigación pretendemos INFERIR el valor de algún
parámetro poblacional a partir de una muestra.
Recordemos,
PARÁMETRO ⇒ es un número que describe a una población
ESTADÍSTICO ⇒ es cualquier número calculado a partir de los datos.
Una de las armas más importantes que provee la Estadística es la posibilidad de obtener
conclusiones generales a partir de un conjunto limitado – pero representativo – de datos. Cuando
inferimos no tenemos garantía de que la conclusión que obtenemos sea exactamente correcta.
Sin embargo, la teoría estadística nos permite cuantificar el error asociado a la estimación.
En lo que sigue, centraremos nuestra atención en el problema de estimar la media poblacional µ,
aunque las ideas que presentaremos son similares a las que se utilizan para realizar inferencia
sobre cualquier otro parámetro poblacional.
Distintas muestras tomadas de la misma población (aún cuando tengan el mismo tamaño y sean
obtenidas con los mismos criterios) producirán distintos valores del estadístico de interés, es
decir, nuestra estimación dependerá de la muestra que hayamos seleccionado. Por lo tanto, una
pregunta clave a responder es:
¿Cuán variables son los valores del estadístico de muestra en muestra?
Para responder a esta pregunta consideraremos nuevamente la caja del Ejemplo 2. Recordemos
que la caja contiene cuatro tickets, con los números 10, 20, 30 y 40. Sea X = valor obtenido al
sacar un ticket de la caja.
La distribución de probabilidad de la variable X es:
x P(X = x)
10 0.25
20 0.25
30 0.25
40 0.25
1.00
2021 136
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Recordemos que los valores de la media y la varianza de esta variable en la población son:
µ = E(X) = 25 V(X) = σ2 = 125
Supongamos que nos interesa estimar la media en la caja (µ), y para hacerlo tomamos una
muestra aleatoria de tamaño n = 2. ¿Cuáles son los valores de X que podemos obtener? ¿Cuán
variables son?
La tabla siguiente presenta un listado de todas las muestras aleatorias de tamaño n = 2 que
pueden obtenerse a partir de nuestra caja, cuando se utiliza muestreo con reposición (se extrae
un ticket, se registra su valor y se devuelve a la caja).
Muestras posibles x P( x )
1º obs. 2º obs.
10 10 10 1/16
10 20 15 1/16
10 30 20 1/16
10 40 25 1/16
20 10 15 1/16
20 20 20 1/16
20 30 25 1/16
20 40 30 1/16
30 10 20 1/16
30 20 25 1/16
30 30 30 1/16
30 40 35 1/16
40 10 25 1/16
40 20 30 1/16
40 30 35 1/16
40 40 40 1/16
Las muestras que obtenemos son aleatorias, en consecuencia, el valor del estadístico que nos
interesa (en este ejemplo la media muestral) también es aleatorio. Es decir, la media muestral es
una variable aleatoria (varía de muestra en muestra) y tiene asociada una distribución de
probabilidades a la que denominamos DISTRIBUCIÓN DE MUESTREO DE LA MEDIA.
2021 137
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
x P( x ) P( x )
10 1/16 0.063
15 2/16 0.125
20 3/16 0.188
25 4/16 0.250
30 3/16 0.188
35 2/16 0.125
40 1/16 0.063
1 1.00
0.3
0.25
0.2
0.15
0.1
0.05
0
0 5 10 15 20 25 30 35 40 45 50
En este ejemplo, la esperanza de la media coincide con la media en la caja (µ), y la varianza de los
promedios muestrales resulta ser la mitad de la varianza de la variable (σ2).
2021 138
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
x P( x )
10 0.001
12 0.005
14 0.015
16 0.034
18 0.063
20 0.099
22 0.132
24 0.151
26 0.151
28 0.132
30 0.099
32 0.063
34 0.034
36 0.015
38 0.005
40 0.001
1.000
σ2 125
V (X ) = = = 25
Por lo tanto, con n = 5 n 5
2021 139
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Las gráficas siguientes muestran cómo cambia la distribución del estadístico X cuando se toman
muestras de tamaño 2, 5, 10, 25 y 100 de esta población. En los gráficos se respetó siempre la
misma escala en el eje horizontal, para mostrar cómo disminuye la dispersión de la distribución
de muestreo al aumentar el tamaño de muestra. El hecho de usar siempre la misma escala
distorsiona la imagen de la distribución, por esa razón se presenta al pie, la distribución
correspondiente a n = 100 en una escala apropiada.
¿Qué se observa?
2021 140
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
0.25 0.25
0.20
probabilidad
0.20
probabilidad
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0 10 20 30 40 50 0.00
0 5 10 15 20 25 30 35 40 45 50
x
media muestral
0.10
0.15
0.08
probabilidad
probabilidad
0.10
0.06
0.04
0.05
0.02
0.00
0.00
0 5 10 15 20 25 30 35 40 45 50
0 10 20 30 40 50
media muestral
media muestral
0.35
0.15 0.30
0.25
probabilidad
probabilidad
0.10 0.20
0.15
0.05 0.10
0.05
0.00 0.00
0 5 10 15 20 25 30 35 40 45 50 0 10 20 30 40 50
media muestral media muestral
0.35
0.30
0.25
probabilidad
0.20
0.15
0.10
2021 141
0.05
0.00
22 23 24 25 26 27 28
media muestral
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2 σ2
σX =
n
y en consecuencia el desvío estándar de la distribución de la media muestral, denominado ERROR
ESTANDAR DE LA MEDIA es
σ
σX =
n
Nota: El error estándar de la media nos indica cuán variables son las medias obtenidas en distintas
muestras (tamaño n), mientras que el desvío estándar σ mide la variabilidad de las observaciones
poblacionales (variabilidad en la caja de la cual tomamos muestras).
A medida que aumenta el tamaño de muestra, la forma de la distribución de muestreo (del
histograma de los promedios) se parece más y más a la distribución normal.
Estas características que hemos presentado para el caso de una variable discreta (X puede tomar
sólo cuatro valores: 10, 20, 30, 40), se observan siempre, independientemente de la distribución
de la variable considerada.
A continuación se presentan otros ejemplos en los que se simuló la extracción de muestras de
tamaño 2, 5 y 30, a partir de una población y se realizaron histogramas con los distintos valores
de X obtenidos, con una variable discreta, con una simétrica y una asimétrica ( en la primera
línea para una variable discreta, en la segunda para una variable uniforme y en la última para una
variable exponencial)
2021 142
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Gráfico 6.
2021 143
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Este resultado que hemos presentado empíricamente se conoce con el nombre de TEOREMA
CENTRAL DEL LíMITE, y dice:
Sea X una variable con media µ y varianza σ2, con cualquier distribución. Cuando n es
suficientemente grande, la distribución de la media muestral X es aproximadamente normal con
media µ y desviación estándar σ / n . Es decir, cuando n es suficientemente grande
σ2
X ≈ N µ ,
n
o lo que es lo mismo,
X−µ
≈ N (0, 1)
σ/ n
Comentarios.
El Teorema Central de Límite (TCL), en la versión que hemos presentado, supone que las
observaciones son independientes, es decir que la muestra es aleatoria.
¿Cuándo consideramos n suficientemente grande para que valga la aproximación normal
al histograma de los promedios?
Depende de la forma de la distribución de la variable. Si ésta es razonablemente simétrica,
la aproximación vale incluso para valores muy pequeños de n. Si la distribución es
fuertemente asimétrica o con muchos outliers, es necesario un n muy grande para que el
histograma de los promedios pueda ser aproximado por la curva normal.
En la práctica usualmente se toma una ÚNICA muestra o se realiza un único experimento
y no se los repite. Sin embargo, la idea de que podríamos repetirlo (con sólo tener
suficiente tiempo y dinero) y que ésto resultaría en muestras diferentes de la actual,
constituye la base para interpretar la variabilidad del estadístico y es un paso fundamental
en el razonamiento estadístico. La inferencia se basa en una pregunta simple: ¿Qué
hubiera ocurrido si la muestra o el experimento hubieran sido repetidos muchas veces?
En general se toma como cota inferior al número 30, es decir, se considera n
suficientemente grande si es mayor o igual que 30.
2021 144
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejercicio
Supongamos que la distribución del colesterol sérico en hombres de 20 a 74 años es normal con
media µ = 210 mg/100 ml, y desviación estándar σ = 40 mg/100 ml.
a) Se selecciona un hombre al azar de esa población y se determina su nivel de colesterol. ¿Cuál
es la probabilidad de que este señor tenga valor de colesterol mayor que 230 mg/100 ml?
b) ¿Qué proporción de los hombres de esta población tienen valores de colesterol mayor que
230 mg/100 ml?
d) ¿ Qué proporción de las muestras de tamaño 16 tomadas a partir de esta población producirán
promedios mayores que 230 mg/100 ml?
2021 145
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Sección 4
TEST DE HIPÓTESIS
El objetivo en muchos estudios es chequear si los datos concuerdan con ciertas predicciones o
hipótesis acerca de variables medidas en el estudio. Muchos problemas de ingeniería, medicina,
biología y economía (por mencionar sólo algunos ejemplos) requieren que se tome una decisión
entre aceptar o rechazar una afirmación sobre algún parámetro. Esta proposición recibe el
nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto
que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de
la ingeniería, pueden formularse como problemas de prueba de hipótesis. Por ejemplo,
supongamos que se tiene interés en la velocidad de combustión de un agente propulsor sólido
utilizado en los sistemas de salida de emergencia para la tripulación de aeronaves. El interés se
centra sobre la velocidad de combustión promedio. De manera específica, el interés recae en
decir si la velocidad de combustión promedio es o no de 50 cm/s.
El valor numérico asociado a la comparación de interés se denomina EFECTO, en este caso 50
cm/s sería el efecto y la comparación de interés se realiza sobre la media o esperanza de la
variable aleatoria: velocidad de combustión ( en cm/s).
Hipótesis
Una hipótesis es una afirmación acerca de alguna característica de una variable o de una colección
de variables.
En general, la hipótesis nula (Ho) es la negación de la hipótesis del investigador, indica la posición
de que nada cambia, de que el tratamiento no tiene efecto. La hipótesis alternativa (H1),
representa la posición del investigador.
En el ejemplo,
Ho: µ = 50 cm/s
2021 146
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
H1: µ ≠ 50 cm/s
Si interesa probar que el tratamiento A es mejor que el B para curar el dolor de cabeza, las
hipótesis serán:
Ho: los dos tratamientos son igualmente efectivos
H1: el tratamiento A es mejor que el B
Aún cuando no existan diferencias en los tratamientos, es común observar diferencias en los
resultados de los dos grupos debido al hecho de haber tomado muestras aleatorias de pacientes
para realizar el experimento. Un TEST DE HIPÓTESIS responde a la pregunta:
2021 147
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Interesa saber:
• si la información de la muestra es suficiente evidencia para decidir que el promedio en la
caja (µ) descendió
o
2021 148
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2) Suponemos que la hipótesis nula es VERDADERA (la media en la caja es 6.3 días) y calculamos
cuán alejado está el valor observado en nuestra muestra del valor que esperamos observar
cuando Ho es verdadera. Para ello propondremos un ESTADÍSTICO que mida esta distancia.
3 3
ESM = = = 0.3 días
100 10
valor propuesto en Ho
X − µ 5.4 − 6.3
ESTADÍSTICO = Z = = = −3
ESM 0.3
3) Calculamos la probabilidad de obtener una muestra con una media muestral como la obtenida
o más alejada del valor que propone Ho.
2021 149
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
1.4
1.2
0.8
0.6
0.4
0.2
-4 -3 -2 -1 0 1 2 3 4
Esta probabilidad se denomina p-valor. Es una medida de cuán consistentes son nuestros
datos con la hipótesis nula.
Cuanto más pequeño el p-valor, mas fuerte es la evidencia para RECHAZAR la hipótesis nula.
hipótesis nula.
En nuestro ejemplo, el p-valor (la probabilidad de obtener una muestra como la que hemos
obtenido o más extraña) es muy pequeña, por lo que concluimos que la diferencia entre lo
observado en la muestra y lo que esperaríamos observar si Ho es verdadera, es demasiado
grande para ser atribuida al azar. Ésto nos conduce a RECHAZAR Ho y concluir que el promedio
en la caja disminuyó, es decir que la hipótesis alternativa (H1) es verdadera.
Podemos concluir entonces que hemos observado una reducción estadísticamente
significativa en el promedio de días de ausentismo en empleados sometidos al horario flexible
(p = 0.001).
¿Cómo se toma la decisión de rechazar o no la hipótesis nula?
Cuanto más pequeño el p-valor, mayor es la evidencia para rechazar Ho.
Un p-valor cercano a 1 nos dice que los datos son consistentes con la hipótesis nula. Un p-
valor muy pequeño es evidencia en contra de la hipótesis nula, nos dice que los datos son muy
improbables cuando Ho es verdadera.
Pero, ¿qué decisión se toma frente a p-valores no tan extremos? Lo que hacemos es definir
un valor de corte, que se denomina nivel de significación del test y que se denota α y usar el
siguiente criterio: Si
p-valor < α decimos que el resultado es estadísticamente significativo,
p-valor << α decimos que el resultado es altamente significativo.
Usualmente se considera α = 0.05.
Comentarios.
En el ejemplo hemos demostrado que en la población de empleados el ausentismo
disminuyó. Es decir, la disminución observada en la muestra fue REAL y no atribuible a
variabilidad aleatoria. Sin embargo, ¡no podemos asegurar que la CAUSA de esta
reducción haya sido el horario flexible!. Podría haber muchas otras razones que expliquen
una disminución del ausentismo en este año respecto del promedio histórico (por
ejemplo, un aumento en el índice de desocupación).
Es importante distinguir entre significación estadística e importancia práctica. Un p-valor
muy pequeño, tal como p=0.0001, no necesariamente implica un hallazgo importante
desde el punto de vista práctico. Simplemente significa que si la hipótesis nula fuera
cierta, la muestra obtenida es realmente atípica.
En nuestro ejemplo, la reducción de los días de ausentismo fue significativa, sin embargo
2021 151
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Las dos primeras se denominan hipótesis UNILATERALES (a una cola), ya que proponen que el
cambio (si se produce) es en una única dirección. La última hipótesis se denomina BILATERAL (a
dos colas), y pretende detectar apartamientos de la hipótesis nula en cualquier dirección.
La hipótesis alternativa de un test define la región de rechazo, así como la dirección en la que se
calculará el p-valor. En nuestro ejemplo, hemos calculado el p-valor como la probabilidad de que
ocurran valores como el observado o menores que él. Tomamos el área bajo la curva normal a la
izquierda del valor observado en la muestra, porque son éstos los valores del estadístico que
proveen evidencia en contra de Ho pero a favor de H1. Es la hipótesis alternativa la que determina
la dirección (o las direcciones) en la que debe calcularse el p-valor. En los gráficos siguientes se
muestra cómo se calcula el p-valor (p-valor = área sombreada) para cada alternativa.
2021 152
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
H1: µ < 6.3 días H1: µ > 6.3 días H1: µ ≠ 6.3 días
xobs
p
p
x obs
x obs x obs
En la práctica los test bilaterales (a dos colas) son más comunes que los tests unilaterales (a una
cola). Aún cuando el investigador pueda predecir la dirección del cambio, los tests a dos colas
permiten además detectar efectos que se producen en la dirección contraria a la esperada.
Si uno tiene evidencia previa al experimento de que el cambio se producirá en un cierto sentido,
es conveniente plantear una hipótesis unilateral.
Si no se tiene información, se DEBE plantear una hipótesis bilateral. Las hipótesis deben
proponerse ANTES de mirar los datos, la evidencia de la muestra no debe ser usada para decidir
cómo plantear la hipótesis alternativa.
El investigador debería honestamente preguntarse si, de encontrar un resultado que contradice
su expectativa, lo informaría. Si la respuesta es afirmativa, entonces debería plantear una
alternativa bilateral.
Nota. Recordar que las hipótesis se plantean sobre parámetros poblacionales desconocidos (por
ejemplo la media poblacional µ), NUNCA sobre un estadístico muestral (tal como X ). No
tenemos incerteza acerca del valor de un estadístico muestral, ya que dicho valor se calcula a
partir de los datos y, por lo tanto, no tenemos necesidad de hacer inferencia respecto a él.
2021 153
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
tomemos, es posible que estemos cometiendo un error. La Tabla siguiente resume los dos tipos
de errores que se pueden cometer.
Realidad
Ho verdadera Ho falsa
Rechazar Ho Error tipo I O.K.
Decisión basada en la
muestra No rechazar Ho O.K. Error Tipo II
Definimos:
• Error de Tipo I ⇒ Rechazar la hipótesis nula cuando es verdadera
• Error de Tipo II ⇒ No rechazar la hipótesis nula cuando es falsa
• α = P(error tipo I) = P(rechazar Ho cuando Ho es verdadera) =
= NIVEL DE SIGNIFICACIÓN DEL TEST
El nivel de significación de un test (α) es el mayor valor p para el cual se rechazaría la hipótesis
nula. Este valor lo decide el investigador y tal como ocurre con los intervalos de confianza, la
elección de α refleja cuanta protección pretende el investigador respecto de la posibilidad de
cometer error de tipo I. Mientras menor sea α, mayor será la evidencia necesaria para rechazar
la hipótesis nula.
Para evitar sesgos en el proceso de toma de decisión, el nivel α debe seleccionarse ANTES de
analizar los datos.
La probabilidad de cometer error tipo II (β) y la potencia del TEST (π) dependen de la magnitud
del efecto que estamos estudiando (que es desconocida) y del tamaño de muestra. Es posible
obtener un test de una potencia tan grande como se desee (o un β tan pequeño como se desee)
eligiendo un tamaño de muestra apropiado. Más adelante veremos cómo decidir el tamaño de
muestra en función de la potencia deseada para el test para diferentes tipos de estudio.
2021 154
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Para cada test de nivel de significación α, existe un conjunto de valores del estadístico que
conducen a rechazar Ho y que proveen evidencia a favor de la hipótesis alternativa, al que
denominaremos región de rechazo y otro conjunto de valores del estadístico que conducen a no
rechazar Ho al que llamaremos región de no rechazo. El gráfico siguiente muestra estas regiones
para un test de nivel α, cuyas hipótesis son:
Ho: µ = 6.3 días versus H1: µ < 6.3 días
1.4
1.2
0.8
0.6
α
0.4
0.2
-4 -3 -2 -1 0 1 2 3 4
Es decir, en este test, la región de rechazo está constituida por todos los valores de Z ≤ -1.645 ya
que P(Z ≤ -1.645) = 0.05 o equivalentemente por todos los valores de X ≤ 5.8 1, ya que
X − 6.3
Z= = −1.645 ⇒ X = −1.645 ⋅ 0.3 + 6.3 ⇒ X = 5.807
0.3
La región de rechazo depende del nivel del test y de la dirección de la hipótesis alternativa.
El investigador controla la probabilidad de error de tipo I al definir el nivel de significación del
test.
Las regiones de rechazo y no rechazo para los tres tipos de hipótesis se muestran en el gráfico
2021 155
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
siguiente.
H1: µ < 6.3 días H1: µ > 6.3 días H1: µ ≠ 6.3 días
1.4 1.4 1.4
1 1 1
0.2
0
α 0.2
0
α 0.2
0
α/2 α/2
5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5
2021 156
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
1.4
1.2
0.8
0.6
0.4 π β
α
0.2
4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5
Región de Rechazo Región de No Rechazo
1.4
1.2
0.8
0.6
π
0.4
β
α
0.2
4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5
2021 157
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4
β 0.4
β
α
0.2 0.2
0 0 α
4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2
2021 158
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
1.4
1.2
0.8
n = 100
0.6
0.4
0.2
α β
0
4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5
2.5
1.5
0.5
n = 400
0 α β
4.2 4.5 4.8 5.1 5.4 5.7 6 6.3 6.6 6.9 7.2 7.5
En la práctica el investigador sólo decide el nivel de significación del test. Respecto de la potencia
puede:
• Calcular el tamaño de muestra necesario para asegurar una potencia razonablemente alta
para un valor del parámetro lo suficientemente alejado del valor propuesto en Ho, de modo
que la conclusión sea técnicamente valiosa.
• Cuando los recursos son acotados, y es imposible lograr el tamaño de muestra resultante del
cálculo anterior, es aconsejable calcular la potencia que tendrá el test para este mismo valor
del parámetro y para el tamaño de muestra factible. Cuando esta potencia resulta muy baja,
este sencillo cálculo puede llevar a la decisión de no realizar la investigación.
Comentario
Siempre que aplicamos un test, la conclusión puede o no ser correcta. Cuando rechazamos la
hipótesis nula podemos estar frente a un falso positivo (error de tipo I), mientras que si la
conclusión es no rechazar Ho podemos estar frente a un falso negativo (error de tipo II). Aunque
en una aplicación particular no sabemos si la conclusión es correcta, el procedimiento se justifica
en términos de la proporción de veces que se cometen estos dos tipos de errores en muchas
2021 159
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
donde:
µo es el valor del parámetro propuesto en Ho
µ1 es el valor del parámetro para el cual se pretende una determinada potencia
σ2 es un valor de la varianza propuesto por el investigador
zα, zα/2 y zβ son los valores de la N(0, 1) que dejan a su derecha un área α, α/2 y β
respectivamente.
Ejemplo
Supongamos que queremos realizar un test de nivel α = 0.01 para las hipótesis
2021 160
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Es frecuente escuchar la opinión de que un estudio basado en una muestra de tamaño pequeño
tiene escaso valor y resulta poco concluyente. Esta afirmación no necesariamente es correcta. A
continuación analizaremos distintas posibilidades.
Cuando el resultado del test es negativo (no significativo) y el tamaño de muestra es pequeño,
esta afirmación es válida, ya que la probabilidad de error de tipo II puede ser muy grande.
Si, a pesar de tener una muestra pequeña, el resultado es positivo (test significativo), ésto indica
que el efecto que estamos analizando es suficientemente importante como para lograr ser
detectado a pesar del tamaño de muestra.
Respecto de los casos en que el tamaño de muestra es muy grande, y el resultado es significativo,
debemos ser cuidadosos en decidir sobre la importancia clínica o técnica del resultado, ya que un
gran tamaño de muestra puede conducir a declarar significativos efectos que en la práctica son
poco relevantes.
Finalmente, cuando el tamaño de muestra es muy grande y el resultado es no significativo,
estamos frente a un estudio concluyente ya que, si trabajando con gran potencia no fue posible
rechazar la hipótesis nula, ésto implica que si el efecto existe, es prácticamente despreciable.
Los comentarios anteriores son simplemente orientativos y no se aplican estríctamente a todas
las situaciones. Sólo son válidos cuando se trata de estudios libres de sesgo, ya que de lo contrario
es imposible decidir cuánto del efecto observado se debe al tratamiento aplicado y cuánto a error
sistemático.
2021 161
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Resumiendo:
n PEQUEÑO n MUY GRANDE
¡CONCLUYENTE! ¡CUIDADO!
RECHAZO HO El efecto es tan grande que aún con Chequear si la magnitud del efecto
un n pequeño pudo ser detectado. es técnicamente importante.
NO CONCLUYENTE
NO RECHAZO ¡CONCLUYENTE!
HO Es posible que el efecto exista y no
Si el efecto existe es despreciable.
pudiera ser detectado.
Si p < 0.05 ⇒ se rechaza Ho. Ésto implica que el estadístico Z del test es tal que:
X − μo X − μo
Z= > 1.96 o Z= < −1.96 .
ESM ESM
Es decir, X se encuentra a más de 1.96 ESM de distancia de µo. Pero, si ésto sucede, el intervalo
de confianza
(X − 1.96 ESM, X + 1.96 ESM)
no contiene a µo, el valor del parámetro propuesto en Ho. Ver figura siguiente.
2021 162
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
1.4
1.2
0.8
0.6
0.4
0.2
α/2 α/2
µo – 1.96 σ X µo µo + 1.96 σ X
0
¿Qué conviene informar: el resultado del test o un intervalo de confianza para el parámetro?
En una investigación en particular, raramente una hipótesis nula tal como Ho: µ = µo será
verdadera. Ésto es, raramente el verdadero valor del parámetro será exactamente igual al valor
propuesto en Ho. Con muestras suficientemente grandes, en las que β (la probabilidad de error
de tipo II) sea pequeña, la hipótesis nula en general será rechazada. Lo que es verdaderamente
relevante es si el verdadero valor del parámetro es suficientemente diferente del valor de la
hipótesis nula para ser de importancia.
Los tests de hipótesis son muy útiles. Sin embargo, su importancia suele estar sobrevaluada,
mientras que se subutilizan los intervalos de confianza.
2021 163
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Es conveniente construir intervalos de confianza para los parámetros que solamente informar las
conclusiones de los tests de hipótesis. Cuando un p-valor es pequeño, el test nos dice que el valor
del parámetro en la Ho no es plausible, pero no nos dice nada acerca de cuáles son los valores
posibles para el parámetro. Un intervalo de confianza, en cambio, nos muestra el conjunto de
valores plausibles para el parámetro.
2021 164
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El intervalo del 95% de confianza para la media de la disminución de la sensación de dolor es:
26.3
X ± 1.96 ESM = 6.7 ± 1.96 = 6.7 ±1.96 ⋅1.753 = 6.7 ± 3.4 = (3.3, 10.1)
225
Por lo tanto, estimamos que la media de la reducción del dolor en todos los pacientes de la
población a partir de la cual se seleccionó la muestra es un valor entre 3 y 10. La pregunta que
debemos hacernos aquí es: ¿Una reducción de entre 3 y 10 puntos en una escala de 100 es
importante desde el punto de vista clínico? (Notar que el rango de cambio de dolor reportado por
los pacientes va de un mínimo de −61 a un máximo de 78 puntos).
Si solamente informásemos el p-valor asociado al test podemos producir la impresión en los
lectores de que el efecto es muy importante, cuando en realidad el efecto es leve, pero tenemos
un tamaño de muestra que permite declararlo significativo.
Resumiremos a continuación los elementos básicos de un test de hipótesis.
2) Hipótesis.
• Ho ⇒ Hipótesis nula (valor del parámetro que indica “no efecto”)
• H1 ⇒ Hipótesis alternativa (intervalo de valores del parámetro que indican el efecto
propuesto por el investigador)
3) Estadístico del test
• Compara la estimación muestral del parámetro con el valor propuesto en la hipótesis
nula.
• Debe tener distribución conocida, exacta o aproximada.
2021 165
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
4) p – valor
• Peso de la evidencia acerca de Ho.
• Menor valor de p, mayor evidencia en contra de Ho.
5) Conclusión
• Reportar la conclusión acompañada del p-valor.
• Indicar la decisión formal.
TESTS DE HIPÓTESIS PARA LA MEDIA
En los ejemplos anteriores trabajamos con situaciones en las que el número de datos en la
muestra era suficientemente grande como para considerar que la distribución de la media
muestral era aproximadamente normal. Es común que la cantidad de observaciones en la muestra
sea pequeña, por lo que presentaremos distintos tests para este caso.
En primer lugar, resumiremos las características del test para muestras grandes. A continuación,
presentaremos el test t de Student, válido para el caso en que la variable de interés tiene
distribución normal y recordaremos los métodos que permiten evaluar si la distribución de los
datos es normal. Finalmente, presentaremos dos tests que no hacen supuestos fuertes acerca de
la distribución (tests no paramétricos).
En los casos en que sea posible, mostraremos cómo obtener un intervalo de confianza para el
parámetro de interés.
1 Test para muestras grandes
1.1 Test Z
Elementos del test
I. Supuestos
• Tamaño de muestra suficientemente grande (si la variable es cuantitativa, muchos autores
afirman que con n > 30 la aproximación es adecuada).
• Muestra aleatoria (ésto equivale a pedir observaciones independientes y con idéntica
distribución).
II. Hipótesis
• La hipótesis nula tiene la forma
Ho: µ = µo
2021 166
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
1 1 1
p
0.8 0.8 0.8
0.4
0.2
p
0.4
0.2
p 0.4
0.2
0 0 0
donde:
• Zobs es el valor del estadístico calculado con los datos de nuestra muestra.
• |Zobs| = valor absoluto o módulo de Zobs.
2021 167
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
s
X ± zα/2 n
donde zα/2 es el percentil de la distribución N(0, 1) que deja a su derecha un área α/2.
1.2 Test t de Student
El intervalo de confianza y el test para µ presentados arriba son válidos cuando la muestra es
grande. Ésto asegura que la distribución de muestreo de X es aproximadamente normal.
Además, asegura que la desviación estándar muestral estará suficientemente cerca de la
desviación estándar poblacional desconocida.
Sin embargo, en muchas investigaciones el número de observaciones es pequeño debido, por
ejemplo, al costo o al tiempo necesario para obtener un dato. Consideraremos ahora una
distribución propuesta por W. S. Gosset, en el año 1908, quién firmaba sus papers bajo el
seudónimo de Student.
Características de la distribución t
• Es una distribución unimodal, simétrica y acampanada, centrada en cero.
• Tiene un único parámetro, que se denomina grados de libertad (df).
• La dispersión de la distribución depende de los grados de libertad:
2021 168
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
df
σT =
df − 2
Cuando los grados de libertad aumentan la dispersión tiende a 1.
• La distribución t tiene colas “más pesadas” que la N(0,1), es decir acumula mayor probabilidad
en las colas.
• Cuando los grados de libertad aumentan, la distribución t se parece más y más a la N(0, 1). En
el siguiente gráfico podemos apreciar curvas de la distribución t para 1,2 y 8 grados de libertad
junto con una curva normal estándar.
-8 -6 -4 -2 0 2 4 6 8
df = 1 df = 2 df = 8 N(0, 1)
• En nuestro contexto (una muestra con n observaciones) los grados de libertad coinciden con
n – 1, el denominador de la varianza muestral.
• La distribución t es una familia de curvas. El área debajo de una distribución particular está
tabulada para diferentes valores de n.
1.2.2 Test t
Elementos del test
I. Supuestos
2021 169
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Nota. El estadístico sobre el cual se construye el test t es el mismo que el estadístico sobre el cual
se basa el test para muestras grandes. ¿Por qué tienen distinta distribución? Porque en este caso
estamos suponiendo que la variable tiene distribución normal y por lo tanto, cualquiera sea el
tamaño de muestra, el estadístico tiene distribución t de Student.
2021 170
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
La interpretación de este intervalo es similar a la que hemos presentado para intervalos basados
en la distribución normal.
Ejemplo 1
Volviendo al ejemplo inicial que motivó esta sección: supongamos que se tiene interés en la
velocidad de combustión de un agente propulsor sólido utilizado en los sistemas de salida de
emergencia para la tripulación de aeronaves. El interés el interés recae en decir si la velocidad de
combustión promedio es o no de 50 cm/s.
Supongamos que tenemos uma muestra de 64 observaciones, y se obtuvo una media muestral
de 48.7 cm/s y un desvío de 4 cm/s , entonces el estadistico observado es:
X − μ o 48.7 − 50 − 1.3
Z obs = = = = −2,6
ESM 4 / 64 0.5
Utilizamos un test asintótico normal usando el hecho de tener una muestra grande. No tenemos
las 64 observaciones por lo que no podremos comprobar aproximadamente la distribución
subyacente de los mismos.
Como se trata de un test a dos colas, entonces, p-valor=2*P(Z>2.6)=2*(1-
0.9953)=2*0.0047=0.0094
Trabajando con nivel de significación 5%, el test rechaza la hipótesis nula (p = 0.0094 < 0.05). Se
concluiya que la velocidad de combustión promedio es significativamente distinta de 50 cm/s. (p
= 0.0094).
1.2.4 Usando R
Desarrollaremos un ejemplo de aplicación del test y del intervalo de confianza para la media de
una población normal usando R.
Ejemplo 2
Consideraremos datos de un estudio aleatorizado y controlado diseñado para comparar tres
tratamientos para adolescentes de sexo femenino que sufren anorexia. Las jóvenes fueron
asignadas aleatoriamente a uno de tres tratamientos. Se registró el peso de cada joven antes y
2021 171
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
En este ejemplo, sólo consideraremos los datos de las jóvenes que recibieron tratamiento 2
(terapia familiar). Sea,
µ = media del cambio de peso en la hipotética población de jóvenes anoréxicas de la cual hemos
“seleccionado” la presente muestra de jóvenes asignadas a tratamiento 2.
Seleccionamos sólo las pacientes con therapy = 2, por lo que quedarán activos 17 registros
(casos).
Nos interesa testear la hipótesis:
Ho: µ = 0 (La terapia familiar no modifica el peso de jóvenes anoréxicas)
Ho: µ > 0 (porque los investigadores suponen que cualquiera de los tratamientos tendrá un
efecto positivo)
Como la muestra consiste de n = 17 datos, estudiaremos a través de un box-plot si la variable X
tiene distribución aproximadamente normal, de modo de poder basarnos en la distribución t para
el test y el intervalo.
El box-plot es simétrico y no hay outliers, por lo tanto, parece razonable suponer que la
distribución de la variable cambio de peso es normal para jóvenes que reciben terapia familiar.
Sentencias en R:
2021 172
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
boxplot(Anorexia$AFTER-Anorexia$BEFORE,subset= Anorexia$THERAPY==2,col="blue")
Anorexia22<-subset(Anorexia2, Anorexia2$THERAPY==2)
t.test(Anorexia22$AFTER-Anorexia22$BEFORE,alternative="greater")
Seleccionamos la variable de interés, el valor del parámetro bajo Ho y la hipótesis alternativa
(recordar que interesa Ho:µ = 0 versus H1: µ > 0). Si la diferencia a testear fuese 3, por ejemplo,
la sentencia tendría que ser; t.test( variable, 3), cuando no se aclara alternativa, por default el
programa hace igual vs distinto.
1.2.5 Comentarios
Los métodos que hemos visto para el caso en que la muestra es pequeña requieren del supuesto
que la variable de interés tiene distribución (aproximadamente) normal.
Si la distribución de la variable es fuertemente asimétrica, tiene outliers o es marcadamente
diferente de la normal en algún sentido, el test NO ES VÁLIDO y además es poco eficiente en
detectar diferencias verdaderas. Lo mismo ocurre con el intervalo de confianza.
En estos casos, cuando interesa un test para el parámetro de posición es preferible realizar un
test para la mediana, que es menos sensible al efecto de colas pesadas en la distribución, o utilizar
2021 174
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 175
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
hist(Anorexia22$AFTER-Anorexia22$BEFORE,probability=TRUE)
The decimal point is 1 digit(s) to the right of the |
-0 | 5
-0 | 430
0|4
0 | 66799
1 | 111334
1|
2| 2
La pregunta que debemos hacernos aquí es: ¿Podría ser que la variable “cambio de peso” tenga
una distribución aproximadamente normal en la población y que por azar esta muestra de 17
datos que hemos observado, presente un histograma que no reproduce exactamente la
distribución poblacional o un gráfico de probabilidad normal que no es exactamente una recta?
El test de Shapiro-Wilk responde a esta pregunta. Ya lo hemos mencionado en una sección
anterior, veamos ahora que plantea este test concretamente y como entender la salida que se
obtiene en R.
2021 177
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
shapiro.test(Anorexia22$AFTER-Anorexia22$BEFORE)
λ Transformación
Se desea transformar la variable Y, cuyos valores
-1 1
muestrales se Z(λ)= suponen positivos ( en caso contrario
𝑌𝑌
se suma una cantidad -0.5 1 fija M tal que Y + M > 0). La
transformación de Z(λ)= Box-Cox depende de un
√𝑌𝑌
parámetro λ a 0 Z(λ)=ln (𝑌𝑌) determinar y viene dada por
0.5 Z(λ)=√𝑌𝑌
𝑦𝑦 𝜆𝜆 − 1
1 Z(λ)=𝑌𝑌 𝑍𝑍(𝜆𝜆) = � 𝜆𝜆 , 𝜆𝜆 ≠ 0
ln (𝜆𝜆), 𝜆𝜆 = 0
Pero la pregunta 2 es algo más compleja ya que no siempre es claro o sencillo explicar en términos
del problema con datos transformados.Por ejemplo sí lo es cuando el parámetro obtenido sea 0,
los datos originales se dicen que tienen una distribución log-normal y de este modo se puede
explicar la naturaleza del problema pero si los datos se transforman elevándolos a la quinta quizás
esto no tenga mucho sentido para ciertas variables de vida o de medición ya que las unidades no
tendrían un sentido físico claro. En algunos casos se prefiere elegir un test no paramétrico en
lugar de transformar los datos para llevarlos a la normalidad y luego aplicar los tests paramétricos
que hemos visto.
2021 179
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Veamos con un ejemplo como se procede para transformar los datos. Generamos al azar una
muestra aleatoria en R de una distribución no normal, asimétrica a derecha ( en este caso una
chi-cuadrado con 3 grados de libertad). Graficamos el box-plot y el histograma de los datos.
shapiro.test(muestrachi)
Shapiro-Wilk normality test
data: muestrachi
W = 0.90477, p-value = 0.002639
Sentencias en R
library("forecast")
lambdamuestrachi = BoxCox.lambda( muestrachi,method="loglik" ) # la respuesta es 0.4
trans.muestrachi = BoxCox( muestrachi, lambdamuestrachi)
2021 180
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
shapiro.test(trans.muestrachi)
En este vector trans.muestrachi se guardan los datos transformados según el valor de λ estimado
en 0.4. La ventaja que tenemos es que no hace falta que calculemos nosotros la transformación
de las observaciones ya que directamente R nos devuelve estos valores.
Vemos que ahora estos datos transformados no rechazan la normalidad.
En la librería MASS obtuvimos el gráfico que copiamos arriba donde se observa cuando se
maximiza la función de verosimilitud que podemos estimar en 0.4 aproximadamente.
Senetencias en R
library(MASS)
boxcox(muestrachi~1, lambda = seq(-0.2, 1, length = 100))
adecuadamente aún cuando algún supuesto sea violado. El estudio de la robustez de los métodos
estadísticos es importante ya que rara vez todos los supuestos del método se cumplirán
perfectamente.
Afortunadamente, el test t a dos colas y el intervalo de confianza basado en la distribución t son
bastante robustos a la violación del supuesto de distribución normal, especialmente cuando n >
15. Es decir, el p-valor o el intervalo de confianza son bastante exactos. Pero cuando la
distribución es muy asimétrica, el test unilateral puede dar p-valores incorrectos. La presencia de
datos outliers en una dirección es evidencia de asimetría fuerte.
Las conclusiones del test t o del intervalo de confianza NO son robustas a la violación del supuesto
de muestra aleatoria. Si este supuesto no se cumple, no podemos decir nada acerca de la
distribución de muestreo del estadístico, sobre la cual se construye toda la inferencia.
1. Varianzas conocidas
Supóngase que hay dos poblaciones de interés X1 y X2 con distribución normal, Suponemos que X1
tiene media desconocida µ1 y varianza conocida σ 1 2 y que X2 tiene media desconocida µ 2 y
varianza conocida σ 2 2 . Estaremos interesados en testar la igualdad de las medias µ1 y µ 2 .
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
Donde
H0 = Hipótesis nula
H1 = Hipótesis alternativa.
µ1 = media de la población 1
µ 2 = media de la población 2
2021 182
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
X1 − X 2
Z0 =
σ 21 σ 22
+
n1 n2
Donde:
X 1 = media de la muestra 1
X 2 = media de la muestra 2
σ 21 = varianza de la población 1
σ 2 2 = varianza de la población 2
n1 = tamaño de la muestra 1
n2 = tamaño de la muestra 2
Donde
Z α 2 = Valor obtenido de las tablas de la distribución normal, indica cuantil normal que deja un
área α/2 a la derecha.
H 0 : µ1 = µ 2
H 1 : µ1 > µ 2
H 0 : µ1 = µ 2
H 1 : µ1 < µ 2
Ejemplo 1:
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. El
2
proceso de llenado puede suponerse normal, con varianzas σ 1 = .015 y σ 2 2 = .018 (en onzas2).
Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo volumen neto, sin
importar que este volumen sea o no de 16 onzas. Se toma una muestra aleatoria de la salida de
cada máquina.
máquina 1 máquina 2
16.03 16.02
16.04 15.97
16.05 15.96
16.05 16.01
16.02 15.99
16.01 16.03
15.96 16.04
15.98 16.02
16.02 16.01
15.99 16
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
2021 184
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
X1 − X 2
Z0 = cuya distribución es normal estándar si Ho es verdadera.
σ 21 σ 22
+
n1 n2
Y el observado es:
16.015 − 16.005
Z 0,obs = = 0,174077
.015 .018
+
10 10
Z α 2 = Z.025 = 1.96
Utilizando el criterio de decisión Z 0 > Z α 2 para rechazar la hipótesis nula H0, notamos que
0,174077 no es mayor que 1.96. Entonces no rechazamos H0. No existe suficiente evidencia
estadística para pensar que las medias son diferentes al 5%.
En este caso dado que no rechazamos Ho podemos calcular el p-valor y ver si es grande (digamos
mayor que 0.3) para tener mayor seguridad sobre el no rechazo.
PROCEDIMIENTO EN EXCEL
2021 185
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El p-valor a 1 cola (por mayor) es 0.43 y a dos colas es 0,86180443 que resulta en ambos casos
alto. No hay suficiente evidencia para rechazar Ho con un p-valor alto, no podemos afirmar que
las medias de las dos maquinas sean significativamente diferentes (p-valor=0.86)
2021 186
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Este test está implementado en R en la librería BSDA que acompaña un libro de estadística, pero
no es necesario bajarla ya que es muy sencillo su cálculo mediante sentencias hechas por el
usuario. Por ejemplo, damos las siguientes,
Sentencias en R:
Maq1=c(16.03,16.04,16.05,16.05,16.02,16.01,15.96,15.98,16.02,15.99)
Maq2=c(16.02,15.97,15.96,16.01,15.99,16.03,16.04,16.02,16.01,16)
Medias=lapply(list(Maq1,Maq2),mean)
VarMaq1=0.015
VarMaq2=0.018
Estad1=(Medias[[1]]-Medias[[2]])/sqrt( (VarMaq1+VarMaq2)/10)
pvalorEj1=2*(1-pnorm(Estad1))# test a dos colas
Resultados
Estad1
[1] 0.1740777
pvalorEj1
[1] 0.8618044
Obviamente, obtenemos los mismos resultados que obtuvimos antes con Excel.
Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las
poblaciones de interés normales, por ejemplo X1 y X2, donde µ1,σ 12 , µ 2 , σ 22 , se desconocen.
Deseamos probar hipótesis relativas a la igualdad de las dos varianzas: H 0 : σ 12 = σ 22 .
Considérese que se disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño
n2 de la población 2, y sean S12 y S 22 las varianzas de muestra. Para probar la alternativa bilateral:
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
S12
F0 =
S 22
2021 187
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Rechazaríamos H0 si
libertad que dejan un área α 2 y 1- α 2 a la derecha. La tabla F proporciona sólo los puntos de
la cola superior de F, por lo que para determinar F1−α 2,n −1,n −1 debemos emplear la siguiente
1 2
propiedad:
1
F1−α 2,n1 −1,n2 −1 =
Fα 2,n1 −1,n2 −1
El mismo estadístico de prueba puede utilizarse para probar hipótesis alternativas unilaterales.
La hipótesis en el caso de mayor en la alternativa son,
H 0 : σ 12 = σ 22
H 1 : σ 12 > σ 22
Ejemplo 2: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos
tipos diferentes.
Tipo 1 Tipo 2
63 64
81 72
57 83
66 59
82 65
82 56
68 63
2021 59 74
188
75 82
73 82
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Pruebe la hipótesis de que las dos varianzas son iguales. Use α = .05
H 0 : σ 12 = σ 22
H 1 : σ 12 ≠ σ 22
X 1 = 70.6
X 2 = 70
S12 = 88.71
S 22 = 100.44
S12 88.71
F0 = F0,obs = = .877
S 22 100.44
.877 no es mayor que 4.03, por lo cual no se rechaza la hipótesis nula H 0 : σ 12 = σ 22 . Concluimos
que no hay suficiente evidencia que las varianzas de los tipos de quemado sean significativamente
distintas al 5%.
PROCEDIMIENTO EN R: Con los datos cargados, se usará la función var.test que efectúa la prueba
F de Fisher para varianzas de dos muestras.
Sentencias en R
tipo1<-c(63,81,57,66,82,82,68,59,75,73)
tipo2=c(64,72,83,59,65,56,63,74,82,82)
var.test(tipo1,tipo2)
2021 189
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El resultado obtenido muestra un p-valor de 0.8562 por lo que no hay evidencia significativa para
rechazar Ho con un p-valor muy alto.
Si queremos testear que una varianza es mayor que la otra, en este ejemplo usamos:
Sentencia en R
var.test(tipo1,tipo2,alternative="greater")
y la salida siguiente:
Observamos que en este caso el p-valor es menor pero también es elevado, por lo que no
rechazamos Ho.
2. Varianzas desconocidas:
2021 190
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
Sean X1, X2, S12 , S 22 , las medias y las varianzas de las muestras, respectivamente. Puesto que tanto
2
S12 como S 22 estiman la varianza común σ , podemos combinarlas para producir una sola
estimación. El estimador en este caso se conoce como estimador “pooled” de la varianza:
Este estadístico tiene una distribución t con n1+n2-2 grados de libertad si Ho es verdadera. Si
t0,obs > tα 2,n1 +n2 −2 o si t0,obs < −tα 2,n +n
1 2 −2
, rechazamos H 0 : µ1 = µ 2
H 0 : µ1 = µ 2
H 1 : µ1 > µ 2
H 0 : µ1 = µ 2
H 1 : µ1 < µ 2
2021 191
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede extraerse respecto a la
resistencia media de los alambres?
H 0 : µ1 = µ 2
H 1 : µ1 ≠ µ 2
x1 = .140
x 2 = .138
S1 = .0021
S 2 = .0022
Sp =
(n1 − 1)S12 + (n2 − 1)S 22 Sp,obs= .0021
n1 + n2 − 2
X1 − X 2
t0 = t0,obs= 1.72
1 1
Sp +
n1 n2
2021 192
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
no rechazamos H0. No hay suficiente evidencia al 5% para rechazar que la resistencia media de
los alambres difiere.
PROCEDIMIENTO EN R: Con los datos cargados, se usará la función t.test que efectúa la prueba t
para dos muestras suponiendo varianzas iguales. Produce la siguiente salida.
Sentencias em R:
Alambre1=c(0.14,0.141,0.139,0.14,0.138,0.144)
Alambre2=c(0.135,0.138,0.14,0.139)
t.test(Alambre1,Alambre2,var.equal=TRUE)
Por lo que a partir del p-valor 0.1237 concluimos que no rechazamos Ho para un nivel del 5%.
Por supuesto también se pueden testear las alternativas menor y mayor.
X1 − X 2
t0 =
S12 S 22
+
n1 n2
2021 193
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2
S12 S 22
+
n1 n2
ν= −2
(
S12 n1
2
+
) (
S 22 n2
2
)
n1 + 1 n2 + 1
El procedimiento para llevar a cabo la prueba de hipótesis es el mismo que el caso 1, varianzas
iguales excepto que se emplean t0 como estadístico de prueba y n1 + n2 -2 se sustituye por ν (
letra griega nu) en la determinación de los grados de libertad.
Ejemplo 4 : Se están investigando dos métodos para producir gasolina a partir de petróleo crudo.
Se supone que el rendimiento de ambos procesos se distribuye normalmente. Los siguientes
datos de rendimiento se han obtenido de la planta piloto.
Proceso Rendimiento %
1 24.2 26.6 25.7 24.8 25.9 26.5
2 21.0 22.1 21.8 20.9 22.4 22.0
¿Hay alguna razón para creer que el proceso 1 tiene un rendimiento medio mayor?
H 0 : µ1 = µ 2
H 1 : µ1 > µ 2
x1 = 25.62
x 2 = 21.70
S12 = .9017
S 22 = .3760
2021 194
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
X1 − X 2
t0 = t0,obs= 25.62 − 21.70 = 8.48
S2
S 2
.9017 .376
1
+ 2 +
n1 n2 6 6
2
.9017 .376
+
6 6
ν= − 2 = 9.32 ≈ 9
(.9017 6)2 + (.376 6)2
7 7
Buscando el valor en la tabla t encontramos t.05,9 = 1,833, mediante el criterio de rechazo para
una cola t0.obs>t.05,9 , 8.48>1.833, por lo tanto rechazamos la hipótesis nula. Se concluye que el
proceso 1 tiene mayor rendimiento medio que el proceso 2 para un nivel del 5%.
PROCEDIMIENTO EN R: Con los datos cargados, se usará la función t.test que efectúa la prueba t
para dos muestras suponiendo varianzas no iguales y con la alternativa de mayor, produce la
siguiente salida.
Sentencias en R
t.test(Alambre1,Alambre2,var.equal=FALSE)
Con un p-valor tan pequeño podemos estar seguros del no rechazo de Ho.
2021 195
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
H 0 : p1 = p 2
H 1 : p1 ≠ p 2
Considérese que se toman dos muestras aleatorias de tamaño n1 y n2 de dos poblaciones, y sea
X1 y X2 el número de observaciones que pertenecen a la clase de interés en la muestra 1 y 2
respectivamente.
X1 + X 2
pˆ =
n1 + n2
pˆ 1 − pˆ 2
Z0 =
1 1
pˆ (1 − pˆ ) +
n1 n2
X1 X2
pˆ 1 = pˆ 2 =
n1 n2
Si
Z 0,obs > Z α 2 o Z 0,obs < − Z α 2 , la hipótesis nula se rechaza.
Ya que el estadístico tiene una distribución asintótica normal por el Teorema Central del Límite.
Ejemplo 5: La fracción de productos defectuosos producidos por dos líneas de producción se está
analizando. Una muestra aleatoria de 1000 unidades de la línea 1 tiene 10 defectuosas, en tanto
que una muestra aleatoria de 1200 unidades de la línea 2 tiene 25 defectuosas. ¿Es razonable
concluir que la línea de producción 2 produce una fracción más alta de producto defectuoso que
la línea 1? Use α = .01 .
H 0 : p1 = p 2
H 1 : p1 < p 2
2021 196
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
X1 + X 2 10 + 25
pˆ = pˆ obs = = .015909
n1 + n2 1000 + 1200
X1 10
pˆ 1 = pˆ 1,obs = = .01
n1 1000
X2
pˆ 2 = 25
n2 pˆ 1,obs = = .020833
1200
pˆ 1 − pˆ 2 .01 − .020833
Como Z 0 = entonces , Z 0,obs = = =-
1 1 1 1
pˆ (1 − pˆ ) + . .015909(.98409) +
n1 n2 1000 1200
2.02
Z α = Z .01 = 2.35
PROCEDIMIENTO EN R: Con los datos cargados, se usará la función prop.test que efectúa la
prueba asintótica para dos proporciones, además se puede pedir o no la corrección por
continuidad. Produce la siguiente salida en este ejemplo,
Sentencias en R
pro1=c(10,25)
pro2=c(1000,1200)
prop.test(pro1,pro2, correct=FALSE, alternative="less")
sample estimates:
prop 1 prop 2
0.01000000 0.02083333
El p-valor a una cola es 0.02158 por lo que para un nivel del 1 % no se rechaza Ho y se concluye
que la proporción de defectuosos en la línea 1 no es significativamente menor que en la línea 2
(al 1%).
Cuando es posible resulta ventajoso utilizar muestras apareadas en las pruebas de comparación,
por ejemplo someter al mismo sujeto a dos terapias, un mismo motor a dos testeos de calidad,
etc. En una prueba de comparación apareada, la reducción en la variabilidad experimental puede
permitir la detección de pequeños movimientos en los datos.
Los grados de libertad son menos porque ahora el tamaño de muestra corresponde al número de
comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de la eficacia de un tratamiento antes y
después de ser aplicado, el rendimiento en parcelas antes y después de un fertilizante,
mediciones de un mismo individuo en cada brazo, mediciones de un mismo espécimen en
distintos momentos del tiempo, control de una misma máquina en distintos momentos de
pruebas, etc. Ya mencionamos este test antes cuando comentamos el test t en general.
Para poder emplear este test es necesario que la diferencia entre las variables tenga distribución
normal, no que cada variable sea normal. Se puede testear previamente este supuesto mediante
el test de Shapiro- Wilk y también hacer un boxplot y un QQ-plot para chequear que no haya
apartamientos de esta suposición.
Las hipótesis de prueba en torno a la igualdad µ1 y µ 2 pueden realizarse efectuando una prueba
t de una muestra en µ D .
Específicamente, probar H 0 : µ1 = µ 2 contra H 1 : µ1 ≠ µ 2 es equivalente a probar
H 0 : µD = α
H1 : µD ≠ α
2021 198
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
D −α
t0 =
SD n
donde
D=
∑D j
n
y
(D j − D)
2
SD =
n −1
Con las alternativas unilaterales se trabaja de manera similar, ya que la distribución del
estadístico bajo Ho es t con n-1 grados de libertad.
Ejemplo 6:
Un fabricante desea comparar el proceso de armado común para uno de sus productos con un
método propuesto que supuestamente reduce el tiempo de armado. Se seleccionaron ocho
trabajadores de la planta de armado y se les pidió que armaran las unidades con ambos
procesos. Los siguientes son los tiempos observados en minutos.
Para α = .05 , ¿existe alguna razón para creer que el tiempo de armado para el proceso actual es
mayor que el del método propuesto por más de dos minutos?
H0 : µD = 2
H1 : µ D > 2
2021 199
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
(D j − D)
2
= 3.69
SD =
n −1
D −2 4.75 − 2
t0 = = = 2.107
S D n 3.69 8
tα ,n −1 = t .05, 7 = 1.895 , debido a que 2.107 > 1.895 rechazamos H0, y concluimos que: el tiempo de
armado para el proceso actual es significativamente mayor en dos minutos que el método
propuesto.
PROCEDIMIENTO EN R: Con los datos cargados, se usará la función t.test pero indicando que se
efectúa un test de muestras apareadas. Produce la siguiente salida en el ejemplo pedido.
Sentencias en R
Actual<-c(38,32,41,35,42,32,45,37)
Nuevo<-c(30,32,34,37,35,26,38,32)
t.test(Actual,Nuevo+2, paired=TRUE, alternative="greater")
Paired t-test
data: Actual and Nuevo + 2
t = 2.1058, df = 7, p-value = 0.03662
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.2758826 Inf
sample estimates:
2021 200
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El estadístico observado resulta 2.1058 con un p-valor 0.03662 por lo que la conclusión para un
nivel del 5% es el rechazo de Ho. El tiempo de armado para el proceso actual es significativamente
mayor en dos minutos que el método propuesto para un nivel de significación del 5 %.
Se puede utilizar también en el caso de muestras apareadas. En este caso en R deberá utilizarse
el parámetro paired=TRUE.
PROCEDIMIENTO EN R.
Veamos su aplicación con dos ejemplos.
Ejemplo 1
set.seed(9)
m1=rnorm(50,5)
set.seed(8)
m2=rnorm(50,5.6)
boxplot(m1,m2,names=c("Muestra1","Muestra 2"), col=c("lightblue","magenta"))
wilcox.test(m1,m2)
2021 201
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
data: m1 and m2
W = 756, p-value = 0.0006687
alternative hypothesis: true location shift is not equal to 0
Rechazamos la hipótesis nula que dice que ambas poblaciones tienen igual mediana.
2021 202
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Ejemplo 2
set.seed(9)
m11=rt(50,5)
set.seed(10)
m12=rweibull(50,5)
boxplot(m11,m12,names=c("Muestra11","Muestra 12"), col=c("lightblue","magenta"))
wilcox.test(m11,m12)
Wilcoxon rank sum test with continuity correction
2021 203
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
data: m1
W = 0.96477, p-value = 0.1408
shapiro.test(m2)
data: m2
W = 0.98371, p-value = 0.7149
shapiro.test(m11)
Shapiro-Wilk normality test
data: m11
2021 204
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
shapiro.test(m12)
Shapiro-Wilk normality test
data: m12
W = 0.99172, p-value = 0.9778
Obtenemos que no rechazamos la normalidad de las 4 muestras! Más aún, los p-valores más
elevados provienen de las muestras generadas no normales! Los tests no son perfectos, aun
cuando el test de Shapiro Wilks es el más potente para testear normalidad vemos que no detectó
en nuestros ejemplos que los datos provienen de una distribución t y de una Weibull.
data: m1 and 5
W = 21, p-value = 0.8121
alternative hypothesis: true location shift is not equal to 0
También existe un test para la mediana ( test de Mood) para comparar este parámetro de
locación entre poblaciones sin suponer que tienen igual distribución.
No veremos en el curso este test que se encuentra en varias librerías de R pero en ninguna que
hayamos mencioando para instalar hasta ahora. Dejamos este tema para el lector interesado.
Porr ejemplo: la prueba se realiza con el comando mood.medtest incluido en el
paquete RVAideMemoire (Hervé 2016). También está en el paquete BSDA que mencionamos
en el test Z pero que no indicamos instalar.
2021 205
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Para realizar este gráfico es necesario instalar en R el paquete aplpack, que hace un gráfico de
tallo hoja ligeramente diferente al usual que se obtiene con el comando stem, además del
esquema espalda contra espalda.
1 | 2: represents 12
leaf unit: 1
n: 468
8 31* | 33344444
70 31. | 55555556666666666666667777777777788888888888888899999999999999
135 32* | 00000000000000001111111111112222222222222222333333333333444444444
187 32. | 5555555566666666677777777777777778888888889999999999
233 33* | 0000000011111111112222222222233333333344444444
(40) 33. | 5555556666666666777777777888889999999999
195 34* | 000000011111112222222222233333334444444
156 34. | 5555555566666666777777788888889999999
119 35* | 00000111111122222222223333333333444444444
78 35. | 555555555666666667777777788888899999999999999
33 36* | 0000001111112222333333444444
5 36. | 55566
2021 206
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Sentencias en R
require(aplpack)
stem.leaf(co2)
stem.leaf.backback(co2[1:234],co2[235:468], show.no.depths=TRUE)
Otra de las opciones interesantes que tiene este gráfico es la posibilidad de graficar las cajas con
un ancho que resulte proporcional a la cantidad de elementos que compone cada grupo. Para
ilustrarlo, hemos dividido el conjunto anterior de 468 datos en 4: uno conteniendo los primeros
2021 207
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
15 datos, el siguiente con los siguientes 35, el tercer grupo con 100 datos y el cuarto con las
restantes 318 observaciones.
El R grafica el ancho de las cajas proporcional a las raíces cuadradas de la cantidad de
observaciones en cada grupo. Podemos apreciar la diferencia entre ambas formas de obtener los
boxplots en los siguientes gráficos: a la izquierda no se le indica nada y a la derecha se pide que
haga el tamaño de la caja en forma proporcional a la cantidad de observaciones. De esta forma el
primer conjunto de datos es representado con una caja muy pequeña en relación a las otras y nos
muestra visualmente que hay una gran diferencia en el tamaño entre este grupo y los otros. Esta
situación puede ser de relevancia según el contexto de la investigación, a la vez que nos presenta
una realidad que es mejor dejar de manifiesto cuando se realiza una publicación por ejemplo.
Sentencias en R
boxplot(co2[1:15],co2[16:50],co2[51:150],co2[151:468],col=" blue")
boxplot(co2[1:15],co2[16:50],co2[51:150],co2[151:468],col="light blue", varwidth=TRUE)
A continuación se incluyen dos gráficos de la literatura médica donde se muestra su utilidad para
destacar que los tamaños muestrales en cada grupo de estudio son diferentes.
2021 208
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 209
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
El gráfico de la izquierda a continuación con los mismos datos de concentración de CO2 divididos
en dos grupos de igual tamaño nos muestra los intervalos para cada mediana, podemos apreciar
que la mediana de cada grupo es significativamente distinta al 5%.
En cambio el gráfico de la derecha nos muestra los boxplots de los cuatro grupos con el IC del 95%
para la mediana. Puede apreciarse que no hay diferencia significativa en la mediana de los grupos
1 y 2. La mediana del último grupo es significativamente diferente al 5% de cada una de las
medianas de los otros grupos. En este caso, no se debería indicar la proporcionalidad, ya que
podríamos dejar de notar la diferencia entre medianas. Por otro lado notemos que el ancho de
cada caja es distinto de acuerdo a la longitud del intervalo, que depende del tamaño muestral,
por eso en el gupo 4 es más pequeño pues al haber más datos es más preciso contrario a lo que
hacíamos al graficar el ancho proporcional al tamaño de cada conjunto de datos.
Sentencias en R
boxplot(co2[1:234],co2[235:468], col="violet", notch=TRUE)
boxplot(co2[1:15],co2[16:50],co2[51:150],co2[151:468],col="blue", notch=TRUE)
2021 210
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
A continuación se incluye otro gráfico que puede emplearse cuando el tamaño muestral es chico
donde se representan todos los datos, el rango y una línea indicando la mediana. La publicación se
llama Serum Adipokine Concentrations in Dogs with Acute Pancreatitis, Paek et al., ( J. Vet. Interm.
Med. 2014;28:1760-1769).
En este caso se ha incorporado una comparación formal entre las medianas de los grupos realizada
mediante un test no paramétrico ( el de Mann Whitney-Wilcoxon cuyo estadístico se nota U).
Existen muchas otras opciones gráficas en R que permiten también ilustrar conjuntos de datos
grandes (o no), por ejemplo, el stripchart y heat-map. Aquí dejamos un link donde se puede obtener
explicación de muchos gráficos, cómo obtenerlos y cómo agregar leyendas, cambiar colores, diseños,
etc. http://www.ling.upenn.edu/~joseff/rstudy/index.html
2021 211
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
2021 212
Curso de Nivelación en Estadistica Mg. Claudia Castro Kuriss
Referencias
2021 213