Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADSTICA CON R
CON INSTRUCCIONES Y PLANTILLAS DE
LOS PRINCIPALES COMANDOS
Dante A. Urbina
2014
[2]
[3]
CONTENIDO
Introduccin.... 5 - 6
I. Descripcin de datos.. 7 - 10
II. Muestreo... 11 - 14
[4]
INTRODUCCIN
La principal ventaja de este manual es que trae listas las plantillas de los principales
comandos de modo tal que simplemente hay que adecuarlas a los archivos, nombres de
variables, nombres de datos u otras especificaciones, para poder correrlas y obtener los
resultados correspondientes. Ello es conveniente hacerlo en el entorno R-Studio, que es
ms amigable y simplificado, y tambin es de descarga libre. Entonces, una vez instalados
R y R-Studio, los comandos que presentaremos deben correrse ponindolos (ya
adecuados a nuestros requerimientos) en la parte en blanco que aparece al lado superior
izquierdo en la ventana de R-Studio; siendo que para ello basta con hacer click al final de
cada lnea del comando en cuestin y luego hacer click en la opcin Run. Al hacer esto
ordenadamente desde la primera hasta la ltima lnea del comando, deber salirnos el
resultado o los resultados en la sub-ventana de abajo.
cierto que es un poco molesto al comienzo, pero en realidad vale la pena, porque el R es
un lenguaje de programacin muy verstil y potente que podemos utilizar siempre dado
que se trata de un software libre (con otros programas hay que pagar licencias y eso carga
costos a las instituciones o empresas en que se quiera trabajar). Adems, una vez que nos
familiarizamos con el programa, cometemos menos errores o los detectamos ms fcil y
rpidamente.
Ahora, como una imagen vale ms que mil palabras y para que se entienda mejor todo lo
anterior y tambin lo que sigue, presentamos la ventana de R-Studio:
Asimismo, hay que mencionar que en los comandos presentados, la parte que el lector
debe reemplazar de acuerdo al problema que est abordando, es bsicamente aquello
que aparece como palabras o frases en maysculas.
[6]
I. DESCRIPCIN DE DATOS
Las herramientas de descripcin de datos son aquellas que nos permiten resumirlos por
medio de un conjunto de estadsticos y/o grficas que nos muestran informacin
significativa y relevante sobre ellos.
Pues bien, para analizar los estadsticos descriptivos de una variable en particular, nos
conviene que R lea sus valores por separado. El comando que debemos correr para esto
es el siguiente (cada nombre debe ser una sola palabra o, preferiblemente, una forma
abreviada de la misma que podamos identificar fcilmente):
library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])
Teniendo todo esto en mente, pasamos a presentar las plantillas de R de los principales
estadsticos descriptivos:
1. Media
2. Mediana
La mediana es aquel valor que est justo al medio de todos los datos. Tiene la ventaja de
no ser sensible a valores atpicos (extremos). El comando de R para calcular la mediana
viene dado por:
3. Varianza
[8]
4. Desviacin estndar
5. Cuantiles
Son aquellos valores de la variable que dejan una determinada proporcin de los datos
debajo de s conforme a la distribucin de probabilidad de stos. El comando de R para
hallar un cuantil es:
Los cuantiles ms comunes son los llamados cuartiles, que dividen la distribucin en
cuatro partes correspondiendo a los cuantiles de orden 0.25, 0.50 y 0.75. Tambin se usan
los deciles, que dividen la distribucin en diez partes. As, si se quiere saber qu valor
deja por debajo al 90% de los datos, se usa el orden de cuantil 0.90. Y, finalmente, estn
los percentiles, que dividen la distribucin en cien partes.
6. Coeficiente de asimetra
[9]
7. Coeficiente de curtosis
8. Histograma
library(MASS)
(truehist(VARIABLE, prob=FALSE,
main="TTULO DEL HISTOGRAMA",
xlab="NOMBRE DE LA UNIDAD DE MEDIDA DE LOS DATOS", ylab="Frecuencia"))
Para correr la ltima instruccin entre parntesis, se deben seleccionar sus tres lneas.
Hecho esto, aparecer la grfica del histograma.
[10]
II. MUESTREO
1. Clculo del tamao de muestra aleatoria simple para estimar una media
[11]
el resultado. Con todo ello, al correr el ltimo comando nos deber aparecer el tamao de
muestra necesario para la estimacin dados los parmetros especificados.
2. Clculo del tamao de muestra aleatoria simple para estimar una proporcin
En los casos anteriores hemos visto el llamado muestreo aleatorio simple. No obstante,
hay ocasiones en que los elementos de la poblacin estn agrupados en estratos, es decir,
conjuntos de elementos homogneos dentro del estrato, pero heterogneos entre los
distintos estratos. En este caso, se debe aplicar el muestreo estratificado para hallar el
tamao de muestra en cada estrato.
[12]
La primera instruccin del comando anterior se ha hecho para el caso de 2 estratos pero
puede extenderse anlogamente para n estratos. En caso el problema nos d
directamente el tamao total de cada estrato en lugar de la proporcin que representa
cada uno respecto de la poblacin, se debe escribir la primera instruccin como: ns <c(TAMAO DE ESTRATO 1, TAMAO DE ESTRATO 2). Luego de ello, se debe comprobar
por medio de la segunda instruccin que la suma de los estratos (ns) nos d el total de la
poblacin (N). Finalmente, en la ltima instruccin debemos poner en tamao de
muestra la cantidad total de muestra que usaremos para la estimacin, y el comando la
distribuir entre cada uno de los estratos de modo tal que el tamao de muestra de cada
estrato se corresponda directamente con la proporcin que cada uno de ellos representa
de la poblacin total.
Lo que busca la afijacin ptima es realizar el muestreo de modo tal que se procure la
mxima precisin en la estimacin. As, la participacin de cada estrato en la muestra total
debe ser proporcional a la desviacin estndar del estrato para que se muestreen ms
[13]
aquellos estratos con mayor variabilidad y menos aquellos que son ms homogneos. El
comando de R para la afijacin ptima en estimacin de proporciones es el siguiente:
[14]
Un intervalo de confianza es un par de nmero entre los cuales se estima que estar cierto
valor desconocido con una determinada probabilidad de acierto. El intervalo de confianza
se calcula a partir de los datos de la muestra con que se cuenta, y el valor desconocido es
un determinado parmetro poblacional. La probabilidad de xito en la estimacin se
representa con (1 ) y se denomina nivel de confianza. A su vez, representa el
error aleatorio y se denomina nivel de significacin.
Para hacer el clculo con R, previamente cargamos los datos de la variable de inters con
el comando ya conocido:
library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])
Hecho esto, presentamos a continuacin las plantillas de R para obtener los intervalos de
confianza ms bsicos y comunes:
Para estimar el intervalo de confianza de la media de una distribucin normal con varianza
desconocida utilizamos el comando siguiente:
[15]
[17]
Pues bien, el criterio de interpretacin para todos los contrastes que veremos es el
siguiente: si el p-value resultante es menor que el nivel de significacin elegido, se rechaza
la hiptesis nula a ese nivel de significacin; por el contrario, si el p-value es mayor que el
nivel de significacin, se acepta la hiptesis nula. Por lo general se usa el nivel de
significacin de 0.05, pero puede tambin elegirse otro valor. As, por ejemplo, si
obtenemos un p-value de 0.04, su hiptesis nula asociada se rechazar a un nivel de
significacin del 5% pero no del 1%. En caso el R arroje p-value < 2.2e-16, ello quiere
decir que el p-value es tan pequeo que la hiptesis nula debe rechazarse a cualquier
nivel de significacin.
En caso la cantidad de datos muestrales sobre la variable que nos interesa sea grande,
debemos hacer primero que R los extraiga de modo separado con el comando conocido:
library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
[18]
Como en los temas anteriores, en las plantillas de los comandos especficos que siguen se
reemplazar NOMBRE DE VARIABLE simplemente por VARIABLE. En los contrastes que
implican comparar caractersticas en base a dos muestras, se debe hacer que el R lea
ambas muestras previamente. Si la otra muestra es grande y est en otro archivo se debe
volver a ejecutar otra vez todo el primer comando presentado pero adecuado al nuevo
archivo y omitiendo la primera instruccin (library(xtable)). Si la otra muestra es grande
y est en el mismo archivo, pero en otra columna, simplemente se copia debajo y ejecuta
la ltima lnea de ese comando (NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE
ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS DATOS DE LA VARIABLE EN
ESTUDIO"])) cambiando slo el nombre de variable (ya que es otra variable) y el
nombre de columna del archivo con los datos de la variable en estudio (ya que sus datos
estarn en otra columna). Por ltimo, si la otra muestra es pequea, podemos
simplemente escribir sus datos separados por comas y poniendo otro nombre de variable.
En todo caso, en los contrastes en que se comparen dos muestras nos referiremos a los
datos ya ledos de cada una con las nomenclaturas VARIABLE 1 y VARIABLE 2, que el
lector deber reemplazar por el nombre especfico que le ha dado a sus variables de
estudio en las respectivas muestras (en los contrastes en que se busca comparar la misma
[19]
caracterstica para ambas muestras, se les puede poner el mismo nombre aadiendo
solamente sin dejar espacio- 1 para la primera y 2 para la segunda).
A su vez, hay que sealar que en algunos contrastes (paramtricos) habr especificar en la
hiptesis alternativa si se trata de un contraste de una o dos colas. Si la hiptesis
alternativa es que el parmetro puede simplemente tomar un valor distinto al planteado
en la hiptesis nula, se pone two.sided. En caso la hiptesis alternativa nos diga que el
parmetro tomar un valor mayor al planteado en la hiptesis nula, se pone greater. A
su vez, si la hiptesis alternativa nos dice que el parmetro tomar un valor menor al
planteado en la hiptesis nula, se pone less. En los comandos ponemos estas opciones
en mayscula para indicar que se debe escoger entre ellas, pero una vez escogida alguna,
se la debe escribir con minscula y entre comillas, si no el R no lo leer.
1. Contraste de medias
El comando de R para contrastar que la media poblacional toma un determinado valor es:
x=MEDIA MUESTRAL
s= DESVIACIN ESTNDAR MUESTRAL
n=TAMAO DE MUESTRA
(t=(x-VALOR DE MEDIA EN HIPTESIS NULA)/(s/sqrt(n)))
pt(t,df=n-1)
La penltima instruccin nos da el valor calculado del estadstico t-student y la ltima nos
da el p-value resultante.
[20]
2. Contraste de mediana
Al correr este comando se nos muestra el valor del estadstico del contraste de Wilcoxon y
el p-value asociado. La ventaja de este contraste es que nos da informacin sobre la
posicin central sin necesidad de hacer el supuesto de normalidad poblacional y, adems,
es ms robusto respecto de la presencia de datos atpicos en la muestra.
t.test(VARIABLE
1,
VARIABLE
2,
alternative="TWO.SIDED","LESS","GREATER",
Al correr este comando, se muestra el valor del estadstico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de ambas medias
muestrales.
Al correr este comando, se muestra el valor del estadstico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de ambas medias
muestrales.
El comando de R para contrastar que la varianza de dos grupos de datos es la misma viene
dado por:
Al correr este comando, se muestra el valor del estadstico F, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el ratio de varianzas muestrales.
6. Contraste de proporcin
DE
XITO
EN
HIPTESIS
NULA,
[22]
Al correr este comando, se muestra el valor del estadstico, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimacin y el clculo de la proporcin muestral.
7. Contraste de independencia
En caso se quiera contrastar si dos grupos de datos o resultados sobre datos son
independientes entre s, el comando de R a utilizar ser:
Luego de correr este comando obtendremos el estadstico Chi cuadrado, los grados de
libertad (df) y el p-value. La instruccin correct=FALSE implica que no se usar la
correccin de continuidad de Yates en el test, si se la quiera usar se debe poner TRUE.
Dado esto, el comando de R para ver si es que la distribucin observada de los datos se
ajusta a la distribucin esperada es:
chisq.test(VARIABLE, p=probs)
[23]
Al correr este comando se nos muestral el estadstico Chi-cuadrado para las frecuencias
dadas, los grados de libertad (df) y el p-value.
Para la distribucin normal el argumento ser pnorm, para la uniforme ser punif, y
para la exponencial ser pexp. Al correr el comando debe mostrarse el valor del
estadstico del contraste de Kolmogorov-Smirnov para bondad de ajuste y el p-value
respectivo.
library(tseries)
jarque.bera.test(VARIABLE)
Para correr la primera lnea es necesario instalar el paquete tseries (se puede hacer por
medio de la instruccin install.packages(tseries)). Luego de correr el comando del
[24]
contraste de Jarque-Bera, debe aparecer el valor del estadstico, los grados de libertad y el
p-value.
ks.test(VARIABLE 1, VARIABLE 2)
Al correr este comando se nos muestra el valor del estadstico del contraste KolmogorovSmirnov para homogeneidad (igualdad de distribucin) y el p-value resultante.
Al correr este comando nos aparecer el valor del estadstico del contraste de Wilcoxon y
el respectivo p-value.
[25]
La regresin lineal simple es un mtodo estadstico que modela la relacin entre una
variable dependiente o explicada y un conjunto de variables independientes o
explicativas. Bsicamente, el modelo de regresin lineal simple puede expresarse como:
= 0 + 1 1 + 2 2 + 3 3 + + +
Donde es la variable dependiente, los son las variables independientes, los son los
parmetros y es el error aleatorio.
Para simplificar, en los comandos asumiremos un modelo con solo dos variables
dependientes, pero puede ser extendido a ms de modo anlogo. As, estaremos
trabajando con el modelo general:
= 0 + 1 1 + 2 2 +
Asimismo, simplemente llamaremos a la variable dependiente y y a las dos variables
independientes, x1 y x2 respectivamente, pero el lector puede poner los nombres que
mejor se le acomoden para visualizar e interpretar directamente.
Como en los casos anteriores, el R deber leer primero la data para cada una de las
variables desde un archivo .csv. Ello se puede hacer adecuando la instruccin ya conocida:
library(xtable)
NOMBRE DE ARCHIVO < read.csv("UBICACIN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIN .csv", row.names=FALSE)
[26]
Especificado esto, pasamos a presentar los comandos ms bsicos para regresin lineal
simple en R:
Con este solo comando se nos dan casi todos los resultados relevantes de la estimacin.
As, en primer lugar, nos aparecen los datos de los residuos o errores de estimacin
(residuals), es decir, la discrepancia entre los datos observados de la variable
dependiente y los que se deducen de nuestro modelo de estimacin. En particular se nos
muestran el residuo mnimo (Min), el residuo mximo (Max), la mediana de los
residuos (Median) y los cuartiles correspondientes a 0.25 y 0.75 (1Q y 3Q).
Luego de ello, se nos muestra una tabla con el resultado principal, que es la estimacin de
los parmetros del modelo y sus respectivos estadsticos. La primera columna de datos
de esa tabla (Estimate) nos muestra el valor del coeficiente autnomo 0 (Intercept) y
los valores de 1 y 2 que seran los coeficientes multiplicativos de las respectivas
variables independientes (x1 y x2 en nuestro caso). En la segunda columna (Std.
[27]
Para graficar la relacin entre dos variables de acuerdo a los datos con los que contamos
el comando de R es el siguiente:
Esto es para el caso de la relacin entre las variables y y x1. Para relacionar otras
variables solo se escribe de modo anlogo.
En caso queramos tener solamente los coeficientes estimados en un vector, una vez
estimado el modelo, podemos ejecutar el comando de R siguiente:
[28]
En caso nos interese tener un solo coeficiente por separado para, por ejemplo, realizar
otros contrastes o anlisis en R con el mismo, podemos ejecutar el comando siguiente:
beta[i]
Donde i representa el lugar del coeficiente. As, si nos interesa extraer particularmente
el coeficiente asociado a la variable x2 debemos poner beta[3], ya que estara en la
tercera posicin (recurdese que el primer coeficiente es el del intercepto).
En caso slo queramos las varianzas de los estimadores, una vez ejecutado el comando
anterior, debemos ejecutar tambin el siguiente:
[29]
[30]