Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual Basico de Estadistica Con R Con Intrucciones y Plantillas de Los Principales Comandos
Manual Basico de Estadistica Con R Con Intrucciones y Plantillas de Los Principales Comandos
ESTADÍSTICA CON R
CON INSTRUCCIONES Y PLANTILLAS DE
LOS PRINCIPALES COMANDOS
Dante A. Urbina
2014
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
[2]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
ANÓNIMO
[3]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
CONTENIDO
Introducción……….…………………………………….……………………..…… 5 - 6
I. Descripción de datos…………………………….…………………….…… 7 - 10
II. Muestreo……………..………………………………………………….…… 11 - 14
[4]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
INTRODUCCIÓN
La principal ventaja de este manual es que trae listas las plantillas de los principales
comandos de modo tal que simplemente hay que adecuarlas a los archivos, nombres de
variables, nombres de datos u otras especificaciones, para poder correrlas y obtener los
resultados correspondientes. Ello es conveniente hacerlo en el entorno R-Studio, que es
más amigable y simplificado, y también es de descarga libre. Entonces, una vez instalados
R y R-Studio, los comandos que presentaremos deben correrse poniéndolos (ya
adecuados a nuestros requerimientos) en la parte en blanco que aparece al lado superior
izquierdo en la ventana de R-Studio; siendo que para ello basta con hacer click al final de
cada línea del comando en cuestión y luego hacer click en la opción “Run”. Al hacer esto
ordenadamente desde la primera hasta la última línea del comando, deberá salirnos el
resultado o los resultados en la sub-ventana de abajo.
[5]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
cierto que es un poco molesto al comienzo, pero en realidad vale la pena, porque el R es
un lenguaje de programación muy versátil y potente que podemos utilizar siempre dado
que se trata de un software libre (con otros programas hay que pagar licencias y eso carga
costos a las instituciones o empresas en que se quiera trabajar). Además, una vez que nos
familiarizamos con el programa, cometemos menos errores o los detectamos más fácil y
rápidamente.
Ahora, como una imagen vale más que mil palabras y para que se entienda mejor todo lo
anterior y también lo que sigue, presentamos la ventana de R-Studio:
Asimismo, hay que mencionar que en los comandos presentados, la parte que el lector
debe reemplazar de acuerdo al problema que esté abordando, es básicamente aquello
que aparece como palabras o frases en mayúsculas.
[6]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
I. DESCRIPCIÓN DE DATOS
Las herramientas de descripción de datos son aquellas que nos permiten “resumirlos” por
medio de un conjunto de estadísticos y/o gráficas que nos muestran información
significativa y relevante sobre ellos.
Pues bien, para analizar los estadísticos descriptivos de una variable en particular, nos
conviene que R lea sus valores por separado. El comando que debemos correr para esto
es el siguiente (cada nombre debe ser una sola palabra o, preferiblemente, una forma
abreviada de la misma que podamos identificar fácilmente):
library(xtable)
NOMBRE DE ARCHIVO <− read.csv("UBICACIÓN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIÓN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIÓN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])
[7]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Teniendo todo esto en mente, pasamos a presentar las plantillas de R de los principales
estadísticos descriptivos:
1. Media
2. Mediana
La mediana es aquel valor que está “justo al medio” de todos los datos. Tiene la ventaja de
no ser sensible a valores atípicos (extremos). El comando de R para calcular la mediana
viene dado por:
3. Varianza
[8]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
4. Desviación estándar
5. Cuantiles
Son aquellos valores de la variable que dejan una determinada proporción de los datos
debajo de sí conforme a la distribución de probabilidad de éstos. El comando de R para
hallar un cuantil es:
Los cuantiles más comunes son los llamados “cuartiles”, que dividen la distribución en
cuatro partes correspondiendo a los cuantiles de orden 0.25, 0.50 y 0.75. También se usan
los “deciles”, que dividen la distribución en diez partes. Así, si se quiere saber qué valor
deja por debajo al 90% de los datos, se usa el orden de cuantil 0.90. Y, finalmente, están
los “percentiles”, que dividen la distribución en cien partes.
6. Coeficiente de asimetría
[9]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
7. Coeficiente de curtosis
8. Histograma
library(MASS)
(truehist(VARIABLE, prob=FALSE,
main="TÍTULO DEL HISTOGRAMA",
xlab="NOMBRE DE LA UNIDAD DE MEDIDA DE LOS DATOS", ylab="Frecuencia"))
Para correr la última instrucción entre paréntesis, se deben seleccionar sus tres líneas.
Hecho esto, aparecerá la gráfica del histograma.
[10]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
II. MUESTREO
1. Cálculo del tamaño de muestra aleatoria simple para estimar una media
[11]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
el resultado. Con todo ello, al correr el último comando nos deberá aparecer el tamaño de
muestra necesario para la estimación dados los parámetros especificados.
2. Cálculo del tamaño de muestra aleatoria simple para estimar una proporción
En los casos anteriores hemos visto el llamado “muestreo aleatorio simple”. No obstante,
hay ocasiones en que los elementos de la población están agrupados en estratos, es decir,
conjuntos de elementos homogéneos dentro del estrato, pero heterogéneos entre los
distintos estratos. En este caso, se debe aplicar el “muestreo estratificado” para hallar el
tamaño de muestra en cada estrato.
[12]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
La primera instrucción del comando anterior se ha hecho para el caso de 2 estratos pero
puede extenderse análogamente para “n” estratos. En caso el problema nos dé
directamente el tamaño total de cada estrato en lugar de la proporción que representa
cada uno respecto de la población, se debe escribir la primera instrucción como: ns <-
c(TAMAÑO DE ESTRATO 1, TAMAÑO DE ESTRATO 2). Luego de ello, se debe comprobar
por medio de la segunda instrucción que la suma de los estratos (ns) nos dé el total de la
población (N). Finalmente, en la última instrucción debemos poner en “tamaño de
muestra” la cantidad total de muestra que usaremos para la estimación, y el comando la
distribuirá entre cada uno de los estratos de modo tal que el tamaño de muestra de cada
estrato se corresponda directamente con la proporción que cada uno de ellos representa
de la población total.
Lo que busca la “afijación óptima” es realizar el muestreo de modo tal que se procure la
máxima precisión en la estimación. Así, la participación de cada estrato en la muestra total
debe ser proporcional a la desviación estándar del estrato para que se muestreen más
[13]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
aquellos estratos con mayor variabilidad y menos aquellos que son más homogéneos. El
comando de R para la afijación óptima en estimación de proporciones es el siguiente:
[14]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Un intervalo de confianza es un par de número entre los cuales se estima que estará cierto
valor desconocido con una determinada probabilidad de acierto. El intervalo de confianza
se calcula a partir de los datos de la muestra con que se cuenta, y el valor desconocido es
un determinado parámetro poblacional. La probabilidad de éxito en la estimación se
representa con (1 − 𝛼) y se denomina “nivel de confianza”. A su vez, 𝛼 representa el
error aleatorio y se denomina “nivel de significación”.
Para hacer el cálculo con R, previamente cargamos los datos de la variable de interés con
el comando ya conocido:
library(xtable)
NOMBRE DE ARCHIVO <− read.csv("UBICACIÓN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIÓN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIÓN .csv", row.names=FALSE)
NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE ARCHIVO[, "NOMBRE DE COLUMNA DEL
ARCHIVO CON LOS DATOS DE LA VARIABLE EN ESTUDIO"])
Hecho esto, presentamos a continuación las plantillas de R para obtener los intervalos de
confianza más básicos y comunes:
Para estimar el intervalo de confianza de la media de una distribución normal con varianza
desconocida utilizamos el comando siguiente:
[15]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
[16]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
[17]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Pues bien, el criterio de interpretación para todos los contrastes que veremos es el
siguiente: si el p-value resultante es menor que el nivel de significación elegido, se rechaza
la hipótesis nula a ese nivel de significación; por el contrario, si el p-value es mayor que el
nivel de significación, se acepta la hipótesis nula. Por lo general se usa el nivel de
significación de 0.05, pero puede también elegirse otro valor. Así, por ejemplo, si
obtenemos un p-value de 0.04, su hipótesis nula asociada se rechazará a un nivel de
significación del 5% pero no del 1%. En caso el R arroje “p-value < 2.2e-16”, ello quiere
decir que el p-value es tan pequeño que la hipótesis nula debe rechazarse a cualquier
nivel de significación.
En caso la cantidad de datos muestrales sobre la variable que nos interesa sea grande,
debemos hacer primero que R los extraiga de modo separado con el comando conocido:
library(xtable)
NOMBRE DE ARCHIVO <− read.csv("UBICACIÓN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIÓN .csv")
[18]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Como en los temas anteriores, en las plantillas de los comandos específicos que siguen se
reemplazará “NOMBRE DE VARIABLE” simplemente por “VARIABLE”. En los contrastes que
implican comparar características en base a dos muestras, se debe hacer que el R “lea”
ambas muestras previamente. Si la otra muestra es grande y está en otro archivo se debe
volver a ejecutar otra vez todo el primer comando presentado pero adecuado al nuevo
archivo y omitiendo la primera instrucción (“library(xtable)”). Si la otra muestra es grande
y está en el mismo archivo, pero en otra columna, simplemente se copia debajo y ejecuta
la última línea de ese comando (“NOMBRE DE VARIABLE <- as.numeric(NOMBRE DE
ARCHIVO[, "NOMBRE DE COLUMNA DEL ARCHIVO CON LOS DATOS DE LA VARIABLE EN
ESTUDIO"])”) cambiando sólo el “nombre de variable” (ya que es otra variable) y el
“nombre de columna del archivo con los datos de la variable en estudio” (ya que sus datos
estarán en otra columna). Por último, si la otra muestra es pequeña, podemos
simplemente escribir sus datos separados por comas y poniendo otro nombre de variable.
En todo caso, en los contrastes en que se comparen dos muestras nos referiremos a los
datos “ya leídos” de cada una con las nomenclaturas “VARIABLE 1” y “VARIABLE 2”, que el
lector deberá reemplazar por el nombre específico que le ha dado a sus variables de
estudio en las respectivas muestras (en los contrastes en que se busca comparar la misma
[19]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
característica para ambas muestras, se les puede poner el mismo nombre añadiendo
solamente –sin dejar espacio- “1” para la primera y “2” para la segunda).
A su vez, hay que señalar que en algunos contrastes (paramétricos) habrá especificar en la
hipótesis alternativa si se trata de un contraste de una o dos colas. Si la hipótesis
alternativa es que el parámetro puede simplemente tomar un valor distinto al planteado
en la hipótesis nula, se pone “two.sided”. En caso la hipótesis alternativa nos diga que el
parámetro tomará un valor mayor al planteado en la hipótesis nula, se pone “greater”. A
su vez, si la hipótesis alternativa nos dice que el parámetro tomará un valor menor al
planteado en la hipótesis nula, se pone “less”. En los comandos ponemos estas opciones
en mayúscula para indicar que se debe escoger entre ellas, pero una vez escogida alguna,
se la debe escribir con minúscula y entre comillas, si no el R no lo leerá.
1. Contraste de medias
El comando de R para contrastar que la media poblacional toma un determinado valor es:
x=MEDIA MUESTRAL
s= DESVIACIÓN ESTÁNDAR MUESTRAL
n=TAMAÑO DE MUESTRA
(t=(x-VALOR DE MEDIA EN HIPÓTESIS NULA)/(s/sqrt(n)))
pt(t,df=n-1)
La penúltima instrucción nos da el valor calculado del estadístico t-student y la última nos
da el p-value resultante.
[20]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
2. Contraste de mediana
Al correr este comando se nos muestra el valor del estadístico del contraste de Wilcoxon y
el p-value asociado. La ventaja de este contraste es que nos da información sobre la
posición central sin necesidad de hacer el supuesto de normalidad poblacional y, además,
es más robusto respecto de la presencia de datos atípicos en la muestra.
Al correr este comando, se muestra el valor del estadístico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimación y el cálculo de ambas medias
muestrales.
[21]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Al correr este comando, se muestra el valor del estadístico t, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimación y el cálculo de ambas medias
muestrales.
El comando de R para contrastar que la varianza de dos grupos de datos es la misma viene
dado por:
Al correr este comando, se muestra el valor del estadístico F, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimación y el ratio de varianzas muestrales.
6. Contraste de proporción
[22]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Al correr este comando, se muestra el valor del estadístico, los grados de libertad (df), el
p-value, el intervalo de confianza de la estimación y el cálculo de la proporción muestral.
7. Contraste de independencia
En caso se quiera contrastar si dos grupos de datos o resultados sobre datos son
independientes entre sí, el comando de R a utilizar será:
Luego de correr este comando obtendremos el estadístico Chi cuadrado, los grados de
libertad (df) y el p-value. La instrucción “correct=FALSE” implica que no se usará la
corrección de continuidad de Yates en el test, si se la quiera usar se debe poner “TRUE”.
Dado esto, el comando de R para ver si es que la distribución observada de los datos se
ajusta a la distribución esperada es:
chisq.test(VARIABLE, p=probs)
[23]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Al correr este comando se nos muestral el estadístico Chi-cuadrado para las frecuencias
dadas, los grados de libertad (df) y el p-value.
Para la distribución normal el argumento será “pnorm”, para la uniforme será “punif”, y
para la exponencial será “pexp”. Al correr el comando debe mostrarse el valor del
estadístico del contraste de Kolmogorov-Smirnov para bondad de ajuste y el p-value
respectivo.
library(tseries)
jarque.bera.test(VARIABLE)
Para correr la primera línea es necesario instalar el paquete “tseries” (se puede hacer por
medio de la instrucción install.packages(“tseries”)). Luego de correr el comando del
[24]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
contraste de Jarque-Bera, debe aparecer el valor del estadístico, los grados de libertad y el
p-value.
ks.test(VARIABLE 1, VARIABLE 2)
Al correr este comando se nos muestra el valor del estadístico del contraste Kolmogorov-
Smirnov para homogeneidad (igualdad de distribución) y el p-value resultante.
Al correr este comando nos aparecerá el valor del estadístico del contraste de Wilcoxon y
el respectivo p-value.
[25]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
La regresión lineal simple es un método estadístico que modela la relación entre una
variable dependiente o explicada y un conjunto de variables independientes o
explicativas. Básicamente, el modelo de regresión lineal simple puede expresarse como:
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑛 𝑋𝑛 + 𝜀𝑖
Donde 𝑌𝑡 es la variable dependiente, los 𝑋𝑖 son las variables independientes, los 𝛽𝑖 son los
parámetros y 𝜀𝑖 es el error aleatorio.
Para simplificar, en los comandos asumiremos un modelo con solo dos variables
dependientes, pero puede ser extendido a más de modo análogo. Así, estaremos
trabajando con el modelo general:
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀𝑖
Como en los casos anteriores, el R deberá “leer” primero la data para cada una de las
variables desde un archivo .csv. Ello se puede hacer adecuando la instrucción ya conocida:
library(xtable)
NOMBRE DE ARCHIVO <− read.csv("UBICACIÓN EXACTA DEL ARCHIVO EN LA PC O EN LA
WEB PONIENDO LA EXTENSIÓN .csv")
write.csv(NOMBRE DE ARCHIVO, file="NOMBRE DE ARCHIVO EN LA PC O EN LA WEB
PONIENDO LA EXTENSIÓN .csv", row.names=FALSE)
[26]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Especificado esto, pasamos a presentar los comandos más básicos para regresión lineal
simple en R:
Con este solo comando se nos dan casi todos los resultados relevantes de la estimación.
Así, en primer lugar, nos aparecen los datos de los residuos o errores de estimación
(“residuals”), es decir, la discrepancia entre los datos observados de la variable
dependiente y los que se deducen de nuestro modelo de estimación. En particular se nos
muestran el residuo mínimo (“Min”), el residuo máximo (“Max”), la mediana de los
residuos (“Median”) y los cuartiles correspondientes a 0.25 y 0.75 (“1Q” y “3Q”).
Luego de ello, se nos muestra una tabla con el resultado principal, que es la estimación de
los parámetros 𝛽 del modelo y sus respectivos estadísticos. La primera columna de datos
de esa tabla (“Estimate”) nos muestra el valor del coeficiente autónomo 𝛽0 (“Intercept”) y
los valores de 𝛽1 y 𝛽2 que serían los coeficientes multiplicativos de las respectivas
variables independientes (“x1” y “x2” en nuestro caso). En la segunda columna (“Std.
[27]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
Finalmente, debajo de ello, se nos muestran otros estadísticos relevantes como el R2 (“R-
squared”) y el R2 ajustado (“Ajusted R-squared”) que nos dicen qué proporción de las
variaciones de la variable dependiente es explicada por la variación de las variables
independientes. A su vez, aparece el estadístico F (“F-statistic”) del contraste de
significancia conjunta, siendo que si su p-value asociado es mayor que 0.05, podemos
decir que las variables independientes elegidas no son conjuntamente explicativas de la
variable dependiente.
Para graficar la relación entre dos variables de acuerdo a los datos con los que contamos
el comando de R es el siguiente:
Esto es para el caso de la relación entre las variables “y” y “x1”. Para relacionar otras
variables solo se escribe de modo análogo.
En caso queramos tener solamente los coeficientes estimados en un vector, una vez
estimado el modelo, podemos ejecutar el comando de R siguiente:
[28]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
En caso nos interese tener un solo coeficiente por separado para, por ejemplo, realizar
otros contrastes o análisis en R con el mismo, podemos ejecutar el comando siguiente:
beta[i]
Donde “i” representa el lugar del coeficiente. Así, si nos interesa extraer particularmente
el coeficiente asociado a la variable “x2” debemos poner “beta[3]”, ya que estaría en la
tercera posición (recuérdese que el primer coeficiente es el del intercepto).
En caso sólo queramos las varianzas de los estimadores, una vez ejecutado el comando
anterior, debemos ejecutar también el siguiente:
[29]
MANUAL BÁSICO DE ESTADÍSTICA CON R
Dante A. Urbina
[30]