Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ejemplos de estadística básica con R / Fabio Molina, Javier Peñuela – Bogotá: Universidad
Sergio Arboleda, 2019
39 p.
ISBN: 978-958-5511-60-6
ISBN: 978-958-5511-60-6
Diseño y diagramación:
Fabio molina, Javier Peñuela
Corrección de estilo:
Ludwwing Cepeda A:
Fondo de Publicaciones
Universidad Sergio Arboleda
Director del Fondo de Publicaciones:
Jaime Arturo Barahona Caicedo
jaime.barahona@usa.edu.co
Calle 74 No. 14-14.
Teléfono: (571) 325 7500 ext. 2158.
Bogotá, D.C.
www.usergioarboleda.edu.co
Bogotá, D.C.
Introducción
Teniendo en cuenta estas ideas se pensó en hacer este trabajo que permite a
partir de ejemplos sencillos abordar la forma de resolver problemas básicos de
la estadı́stica por medio del programa ya mencionado. El presente trabajo trata
de manera ejemplificada los conceptos que van desde lo más elemental de la es-
tadı́stica descriptiva hasta la parte de estadı́stica inferencial pasando por temas
de probabilidad y las distribuciones discretas y continuas.
Estos temas mencionados anteriormente son los temas clásicos que se abor-
dan en los cursos universitarios de estadı́stica, la idea es que por medio de este
material los estudiantes encuentren como resolver de manera eficaz los proble-
mas que se presentan en dicha asignatura con ayuda del programa. Este trabajo
creemos que toma importancia como soporte y consulta en la medida que los
programa R y RStudio son bastante completos pero tienen demasiados coman-
dos que serı́a prácticamente imposible memorizarlos, entonces el objetivo es que
dependiendo del problema la persona busque cómo hacerlo por medio del pro-
grama y lo pueda ver mediante ejemplos y ası́ lo adecúe a sus necesidades para
darle solución a su problema.
3
Índice
Capı́tulos Página
1. Organización de información 5
1.1. Tabla de frecuencias, diagramas circulares y barras, variable cua-
litativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Tabla de frecuencias, histogramas, variable cuantitativa . . . . . 7
4. Estimación 26
4.1. Intervalos de confianza y pruebas de hipótesis para la media . . . 27
4.2. Intervalos de confianza y pruebas de hipótesis para una proporción 28
4.3. Intervalos de confianza y pruebas de hipótesis para diferencia de
medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.4. Intervalos de confianza y pruebas de hipótesis para la diferencia
de proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5. Intervalos de confianza y pruebas de hipótesis para el cociente de
varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5. Regresión 34
5.1. Regresión simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2. Regresión múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4
EJEMPLO DE ESTADÍSTICA
Básica CON R
slices=c(4,5,13,12,6)
lbls=c(”Alto”, ”Bueno”,”Medio”.”Regular”, ”Insuficiente”)
pie(slices, labels = lbls, main=”Diagrama Circular Calificaciones”)
e. Para hacer el diagrama de barras que represente cada calificación y sus fre-
cuencias se pueden seguir las siguientes instrucciones:
x=c(4,5,13,12,6)
y=c(”Alto”, ”Bueno”,”Medio”,”Regular”,”Insuf”)
barplot(x,names.arg=y,main=”Diagrama de Barras Calificaciones”)
6
1.2. Tabla de frecuencias, histogramas, variable cuantita-
tiva
Ejemplo 2
Solución
a. Para introducir los datos que llamaremos ”edades”, basta con dar la siguiente
instrucción:
edades=c(20,17,18,25,23,15,18,22,21,22,23,23,19,20,30,25,24,25,21,24,24,21,23,22,
26,24,23,21,21,18,21,23,24,16,17,19,26,23,24,18,21,33)
7
Introducción
Teniendo en cuenta estas ideas se pensó en hacer este trabajo que permite a
partir de ejemplos sencillos abordar la forma de resolver problemas básicos de
la estadı́stica por medio del programa ya mencionado. El presente trabajo trata
de manera ejemplificada los conceptos que van desde lo más elemental de la es-
tadı́stica descriptiva hasta la parte de estadı́stica inferencial pasando por temas
de probabilidad y las distribuciones discretas y continuas.
Estos temas mencionados anteriormente son los temas clásicos que se abor-
dan en los cursos universitarios de estadı́stica, la idea es que por medio de este
material los estudiantes encuentren como resolver de manera eficaz los proble-
mas que se presentan en dicha asignatura con ayuda del programa. Este trabajo
creemos que toma importancia como soporte y consulta en la medida que los
programa R y RStudio son bastante completos pero tienen demasiados coman-
dos que serı́a prácticamente imposible memorizarlos, entonces el objetivo es que
dependiendo del problema la persona busque cómo hacerlo por medio del pro-
grama y lo pueda ver mediante ejemplos y ası́ lo adecúe a sus necesidades para
darle solución a su problema.
3
2. Medidas de tendencia central, variabilidad y
posición
2.1. Media aritmetica, desviación estándar, máximo y mı́ni-
mo
Ejemplo 3
Solución
salarios=c(432.21,239.48,249.94,373.22,233.86,366,331.11,258.86,349.20,31.60)
9
Para encontrar el promedio se usa la función ”mean” y se le aplica a los datos:
mean(salarios)
286.548
sd(salarios)
112.0763
c. Para encontrar los salarios más altos y más bajos de la muestra se usan
las funciones ”max” y ”min” y se aplican los datos, ası́:
max(salarios)
432.21
min(salarios)
31.6
Ejemplo 4
Suponga que las edades de los niños de un salón completo de primero de primaria
son: 7, 6, 5, 8, 7, 7, 7, 5, 6, 8. Calcular la desviación estándar de dicha población.
Solución
x=c(7,6,5,8,7,7,7,5,6,8)
sd(x)*(9/10)0,5
1.019804
10
capital humano (10 %), sustentabilidad medioambiental (5 %) y poder de la mar-
ca (15 %). Sus calificaciones van de 0 a 100 puntos.1
Solución
Ası́ las cosas para encontrar cada promedio ponderado se hará la multiplica-
ción matricial entre las ponderaciones y las calificaciones de cada ciudad.
Para Sao Paulo la instrucción es:
SP %* %X
78.59
BOG %* %X
73.535
BA %* %X
73.535
1 En el siguiente enlace se puede encontrar dicha informa-
ción:http://rankings.americaeconomia.com/mejores-ciudades-2016/
11
2.3. Percentiles
Ejemplo 6
Solución
La función ”quantile” nos permite hallar dichos percentiles con una sola instruc-
ción, recordemos que dichos datos se les llamó ”edades” luego la instrucción será:
quantile(edades)
El resultado es:
Ejemplo 7
Suponga que los pesos de 12 estudiantes en kilogramos son: 67, 68, 70, 72, 65,
66, 67, 71, 72, 70, 71, 100. Realizar dos diagramas de cajas y bigotes donde en
una de ellas se tengan en cuenta todos los datos y en la otra no se tenga en
cuenta el dato mayor.
Realizar los gráficos en una misma ventana.
Solución
x=c(67,68,70,72,65,66,67,71,72,70,71,100)
y=c(67,68,70,72,65,66,67,71,72,70,71)
par(mfrow=c(1,2))
boxplot(x)
boxplot(y)
12
3. Probabilidad, distribuciones discretas y con-
tinuas
3.1. Distribución binomial
Ejemplo 8
Solución
13
Para nuestro caso particular es:
dbinom(3,10,0.2)
dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)
pbinom(2,10,0.2)
1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2))
0.1208739
Otra forma de hacer dicho cálculo es sumando los resultados desde 4 hasta
10, ası́:
sum(dbinom(c(4,5,6,7,8,9,10),10,0.2))
1-pbinom(3,10,0.2)
Ejemplo 9
Solución
14
Ası́ obtenemos:
Se sabe que en una bolsa hay 15 manzanas de las cuales 4 tienen cierta bacteria.
Se toma una muestra de 8 manzanas de dicha bolsa y se revisa cuantas tienen
dicha bacteria. Si dos o más manzanas tienen dicha bacteria en la muestra la
bolsa completa es rechazada.
15
b. Si hay 8 manzanas con dicha bacteria y la condición no cambia, encuen-
tre la probabilidad de que la bolsa sea rechazada.
Solución
dhyper(2,8,15-8,4)+dhyper(3,8,15-8,4)+dhyper(4,8,15-8,4)
0.7692308
Otra forma de hacer dicho cálculo es sumando los resultados desde 2 hasta 4, ası́:
sum(dhyper(c(2,3,4),8,15-8,4))
sum(dhyper(c(2,3,4,5,6,7,8),8,15-8,8))
0.9987568
16
tribución de Poisson con un promedio de 10 canchas alquiladas por dı́a.
Solución
x:”Número de ocurrencias”
λ= ”Parámetro de valor medio de ocurrencia”
sum(dpois(c(7,8,9,10,11),10))
0.5666347
ppois(11,10)-ppois(6,10)
c. Ahora como la pregunta es sobre tres dı́as debemos cambiar nuestro lambda
por λ = 30, y buscamos la probabilidad ası́:
dpois(c(36),30)
0.03775683
Ejemplo 12
Representar los diagramas de barra de una distribución Poisson con los va-
lores de λ= 5, 10, 15, 20. Los valores de ocurrencias ”x”tomando un rango de 0
a 50.
Solución
17
Ası́ obtenemos:
Solución
La instrucción esta dada por:
dgeom(2,0.52)
18
0.119808
Ejemplo 14
Solución
Ası́ obtenemos:
19
3.5. Distribuciones continuas
Se presentan a continuación algunas de las distribuciones discretas mas usuales.
Sea X una variable aleatoria con distribución uniforme en el intervalo [1,5], Cal-
cular:
a) P (X < 2)
b) P (X > 4)
c) P (2 < X < 4)
Solución
Ejemplo 16
Solución
Obteniendo lo siguiente:
20
3.7. Distribución exponencial
Ejemplo 17
Solución
Los valores de las áreas bajo la curva son acumulados a la izquierda del va-
lor indicado, por defecto R los calcula indicando el valor del tiempo medio con
el comando ”pexp”, ası́:
pexp(4,rate=1/2.5)
0.7981035
Ejemplo 18
Solución
21
EJEMPLOS DE ESTADÍSTICA BÁSICA CON R
1. Organización de información
1.1. Tabla de frecuencias, diagramas circulares y barras,
variable cualitativa
Ejemplo 1
A A M M M M M I
B B R I I I R R
R R R R R R R R
R M M M M M M M
M M M M M M A A
Solución
5
a. pnorm(0.5)
0.7580363
b. 1-pnorm(0.7)
0.2419637
c. pnorm(0.65)-pnorm(-0.7)
0.5001902
Ejemplo 20
a. P (X < 0,5)
b. P (X > 0,7)
c. P (−0,7 < X < 0,65)
Solución
Los valores de las áreas bajo la curva acumulados a la izquierda del valor indi-
cado en R se calculan usando el mismo comando indicando el valor de la media
y la desviación estándar, ası́:
a. pnorm(0.5, 1,1.5)
0.3694413
b. 1-pnorm(0.7, 1,1.5)
0.5792597
c. pnorm(0.65,1,1.5)-pnorm(-0.7,1,1.5)
0.2792141
Ejemplo 21
Solución
23
Ası́ obtenemos:
Ejemplo 22
Solución
qnorm(0.75,60,10)
66.7449
Ejemplo 23
Solución
24
Las instrucciones vienen dadas en los siguientes renglones:
Ası́ obtenemos:
Suponga que una variable aleatoria ”X” tiene una distribución con media µ = 15
y desviación σ = 14. Si se toma una muestra aleatoria de tamaño 49, hallar la
probabilidad de que la media muestral se encuentre entre 13 y 16.
Solución
25
lı́mite inferior y superior requeridos, una posibilidad puede ser siguiendo estas
instrucciones:
lsup=(16-15)/2
linf=(13-15)/2
pnorm(lsup)-pnorm(linf)
0.5328072
pnorm(16,15,2)-pnorm(13,15,2)
0.5328072
Ejemplo 25
Solución
z=(172-170)/1
pnorm(z)
0.9772499
pnorm(172,170,1)
0.9772499
4. Estimación
La forma en la que se harán los cálculos en esta sección requieren el uso de una
librerı́a llamada ”TeachingDemos”. Para tenerla disponible es necesario ir a la
pestaña de carga de paquetes y seleccionar TeachingDemos, una vez seleccio-
nado se elige una Cran y el proceso de cargado queda completo, para usarlo
insertamos en la consola la siguiente instrucción:
library(TeachingDemos)
26
4.1. Intervalos de confianza y pruebas de hipótesis para la
media
Ejemplo 26
Solución
library(TeachingDemos)
y=c(8.1,7.8,7.9,8,7.2,8.4,8.3,8.3,7.7,7.4)
z.test(y,7.8,0.7)
27
Ejemplo 27
Solución
x=c(8.1, 7.8, 7.9, 8.0, 7.2, 8.4, 8.3, 8.3, 7.7, 7.4)
Solución
28
quiere la cantidad de casos favorables en la muestra, en este caso 600 y el
tamaño de la muestra 3000. Debemos también especificar el tipo de prueba con
la hipótesis alternativa.y el nivel de confianza. Ası́ las cosas las instrucciones son:
Datos pareados
Solución
29
Debido a que son datos pareados se usa una prueba con la distribución t-Student
y al ser bilateral no es necesario especificarlo ya que es la prueba que por defecto
trae el proceso en R. Ası́ las instrucciones son:
x=c(12.5,13.5,13,14,13.8,14.2,13.8,15.2,12.5,14)
y=c(12.2,13,13,14.1,12.8,11.2,10.8,15.2,9.5,14.2)
t.test(x, y, conf.level = 0.95, paired = T)
Ejemplo 30
Cárcel A: 69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97.
Cárcel B: 59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94.
30
Solución
Debemos introducir los datos y luego realizar una prueba usando la distribu-
ción t-Student, de nuevo al ser bilateral no es necesario especificarlo ya que es
la prueba que por defecto trae el proceso en R, si se debe indicar que estamos
asumiendo varianzas iguales. Ası́ las cosas las instrucciones son:
carcelA=c(69,75,76,80,81,82,86,89,91,92,97)
carcelB=c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
t.test(carcelA, carcelB, var.equal=TRUE)
Con un nivel de confianza del 95 % podemos decir que la diferencia de los tiem-
pos medios de permanencia en las dos cárceles está entre 0.057 y 14.85 dı́as,
también se puede decir que con un nivel de significación del 5 % se rechaza la
hipótesis nula, es decir, que los tiempos medios de permanencia en las dos cárce-
les son diferentes.
Ejemplo 31
Resolver el ejercicio anterior asumiendo que las varianzas de las dos poblaciones
son desconocidas y además diferentes.
Solución
carcelA=c(69,75,76,80,81,82,86,89,91,92,97)
carcelB=c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
t.test(carcelA,carcelB,var.equal=FALSE)
31
Con un nivel de confianza del 95 % podemos decir que la diferencia de los tiempos
medios de permanencia en las dos cárceles está entre 0.1769 y 14.7322 dı́as,
también se puede decir que con un nivel de significación del 5 % se rechaza
la hipótesis nula, es decir, que los tiempos medios de permanencia en las dos
cárceles son diferentes.
Solución
x=c(71,58)
n=c(100,90)
prop.test(x,n,conf.level=0.95,correct=TRUE)
32
Con un nivel de confianza del 95 %, la diferencia de las proporciones de los
votantes en los dos barrios está entre -0.078 y 0.2091, también se puede decir que
con un nivel de significación del 5 % los datos no muestran evidencia estadı́stica
para rechazar la hipótesis nula, es decir, la evidencia no permite afirmar que la
diferencia de las proporciones de los votantes es diferente.
Antiguo: 69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97, 86, 84, 87, 94
Nuevo: 59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94
Solución
Antiguo=c(69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97, 86, 84, 87, 94)
Nuevo=c(59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94)
var.test(Antiguo,Nuevo,conf.nivel=0.95)
33
Para nuestro caso particular es:
dbinom(3,10,0.2)
dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)
pbinom(2,10,0.2)
1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2))
0.1208739
Otra forma de hacer dicho cálculo es sumando los resultados desde 4 hasta
10, ası́:
sum(dbinom(c(4,5,6,7,8,9,10),10,0.2))
1-pbinom(3,10,0.2)
Ejemplo 9
Solución
14
Ejemplo 35
Solución
X1=seq(1,10)
Y=matrix(rnorm(10))
Unos=matrix(1,10)
35
X=matrix(c(Unos,X1),nrow=10,ncol=2)
Los resultados que el usuario ingresa no necesariamente son iguales a los que
se acaban de presentar, ya que se están utilizando números aleatorios pero se
pueden verificar las instrucciones del literal c.
lm(Y ∼ X1)
Como podemos apreciar se debe obtener los mismos resultados en los literales
b y c.
Ejemplo 36
Solución
36
Usando las instrucciones siguientes se pueden ver en un mismo gráfico los puntos
y la recta de regresión.
X=c(1,1.6,2,2.5,3,3.5)
Y=c(1,2,2.5,3,3.5,4)
plot(X,Y)
r1 = lm(Y ∼ X)
abline(r1)
Considere los siguientes datos donde Y es la variable endógena y X1, X2, son
variables exógenas.
37
Y X1 X2
7 4 9
10 5 4
12 8 2
13 8,6 1,6
15 11 0,4
14 10 0,8
19 12 0,2
20 14 0,1
21 13 0
a. Mostrar los datos en un diagrama de dispersión.
b. Hacer la regresión correspondiente.
c. Muestre un resumen de la regresión.
Solución
install.packages(”rgl”)
38
0.119808
Ejemplo 14
Solución
Ası́ obtenemos:
19