Ejemplos de Estadística Básica R

Ejemplos
de estadística Fabio Germán

Molina Focazzio
básica con R Alfonso Javier

Peñuela Peña
Ejemplos
de estadística
básica con R
Este trabajo permite, a partir de
ejemplos sencillos, abordar la
forma de resolver problemas bási-
cos de la estadística por medio del
programa R y su complemento
Rstudio. Durante la lectura de este
escrito el estudiante o el profesio-
nal podrá revisar de manera ejem-
plificada la gran mayoría de con-
ceptos que se tratan en los cursos
de estadística descriptiva e inferen-
cial, haciendo uso del programa ya
mencionado y mostrando las gran-
des ventajas que presenta el pro-
grama en términos de eficiencia,
amabilidad y gratuidad. Se busca,
por medio de cada problema, clari-
ficar la forma de resolverlo al obser-
var las instrucciones y después los
resultados arrojados por el progra-
ma, consiguiendo así, una familiari-
dad con el programa y sus diferen-
tes características. Este material
puede ayudar, a las personas que
les interese el tema, a encontrar
una guía consultiva donde puedan
encontrar los comandos computa-
cionales necesarios para resolver su
problema estadístico específico.
Programa de Matemáticas
UNIVERSIDAD SERGIO ARBOLEDA
Carrera 15 No. 74-40. Tels: (571) 325 7500 ext. 2131 - 322 0538. Bogotá, D.C.
Calle 18 No. 14A-18. Tels: (575) 420 3838 - 420 2651. Santa Marta
Calle 58 No. 68-91. Tel.: (575) 368 9417. Barranquilla
www.usergioarboleda.edu.co
EJEMPLO DE ESTADÍSTICA
Básica CON R
FABIO Germán MOLINA Focazzio

Docente medio tiempo
Alfonso JAVIER PEÑUELA Peña

Docente tiempo completo
Molina Focazzio, Fabio Germán
Ejemplos de estadística básica con R / Fabio Molina, Javier Peñuela – Bogotá: Universidad
Sergio Arboleda, 2019
39 p.
ISBN: 978-958-5511-60-6
1. ESTADÍSTICA - PROGRAMAS PARA COMPUTADOR 2. ESTADÍSTICA -

PROBLEMAS, EJERCICIOS, ETC. 3. R (SISTEMA PARA ANÁLISIS ESTADÍSTICOS Y
GRÁFICOS) I. Peñuela Peña, Alfonso Javier
519.50285 ed. 22
Ejemplo de estadística básica con R

© Fabio Germán Molina Focazzio (Docente medio tiempo)
© Alfonso Javier Peñuela Peña (Docente tiempo completo)
ISBN: 978-958-5511-60-6
Primera edición: 2019.

Prohibida la reproducción o cita impresa o electrónica total o parcial de
esta obra, sin autorización expresa y por escrito de la Universidad Sergio
Arboleda. Las opiniones expresadas en esta obra son responsabilidad de
los autores.
Diseño y diagramación:
Fabio molina, Javier Peñuela
Corrección de estilo:
Ludwwing Cepeda A:
Fondo de Publicaciones
Universidad Sergio Arboleda
Director del Fondo de Publicaciones:
Jaime Arturo Barahona Caicedo
jaime.barahona@usa.edu.co
Calle 74 No. 14-14.
Teléfono: (571) 325 7500 ext. 2158.
Bogotá, D.C.
www.usergioarboleda.edu.co
Bogotá, D.C.
Introducción
El manejo de las herramientas y conceptos estadı́sticos ayudan al profesional de

cualquier área a tener un panorama menos subjetivo y mas acorde con la reali-
dad de su entorno a partir del buen manejo de los datos de interés, pensando
en una buena toma de decisiones. El programa R y su complemento RStudio
aparecen como una ayuda amable y gratuita para el trabajo estadı́stico.
Teniendo en cuenta estas ideas se pensó en hacer este trabajo que permite a
partir de ejemplos sencillos abordar la forma de resolver problemas básicos de
la estadı́stica por medio del programa ya mencionado. El presente trabajo trata
de manera ejemplificada los conceptos que van desde lo más elemental de la es-
tadı́stica descriptiva hasta la parte de estadı́stica inferencial pasando por temas
de probabilidad y las distribuciones discretas y continuas.
Estos temas mencionados anteriormente son los temas clásicos que se abor-
dan en los cursos universitarios de estadı́stica, la idea es que por medio de este
material los estudiantes encuentren como resolver de manera eficaz los proble-
mas que se presentan en dicha asignatura con ayuda del programa. Este trabajo
creemos que toma importancia como soporte y consulta en la medida que los
programa R y RStudio son bastante completos pero tienen demasiados coman-
dos que serı́a prácticamente imposible memorizarlos, entonces el objetivo es que
dependiendo del problema la persona busque cómo hacerlo por medio del pro-
grama y lo pueda ver mediante ejemplos y ası́ lo adecúe a sus necesidades para
darle solución a su problema.
Por último, este trabajo refleja parte de la actividad docente e investigativa

de los autores quienes han impartido en varias ocasiones los cursos de estadı́sti-
ca universitaria, llegando al acuerdo común de la gran potencialidad que tiene
el programa y de alguna manera sensibilizar a estudiantes, docentes y lectores
en general a tenerlo como apoyo. Esperamos que sea del agrado de los lectores
y lo puedan utilizar de la mejor manera posible.
3
Índice
Capı́tulos Página
1. Organización de información 5
1.1. Tabla de frecuencias, diagramas circulares y barras, variable cua-
litativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Tabla de frecuencias, histogramas, variable cuantitativa . . . . . 7
2. Medidas de tendencia central, variabilidad y posición 9

2.1. Media aritmetica, desviación estándar, máximo y mı́nimo . . . . 9
2.2. Promedio ponderado . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3. Probabilidad, distribuciones discretas y continuas 13

3.1. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . 15
3.3. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. Distribución geométrica . . . . . . . . . . . . . . . . . . . . . . . 18
3.5. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . 20
3.6. Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . 20
3.7. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . 21
3.8. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.9. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . 25
4. Estimación 26
4.1. Intervalos de confianza y pruebas de hipótesis para la media . . . 27
4.2. Intervalos de confianza y pruebas de hipótesis para una proporción 28
4.3. Intervalos de confianza y pruebas de hipótesis para diferencia de
medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.4. Intervalos de confianza y pruebas de hipótesis para la diferencia
de proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5. Intervalos de confianza y pruebas de hipótesis para el cociente de
varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5. Regresión 34
5.1. Regresión simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2. Regresión múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4
EJEMPLO DE ESTADÍSTICA
Básica CON R
FABIO Germán MOLINA Focazzio

Docente medio tiempo
Alfonso JAVIER PEÑUELA Peña

Docente tiempo completo
c. Para construir la tabla de frecuencias relativas basta dividir los resultados
anteriores entre la totalidad, es decir:
X/40
d. Para construir el diagrama circular basta con seguir las instrucciones:
slices=c(4,5,13,12,6)
lbls=c(”Alto”, ”Bueno”,”Medio”.”Regular”, ”Insuficiente”)
pie(slices, labels = lbls, main=”Diagrama Circular Calificaciones”)
e. Para hacer el diagrama de barras que represente cada calificación y sus fre-
cuencias se pueden seguir las siguientes instrucciones:
x=c(4,5,13,12,6)
y=c(”Alto”, ”Bueno”,”Medio”,”Regular”,”Insuf”)
barplot(x,names.arg=y,main=”Diagrama de Barras Calificaciones”)
6
1.2. Tabla de frecuencias, histogramas, variable cuantita-
tiva
Ejemplo 2
Considere los siguientes datos de edades de 42 estudiantes:

20 17 18 25 23 15
18 22 21 22 23 23
19 20 30 25 24 25
21 24 24 21 23 22
26 24 23 21 21 18
21 23 24 16 17 19
26 23 24 18 21 33
a. Introducir los datos en R.
b. Ordenar los datos de menor a mayor.
c. Construir una tabla de frecuencias absolutas, relativas y acumuladas. Usar
seis clases.
d. Graficar un histograma.
Solución
a. Para introducir los datos que llamaremos ”edades”, basta con dar la siguiente
instrucción:
edades=c(20,17,18,25,23,15,18,22,21,22,23,23,19,20,30,25,24,25,21,24,24,21,23,22,
26,24,23,21,21,18,21,23,24,16,17,19,26,23,24,18,21,33)
7
Introducción
El manejo de las herramientas y conceptos estadı́sticos ayudan al profesional de

cualquier área a tener un panorama menos subjetivo y mas acorde con la reali-
dad de su entorno a partir del buen manejo de los datos de interés, pensando
en una buena toma de decisiones. El programa R y su complemento RStudio
aparecen como una ayuda amable y gratuita para el trabajo estadı́stico.
Teniendo en cuenta estas ideas se pensó en hacer este trabajo que permite a
partir de ejemplos sencillos abordar la forma de resolver problemas básicos de
la estadı́stica por medio del programa ya mencionado. El presente trabajo trata
de manera ejemplificada los conceptos que van desde lo más elemental de la es-
tadı́stica descriptiva hasta la parte de estadı́stica inferencial pasando por temas
de probabilidad y las distribuciones discretas y continuas.
Estos temas mencionados anteriormente son los temas clásicos que se abor-
dan en los cursos universitarios de estadı́stica, la idea es que por medio de este
material los estudiantes encuentren como resolver de manera eficaz los proble-
mas que se presentan en dicha asignatura con ayuda del programa. Este trabajo
creemos que toma importancia como soporte y consulta en la medida que los
programa R y RStudio son bastante completos pero tienen demasiados coman-
dos que serı́a prácticamente imposible memorizarlos, entonces el objetivo es que
dependiendo del problema la persona busque cómo hacerlo por medio del pro-
grama y lo pueda ver mediante ejemplos y ası́ lo adecúe a sus necesidades para
darle solución a su problema.
Por último, este trabajo refleja parte de la actividad docente e investigativa

de los autores quienes han impartido en varias ocasiones los cursos de estadı́sti-
ca universitaria, llegando al acuerdo común de la gran potencialidad que tiene
el programa y de alguna manera sensibilizar a estudiantes, docentes y lectores
en general a tenerlo como apoyo. Esperamos que sea del agrado de los lectores
y lo puedan utilizar de la mejor manera posible.
3
2. Medidas de tendencia central, variabilidad y
posición
2.1. Media aritmetica, desviación estándar, máximo y mı́ni-
mo
Ejemplo 3
Un estudio realizado por la Federación Colombiana de Gestión Humana en el

año 2016, muestra que los salarios mı́nimos para algunos paı́ses de latinoamerica
en dólares son los siguientes:
Argentina Bolivia Brasil Chile Colombia

432,21 239,48 249,94 373,22 233,86
Ecuador P araguay P erú U ruguay V enezuela
366 331,11 258,86 349,20 31,60
a. Encontrar el salario promedio de estos paı́ses.
b. Encontrar la desviación estándar de la muestra.
c. Encuentre los salarios mı́nimos más altos y más bajos de la muestra.
Solución
a. Primero debemos introducir los datos ası́:
salarios=c(432.21,239.48,249.94,373.22,233.86,366,331.11,258.86,349.20,31.60)
9
Para encontrar el promedio se usa la función ”mean” y se le aplica a los datos:
mean(salarios)
286.548
b. Para encontrar la desviación estándar se usa la función ”sd” y se aplica a

los datos ası́:
sd(salarios)
112.0763
c. Para encontrar los salarios más altos y más bajos de la muestra se usan
las funciones ”max” y ”min” y se aplican los datos, ası́:
max(salarios)
432.21
min(salarios)
31.6
Ejemplo 4
Suponga que las edades de los niños de un salón completo de primero de primaria
son: 7, 6, 5, 8, 7, 7, 7, 5, 6, 8. Calcular la desviación estándar de dicha población.
Solución
El comando ”sd” calcula la desviación estándar muestral o cuasi-desviación.

Ası́ que para calcular la desviación estándar poblacional es necesario multipli-
car por el factor [ n−1
n ]
1/2
, donde n es el tamaño de la población en nuestro caso
10. Entendido esto la instrucción será:
x=c(7,6,5,8,7,7,7,5,6,8)
sd(x)*(9/10)0,5
1.019804
2.2. Promedio ponderado

Ejemplo 5
En ’América Economı́a’ se evalúan 52 ciudades latinoamericanas en ocho aspec-

tos para determinar cuáles son las mejores para hacer negocios: marco social
y polı́tico (15 %), marco y dinamismo económico (25 %), servicios a empresas
(10 %), servicios a ejecutivos (10 %), infraestructura y conectividad fı́sica (10 %),
10
capital humano (10 %), sustentabilidad medioambiental (5 %) y poder de la mar-
ca (15 %). Sus calificaciones van de 0 a 100 puntos.1
Por ejemplo los ı́ndices de tres ciudades se muestran a a continuación:
M.S.P M.D.E S.E S.Ej I.C.F C.H S.A P.M

Sao Paulo 69,6 76,7 69,5 70,5 63,1 97,3 90,4 96,1
Bogotá 68,4 72,9 66,2 74,1 61,9 87,1 87,1 94,0
Buenos Aires 67,0 59,2 90,3 67,4 40,5 97,1 91.5 97,2
Encuentre el promedio ponderado por cada uno de los aspectos indicados para
cada una de estas ciudades.
Solución
Lo primero que se hace es definir una matriz de ponderaciones a la que llama-

remos X, ası́:
X=matrix(c(0.15,0.25,0.10,0.10,0.10,0.10,0.05,0.15),nrow=8,ncol=1)
Luego definimos las calificaciones de cada ciudad en cada aspecto ası́:

SP=matrix(c(69.6,76.7,69.5,70.5,63.1,97.3,90.4,96.1),nrow=1,ncol=8)
BOG=matrix(c(68.4,72.9,66.2,74.1,61.9,87.1,87.1,94),nrow=1,ncol=8)
BA=matrix(c(67.0,59.2,90.3,67.4,40.5,97.1,91.5,97.2),nrow=1,ncol=8)
Ası́ las cosas para encontrar cada promedio ponderado se hará la multiplica-
ción matricial entre las ponderaciones y las calificaciones de cada ciudad.
Para Sao Paulo la instrucción es:
SP %* %X
78.59
Para Bogotá la instrucción es:
BOG %* %X
73.535
Para Buenos Aires la instrucción es:
BA %* %X
73.535
1 En el siguiente enlace se puede encontrar dicha informa-
ción:http://rankings.americaeconomia.com/mejores-ciudades-2016/
11
2.3. Percentiles
Ejemplo 6
Considere los datos sobre edades propuestos en el ejemplo 3 sobre edades de

ciertos estudiantes. Hallar los percentiles 0, 25, 50, 75 y 100.
Solución
La función ”quantile” nos permite hallar dichos percentiles con una sola instruc-
ción, recordemos que dichos datos se les llamó ”edades” luego la instrucción será:
quantile(edades)
El resultado es:
Ejemplo 7
Suponga que los pesos de 12 estudiantes en kilogramos son: 67, 68, 70, 72, 65,
66, 67, 71, 72, 70, 71, 100. Realizar dos diagramas de cajas y bigotes donde en
una de ellas se tengan en cuenta todos los datos y en la otra no se tenga en
cuenta el dato mayor.
Realizar los gráficos en una misma ventana.
Solución
Se deben ingresar ambos conjuntos de datos: uno donde se encuentren todos y

otro donde no se encuentre el mayor, y luego hacer el diagrama. Para hacer el
diagrama se usa el comando ”boxplot”. Las instrucciones son las siguientes y en
la tercera lı́nea muestra cómo obtener los gráficos en la misma ventana.
x=c(67,68,70,72,65,66,67,71,72,70,71,100)
y=c(67,68,70,72,65,66,67,71,72,70,71)
par(mfrow=c(1,2))
boxplot(x)
boxplot(y)
12
3. Probabilidad, distribuciones discretas y con-
tinuas
3.1. Distribución binomial
Ejemplo 8
En cada uno de los 10 cajones de una pequeña biblioteca se encuentran 5 libros,

de cada uno de estos 5 libros uno de ellos es sobre emprendimiento. Si el biblio-
tecario elige un libro al azar de cada uno de los cajones:
a. ¿Cuál es la probabilidad de que elija 3 libros sobre emprendimiento?

b. ¿Cuál es la probabilidad de que elija máximo 2 libros sobre emprendimiento?
c. ¿Cuál es la probabilidad de que elija más de 3 libros sobre emprendimiento?
Solución
a. Se necesita calcular la probabilidad de obtener 3 éxitos en 10 intentos con

una probabilidad de éxito en cada intento de 0.2, lo cual corresponde a una dis-
tribución binomial introduciendo los parámetros requeridos. Para esto usamos
la función ”dbinom(x,n,p)”, donde:
x: ”Número de éxitos en la muestra”
n: ”Número de intentos”
p: ”Probabilidad de éxito en un intento”
13
Para nuestro caso particular es:
dbinom(3,10,0.2)
El resultado es: 0.2013266
b. La probabilidad de obtener máximo 2 libros es equivalente a la probabilidad

de elegir 0,1 o 2 libros de emprendimiento. Luego se puede hacer calculando
cada una de ellas y sumando dichas probabilidades. La instrucción es:
dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)
El resultado anterior también se puede obtener con la siguiente instrucción:
pbinom(2,10,0.2)
c. La probabilidad de que elija más de 3 libros se puede calcular usando el

complemento, ası́:
1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2))
0.1208739
Otra forma de hacer dicho cálculo es sumando los resultados desde 4 hasta
10, ası́:
sum(dbinom(c(4,5,6,7,8,9,10),10,0.2))
El resultado es de nuevo: 0.1208739
El resultado también se puede obtener con la instrucción:
1-pbinom(3,10,0.2)
Ejemplo 9
Representar los diagramas de barras de una distribución binomial con 10 inten-

tos y con probabilidades, p=0.2, 0.5, 0.7, 0.9.
Solución
Las instrucciones vienen dadas en los siguientes renglones:
14
Ası́ obtenemos:
3.2. Distribución hipergeométrica

Ejemplo 10
Se sabe que en una bolsa hay 15 manzanas de las cuales 4 tienen cierta bacteria.
Se toma una muestra de 8 manzanas de dicha bolsa y se revisa cuantas tienen
dicha bacteria. Si dos o más manzanas tienen dicha bacteria en la muestra la
bolsa completa es rechazada.
a. Hallar la probabilidad de que la bolsa se rechace.
15
b. Si hay 8 manzanas con dicha bacteria y la condición no cambia, encuen-
tre la probabilidad de que la bolsa sea rechazada.
Solución
a. Debemos calcular la probabilidad de obtener dos o más manzanas con di-

cha bacteria en la muestra de ocho. Debido a que solo hay cuatro manzanas
con cierta bacteria, las probabilidades que debemos calcular son las de obtener
2, 3 o 4, manzanas con dicha bacteria. Para esto usamos la distribución hiper-
geométrica sumando las tres probabilidades, para esto se utiliza la función:
”dhyper(x,N,N-n,k)”, donde:
x: ”Número de éxitos en la muestra”

N: ”Tamaño de la población”
n: ”Tamaño de la muestra”
k: ”Número de éxitos en la población”
dhyper(2,8,15-8,4)+dhyper(3,8,15-8,4)+dhyper(4,8,15-8,4)
0.7692308
Otra forma de hacer dicho cálculo es sumando los resultados desde 2 hasta 4, ası́:
sum(dhyper(c(2,3,4),8,15-8,4))
También se puede puede realizar usando la instrucción: 1-phyper(1,8,15-8,4)
b. Para calcular dicha probabilidad es necesario sumar todas las probabilidades

desde 2 hasta 8, teniendo en cuenta que ha cambiado el número de éxitos en la
muestra, ası́:
sum(dhyper(c(2,3,4,5,6,7,8),8,15-8,8))
0.9987568
También se puede usar la instrucción:

1-phyper(1,8,15-8,8)
3.3. Distribución Poisson

Ejemplo 11
El número de canchas de squash alquiladas en un gran club sigue una dis-
16
tribución de Poisson con un promedio de 10 canchas alquiladas por dı́a.
a. ¿Cuál es la probabilidad de que en un dı́a cualquiera se alquilen mı́nimo

7 y máximo 11 canchas de squash?
b. ¿Cuál es la probabilidad de que en tres dı́as seguidos se alquilen 36 can-

chas de squash?
Solución
En este caso usamos la función ”dpois(x,λ)”, donde:
x:”Número de ocurrencias”
λ= ”Parámetro de valor medio de ocurrencia”
a. Debido a que se trata de un dı́a el valor del parámetro λ no cambia, es

decir λ = 10, como se quiere saber la probabilidad de que alquilen entre 7 y 11
basta con sumar dichas probabilidades ası́:
sum(dpois(c(7,8,9,10,11),10))
0.5666347
Tambien se puede efectuar con:
ppois(11,10)-ppois(6,10)
c. Ahora como la pregunta es sobre tres dı́as debemos cambiar nuestro lambda
por λ = 30, y buscamos la probabilidad ası́:
dpois(c(36),30)
0.03775683
Ejemplo 12
Representar los diagramas de barra de una distribución Poisson con los va-
lores de λ= 5, 10, 15, 20. Los valores de ocurrencias ”x”tomando un rango de 0
a 50.
Solución
17
Ası́ obtenemos:
3.4. Distribución geométrica

Ejemplo 13
En una antigua facultad de derecho se sabe que la probabilidad de aprobar

el examen final de derecho romano es del 52 %. Susana va a presentar dicho
examen. ¿Cuál es la probabilidad de que lo apruebe en la tercera oportuindad?
Solución
La instrucción esta dada por:
dgeom(2,0.52)
18
0.119808
Ejemplo 14
Representar los diagramas de barras de una distribución geométrica con los

valores de p= 0.05, 0.1, 0.3, 0.5. Los intentos ”x” tomando un rango de 1 a 50.
Solución
Ası́ obtenemos:
19
3.5. Distribuciones continuas
Se presentan a continuación algunas de las distribuciones discretas mas usuales.
3.6. Distribución uniforme

Ejemplo 15
Sea X una variable aleatoria con distribución uniforme en el intervalo [1,5], Cal-
cular:
a) P (X < 2)
b) P (X > 4)
c) P (2 < X < 4)
Solución
Utilizamos el comando ”punif” de la siguiente forma

a) punif(2,1,5)
0.25
b) 1-punif(4,1,5)
0.25
c) punif(4,1,5)-punif(2,1,5)
Ejemplo 16
Represente las funciones de densidad de distribuciones uniformes en los inter-

valos [2,5], [3,6], [-1,2], [-1,4]
Solución
A continuación se presentan las instrucciones
Obteniendo lo siguiente:
20
3.7. Distribución exponencial
Ejemplo 17
En cierto punto de información de un centro comercial el tiempo dedicado a

orientar al público sigue una distribución exponencial con un tiempo medio de
2.5 minutos. ¿ Cuál es la probabilidad de que el tiempo de orientación al público
sea menos de 4 minutos?
Solución
Los valores de las áreas bajo la curva son acumulados a la izquierda del va-
lor indicado, por defecto R los calcula indicando el valor del tiempo medio con
el comando ”pexp”, ası́:
pexp(4,rate=1/2.5)
0.7981035
Ejemplo 18
Represente las funciones de densidad de distribuciones exponenciales con paráme-

tros 0.1, 1, 2, 5.
Solución
21
EJEMPLOS DE ESTADÍSTICA BÁSICA CON R
1. Organización de información
1.1. Tabla de frecuencias, diagramas circulares y barras,
variable cualitativa
Ejemplo 1
Suponga que en cierta escuela las calificaciones de sus estudiantes se clasifican

en Insuficiente, Bajo, Regular, Medio y Alto. Cada una de ellas es representada
por sus iniciales, ası́:
Insuficiente: “I”
Bueno: “B”
Regular: “R”
Medio: “M”
Alto: “A”
En cierto curso de noveno los resultados de la prueba de matemáticas fueron los
siguientes:
A A M M M M M I
B B R I I I R R
R R R R R R R R
R M M M M M M M
M M M M M M A A
a. Introducir los datos en R.

b. Construya una tabla de frecuencias absolutas.
c. Construya una tabla de frecuencias relativas.
d. Realice un diagrama circular.
e. Realice un diagrama de barras.
Solución
a. A los datos les ponemos el nombre de results, ası́ la instrucción en R será:
results=c(”A”,”A”, ”B”, ”B”, ”B”, ”B”, ”B”,”I”,”I”,”I”,”R”,”I”,”I”,”I”,”R”,”R”,

”R”,”R”,”R”,”R”,”R”,”R”,”R”,”R”,”R”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”,
”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”,”A”,”A”)
b. Para construir la tabla de frecuencias absolutas basta con usar el comando

”table ” y aplicarlo a los datos de la siguiente forma:
X=table(results)
5
a. pnorm(0.5)
0.7580363
b. 1-pnorm(0.7)
0.2419637
c. pnorm(0.65)-pnorm(-0.7)
0.5001902
Ejemplo 20
Suponga que X es una variable aleatoria que se distribuye de forma normal

con media µ = 1 y desviación estándar σ = 1,5. Calcular las siguientes proba-
bilidades:
a. P (X < 0,5)
b. P (X > 0,7)
c. P (−0,7 < X < 0,65)
Solución
Los valores de las áreas bajo la curva acumulados a la izquierda del valor indi-
cado en R se calculan usando el mismo comando indicando el valor de la media
y la desviación estándar, ası́:
a. pnorm(0.5, 1,1.5)
0.3694413
b. 1-pnorm(0.7, 1,1.5)
0.5792597
c. pnorm(0.65,1,1.5)-pnorm(-0.7,1,1.5)
0.2792141
Ejemplo 21
Graficar la función de densidad de probabilidad de una distribución normal

desviación estándar σ=1 variando con los valores de µ=-2, 0, 2.
Solución
23
Ası́ obtenemos:
Ejemplo 22
Si los ingresos anuales de ciertos profesionales siguen una distribución normal

con media 60 millones de pesos y una desviación estándar de 10 millones. Hallar
el ingreso anual más bajo del 25 por ciento que mas ingresos tiene.
Solución
Se necesita calcular el percentil 75 de una distribución normal con media 60

y desviación estándar 10. para esto usamos el comando ”qnorm”, ası́:
qnorm(0.75,60,10)
66.7449
Ejemplo 23
Graficar la función de densidad de probabilidad de una distribución normal

con media µ=0 variando los valores de σ= 0.7, 1, 2.
Solución
24
Ası́ obtenemos:
3.9. Teorema Central del Lı́mite

Ejemplo 24
Suponga que una variable aleatoria ”X” tiene una distribución con media µ = 15
y desviación σ = 14. Si se toma una muestra aleatoria de tamaño 49, hallar la
probabilidad de que la media muestral se encuentre entre 13 y 16.
Solución
Debido al tamaño de la muestra podemos

√ usar una distribución normal con
media µx = 15 y desviación σx = 14/ 49 = 2, con estos valores calculamos el
25
lı́mite inferior y superior requeridos, una posibilidad puede ser siguiendo estas
instrucciones:
lsup=(16-15)/2
linf=(13-15)/2
pnorm(lsup)-pnorm(linf)
0.5328072
También es posible usar:
pnorm(16,15,2)-pnorm(13,15,2)
0.5328072
Ejemplo 25
La estaturas de los estudiantes de cierta universidad tienen un promedio de

170 cm con una desviación estándar de 10 cm. Si se toma una muestra de 100
estudiantes hallar la probabilidad de que la estatura promedio de estos estu-
diantes se encuentre por debajo de 172 cm.
Solución
Debido al tamaño de la muestra podemos

√ usar una distribución normal con
media µx = 170 y desviación σx = 10/ 100 = 1, con estos valores estandariza-
mos, ası́:
z=(172-170)/1
pnorm(z)
0.9772499
También es posible usar:
pnorm(172,170,1)
0.9772499
4. Estimación
La forma en la que se harán los cálculos en esta sección requieren el uso de una
librerı́a llamada ”TeachingDemos”. Para tenerla disponible es necesario ir a la
pestaña de carga de paquetes y seleccionar TeachingDemos, una vez seleccio-
nado se elige una Cran y el proceso de cargado queda completo, para usarlo
insertamos en la consola la siguiente instrucción:
library(TeachingDemos)
26
4.1. Intervalos de confianza y pruebas de hipótesis para la
media
Ejemplo 26
Suponga que la medida de cierta referencia de varilla en centı́metros se distribu-

ye de forma normal con una desviación de 0.7 centı́metros. Se toma una muestra
de 10 varillas de dicha referencia y las medidas de estas son: 8.1 7.8 7.9 8.0 7.2
8.4 8.3 8.3 7.7 7.4.
Calcular un intervalo de confianza para el tamaño promedio poblacional y con-
traste la hipótesis de que la media de dichas varillas es 7.8 frente a la alternativa
bilateral, use un nivel de confianza del 95 %.
Solución
Inicialmente cargamos el paquete TeachigDemos, ası́:
library(TeachingDemos)
Ya que tenemos una población normal con varianza conocida el intervalo de

confianza y la prueba de hipótesis se construyen usando las siguientes instruc-
ciones:
y=c(8.1,7.8,7.9,8,7.2,8.4,8.3,8.3,7.7,7.4)
z.test(y,7.8,0.7)
Obteniendo los siguientes resultados:
Con un nivel de confianza del 95 % podemos afirmar que la longitud media de

las varillas está entre 7.48 y 8.34 cm, la prueba de hipotesis nos dice que con un
nivel de significación del 0.05 no hay evidencia para decir que la longitud media
de las varillas es diferente a 7.8 cm.
27
Ejemplo 27
Resuelva el ejercicio anterior suponiendo que no conocemos la desviación po-

blacional.
Solución
Debido a que no conocemos la desviación de la población se debe usar una

distribución t-Student con 9 grados de libertad. Las instrucciones son:
x=c(8.1, 7.8, 7.9, 8.0, 7.2, 8.4, 8.3, 8.3, 7.7, 7.4)
t.test(x,alternative = c(”two.sided”),mu = 7.8, var.equal = FALSE, conf.level

= 0.95)
Obteniendo como resultado:
La interpretación es similar a la del ejemplo anterior.
4.2. Intervalos de confianza y pruebas de hipótesis para

una proporción
Ejemplo 28
Se investiga en cierta población estudiantil la verdadera proporción de de estu-

diantes que practican algún tipo de actividad fı́sica para efectos de inversión en
infraestructura deportiva. Para ello se tomó una muestra de 3000 estudiantes de
los cuales 600 indicaron que practicaban deportes. Construir un intervalo de con-
fianza para la proporción de estudiantes que practican algún tipo de actividad
fı́sica. Contraste la hipótesis de que el la proporción de estudiantes que practi-
ca actividad fı́sica es menor o igual a 0.17. En ambos casos, use un nivel del 0.95.
Solución
Para calcular el intervalo de confianza y hacer la prueba de hipótesis se re-
28
quiere la cantidad de casos favorables en la muestra, en este caso 600 y el
tamaño de la muestra 3000. Debemos también especificar el tipo de prueba con
la hipótesis alternativa.y el nivel de confianza. Ası́ las cosas las instrucciones son:
prop.test(600, 3000,c(”greater”),p=0.17, conf.level = 0.95)
Con un nivel de confianza del 95 %, se tiene que la proporción de estudiantes que

practican actividad fı́sica está entre el 0.1881 y 1. Con un nivel de significación
del 5 %, se rechaza la hipótesis nula, es decir, que la proporción de estudiantes
que practican algún tipo de actividad fı́sica es mayor o igual a 0.17.
4.3. Intervalos de confianza y pruebas de hipótesis para

diferencia de medias
Ejemplo 29
Datos pareados
En una empresa de ingenierı́a los programadores deben hacer un proceso de

rutina y tienen dos posibilidades de paquete informático para hacerlo, el pa-
quete A y el paquete B. Se quiere observar la diferencia en tiempos entre estos
dos programas, para esto se tomaron 10 programadores y se les pidió hacer el
proceso con cada paquete, los resultados en minutos del proceso se muestran a
continuación.
A 12,5 13,5 13 14 13,8 14,2 13,8 15,2 12,5 14

B 12,2 13 13 14,1 12,8 11,2 10,8 15,2 9,5 14,2
Calcular un intervalo de confianza del 95 por ciento para la diferencia de medias
y contraste la hipótesis de que el tiempo promedio es el mismo para los dos
paquetes informáticos frente a la alternativa bilateral.
Solución
29
Debido a que son datos pareados se usa una prueba con la distribución t-Student
y al ser bilateral no es necesario especificarlo ya que es la prueba que por defecto
trae el proceso en R. Ası́ las instrucciones son:
x=c(12.5,13.5,13,14,13.8,14.2,13.8,15.2,12.5,14)
y=c(12.2,13,13,14.1,12.8,11.2,10.8,15.2,9.5,14.2)
t.test(x, y, conf.level = 0.95, paired = T)
Con un nivel de confianza del 95 % podemos afirmar que la diferencia de los

tiempos medios al usar el paquete A y los tiempos medios al usar el paquete B
está entre 0.056 y 2.044 minutos, también se puede decir que con un nivel de
significación del 5 % se rechaza la hipótesis nula es decir que la diferencia de los
tiempos medios es diferente de cero.
Ejemplo 30
Varianzas que se suponen desconocidas e iguales
La duración de la estadı́a de los presos en dos cárceles de dos paı́ses se distribuye

de manera normal, se ha tomado una muestra por delitos menores medidos en
dı́as en cada cárcel y los resultados son los siguientes:
Cárcel A: 69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97.
Cárcel B: 59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94.
Las varianzas poblacionales se asumen iguales y desconocidas. Halle un inter-

valo de confianza para la diferencia de los tiempos medios de duración en estás
cárceles, use un 95 % de confianza. Con base a estos datos, ¿se puede inferir
que existen diferencias sustanciales entre el tiempo promedio de duración entre
una cárcel y otra por delitos menores?. Realizar dicha prueba con un nivel de
significación del 0.05.
30
Solución
Debemos introducir los datos y luego realizar una prueba usando la distribu-
ción t-Student, de nuevo al ser bilateral no es necesario especificarlo ya que es
la prueba que por defecto trae el proceso en R, si se debe indicar que estamos
asumiendo varianzas iguales. Ası́ las cosas las instrucciones son:
carcelA=c(69,75,76,80,81,82,86,89,91,92,97)
carcelB=c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
t.test(carcelA, carcelB, var.equal=TRUE)
Con un nivel de confianza del 95 % podemos decir que la diferencia de los tiem-
pos medios de permanencia en las dos cárceles está entre 0.057 y 14.85 dı́as,
también se puede decir que con un nivel de significación del 5 % se rechaza la
hipótesis nula, es decir, que los tiempos medios de permanencia en las dos cárce-
les son diferentes.
Ejemplo 31
Varianzas que se suponen desconocidas y diferentes
Resolver el ejercicio anterior asumiendo que las varianzas de las dos poblaciones
son desconocidas y además diferentes.
Solución
Basta con cambiar la instrucción en su parte final indicando la desigualdad

de varianzas. Ası́ las cosas las instrucciones son:
carcelA=c(69,75,76,80,81,82,86,89,91,92,97)
carcelB=c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
t.test(carcelA,carcelB,var.equal=FALSE)
31
Con un nivel de confianza del 95 % podemos decir que la diferencia de los tiempos
medios de permanencia en las dos cárceles está entre 0.1769 y 14.7322 dı́as,
también se puede decir que con un nivel de significación del 5 % se rechaza
la hipótesis nula, es decir, que los tiempos medios de permanencia en las dos
cárceles son diferentes.
4.4. Intervalos de confianza y pruebas de hipótesis para la

diferencia de proporciones
Ejemplo 32
Un candidato se quiere lanzar a cierto cargo público local elegido democrática-

mente. En un barrio A de 100 habitantes en capacidad de votar, 71 se muestran
a favor del candidato. En otro barrio B de 90 habitantes en capacidad de votar,
58 se muestran a favor de dicho candidato. Construya un intervalo de confianza
del 95 % para la diferencia de proporciones y pruebe con un nivel de significación
del 5 % si la proporción de favoritismo de dicho candidato es distinta en los dos
barrios.
Solución
Para hacer este intervalo de confianza y la prueba de hipótesis es necesario

incluir dos vectores, uno de ellos con los casos favorables y el otro con el tamaño
de la muestra. Luego de definir estos vectores se da el comando que calcula el
intervalo y realiza la prueba. Ası́ las cosas, las instrucciones son:
x=c(71,58)
n=c(100,90)
prop.test(x,n,conf.level=0.95,correct=TRUE)
32
Con un nivel de confianza del 95 %, la diferencia de las proporciones de los
votantes en los dos barrios está entre -0.078 y 0.2091, también se puede decir que
con un nivel de significación del 5 % los datos no muestran evidencia estadı́stica
para rechazar la hipótesis nula, es decir, la evidencia no permite afirmar que la
diferencia de las proporciones de los votantes es diferente.
4.5. Intervalos de confianza y pruebas de hipótesis para el

cociente de varianzas
Ejemplo 33
En cierta fábrica se implementó un nuevo proceso que reduce los tiempos de

entrega de un producto. Se muestran dos grupos de datos con los tiempos de
entrega en horas del producto con el proceso antiguo y con el proceso nuevo.
Los tiempos tienen una distribución normal. Ahora se quiere contrastar si la va-
riabilidad de estos tiempos es distinta para los dos procesos, para ello elaborar
la prueba de hipótesis para cociente de varianzas.
Antiguo: 69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97, 86, 84, 87, 94
Nuevo: 59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94
Solución
Las instrucciones son las siguientes:
Antiguo=c(69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97, 86, 84, 87, 94)
Nuevo=c(59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94)
var.test(Antiguo,Nuevo,conf.nivel=0.95)
33
dbinom(3,10,0.2)
b. La probabilidad de obtener máximo 2 libros es equivalente a la probabilidad

de elegir 0,1 o 2 libros de emprendimiento. Luego se puede hacer calculando
cada una de ellas y sumando dichas probabilidades. La instrucción es:
dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)
El resultado anterior también se puede obtener con la siguiente instrucción:
pbinom(2,10,0.2)
c. La probabilidad de que elija más de 3 libros se puede calcular usando el

complemento, ası́:
1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2))
0.1208739
Otra forma de hacer dicho cálculo es sumando los resultados desde 4 hasta
10, ası́:
sum(dbinom(c(4,5,6,7,8,9,10),10,0.2))
El resultado también se puede obtener con la instrucción:
1-pbinom(3,10,0.2)
Ejemplo 9
Representar los diagramas de barras de una distribución binomial con 10 inten-

tos y con probabilidades, p=0.2, 0.5, 0.7, 0.9.
Solución
14
Ejemplo 35
Este ejercicio tiene como finalidad estimar los parámetros de un modelo de

regresión simple por medio de las operaciones de matrices y luego mediante la
instrucción directa que tiene R.
a. Generar dos conjuntos de datos X1 e Y, donde X1 es una secuencia de núme-

ros del 1 al 10, Y son 10 números generados aleatoriamente por medio de una
distribución normal estándar.
b. Estimar los parámetros de un modelo de regresión de manera matricial

conformando la matriz de diseño clásica X y estimando los parámetros βb =
(X 0 X)−1 X 0 Y
c. Estimar los parámetros de un modelo de regresión usando el comando apro-

piado en R. Compare la respuesta con la del literal anterior.
Solución
a. Generamos X1 y Y, usando las siguientes instrucciones:
X1=seq(1,10)
Y=matrix(rnorm(10))
Unos=matrix(1,10)
b. Para construir la matriz X vamos a generar un vector de unos que será

la primera columna y la segunda columna serán los elementos de X1. Luego de
esto se procede a hacer los cálculos matriciales, ası́ las instrucciones son:
35
X=matrix(c(Unos,X1),nrow=10,ncol=2)
BetaHat=(solve(t(X) %* %X)) %* %(t(X)) %* %Y
Obteniendo como resultado lo siguiente:
Los resultados que el usuario ingresa no necesariamente son iguales a los que
se acaban de presentar, ya que se están utilizando números aleatorios pero se
pueden verificar las instrucciones del literal c.
c. El comando lm calcula directamente los parámetros usando la siguiente ins-

trucción:
lm(Y ∼ X1)
Obteniendo el siguiente resultado:
Como podemos apreciar se debe obtener los mismos resultados en los literales
b y c.
Ejemplo 36
Considere los siguientes datos para las variables X, Y:
X 1, 0 1,6 2, 0 2,5 3, 0 3,5

Y 1, 0 2, 0 2,5 3, 0 3,5 4, 0
Grafique el diagrama de dispersión y la recta de regresión.
Solución
36
Usando las instrucciones siguientes se pueden ver en un mismo gráfico los puntos
y la recta de regresión.
X=c(1,1.6,2,2.5,3,3.5)
Y=c(1,2,2.5,3,3.5,4)
plot(X,Y)
r1 = lm(Y ∼ X)
abline(r1)
Obteniendo como resultado el siguiente gráfico:
5.2. Regresión múltiple

Ejemplo 37
Considere los siguientes datos donde Y es la variable endógena y X1, X2, son
variables exógenas.
37
Y X1 X2
7 4 9
10 5 4
12 8 2
13 8,6 1,6
15 11 0,4
14 10 0,8
19 12 0,2
20 14 0,1
21 13 0
a. Mostrar los datos en un diagrama de dispersión.
b. Hacer la regresión correspondiente.
c. Muestre un resumen de la regresión.
Solución
a. Primero se introducen los datos correspondientes a cada variable y luego

se aplica el comando ”plot3d’, ası́:
install.packages(”rgl”)
Seleccionar el paı́s (Colombia) require(”rgl”)

X1=c(4,5,8,8.6,10,11,12,14,13)
X2=c(9,4,2,1.6,0.8,0.4,0.2,0.1,0)
Y=c(7,10,12,13,14,15,19,20,21)
plot3d(X1,X2,Y,type=”s”)
Obteniendo la siguiente gráfica:
38
0.119808
Ejemplo 14
Representar los diagramas de barras de una distribución geométrica con los

valores de p= 0.05, 0.1, 0.3, 0.5. Los intentos ”x” tomando un rango de 1 a 50.
Solución
Ası́ obtenemos:
19

Ejemplos de Estadística Básica R

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ejemplos de Estadística Básica R

Cargado por

Copyright:

Formatos disponibles

Ejemplos

de estadística Fabio Germán

básica con R Alfonso Javier

FABIO Germán MOLINA Focazzio

Alfonso JAVIER PEÑUELA Peña

1. ESTADÍSTICA - PROGRAMAS PARA COMPUTADOR 2. ESTADÍSTICA -

Ejemplo de estadística básica con R

Primera edición: 2019.

El manejo de las herramientas y conceptos estadı́sticos ayudan al profesional de

Por último, este trabajo refleja parte de la actividad docente e investigativa

2. Medidas de tendencia central, variabilidad y posición 9

3. Probabilidad, distribuciones discretas y continuas 13

FABIO Germán MOLINA Focazzio

Alfonso JAVIER PEÑUELA Peña

d. Para construir el diagrama circular basta con seguir las instrucciones:

Considere los siguientes datos de edades de 42 estudiantes:

El manejo de las herramientas y conceptos estadı́sticos ayudan al profesional de

Por último, este trabajo refleja parte de la actividad docente e investigativa

Un estudio realizado por la Federación Colombiana de Gestión Humana en el

Argentina Bolivia Brasil Chile Colombia

a. Primero debemos introducir los datos ası́:

b. Para encontrar la desviación estándar se usa la función ”sd” y se aplica a

El comando ”sd” calcula la desviación estándar muestral o cuasi-desviación.

2.2. Promedio ponderado

En ’América Economı́a’ se evalúan 52 ciudades latinoamericanas en ocho aspec-

Por ejemplo los ı́ndices de tres ciudades se muestran a a continuación:

M.S.P M.D.E S.E S.Ej I.C.F C.H S.A P.M

Lo primero que se hace es definir una matriz de ponderaciones a la que llama-

Luego definimos las calificaciones de cada ciudad en cada aspecto ası́:

Para Bogotá la instrucción es:

Para Buenos Aires la instrucción es:

Considere los datos sobre edades propuestos en el ejemplo 3 sobre edades de

Se deben ingresar ambos conjuntos de datos: uno donde se encuentren todos y

En cada uno de los 10 cajones de una pequeña biblioteca se encuentran 5 libros,

a. ¿Cuál es la probabilidad de que elija 3 libros sobre emprendimiento?

a. Se necesita calcular la probabilidad de obtener 3 éxitos en 10 intentos con

El resultado es: 0.2013266

b. La probabilidad de obtener máximo 2 libros es equivalente a la probabilidad

El resultado es: 0.6777995

El resultado anterior también se puede obtener con la siguiente instrucción:

c. La probabilidad de que elija más de 3 libros se puede calcular usando el

El resultado es de nuevo: 0.1208739

El resultado también se puede obtener con la instrucción:

Representar los diagramas de barras de una distribución binomial con 10 inten-

Las instrucciones vienen dadas en los siguientes renglones:

3.2. Distribución hipergeométrica

a. Hallar la probabilidad de que la bolsa se rechace.

a. Debemos calcular la probabilidad de obtener dos o más manzanas con di-

x: ”Número de éxitos en la muestra”

Para nuestro caso particular es:

El resultado es de nuevo: 0.7692308

También se puede puede realizar usando la instrucción: 1-phyper(1,8,15-8,4)

b. Para calcular dicha probabilidad es necesario sumar todas las probabilidades

También se puede usar la instrucción:

3.3. Distribución Poisson

El número de canchas de squash alquiladas en un gran club sigue una dis-

a. ¿Cuál es la probabilidad de que en un dı́a cualquiera se alquilen mı́nimo

b. ¿Cuál es la probabilidad de que en tres dı́as seguidos se alquilen 36 can-

En este caso usamos la función ”dpois(x,λ)”, donde:

a. Debido a que se trata de un dı́a el valor del parámetro λ no cambia, es

Tambien se puede efectuar con:

Las instrucciones vienen dadas en los siguientes renglones:

3.4. Distribución geométrica