Está en la página 1de 41

Ejemplos

de estadística Fabio Germán


Molina Focazzio

básica con R Alfonso Javier


Peñuela Peña
Ejemplos
de estadística
básica con R
Este trabajo permite, a partir de
ejemplos sencillos, abordar la
forma de resolver problemas bási-
cos de la estadística por medio del
programa R y su complemento
Rstudio. Durante la lectura de este
escrito el estudiante o el profesio-
nal podrá revisar de manera ejem-
plificada la gran mayoría de con-
ceptos que se tratan en los cursos
de estadística descriptiva e inferen-
cial, haciendo uso del programa ya
mencionado y mostrando las gran-
des ventajas que presenta el pro-
grama en términos de eficiencia,
amabilidad y gratuidad. Se busca,
por medio de cada problema, clari-
ficar la forma de resolverlo al obser-
var las instrucciones y después los
resultados arrojados por el progra-
ma, consiguiendo así, una familiari-
dad con el programa y sus diferen-
tes características. Este material
puede ayudar, a las personas que
les interese el tema, a encontrar
una guía consultiva donde puedan
encontrar los comandos computa-
cionales necesarios para resolver su
problema estadístico específico.
Programa de Matemáticas
UNIVERSIDAD SERGIO ARBOLEDA
Carrera 15 No. 74-40. Tels: (571) 325 7500 ext. 2131 - 322 0538. Bogotá, D.C.
Calle 18 No. 14A-18. Tels: (575) 420 3838 - 420 2651. Santa Marta
Calle 58 No. 68-91. Tel.: (575) 368 9417. Barranquilla
www.usergioarboleda.edu.co
EJEMPLO DE ESTADÍSTICA
Básica CON R

FABIO Germán MOLINA Focazzio


Docente medio tiempo

Alfonso JAVIER PEÑUELA Peña


Docente tiempo completo
Molina Focazzio, Fabio Germán

Ejemplos de estadística básica con R / Fabio Molina, Javier Peñuela – Bogotá: Universidad
Sergio Arboleda, 2019

39 p.

ISBN: 978-958-5511-60-6

1. ESTADÍSTICA - PROGRAMAS PARA COMPUTADOR 2. ESTADÍSTICA -


PROBLEMAS, EJERCICIOS, ETC. 3. R (SISTEMA PARA ANÁLISIS ESTADÍSTICOS Y
GRÁFICOS) I. Peñuela Peña, Alfonso Javier
519.50285 ed. 22

Ejemplo de estadística básica con R


© Fabio Germán Molina Focazzio (Docente medio tiempo)
© Alfonso Javier Peñuela Peña (Docente tiempo completo)

ISBN: 978-958-5511-60-6

Primera edición: 2019.


Prohibida la reproducción o cita impresa o electrónica total o parcial de
esta obra, sin autorización expresa y por escrito de la Universidad Sergio
Arboleda. Las opiniones expresadas en esta obra son responsabilidad de
los autores.

Diseño y diagramación:
Fabio molina, Javier Peñuela
Corrección de estilo:
Ludwwing Cepeda A:
Fondo de Publicaciones
Universidad Sergio Arboleda
Director del Fondo de Publicaciones:
Jaime Arturo Barahona Caicedo
jaime.barahona@usa.edu.co
Calle 74 No. 14-14.
Teléfono: (571) 325 7500 ext. 2158.
Bogotá, D.C.
www.usergioarboleda.edu.co
Bogotá, D.C.
Introducción

El manejo de las herramientas y conceptos estadı́sticos ayudan al profesional de


cualquier área a tener un panorama menos subjetivo y mas acorde con la reali-
dad de su entorno a partir del buen manejo de los datos de interés, pensando
en una buena toma de decisiones. El programa R y su complemento RStudio
aparecen como una ayuda amable y gratuita para el trabajo estadı́stico.

Teniendo en cuenta estas ideas se pensó en hacer este trabajo que permite a
partir de ejemplos sencillos abordar la forma de resolver problemas básicos de
la estadı́stica por medio del programa ya mencionado. El presente trabajo trata
de manera ejemplificada los conceptos que van desde lo más elemental de la es-
tadı́stica descriptiva hasta la parte de estadı́stica inferencial pasando por temas
de probabilidad y las distribuciones discretas y continuas.

Estos temas mencionados anteriormente son los temas clásicos que se abor-
dan en los cursos universitarios de estadı́stica, la idea es que por medio de este
material los estudiantes encuentren como resolver de manera eficaz los proble-
mas que se presentan en dicha asignatura con ayuda del programa. Este trabajo
creemos que toma importancia como soporte y consulta en la medida que los
programa R y RStudio son bastante completos pero tienen demasiados coman-
dos que serı́a prácticamente imposible memorizarlos, entonces el objetivo es que
dependiendo del problema la persona busque cómo hacerlo por medio del pro-
grama y lo pueda ver mediante ejemplos y ası́ lo adecúe a sus necesidades para
darle solución a su problema.

Por último, este trabajo refleja parte de la actividad docente e investigativa


de los autores quienes han impartido en varias ocasiones los cursos de estadı́sti-
ca universitaria, llegando al acuerdo común de la gran potencialidad que tiene
el programa y de alguna manera sensibilizar a estudiantes, docentes y lectores
en general a tenerlo como apoyo. Esperamos que sea del agrado de los lectores
y lo puedan utilizar de la mejor manera posible.

3
Índice
Capı́tulos Página

1. Organización de información 5
1.1. Tabla de frecuencias, diagramas circulares y barras, variable cua-
litativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Tabla de frecuencias, histogramas, variable cuantitativa . . . . . 7

2. Medidas de tendencia central, variabilidad y posición 9


2.1. Media aritmetica, desviación estándar, máximo y mı́nimo . . . . 9
2.2. Promedio ponderado . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3. Probabilidad, distribuciones discretas y continuas 13


3.1. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . 15
3.3. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. Distribución geométrica . . . . . . . . . . . . . . . . . . . . . . . 18
3.5. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . 20
3.6. Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . 20
3.7. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . 21
3.8. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.9. Teorema Central del Lı́mite . . . . . . . . . . . . . . . . . . . . . 25

4. Estimación 26
4.1. Intervalos de confianza y pruebas de hipótesis para la media . . . 27
4.2. Intervalos de confianza y pruebas de hipótesis para una proporción 28
4.3. Intervalos de confianza y pruebas de hipótesis para diferencia de
medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.4. Intervalos de confianza y pruebas de hipótesis para la diferencia
de proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5. Intervalos de confianza y pruebas de hipótesis para el cociente de
varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5. Regresión 34
5.1. Regresión simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2. Regresión múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4
EJEMPLO DE ESTADÍSTICA
Básica CON R

FABIO Germán MOLINA Focazzio


Docente medio tiempo

Alfonso JAVIER PEÑUELA Peña


Docente tiempo completo
c. Para construir la tabla de frecuencias relativas basta dividir los resultados
anteriores entre la totalidad, es decir:
X/40

d. Para construir el diagrama circular basta con seguir las instrucciones:

slices=c(4,5,13,12,6)
lbls=c(”Alto”, ”Bueno”,”Medio”.”Regular”, ”Insuficiente”)
pie(slices, labels = lbls, main=”Diagrama Circular Calificaciones”)

e. Para hacer el diagrama de barras que represente cada calificación y sus fre-
cuencias se pueden seguir las siguientes instrucciones:
x=c(4,5,13,12,6)
y=c(”Alto”, ”Bueno”,”Medio”,”Regular”,”Insuf”)
barplot(x,names.arg=y,main=”Diagrama de Barras Calificaciones”)

6
1.2. Tabla de frecuencias, histogramas, variable cuantita-
tiva
Ejemplo 2

Considere los siguientes datos de edades de 42 estudiantes:


20 17 18 25 23 15
18 22 21 22 23 23
19 20 30 25 24 25
21 24 24 21 23 22
26 24 23 21 21 18
21 23 24 16 17 19
26 23 24 18 21 33
a. Introducir los datos en R.
b. Ordenar los datos de menor a mayor.
c. Construir una tabla de frecuencias absolutas, relativas y acumuladas. Usar
seis clases.
d. Graficar un histograma.

Solución

a. Para introducir los datos que llamaremos ”edades”, basta con dar la siguiente
instrucción:

edades=c(20,17,18,25,23,15,18,22,21,22,23,23,19,20,30,25,24,25,21,24,24,21,23,22,
26,24,23,21,21,18,21,23,24,16,17,19,26,23,24,18,21,33)

7
Introducción

El manejo de las herramientas y conceptos estadı́sticos ayudan al profesional de


cualquier área a tener un panorama menos subjetivo y mas acorde con la reali-
dad de su entorno a partir del buen manejo de los datos de interés, pensando
en una buena toma de decisiones. El programa R y su complemento RStudio
aparecen como una ayuda amable y gratuita para el trabajo estadı́stico.

Teniendo en cuenta estas ideas se pensó en hacer este trabajo que permite a
partir de ejemplos sencillos abordar la forma de resolver problemas básicos de
la estadı́stica por medio del programa ya mencionado. El presente trabajo trata
de manera ejemplificada los conceptos que van desde lo más elemental de la es-
tadı́stica descriptiva hasta la parte de estadı́stica inferencial pasando por temas
de probabilidad y las distribuciones discretas y continuas.

Estos temas mencionados anteriormente son los temas clásicos que se abor-
dan en los cursos universitarios de estadı́stica, la idea es que por medio de este
material los estudiantes encuentren como resolver de manera eficaz los proble-
mas que se presentan en dicha asignatura con ayuda del programa. Este trabajo
creemos que toma importancia como soporte y consulta en la medida que los
programa R y RStudio son bastante completos pero tienen demasiados coman-
dos que serı́a prácticamente imposible memorizarlos, entonces el objetivo es que
dependiendo del problema la persona busque cómo hacerlo por medio del pro-
grama y lo pueda ver mediante ejemplos y ası́ lo adecúe a sus necesidades para
darle solución a su problema.

Por último, este trabajo refleja parte de la actividad docente e investigativa


de los autores quienes han impartido en varias ocasiones los cursos de estadı́sti-
ca universitaria, llegando al acuerdo común de la gran potencialidad que tiene
el programa y de alguna manera sensibilizar a estudiantes, docentes y lectores
en general a tenerlo como apoyo. Esperamos que sea del agrado de los lectores
y lo puedan utilizar de la mejor manera posible.

3
2. Medidas de tendencia central, variabilidad y
posición
2.1. Media aritmetica, desviación estándar, máximo y mı́ni-
mo
Ejemplo 3

Un estudio realizado por la Federación Colombiana de Gestión Humana en el


año 2016, muestra que los salarios mı́nimos para algunos paı́ses de latinoamerica
en dólares son los siguientes:

Argentina Bolivia Brasil Chile Colombia


432,21 239,48 249,94 373,22 233,86
Ecuador P araguay P erú U ruguay V enezuela
366 331,11 258,86 349,20 31,60
a. Encontrar el salario promedio de estos paı́ses.
b. Encontrar la desviación estándar de la muestra.
c. Encuentre los salarios mı́nimos más altos y más bajos de la muestra.

Solución

a. Primero debemos introducir los datos ası́:

salarios=c(432.21,239.48,249.94,373.22,233.86,366,331.11,258.86,349.20,31.60)

9
Para encontrar el promedio se usa la función ”mean” y se le aplica a los datos:

mean(salarios)
286.548

b. Para encontrar la desviación estándar se usa la función ”sd” y se aplica a


los datos ası́:

sd(salarios)
112.0763

c. Para encontrar los salarios más altos y más bajos de la muestra se usan
las funciones ”max” y ”min” y se aplican los datos, ası́:

max(salarios)
432.21

min(salarios)
31.6

Ejemplo 4

Suponga que las edades de los niños de un salón completo de primero de primaria
son: 7, 6, 5, 8, 7, 7, 7, 5, 6, 8. Calcular la desviación estándar de dicha población.

Solución

El comando ”sd” calcula la desviación estándar muestral o cuasi-desviación.


Ası́ que para calcular la desviación estándar poblacional es necesario multipli-
car por el factor [ n−1
n ]
1/2
, donde n es el tamaño de la población en nuestro caso
10. Entendido esto la instrucción será:

x=c(7,6,5,8,7,7,7,5,6,8)
sd(x)*(9/10)0,5
1.019804

2.2. Promedio ponderado


Ejemplo 5

En ’América Economı́a’ se evalúan 52 ciudades latinoamericanas en ocho aspec-


tos para determinar cuáles son las mejores para hacer negocios: marco social
y polı́tico (15 %), marco y dinamismo económico (25 %), servicios a empresas
(10 %), servicios a ejecutivos (10 %), infraestructura y conectividad fı́sica (10 %),

10
capital humano (10 %), sustentabilidad medioambiental (5 %) y poder de la mar-
ca (15 %). Sus calificaciones van de 0 a 100 puntos.1

Por ejemplo los ı́ndices de tres ciudades se muestran a a continuación:

M.S.P M.D.E S.E S.Ej I.C.F C.H S.A P.M


Sao Paulo 69,6 76,7 69,5 70,5 63,1 97,3 90,4 96,1
Bogotá 68,4 72,9 66,2 74,1 61,9 87,1 87,1 94,0
Buenos Aires 67,0 59,2 90,3 67,4 40,5 97,1 91.5 97,2
Encuentre el promedio ponderado por cada uno de los aspectos indicados para
cada una de estas ciudades.

Solución

Lo primero que se hace es definir una matriz de ponderaciones a la que llama-


remos X, ası́:
X=matrix(c(0.15,0.25,0.10,0.10,0.10,0.10,0.05,0.15),nrow=8,ncol=1)

Luego definimos las calificaciones de cada ciudad en cada aspecto ası́:


SP=matrix(c(69.6,76.7,69.5,70.5,63.1,97.3,90.4,96.1),nrow=1,ncol=8)
BOG=matrix(c(68.4,72.9,66.2,74.1,61.9,87.1,87.1,94),nrow=1,ncol=8)
BA=matrix(c(67.0,59.2,90.3,67.4,40.5,97.1,91.5,97.2),nrow=1,ncol=8)

Ası́ las cosas para encontrar cada promedio ponderado se hará la multiplica-
ción matricial entre las ponderaciones y las calificaciones de cada ciudad.
Para Sao Paulo la instrucción es:

SP %* %X
78.59

Para Bogotá la instrucción es:

BOG %* %X
73.535

Para Buenos Aires la instrucción es:

BA %* %X
73.535
1 En el siguiente enlace se puede encontrar dicha informa-
ción:http://rankings.americaeconomia.com/mejores-ciudades-2016/

11
2.3. Percentiles
Ejemplo 6

Considere los datos sobre edades propuestos en el ejemplo 3 sobre edades de


ciertos estudiantes. Hallar los percentiles 0, 25, 50, 75 y 100.

Solución

La función ”quantile” nos permite hallar dichos percentiles con una sola instruc-
ción, recordemos que dichos datos se les llamó ”edades” luego la instrucción será:

quantile(edades)
El resultado es:

Ejemplo 7

Suponga que los pesos de 12 estudiantes en kilogramos son: 67, 68, 70, 72, 65,
66, 67, 71, 72, 70, 71, 100. Realizar dos diagramas de cajas y bigotes donde en
una de ellas se tengan en cuenta todos los datos y en la otra no se tenga en
cuenta el dato mayor.
Realizar los gráficos en una misma ventana.

Solución

Se deben ingresar ambos conjuntos de datos: uno donde se encuentren todos y


otro donde no se encuentre el mayor, y luego hacer el diagrama. Para hacer el
diagrama se usa el comando ”boxplot”. Las instrucciones son las siguientes y en
la tercera lı́nea muestra cómo obtener los gráficos en la misma ventana.

x=c(67,68,70,72,65,66,67,71,72,70,71,100)
y=c(67,68,70,72,65,66,67,71,72,70,71)
par(mfrow=c(1,2))
boxplot(x)
boxplot(y)

12
3. Probabilidad, distribuciones discretas y con-
tinuas
3.1. Distribución binomial
Ejemplo 8

En cada uno de los 10 cajones de una pequeña biblioteca se encuentran 5 libros,


de cada uno de estos 5 libros uno de ellos es sobre emprendimiento. Si el biblio-
tecario elige un libro al azar de cada uno de los cajones:

a. ¿Cuál es la probabilidad de que elija 3 libros sobre emprendimiento?


b. ¿Cuál es la probabilidad de que elija máximo 2 libros sobre emprendimiento?
c. ¿Cuál es la probabilidad de que elija más de 3 libros sobre emprendimiento?

Solución

a. Se necesita calcular la probabilidad de obtener 3 éxitos en 10 intentos con


una probabilidad de éxito en cada intento de 0.2, lo cual corresponde a una dis-
tribución binomial introduciendo los parámetros requeridos. Para esto usamos
la función ”dbinom(x,n,p)”, donde:
x: ”Número de éxitos en la muestra”
n: ”Número de intentos”
p: ”Probabilidad de éxito en un intento”

13
Para nuestro caso particular es:
dbinom(3,10,0.2)

El resultado es: 0.2013266

b. La probabilidad de obtener máximo 2 libros es equivalente a la probabilidad


de elegir 0,1 o 2 libros de emprendimiento. Luego se puede hacer calculando
cada una de ellas y sumando dichas probabilidades. La instrucción es:

dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)

El resultado es: 0.6777995

El resultado anterior también se puede obtener con la siguiente instrucción:

pbinom(2,10,0.2)

c. La probabilidad de que elija más de 3 libros se puede calcular usando el


complemento, ası́:

1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2))
0.1208739

Otra forma de hacer dicho cálculo es sumando los resultados desde 4 hasta
10, ası́:

sum(dbinom(c(4,5,6,7,8,9,10),10,0.2))

El resultado es de nuevo: 0.1208739

El resultado también se puede obtener con la instrucción:

1-pbinom(3,10,0.2)

Ejemplo 9

Representar los diagramas de barras de una distribución binomial con 10 inten-


tos y con probabilidades, p=0.2, 0.5, 0.7, 0.9.

Solución

Las instrucciones vienen dadas en los siguientes renglones:

14
Ası́ obtenemos:

3.2. Distribución hipergeométrica


Ejemplo 10

Se sabe que en una bolsa hay 15 manzanas de las cuales 4 tienen cierta bacteria.
Se toma una muestra de 8 manzanas de dicha bolsa y se revisa cuantas tienen
dicha bacteria. Si dos o más manzanas tienen dicha bacteria en la muestra la
bolsa completa es rechazada.

a. Hallar la probabilidad de que la bolsa se rechace.

15
b. Si hay 8 manzanas con dicha bacteria y la condición no cambia, encuen-
tre la probabilidad de que la bolsa sea rechazada.

Solución

a. Debemos calcular la probabilidad de obtener dos o más manzanas con di-


cha bacteria en la muestra de ocho. Debido a que solo hay cuatro manzanas
con cierta bacteria, las probabilidades que debemos calcular son las de obtener
2, 3 o 4, manzanas con dicha bacteria. Para esto usamos la distribución hiper-
geométrica sumando las tres probabilidades, para esto se utiliza la función:
”dhyper(x,N,N-n,k)”, donde:

x: ”Número de éxitos en la muestra”


N: ”Tamaño de la población”
n: ”Tamaño de la muestra”
k: ”Número de éxitos en la población”

Para nuestro caso particular es:

dhyper(2,8,15-8,4)+dhyper(3,8,15-8,4)+dhyper(4,8,15-8,4)
0.7692308

Otra forma de hacer dicho cálculo es sumando los resultados desde 2 hasta 4, ası́:

sum(dhyper(c(2,3,4),8,15-8,4))

El resultado es de nuevo: 0.7692308

También se puede puede realizar usando la instrucción: 1-phyper(1,8,15-8,4)

b. Para calcular dicha probabilidad es necesario sumar todas las probabilidades


desde 2 hasta 8, teniendo en cuenta que ha cambiado el número de éxitos en la
muestra, ası́:

sum(dhyper(c(2,3,4,5,6,7,8),8,15-8,8))
0.9987568

También se puede usar la instrucción:


1-phyper(1,8,15-8,8)

3.3. Distribución Poisson


Ejemplo 11

El número de canchas de squash alquiladas en un gran club sigue una dis-

16
tribución de Poisson con un promedio de 10 canchas alquiladas por dı́a.

a. ¿Cuál es la probabilidad de que en un dı́a cualquiera se alquilen mı́nimo


7 y máximo 11 canchas de squash?

b. ¿Cuál es la probabilidad de que en tres dı́as seguidos se alquilen 36 can-


chas de squash?

Solución

En este caso usamos la función ”dpois(x,λ)”, donde:

x:”Número de ocurrencias”
λ= ”Parámetro de valor medio de ocurrencia”

a. Debido a que se trata de un dı́a el valor del parámetro λ no cambia, es


decir λ = 10, como se quiere saber la probabilidad de que alquilen entre 7 y 11
basta con sumar dichas probabilidades ası́:

sum(dpois(c(7,8,9,10,11),10))
0.5666347

Tambien se puede efectuar con:

ppois(11,10)-ppois(6,10)

c. Ahora como la pregunta es sobre tres dı́as debemos cambiar nuestro lambda
por λ = 30, y buscamos la probabilidad ası́:

dpois(c(36),30)
0.03775683

Ejemplo 12

Representar los diagramas de barra de una distribución Poisson con los va-
lores de λ= 5, 10, 15, 20. Los valores de ocurrencias ”x”tomando un rango de 0
a 50.

Solución

Las instrucciones vienen dadas en los siguientes renglones:

17
Ası́ obtenemos:

3.4. Distribución geométrica


Ejemplo 13

En una antigua facultad de derecho se sabe que la probabilidad de aprobar


el examen final de derecho romano es del 52 %. Susana va a presentar dicho
examen. ¿Cuál es la probabilidad de que lo apruebe en la tercera oportuindad?

Solución
La instrucción esta dada por:
dgeom(2,0.52)

18
0.119808

Ejemplo 14

Representar los diagramas de barras de una distribución geométrica con los


valores de p= 0.05, 0.1, 0.3, 0.5. Los intentos ”x” tomando un rango de 1 a 50.

Solución

Las instrucciones vienen dadas en los siguientes renglones:

Ası́ obtenemos:

19
3.5. Distribuciones continuas
Se presentan a continuación algunas de las distribuciones discretas mas usuales.

3.6. Distribución uniforme


Ejemplo 15

Sea X una variable aleatoria con distribución uniforme en el intervalo [1,5], Cal-
cular:

a) P (X < 2)
b) P (X > 4)
c) P (2 < X < 4)

Solución

Utilizamos el comando ”punif” de la siguiente forma


a) punif(2,1,5)
0.25
b) 1-punif(4,1,5)
0.25
c) punif(4,1,5)-punif(2,1,5)

Ejemplo 16

Represente las funciones de densidad de distribuciones uniformes en los inter-


valos [2,5], [3,6], [-1,2], [-1,4]

Solución

A continuación se presentan las instrucciones

Obteniendo lo siguiente:

20
3.7. Distribución exponencial
Ejemplo 17

En cierto punto de información de un centro comercial el tiempo dedicado a


orientar al público sigue una distribución exponencial con un tiempo medio de
2.5 minutos. ¿ Cuál es la probabilidad de que el tiempo de orientación al público
sea menos de 4 minutos?

Solución

Los valores de las áreas bajo la curva son acumulados a la izquierda del va-
lor indicado, por defecto R los calcula indicando el valor del tiempo medio con
el comando ”pexp”, ası́:
pexp(4,rate=1/2.5)
0.7981035

Ejemplo 18

Represente las funciones de densidad de distribuciones exponenciales con paráme-


tros 0.1, 1, 2, 5.

Solución

21
EJEMPLOS DE ESTADÍSTICA BÁSICA CON R

1. Organización de información
1.1. Tabla de frecuencias, diagramas circulares y barras,
variable cualitativa
Ejemplo 1

Suponga que en cierta escuela las calificaciones de sus estudiantes se clasifican


en Insuficiente, Bajo, Regular, Medio y Alto. Cada una de ellas es representada
por sus iniciales, ası́:
Insuficiente: “I”
Bueno: “B”
Regular: “R”
Medio: “M”
Alto: “A”
En cierto curso de noveno los resultados de la prueba de matemáticas fueron los
siguientes:

A A M M M M M I
B B R I I I R R
R R R R R R R R
R M M M M M M M
M M M M M M A A

a. Introducir los datos en R.


b. Construya una tabla de frecuencias absolutas.
c. Construya una tabla de frecuencias relativas.
d. Realice un diagrama circular.
e. Realice un diagrama de barras.

Solución

a. A los datos les ponemos el nombre de results, ası́ la instrucción en R será:

results=c(”A”,”A”, ”B”, ”B”, ”B”, ”B”, ”B”,”I”,”I”,”I”,”R”,”I”,”I”,”I”,”R”,”R”,


”R”,”R”,”R”,”R”,”R”,”R”,”R”,”R”,”R”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”,
”M”, ”M”, ”M”, ”M”, ”M”, ”M”, ”M”,”A”,”A”)

b. Para construir la tabla de frecuencias absolutas basta con usar el comando


”table ” y aplicarlo a los datos de la siguiente forma:
X=table(results)

5
a. pnorm(0.5)
0.7580363
b. 1-pnorm(0.7)
0.2419637
c. pnorm(0.65)-pnorm(-0.7)
0.5001902

Ejemplo 20

Suponga que X es una variable aleatoria que se distribuye de forma normal


con media µ = 1 y desviación estándar σ = 1,5. Calcular las siguientes proba-
bilidades:

a. P (X < 0,5)
b. P (X > 0,7)
c. P (−0,7 < X < 0,65)

Solución

Los valores de las áreas bajo la curva acumulados a la izquierda del valor indi-
cado en R se calculan usando el mismo comando indicando el valor de la media
y la desviación estándar, ası́:

a. pnorm(0.5, 1,1.5)
0.3694413

b. 1-pnorm(0.7, 1,1.5)
0.5792597

c. pnorm(0.65,1,1.5)-pnorm(-0.7,1,1.5)
0.2792141

Ejemplo 21

Graficar la función de densidad de probabilidad de una distribución normal


desviación estándar σ=1 variando con los valores de µ=-2, 0, 2.

Solución

Las instrucciones vienen dadas en los siguientes renglones:

23
Ası́ obtenemos:

Ejemplo 22

Si los ingresos anuales de ciertos profesionales siguen una distribución normal


con media 60 millones de pesos y una desviación estándar de 10 millones. Hallar
el ingreso anual más bajo del 25 por ciento que mas ingresos tiene.

Solución

Se necesita calcular el percentil 75 de una distribución normal con media 60


y desviación estándar 10. para esto usamos el comando ”qnorm”, ası́:

qnorm(0.75,60,10)
66.7449

Ejemplo 23

Graficar la función de densidad de probabilidad de una distribución normal


con media µ=0 variando los valores de σ= 0.7, 1, 2.

Solución

24
Las instrucciones vienen dadas en los siguientes renglones:

Ası́ obtenemos:

3.9. Teorema Central del Lı́mite


Ejemplo 24

Suponga que una variable aleatoria ”X” tiene una distribución con media µ = 15
y desviación σ = 14. Si se toma una muestra aleatoria de tamaño 49, hallar la
probabilidad de que la media muestral se encuentre entre 13 y 16.

Solución

Debido al tamaño de la muestra podemos


√ usar una distribución normal con
media µx = 15 y desviación σx = 14/ 49 = 2, con estos valores calculamos el

25
lı́mite inferior y superior requeridos, una posibilidad puede ser siguiendo estas
instrucciones:

lsup=(16-15)/2
linf=(13-15)/2
pnorm(lsup)-pnorm(linf)
0.5328072

También es posible usar:

pnorm(16,15,2)-pnorm(13,15,2)
0.5328072

Ejemplo 25

La estaturas de los estudiantes de cierta universidad tienen un promedio de


170 cm con una desviación estándar de 10 cm. Si se toma una muestra de 100
estudiantes hallar la probabilidad de que la estatura promedio de estos estu-
diantes se encuentre por debajo de 172 cm.

Solución

Debido al tamaño de la muestra podemos


√ usar una distribución normal con
media µx = 170 y desviación σx = 10/ 100 = 1, con estos valores estandariza-
mos, ası́:

z=(172-170)/1
pnorm(z)
0.9772499

También es posible usar:

pnorm(172,170,1)
0.9772499

4. Estimación
La forma en la que se harán los cálculos en esta sección requieren el uso de una
librerı́a llamada ”TeachingDemos”. Para tenerla disponible es necesario ir a la
pestaña de carga de paquetes y seleccionar TeachingDemos, una vez seleccio-
nado se elige una Cran y el proceso de cargado queda completo, para usarlo
insertamos en la consola la siguiente instrucción:
library(TeachingDemos)

26
4.1. Intervalos de confianza y pruebas de hipótesis para la
media
Ejemplo 26

Suponga que la medida de cierta referencia de varilla en centı́metros se distribu-


ye de forma normal con una desviación de 0.7 centı́metros. Se toma una muestra
de 10 varillas de dicha referencia y las medidas de estas son: 8.1 7.8 7.9 8.0 7.2
8.4 8.3 8.3 7.7 7.4.
Calcular un intervalo de confianza para el tamaño promedio poblacional y con-
traste la hipótesis de que la media de dichas varillas es 7.8 frente a la alternativa
bilateral, use un nivel de confianza del 95 %.

Solución

Inicialmente cargamos el paquete TeachigDemos, ası́:

library(TeachingDemos)

Ya que tenemos una población normal con varianza conocida el intervalo de


confianza y la prueba de hipótesis se construyen usando las siguientes instruc-
ciones:

y=c(8.1,7.8,7.9,8,7.2,8.4,8.3,8.3,7.7,7.4)
z.test(y,7.8,0.7)

Obteniendo los siguientes resultados:

Con un nivel de confianza del 95 % podemos afirmar que la longitud media de


las varillas está entre 7.48 y 8.34 cm, la prueba de hipotesis nos dice que con un
nivel de significación del 0.05 no hay evidencia para decir que la longitud media
de las varillas es diferente a 7.8 cm.

27
Ejemplo 27

Resuelva el ejercicio anterior suponiendo que no conocemos la desviación po-


blacional.

Solución

Debido a que no conocemos la desviación de la población se debe usar una


distribución t-Student con 9 grados de libertad. Las instrucciones son:

x=c(8.1, 7.8, 7.9, 8.0, 7.2, 8.4, 8.3, 8.3, 7.7, 7.4)

t.test(x,alternative = c(”two.sided”),mu = 7.8, var.equal = FALSE, conf.level


= 0.95)

Obteniendo como resultado:

La interpretación es similar a la del ejemplo anterior.

4.2. Intervalos de confianza y pruebas de hipótesis para


una proporción
Ejemplo 28

Se investiga en cierta población estudiantil la verdadera proporción de de estu-


diantes que practican algún tipo de actividad fı́sica para efectos de inversión en
infraestructura deportiva. Para ello se tomó una muestra de 3000 estudiantes de
los cuales 600 indicaron que practicaban deportes. Construir un intervalo de con-
fianza para la proporción de estudiantes que practican algún tipo de actividad
fı́sica. Contraste la hipótesis de que el la proporción de estudiantes que practi-
ca actividad fı́sica es menor o igual a 0.17. En ambos casos, use un nivel del 0.95.

Solución

Para calcular el intervalo de confianza y hacer la prueba de hipótesis se re-

28
quiere la cantidad de casos favorables en la muestra, en este caso 600 y el
tamaño de la muestra 3000. Debemos también especificar el tipo de prueba con
la hipótesis alternativa.y el nivel de confianza. Ası́ las cosas las instrucciones son:

prop.test(600, 3000,c(”greater”),p=0.17, conf.level = 0.95)

Obteniendo como resultado:

Con un nivel de confianza del 95 %, se tiene que la proporción de estudiantes que


practican actividad fı́sica está entre el 0.1881 y 1. Con un nivel de significación
del 5 %, se rechaza la hipótesis nula, es decir, que la proporción de estudiantes
que practican algún tipo de actividad fı́sica es mayor o igual a 0.17.

4.3. Intervalos de confianza y pruebas de hipótesis para


diferencia de medias
Ejemplo 29

Datos pareados

En una empresa de ingenierı́a los programadores deben hacer un proceso de


rutina y tienen dos posibilidades de paquete informático para hacerlo, el pa-
quete A y el paquete B. Se quiere observar la diferencia en tiempos entre estos
dos programas, para esto se tomaron 10 programadores y se les pidió hacer el
proceso con cada paquete, los resultados en minutos del proceso se muestran a
continuación.

A 12,5 13,5 13 14 13,8 14,2 13,8 15,2 12,5 14


B 12,2 13 13 14,1 12,8 11,2 10,8 15,2 9,5 14,2
Calcular un intervalo de confianza del 95 por ciento para la diferencia de medias
y contraste la hipótesis de que el tiempo promedio es el mismo para los dos
paquetes informáticos frente a la alternativa bilateral.

Solución

29
Debido a que son datos pareados se usa una prueba con la distribución t-Student
y al ser bilateral no es necesario especificarlo ya que es la prueba que por defecto
trae el proceso en R. Ası́ las instrucciones son:

x=c(12.5,13.5,13,14,13.8,14.2,13.8,15.2,12.5,14)
y=c(12.2,13,13,14.1,12.8,11.2,10.8,15.2,9.5,14.2)
t.test(x, y, conf.level = 0.95, paired = T)

Obteniendo como resultado:

Con un nivel de confianza del 95 % podemos afirmar que la diferencia de los


tiempos medios al usar el paquete A y los tiempos medios al usar el paquete B
está entre 0.056 y 2.044 minutos, también se puede decir que con un nivel de
significación del 5 % se rechaza la hipótesis nula es decir que la diferencia de los
tiempos medios es diferente de cero.

Ejemplo 30

Varianzas que se suponen desconocidas e iguales

La duración de la estadı́a de los presos en dos cárceles de dos paı́ses se distribuye


de manera normal, se ha tomado una muestra por delitos menores medidos en
dı́as en cada cárcel y los resultados son los siguientes:

Cárcel A: 69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97.

Cárcel B: 59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94.

Las varianzas poblacionales se asumen iguales y desconocidas. Halle un inter-


valo de confianza para la diferencia de los tiempos medios de duración en estás
cárceles, use un 95 % de confianza. Con base a estos datos, ¿se puede inferir
que existen diferencias sustanciales entre el tiempo promedio de duración entre
una cárcel y otra por delitos menores?. Realizar dicha prueba con un nivel de
significación del 0.05.

30
Solución

Debemos introducir los datos y luego realizar una prueba usando la distribu-
ción t-Student, de nuevo al ser bilateral no es necesario especificarlo ya que es
la prueba que por defecto trae el proceso en R, si se debe indicar que estamos
asumiendo varianzas iguales. Ası́ las cosas las instrucciones son:

carcelA=c(69,75,76,80,81,82,86,89,91,92,97)
carcelB=c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
t.test(carcelA, carcelB, var.equal=TRUE)

Obteniendo como resultado:

Con un nivel de confianza del 95 % podemos decir que la diferencia de los tiem-
pos medios de permanencia en las dos cárceles está entre 0.057 y 14.85 dı́as,
también se puede decir que con un nivel de significación del 5 % se rechaza la
hipótesis nula, es decir, que los tiempos medios de permanencia en las dos cárce-
les son diferentes.

Ejemplo 31

Varianzas que se suponen desconocidas y diferentes

Resolver el ejercicio anterior asumiendo que las varianzas de las dos poblaciones
son desconocidas y además diferentes.

Solución

Basta con cambiar la instrucción en su parte final indicando la desigualdad


de varianzas. Ası́ las cosas las instrucciones son:

carcelA=c(69,75,76,80,81,82,86,89,91,92,97)
carcelB=c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
t.test(carcelA,carcelB,var.equal=FALSE)

Obteniendo como resultado:

31
Con un nivel de confianza del 95 % podemos decir que la diferencia de los tiempos
medios de permanencia en las dos cárceles está entre 0.1769 y 14.7322 dı́as,
también se puede decir que con un nivel de significación del 5 % se rechaza
la hipótesis nula, es decir, que los tiempos medios de permanencia en las dos
cárceles son diferentes.

4.4. Intervalos de confianza y pruebas de hipótesis para la


diferencia de proporciones
Ejemplo 32

Un candidato se quiere lanzar a cierto cargo público local elegido democrática-


mente. En un barrio A de 100 habitantes en capacidad de votar, 71 se muestran
a favor del candidato. En otro barrio B de 90 habitantes en capacidad de votar,
58 se muestran a favor de dicho candidato. Construya un intervalo de confianza
del 95 % para la diferencia de proporciones y pruebe con un nivel de significación
del 5 % si la proporción de favoritismo de dicho candidato es distinta en los dos
barrios.

Solución

Para hacer este intervalo de confianza y la prueba de hipótesis es necesario


incluir dos vectores, uno de ellos con los casos favorables y el otro con el tamaño
de la muestra. Luego de definir estos vectores se da el comando que calcula el
intervalo y realiza la prueba. Ası́ las cosas, las instrucciones son:

x=c(71,58)
n=c(100,90)
prop.test(x,n,conf.level=0.95,correct=TRUE)

Obteniendo como resultado:

32
Con un nivel de confianza del 95 %, la diferencia de las proporciones de los
votantes en los dos barrios está entre -0.078 y 0.2091, también se puede decir que
con un nivel de significación del 5 % los datos no muestran evidencia estadı́stica
para rechazar la hipótesis nula, es decir, la evidencia no permite afirmar que la
diferencia de las proporciones de los votantes es diferente.

4.5. Intervalos de confianza y pruebas de hipótesis para el


cociente de varianzas
Ejemplo 33

En cierta fábrica se implementó un nuevo proceso que reduce los tiempos de


entrega de un producto. Se muestran dos grupos de datos con los tiempos de
entrega en horas del producto con el proceso antiguo y con el proceso nuevo.
Los tiempos tienen una distribución normal. Ahora se quiere contrastar si la va-
riabilidad de estos tiempos es distinta para los dos procesos, para ello elaborar
la prueba de hipótesis para cociente de varianzas.

Antiguo: 69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97, 86, 84, 87, 94
Nuevo: 59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94

Solución

Las instrucciones son las siguientes:

Antiguo=c(69, 75, 76, 80, 81, 82, 86, 89, 91, 92, 97, 86, 84, 87, 94)
Nuevo=c(59, 62, 66, 70, 70, 75, 75, 77, 78, 79, 81, 84, 84, 86, 94)
var.test(Antiguo,Nuevo,conf.nivel=0.95)

Obteniendo como resultado:

33
Para nuestro caso particular es:
dbinom(3,10,0.2)

El resultado es: 0.2013266

b. La probabilidad de obtener máximo 2 libros es equivalente a la probabilidad


de elegir 0,1 o 2 libros de emprendimiento. Luego se puede hacer calculando
cada una de ellas y sumando dichas probabilidades. La instrucción es:

dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)

El resultado es: 0.6777995

El resultado anterior también se puede obtener con la siguiente instrucción:

pbinom(2,10,0.2)

c. La probabilidad de que elija más de 3 libros se puede calcular usando el


complemento, ası́:

1-(dbinom(0,10,0.2)+dbinom(1,10,0.2)+dbinom(2,10,0.2)+dbinom(3,10,0.2))
0.1208739

Otra forma de hacer dicho cálculo es sumando los resultados desde 4 hasta
10, ası́:

sum(dbinom(c(4,5,6,7,8,9,10),10,0.2))

El resultado es de nuevo: 0.1208739

El resultado también se puede obtener con la instrucción:

1-pbinom(3,10,0.2)

Ejemplo 9

Representar los diagramas de barras de una distribución binomial con 10 inten-


tos y con probabilidades, p=0.2, 0.5, 0.7, 0.9.

Solución

Las instrucciones vienen dadas en los siguientes renglones:

14
Ejemplo 35

Este ejercicio tiene como finalidad estimar los parámetros de un modelo de


regresión simple por medio de las operaciones de matrices y luego mediante la
instrucción directa que tiene R.

a. Generar dos conjuntos de datos X1 e Y, donde X1 es una secuencia de núme-


ros del 1 al 10, Y son 10 números generados aleatoriamente por medio de una
distribución normal estándar.

b. Estimar los parámetros de un modelo de regresión de manera matricial


conformando la matriz de diseño clásica X y estimando los parámetros βb =
(X 0 X)−1 X 0 Y

c. Estimar los parámetros de un modelo de regresión usando el comando apro-


piado en R. Compare la respuesta con la del literal anterior.

Solución

a. Generamos X1 y Y, usando las siguientes instrucciones:

X1=seq(1,10)
Y=matrix(rnorm(10))
Unos=matrix(1,10)

b. Para construir la matriz X vamos a generar un vector de unos que será


la primera columna y la segunda columna serán los elementos de X1. Luego de
esto se procede a hacer los cálculos matriciales, ası́ las instrucciones son:

35
X=matrix(c(Unos,X1),nrow=10,ncol=2)

BetaHat=(solve(t(X) %* %X)) %* %(t(X)) %* %Y

Obteniendo como resultado lo siguiente:

Los resultados que el usuario ingresa no necesariamente son iguales a los que
se acaban de presentar, ya que se están utilizando números aleatorios pero se
pueden verificar las instrucciones del literal c.

c. El comando lm calcula directamente los parámetros usando la siguiente ins-


trucción:

lm(Y ∼ X1)

Obteniendo el siguiente resultado:

Como podemos apreciar se debe obtener los mismos resultados en los literales
b y c.

Ejemplo 36

Considere los siguientes datos para las variables X, Y:

X 1, 0 1,6 2, 0 2,5 3, 0 3,5


Y 1, 0 2, 0 2,5 3, 0 3,5 4, 0

Grafique el diagrama de dispersión y la recta de regresión.

Solución

36
Usando las instrucciones siguientes se pueden ver en un mismo gráfico los puntos
y la recta de regresión.

X=c(1,1.6,2,2.5,3,3.5)
Y=c(1,2,2.5,3,3.5,4)
plot(X,Y)
r1 = lm(Y ∼ X)
abline(r1)

Obteniendo como resultado el siguiente gráfico:

5.2. Regresión múltiple


Ejemplo 37

Considere los siguientes datos donde Y es la variable endógena y X1, X2, son
variables exógenas.

37
Y X1 X2
7 4 9
10 5 4
12 8 2
13 8,6 1,6
15 11 0,4
14 10 0,8
19 12 0,2
20 14 0,1
21 13 0
a. Mostrar los datos en un diagrama de dispersión.
b. Hacer la regresión correspondiente.
c. Muestre un resumen de la regresión.

Solución

a. Primero se introducen los datos correspondientes a cada variable y luego


se aplica el comando ”plot3d’, ası́:

install.packages(”rgl”)

Seleccionar el paı́s (Colombia) require(”rgl”)


X1=c(4,5,8,8.6,10,11,12,14,13)
X2=c(9,4,2,1.6,0.8,0.4,0.2,0.1,0)
Y=c(7,10,12,13,14,15,19,20,21)
plot3d(X1,X2,Y,type=”s”)

Obteniendo la siguiente gráfica:

38
0.119808

Ejemplo 14

Representar los diagramas de barras de una distribución geométrica con los


valores de p= 0.05, 0.1, 0.3, 0.5. Los intentos ”x” tomando un rango de 1 a 50.

Solución

Las instrucciones vienen dadas en los siguientes renglones:

Ası́ obtenemos:

19

También podría gustarte