PDF Ejercicios Resueltos Estimacion Inferencia Estadistica - Compress

EJERCICIOS
Descriptivos / Estimación Puntual / Intervalos de Confianza
1. Análisis Descriptivo (con R)
Datos:
houseval.xlsx
Variables:
Número de variables: 14
Número de casos: 26
Descripción de variables:
Se ha recogido una muestra de precios de casas de ciertas características asociadas a éstas, dentro de
un área metropolitana homogénea de una gran ciudad de los Estados Unidos. (Relación de variables
siguiendo el orden en que aparecen en el fichero)
PRICE: Precio de la casa (en miles de dólares)
BDR: Número de dormitorios.

FLR: Superficie (en pies cuadrados)
FP: Número de chimeneas.
RMS: Número de habitaciones.
ST: Presencia de contraventanas.
LOT: Longitud de la fachada.
TAX: Impuestos que soporta.
BTH: Número de baños.
CON: Tipo de construcción.
GAR: Número de plazas de garaje.
CDN: Estado de conservación (1: necesita reparaciones, 0: no necesita)
L1: Localización (1: Zona A, 0: No zona A)
L2: Localización (1: Zona B, 0: No zona B)
Se desea
This website realizar
stores un análisis
data such as descriptivo de estos datos, especialmente de la variable precio.
cookies to enable essential site
functionality, as well as marketing,
Descripción de objetivos:
personalization, and analytics. You
may changeElyour objetivo
settings del ejercicio
at any time es revisar herramientas disponibles en R para realizar un análisis
or accept the defaultnuméricas
descriptivo, settings. y gráficas.
Medidas numéricas. Calcula las principales medidas de localización y variabilidad de la variable

a)Policy
Privacy
PRICE. Algunas de las variables del conjunto de datos son categóricas; realiza un análisis
Marketing
descriptivo de CDN y BDR.
Personalization
b) Gráfico de caja: estudia la variabilidad y la existencia de datos extremos de la variable PRICE.
Analytics
Realiza este mismo análisis dependiendo del estado de conservación de la casa (CDN).
Save Accept All

1

c) Histograma. Realiza un histograma con 10 particiones y dibujando la curva normal, de la variable
PRICE.
d) Diagrama de dispersión. Analiza la relación existente entre las variables PRICE y TAX y revisa
las opciones interactivas disponibles de los gráficos de puntos.
e) Dibuja el PP-plot y el QQ-plot de PRICE para comprobar el carácter normal de esta variable;
indica cuáles son las diferencias entre estos dos gráficos.
Desarrollo
Lo primero es cargar los datos y ver si están correctamente cargados.
# Chequeamos la carpeta donde está el espacio de trabajo y ponemos ahí el archivo

de datos:
> getwd ()
# Cargamos librería con Función para importar archivos Excel:

> install.packages(“readxl”)
> library(readxl)
# Importamos los datos:

> houseval <- read_excel("houseval.xlsx")
> view(houseval)
a) Medidas de tendencia central y dispersión de PRICE

PR ICE y descriptivo de CDN y BDR
> mean(houseval$price)
> min(houseval$price)
> max(houseval$price)
> median(houseval$price)
> range(houseval$price)
> var(houseval$price) ## Varianza se calcula con n-1
> sd(houseval$price) ## Desviación Estándar se calcula con n-1
# Curtosis y asimetría se pueden encontrar en el paquete “e1071”:
> nstall.packages(“e1071”)
> i
library(e1071)
# Curtosis
This website stores dataysuch
asimetría:
as
cookies> tokurtosis(houseval$price,
enable essential site type =1)
> skewness(houseval$price,
functionality, as well as marketing, type =1)
# lasyour
may change variables categóricas:
settings at any time
> table(houseval$cdn)
or accept the default settings.
> hist(houseval$cdn, col=”red”)
Privacy
> Policy
table(houseval$bdr)
> hist(houseval$bdr, col=”blue”)
Marketing
Gráficos de Caja
Personalization
b)
#Analytics
Para PRICE solamente
> boxplot(houseval$price, outline=TRUE, main= "Boxplot PRICE")
# Para PRICE según CDN
Save Accept All
2

> boxplot(houseval$price ~ houseval$cdn, outline=TRUE, main= "Boxplot PR

ICE vs. CDN")
c) Histograma y diagrama de barras

# Para PRICE se usan las frecuencias relativas, para luego incluir curva normal:
> hist(houseval$price, freq=FALSE, nclass=10, col="red", ylim=c(0,0.05))
> curve(dnorm(x,mean=mean(houseval$price),sd=sd(houseval$price)), from=25
,to=95, add=TRUE, col="blue", lwd=2)
d) Diagrama de dispersión PRICE vs. TAX

> plot(houseval$price, houseval$tax)
# Otras opciones:
> plot(houseval$price, houseval$tax, type='l')
> plot(houseval$price, houseval$tax, type='s')
> plot(houseval$price, houseval$tax, type='b')
> plot(houseval$price, houseval$tax, type='p')
e) P-P Plot y Q-Q Plot de PRICE

# PP-plot se puede encontrar en el paquete “qualityTools”:
> install.packages(“qualityTools”)
> library(qualityTools )
# Los gráficos pedidos:

> ppPlot(houseval$price, "normal", main = "P-P plot Normal para PRICE", x
lab = "P(muestral)", ylab = "P(teórico)" )
> qqnorm(houseval$price, main = "Q-Q Plot Normal para PRICE", xlab =

"Cuantiles Teóricos", ylab = "Cuantiles Muestra")
Observación:
Para características numéricas en R, considerar
This website stores data such as

may change your settings at any time
Privacy Policy
Marketing
Personalization
__________________________
_____________
Analytics __________________________
__________________________
__________________________
_______________________
__________
Save Accept All

3

2. Estimación puntual
La estimación puntual es un valor numérico simple de un parámetro poblacional desconocido. En

clases se ha visto estimaciones puntuales de la media o la varianza muestrales. Tres parámetros
sobre los que con frecuencia se desea hacer inferencia son:
 La media μ de un proceso o población.


La varianza σ2 o la desviación estándar s
estándar s del
del proceso o población.
 La proporción p
proporción p (por
(por ejemplo, producción defectuosa).
Los estimadores puntuales (estadísticos) más recomendados para estimar estos parámetros son,
respectivamente:


La media muestra .  
La varianza muestral
 La proporción muestral P
muestral P .
a) Estimación puntual para la media
Para saber el número de frutos

f rutos que tienen de media los árboles de una hacienda (μ
(μ), basta con sumar
el número de frutos que tiene cada árbol y dividirlo por el número total de árboles. El resultado es
la mediala poblacional . En la mayoríaello

de se
lassuma
ocasiones, hacerdeesto es de
inviable, así que
y sehay quepor
se
calcula media de una muestra.Para el número frutos

la muestra divide
en número total de árboles de la misma. Se obtiene así la media de la muestra ( ). Si la muestra se
escoge al azar, su media es un estimador de la media de la población.
Por ejemplo, queremos saber en número de frutos que tienen de media los árboles de la hacienda. La
hacienda tiene 30.000 árboles. Supongamos que disponemos de los recursos suficientes y contamos
el número de frutos de los 30.000 y obtenemos los siguientes datos.
33set.seed(
33set.seed (007
007))
Poblacion
Poblacion <-
<-
round
round(
(runif
runif(
(30000
30000,
, min
min = 150
150,, max
max = 300
300)),0)
MediaPoblacion
MediaPoblacion <-
<- mean
mean(
(Poblacion
Poblacion)
); MediaPoblacion
MediaPoblacion #Esta sería la media poblacion
al (mu).
## [1] 225.1558
cookiesComo lo normal
to enable essite
essential que no tengamos los recursos para contar los frutos de todos
t odos los árboles,
functionality,
podemos as well as marketing,
optar por seleccionar 10 al azar, contar sus frutos y calcular la realización de la media
personalization,
muestral. and analytics. You
Muestra
Muestra <-
<- sample
sample( (Poblacion
Poblacion,
, 10
10,, replace
replace = FALSE
FALSE)) ; Muestra
Muestra #Mostramos todos los
datos.
Privacy
##Policy
[1] 276 230 183 212 295 211 287 236 217 261
Marketing
MediaMuestra
MediaMuestra <-
<- mean
mean(
(Muestra
Muestra)
); MediaMuestra
MediaMuestra
## [1] 240.8
Personalization
Analytics
La media muestral en este caso sería
Save Accept All
̅ =240,8.
4

b) Estimación puntual para la Varianza
La varianza de una población (σ (σ2) es una medida de la dispersión de los datos alrededor de su media
(μ). Se calcula de la siguiente manera:
manera:
1 
   ∑(
=   ) 
La varianza de una muestra S 2 es la medida de dispersión de los datos de la muestra, alrededor de su

media . Se calcula:
1 

   1 1 ∑(
=    ) 
no es más que la raíz cuadrada de la varianza S 2. Su valor nos

La desviación típica de una muestra S no
indica que aproximadamente 2/3 de los datos muestral
muest ral (cuando éstos tienen una distribución
distri bución normal),
están entre los valores de la media ± una desviación típica. (¿Qué proporción de los datos estaría entre
la media ± dos desviaciones típicas)
Siguiendo con el ejemplo anterior.
VarPoblacion
VarPoblacion <-
<- round
round((
((var
var(
(Poblacion
Poblacion)
) * 29999
29999
/ 30000
30000)
), 2); VarPoblacion
VarPoblacion #varian
za de una población (sigma^2). El comando "var" en R calcula la varianza de una
muestra, es decir, que divide en n-1. Si queremos calcular la varianza de una po
blación, hacemos la corrección que indica la asignación, o instalamos y usamos e
l comando de algún paquete que haga esta operación, por ejemplo "PopVar".
## [1] 1878.7
VarMuestra
VarMuestra <-
<- round
round(
(var
var((Muestra
Muestra)
), 2); VarMuestra
VarMuestra #varianza de una muestra (s^2)
## [1] 1387.07
La varianza de la población σ2 es 1878,7 y la realización del estimador Varianza Muestral S 2, es

1387,07.
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
3. Si el contenido en gr. de un determinado medicamento X sigue

sigue una distribución N (7.5,
(7.5, 0.3), calcular
la stores
This website
cookies to decir
enablePr 
probabilidad
data suchdeasque para una muestra de tamaño n=5, se obtenga una media menor que 7, es
essential site
( ≤ 7).
Solución
Solución
may change
or accept
settings at any time
your
thevariable X
Si la default settings.
variable X es normal entonces  es normal. Estandarizando  se tiene que:
que:
Privacy Policy
Marketing
Personalization
Donde Z
Donde Z sigue una normal estándar y, usando una tabla o Excel, se obtiene que Pr ( ≤ 7) = 0.0001.
0.0001.
Analytics
__________________________
_____________
Save
__________________________
Accept All
__________________________
___________________________
___________________________
______________
_ 
5

4. Un ascensor limita el peso de sus cuatro ocupantes a 300 kg. Si el peso de un individuo sigue una
distribución N (71,
(71, 7 ), calcular la probabilidad de que el peso de 4 iindividuos kg.
ndividuos supere los 300 kg.
Solución
Solución
Como la suma de v.a. normales es normal, entonces:
entonces:
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
5. Si la altura (medida en cm) de los estudiantes de la universidad sigue una distribución normal N (176,
(176,
12), calcular la Pr( S
S ≤ 10) para una muestra de tamaño 8.
8.
Solución
Solución
Consideremos
Considerem os que la
l a muestra es aleatoria, y como la distribución subyacente es normal
normal N(µ,
N(µ, σ
) con
con µ
µ = 176 y
σ = 12, entonces:

Privacy Policy
Marketing
Personalization
Analytics
Save Accept All
6

__________________________
_____________ __________________________
__________________________
___________________________
_________________________
___________
6. Calcule la probabilidad de que la media μ se encuentre entre

n=5.
 ± 3 S, para poblaciones normales y
Solución
Solución
En el muestreo aleatorio de poblaciones normales, los estadísticos muestrales
muestrales y S 2 son independientes y el
estadístico

sigue una distribución t de Student de n-1
n-1 grados
grados de libertad (t
(t n-1
n-1). En particular, si consideramos
_____________ __________________________
__________________________ __________________________
___________________________
___________________________
______________
_
7. Calcular qué tamaño muestral debemos tomar para obtener μ con una precisión de 0.001 a partir
de una muestra de una población N(
N(µ,
µ, 3
3)) .
Solución
Solución
El intervalo de confianza que contiene a μ
a μ en
en una población normal con varianza conocida, es de la forma:

Privacy Policy
Marketing
Personalization
Analytics
Save Accept All
7

__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
8. Calcular un intervalo de confianza al nivel α = 0.05 para la probabilidad de p de que un recién nacido
niños.
sea niño, si en una muestra de tamaño 123 se han obtenido 67 niños.
Solución
Solución
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
9. El departamento de control de calidad de una empresa quiere determinar si ha habido un descenso
significativo de la calidad de su producto entre las producciones de dos semanas consecutivas a
consecuencia de un incidente ocurrido durante el fin de semana. Deciden tomar una muestra de la
producción de cada semana, si la calidad de cada artículo se mide en una escala de 100, obtienen los
resultados siguientes:
Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93
Suponiendo que las varianzas de la puntuación en las dos producciones son iguales, construye un
intervalo de confianza para la diferencia de medias al nivel de 95%. Interpreta los resultados
obtenidos.
Solución
Solución
En primer
may change your lugar, observamos
settings at any timeque se disponen de dos poblaciones, la primera corresponde a la producción de
la primera
or accept the defaultsemana mientras que la segunda corresponde a la de la segunda semana. En este sentido,
settings.
introducimos las dos variables
variables X
X 1 que mide la puntuación de calidad de un artículo de la
l a primera semana,
semana, y X
y X 2
para la segunda. Además, en el caso en el que las varianzas en las dos poblaciones son desconocid desconocidas
as pero
Privacy Policy
iguales, X
iguales, X 1 y
y X
X 2 se asumen normales e independientes, utilizamos el estadístico:
Marketing
Personalization
Analytics
Save Accept All
8

donde
√ (   1)
      2    (    1 )


intervalo de confianza al 100(1-α

+ −
En consecuencia, T sigue una distribución de Student de
de     2 grados de libertad. Así un
100(1-α)% para la diferencia entre medias de dos distribuciones normales con
varianzas desconocidas pero iguales es:
Por último, podemos concluir que, con los datos de la muestra, es posible que la diferencia de
las medias poblacionales, sea igual o muy próximo a cero. En consecuencia, no podemos afirmar
que ha habido un descenso significativo
significativo de la calidad entre las dos semanas.

Privacy Policy
Marketing
Personalization
Analytics
Save Accept All

PDF Ejercicios Resueltos Estimacion Inferencia Estadistica - Compress

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PDF Ejercicios Resueltos Estimacion Inferencia Estadistica - Compress

Cargado por

Copyright:

Formatos disponibles

1. Análisis Descriptivo (con R)

PRICE: Precio de la casa (en miles de dólares)

BDR: Número de dormitorios.

Medidas numéricas. Calcula las principales medidas de localización y variabilidad de la variable

Save Accept All

Lo primero es cargar los datos y ver si están correctamente cargados.

# Chequeamos la carpeta donde está el espacio de trabajo y ponemos ahí el archivo

# Cargamos librería con Función para importar archivos Excel:

# Importamos los datos:

a) Medidas de tendencia central y dispersión de PRICE

# Curtosis y asimetría se pueden encontrar en el paquete “e1071”:

> boxplot(houseval$price ~ houseval$cdn, outline=TRUE, main= "Boxplot PR

c) Histograma y diagrama de barras

d) Diagrama de dispersión PRICE vs. TAX

e) P-P Plot y Q-Q Plot de PRICE

# Los gráficos pedidos:

> qqnorm(houseval$price, main = "Q-Q Plot Normal para PRICE", xlab =

This website stores data such as

Save Accept All

2. Estimación puntual

La estimación puntual es un valor numérico simple de un parámetro poblacional desconocido. En

 La media μ de un proceso o población.

a) Estimación puntual para la media

Para saber el número de frutos

la mediala poblacional . En la mayoríaello

b) Estimación puntual para la Varianza

no es más que la raíz cuadrada de la varianza S 2. Su valor nos

Siguiendo con el ejemplo anterior.

La varianza de la población σ2 es 1878,7 y la realización del estimador Varianza Muestral S 2, es

3. Si el contenido en gr. de un determinado medicamento X sigue

This website stores data such as

Save Accept All

6. Calcule la probabilidad de que la media μ se encuentre entre

This website stores data such as

Save Accept All

Save Accept All

intervalo de confianza al 100(1-α

varianzas desconocidas pero iguales es:

This website stores data such as

Save Accept All

También podría gustarte