Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EJERCICIOS
Descriptivos / Estimación Puntual / Intervalos de Confianza
Datos:
houseval.xlsx
Variables:
Número de variables: 14
Número de casos: 26
Descripción de variables:
Se ha recogido una muestra de precios de casas de ciertas características asociadas a éstas, dentro de
un área metropolitana homogénea de una gran ciudad de los Estados Unidos. (Relación de variables
siguiendo el orden en que aparecen en el fichero)
Se desea
This website realizar
stores un análisis
data such as descriptivo de estos datos, especialmente de la variable precio.
cookies to enable essential site
functionality, as well as marketing,
Descripción de objetivos:
personalization, and analytics. You
may changeElyour objetivo
settings del ejercicio
at any time es revisar herramientas disponibles en R para realizar un análisis
or accept the defaultnuméricas
descriptivo, settings. y gráficas.
c) Histograma. Realiza un histograma con 10 particiones y dibujando la curva normal, de la variable
PRICE.
d) Diagrama de dispersión. Analiza la relación existente entre las variables PRICE y TAX y revisa
las opciones interactivas disponibles de los gráficos de puntos.
e) Dibuja el PP-plot y el QQ-plot de PRICE para comprobar el carácter normal de esta variable;
indica cuáles son las diferencias entre estos dos gráficos.
Desarrollo
> mean(houseval$price)
> min(houseval$price)
> max(houseval$price)
> median(houseval$price)
> range(houseval$price)
> var(houseval$price) ## Varianza se calcula con n-1
> sd(houseval$price) ## Desviación Estándar se calcula con n-1
> nstall.packages(“e1071”)
> i
library(e1071)
# Curtosis
This website stores dataysuch
asimetría:
as
cookies> tokurtosis(houseval$price,
enable essential site type =1)
> skewness(houseval$price,
functionality, as well as marketing, type =1)
personalization, and analytics. You
# lasyour
may change variables categóricas:
settings at any time
> table(houseval$cdn)
or accept the default settings.
> hist(houseval$cdn, col=”red”)
Privacy
> Policy
table(houseval$bdr)
> hist(houseval$bdr, col=”blue”)
Marketing
Gráficos de Caja
Personalization
b)
#Analytics
Para PRICE solamente
> boxplot(houseval$price, outline=TRUE, main= "Boxplot PRICE")
# Para PRICE según CDN
Save Accept All
2
# Otras opciones:
> plot(houseval$price, houseval$tax, type='l')
> plot(houseval$price, houseval$tax, type='s')
> plot(houseval$price, houseval$tax, type='b')
> plot(houseval$price, houseval$tax, type='p')
Observación:
Para características numéricas en R, considerar
Privacy Policy
Marketing
Personalization
__________________________
_____________
Analytics __________________________
__________________________
__________________________
_______________________
__________
Los estimadores puntuales (estadísticos) más recomendados para estimar estos parámetros son,
respectivamente:
La media muestra .
La varianza muestral
La proporción muestral P
muestral P .
Por ejemplo, queremos saber en número de frutos que tienen de media los árboles de la hacienda. La
hacienda tiene 30.000 árboles. Supongamos que disponemos de los recursos suficientes y contamos
el número de frutos de los 30.000 y obtenemos los siguientes datos.
33set.seed(
33set.seed (007
007))
Poblacion
Poblacion <-
<-
round
round(
(runif
runif(
(30000
30000,
, min
min = 150
150,, max
max = 300
300)),0)
MediaPoblacion
MediaPoblacion <-
<- mean
mean(
(Poblacion
Poblacion)
); MediaPoblacion
MediaPoblacion #Esta sería la media poblacion
al (mu).
## [1] 225.1558
This website stores data such as
cookiesComo lo normal
to enable essite
essential que no tengamos los recursos para contar los frutos de todos
t odos los árboles,
functionality,
podemos as well as marketing,
optar por seleccionar 10 al azar, contar sus frutos y calcular la realización de la media
personalization,
muestral. and analytics. You
may change your settings at any time
or accept the default settings.
Muestra
Muestra <-
<- sample
sample( (Poblacion
Poblacion,
, 10
10,, replace
replace = FALSE
FALSE)) ; Muestra
Muestra #Mostramos todos los
datos.
Privacy
##Policy
[1] 276 230 183 212 295 211 287 236 217 261
Marketing
MediaMuestra
MediaMuestra <-
<- mean
mean(
(Muestra
Muestra)
); MediaMuestra
MediaMuestra
## [1] 240.8
Personalization
Analytics
La media muestral en este caso sería
Save Accept All
̅ =240,8.
4
La varianza de una población (σ (σ2) es una medida de la dispersión de los datos alrededor de su media
(μ). Se calcula de la siguiente manera:
manera:
1
∑(
= )
La varianza de una muestra S 2 es la medida de dispersión de los datos de la muestra, alrededor de su
media . Se calcula:
1
1 1 ∑(
= )
VarPoblacion
VarPoblacion <-
<- round
round((
((var
var(
(Poblacion
Poblacion)
) * 29999
29999
/ 30000
30000)
), 2); VarPoblacion
VarPoblacion #varian
za de una población (sigma^2). El comando "var" en R calcula la varianza de una
muestra, es decir, que divide en n-1. Si queremos calcular la varianza de una po
blación, hacemos la corrección que indica la asignación, o instalamos y usamos e
l comando de algún paquete que haga esta operación, por ejemplo "PopVar".
## [1] 1878.7
VarMuestra
VarMuestra <-
<- round
round(
(var
var((Muestra
Muestra)
), 2); VarMuestra
VarMuestra #varianza de una muestra (s^2)
## [1] 1387.07
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
Privacy Policy
Marketing
Personalization
Donde Z
Donde Z sigue una normal estándar y, usando una tabla o Excel, se obtiene que Pr ( ≤ 7) = 0.0001.
0.0001.
Analytics
__________________________
_____________
Save
__________________________
Accept All
__________________________
___________________________
___________________________
______________
_
5
4. Un ascensor limita el peso de sus cuatro ocupantes a 300 kg. Si el peso de un individuo sigue una
distribución N (71,
(71, 7 ), calcular la probabilidad de que el peso de 4 iindividuos kg.
ndividuos supere los 300 kg.
Solución
Solución
Como la suma de v.a. normales es normal, entonces:
entonces:
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
5. Si la altura (medida en cm) de los estudiantes de la universidad sigue una distribución normal N (176,
(176,
12), calcular la Pr( S
S ≤ 10) para una muestra de tamaño 8.
8.
Solución
Solución
Consideremos
Considerem os que la
l a muestra es aleatoria, y como la distribución subyacente es normal
normal N(µ,
N(µ, σ
) con
con µ
µ = 176 y
σ = 12, entonces:
Privacy Policy
Marketing
Personalization
Analytics
6
__________________________
_____________ __________________________
__________________________
___________________________
_________________________
___________
Solución
Solución
En el muestreo aleatorio de poblaciones normales, los estadísticos muestrales
muestrales y S 2 son independientes y el
estadístico
sigue una distribución t de Student de n-1
n-1 grados
grados de libertad (t
(t n-1
n-1). En particular, si consideramos
_____________ __________________________
__________________________ __________________________
___________________________
___________________________
______________
_
7. Calcular qué tamaño muestral debemos tomar para obtener μ con una precisión de 0.001 a partir
de una muestra de una población N(
N(µ,
µ, 3
3)) .
Solución
Solución
El intervalo de confianza que contiene a μ
a μ en
en una población normal con varianza conocida, es de la forma:
Privacy Policy
Marketing
Personalization
Analytics
7
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
8. Calcular un intervalo de confianza al nivel α = 0.05 para la probabilidad de p de que un recién nacido
niños.
sea niño, si en una muestra de tamaño 123 se han obtenido 67 niños.
Solución
Solución
__________________________
_____________ __________________________
__________________________
___________________________
___________________________
______________
_
9. El departamento de control de calidad de una empresa quiere determinar si ha habido un descenso
significativo de la calidad de su producto entre las producciones de dos semanas consecutivas a
consecuencia de un incidente ocurrido durante el fin de semana. Deciden tomar una muestra de la
producción de cada semana, si la calidad de cada artículo se mide en una escala de 100, obtienen los
resultados siguientes:
Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93
Suponiendo que las varianzas de la puntuación en las dos producciones son iguales, construye un
intervalo de confianza para la diferencia de medias al nivel de 95%. Interpreta los resultados
This website stores data such as
obtenidos.
cookies to enable essential site
functionality, as well as marketing,
Solución
Solución
personalization, and analytics. You
En primer
may change your lugar, observamos
settings at any timeque se disponen de dos poblaciones, la primera corresponde a la producción de
la primera
or accept the defaultsemana mientras que la segunda corresponde a la de la segunda semana. En este sentido,
settings.
introducimos las dos variables
variables X
X 1 que mide la puntuación de calidad de un artículo de la
l a primera semana,
semana, y X
y X 2
para la segunda. Además, en el caso en el que las varianzas en las dos poblaciones son desconocid desconocidas
as pero
Privacy Policy
iguales, X
iguales, X 1 y
y X
X 2 se asumen normales e independientes, utilizamos el estadístico:
Marketing
Personalization
Analytics
8
donde
√ ( 1)
2 ( 1 )
Por último, podemos concluir que, con los datos de la muestra, es posible que la diferencia de
las medias poblacionales, sea igual o muy próximo a cero. En consecuencia, no podemos afirmar
que ha habido un descenso significativo
significativo de la calidad entre las dos semanas.
Privacy Policy
Marketing
Personalization
Analytics