Está en la página 1de 9

 

EJERCICIOS
Descriptivos / Estimación Puntual / Intervalos de Confianza

1.  Análisis Descriptivo (con R)

Datos:

houseval.xlsx
Variables:
 Número de variables: 14
 Número de casos: 26

Descripción de variables:
Se ha recogido una muestra de precios de casas de ciertas características asociadas a éstas, dentro de
un área metropolitana homogénea de una gran ciudad de los Estados Unidos. (Relación de variables
siguiendo el orden en que aparecen en el fichero)

PRICE: Precio de la casa (en miles de dólares)

BDR: Número de dormitorios.


FLR: Superficie (en pies cuadrados)
FP: Número de chimeneas.
RMS: Número de habitaciones.
ST: Presencia de contraventanas.
LOT: Longitud de la fachada.
TAX: Impuestos que soporta.
BTH: Número de baños.
CON: Tipo de construcción.
GAR: Número de plazas de garaje.
CDN: Estado de conservación (1: necesita reparaciones, 0: no necesita)
L1: Localización (1: Zona A, 0: No zona A)
L2: Localización (1: Zona B, 0: No zona B)

Se desea
This website realizar
stores un análisis
data such as descriptivo de estos datos, especialmente de la variable precio.
cookies to enable essential site
functionality, as well as marketing,
Descripción de objetivos:
personalization, and analytics. You
may changeElyour objetivo
settings del ejercicio
at any time es revisar herramientas disponibles en R para realizar un análisis
or accept the defaultnuméricas
descriptivo, settings. y gráficas.

  Medidas numéricas. Calcula las principales medidas de localización y variabilidad de la variable


a)Policy
Privacy
PRICE. Algunas de las variables del conjunto de datos son categóricas; realiza un análisis
Marketing
descriptivo de CDN y BDR.
Personalization
b)  Gráfico de caja: estudia la variabilidad y la existencia de datos extremos de la variable PRICE.
Analytics
Realiza este mismo análisis dependiendo del estado de conservación de la casa (CDN).

Save Accept All


1
 

c)  Histograma. Realiza un histograma con 10 particiones y dibujando la curva normal, de la variable
PRICE.
d)  Diagrama de dispersión. Analiza la relación existente entre las variables PRICE y TAX y revisa
las opciones interactivas disponibles de los gráficos de puntos.
e)  Dibuja el PP-plot y el QQ-plot de PRICE para comprobar el carácter normal de esta variable;
indica cuáles son las diferencias entre estos dos gráficos.

Desarrollo

Lo primero es cargar los datos y ver si están correctamente cargados.

# Chequeamos la carpeta donde está el espacio de trabajo y ponemos ahí el archivo


de datos: 
> getwd ()

# Cargamos librería con Función para importar archivos Excel:


> install.packages(“readxl”)
> library(readxl)

# Importamos los datos:


> houseval <- read_excel("houseval.xlsx")
> view(houseval)

a)  Medidas de tendencia central y dispersión de PRICE


PR ICE y descriptivo de CDN y BDR

> mean(houseval$price)
> min(houseval$price)
> max(houseval$price)
> median(houseval$price)
> range(houseval$price)
> var(houseval$price) ## Varianza se calcula con n-1
> sd(houseval$price) ## Desviación Estándar se calcula con n-1

# Curtosis y asimetría se pueden encontrar en el paquete “e1071”: 

> nstall.packages(“e1071”) 
> i
library(e1071)

# Curtosis
This website stores dataysuch
asimetría:
as
cookies> tokurtosis(houseval$price,
enable essential site type =1)
> skewness(houseval$price,
functionality, as well as marketing, type =1)
personalization, and analytics. You
# lasyour
may change variables categóricas:
settings at any time
> table(houseval$cdn)
or accept the default settings.
> hist(houseval$cdn, col=”red”) 

Privacy
> Policy
table(houseval$bdr)
> hist(houseval$bdr, col=”blue”) 
Marketing

  Gráficos de Caja
Personalization
 b)
#Analytics
Para PRICE solamente
> boxplot(houseval$price, outline=TRUE, main= "Boxplot PRICE")
# Para PRICE según CDN
Save Accept All
2
 

> boxplot(houseval$price ~ houseval$cdn, outline=TRUE, main= "Boxplot PR


ICE vs. CDN") 

c)  Histograma y diagrama de barras


# Para PRICE se usan las frecuencias relativas, para luego incluir curva normal:
> hist(houseval$price, freq=FALSE, nclass=10, col="red", ylim=c(0,0.05))
> curve(dnorm(x,mean=mean(houseval$price),sd=sd(houseval$price)), from=25
,to=95, add=TRUE, col="blue", lwd=2)

d)  Diagrama de dispersión PRICE vs. TAX


> plot(houseval$price, houseval$tax)

# Otras opciones:
> plot(houseval$price, houseval$tax, type='l')
> plot(houseval$price, houseval$tax, type='s')
> plot(houseval$price, houseval$tax, type='b')
> plot(houseval$price, houseval$tax, type='p')

e)  P-P Plot y Q-Q Plot de PRICE


# PP-plot se puede encontrar en el paquete “qualityTools”:  
> install.packages(“qualityTools”)  
> library(qualityTools )

# Los gráficos pedidos:


> ppPlot(houseval$price, "normal", main = "P-P plot Normal para PRICE", x
lab = "P(muestral)", ylab = "P(teórico)" )

> qqnorm(houseval$price, main = "Q-Q Plot Normal para PRICE", xlab =


"Cuantiles Teóricos", ylab = "Cuantiles Muestra")

Observación:
Para características numéricas en R, considerar

This website stores data such as


cookies to enable essential site
functionality, as well as marketing,
personalization, and analytics. You
may change your settings at any time
or accept the default settings.

Privacy Policy

Marketing

Personalization
 __________________________
 _____________
Analytics __________________________
__________________________
__________________________
_______________________
__________

Save Accept All


3
 

2.  Estimación puntual

La estimación puntual es un valor numérico simple de un parámetro poblacional desconocido. En


clases se ha visto estimaciones puntuales de la media o la varianza muestrales. Tres parámetros
sobre los que con frecuencia se desea hacer inferencia son:

   La media μ de un proceso o población.



  La varianza σ2 o la desviación estándar s
estándar s del
 del proceso o población.
   La proporción p
proporción p (por
 (por ejemplo, producción defectuosa).

Los estimadores puntuales (estadísticos) más recomendados para estimar estos parámetros son,
respectivamente:


 
 
La media muestra .   
La varianza muestral  
   La proporción muestral P 
muestral P .

a)  Estimación puntual para la media  

Para saber el número de frutos


f rutos que tienen de media los árboles de una hacienda (μ
(μ), basta con sumar
el número de frutos que tiene cada árbol y dividirlo por el número total de árboles. El resultado es

la mediala poblacional . En la mayoríaello


de se
lassuma
ocasiones, hacerdeesto es de
inviable, así que
y sehay quepor
se
calcula media de una muestra.Para el número frutos
 
la muestra divide
en número total de árboles de la misma. Se obtiene así la media de la muestra ( ). Si la muestra se
escoge al azar, su media es un estimador de la media de la población.

Por ejemplo, queremos saber en número de frutos que tienen de media los árboles de la hacienda. La
hacienda tiene 30.000 árboles. Supongamos que disponemos de los recursos suficientes y contamos
el número de frutos de los 30.000 y obtenemos los siguientes datos.

33set.seed(
33set.seed (007
007)) 
Poblacion 
Poblacion <-
<- 
 round
round(
(runif
runif(
(30000
30000,
, min
min  = 150
150,, max
max  = 300
300)),0) 

MediaPoblacion 
MediaPoblacion  <-
<-  mean
mean(
(Poblacion
Poblacion)
); MediaPoblacion
MediaPoblacion  #Esta sería la media poblacion
al (mu). 
## [1] 225.1558
This website stores data such as
cookiesComo lo normal
to enable essite
essential que no tengamos los recursos para contar los frutos de todos
t odos los árboles,
functionality,
 podemos as well as marketing,
optar por seleccionar 10 al azar, contar sus frutos y calcular la realización de la media
personalization,
muestral. and analytics. You
may change your settings at any time
or accept the default settings.
Muestra 
Muestra  <-
<-  sample
sample( (Poblacion
Poblacion,
, 10
10,, replace
replace   = FALSE
FALSE)) ; Muestra
Muestra   #Mostramos todos los
datos.  

Privacy
##Policy
[1] 276 230 183 212 295 211 287 236 217 261

Marketing
MediaMuestra
MediaMuestra  <-
<-  mean
mean(
(Muestra
Muestra)
); MediaMuestra
MediaMuestra  

## [1] 240.8
Personalization

Analytics
La media muestral en este caso sería
Save Accept All
̅  =240,8.

4
 

b)  Estimación puntual para la Varianza 

La varianza de una población (σ (σ2) es una medida de la dispersión de los datos alrededor de su media
(μ). Se calcula de la siguiente manera: 
manera: 
  1 
   ∑(
=     )   

La varianza de una muestra S 2 es la medida de dispersión de los datos de la muestra, alrededor de su
 
media . Se calcula:
  1 

   1 1 ∑(
=        )   

 no es más que la raíz cuadrada de la varianza S 2. Su valor nos


La desviación típica de una muestra S  no
indica que aproximadamente 2/3 de los datos muestral
muest ral (cuando éstos tienen una distribución
distri bución normal),
están entre los valores de la media ± una desviación típica. (¿Qué proporción de los datos estaría entre
la media ± dos desviaciones típicas)

Siguiendo con el ejemplo anterior.

VarPoblacion 
VarPoblacion  <-
<-  round
round((
((var
var(
(Poblacion
Poblacion)
) * 29999
29999 
 / 30000
30000)
), 2); VarPoblacion
VarPoblacion  #varian
za de una población (sigma^2). El comando "var" en R calcula la varianza de una
muestra, es decir, que divide en n-1. Si queremos calcular la varianza de una po
blación, hacemos la corrección que indica la asignación, o instalamos y usamos e
l comando de algún paquete que haga esta operación, por ejemplo "PopVar". 

## [1] 1878.7
VarMuestra 
VarMuestra  <-
<-  round
round(
(var
var((Muestra
Muestra)
), 2); VarMuestra
VarMuestra  #varianza de una muestra (s^2) 
## [1] 1387.07

La varianza de la población σ2  es 1878,7 y la realización del estimador Varianza Muestral S 2, es


1387,07.

 __________________________
 _____________ __________________________
__________________________
___________________________
___________________________
______________
_

3.  Si el contenido en gr. de un determinado medicamento X  sigue


 sigue una distribución N (7.5,
(7.5, 0.3), calcular
la stores
This website
cookies to decir
enablePr  
probabilidad
data suchdeasque para una muestra de tamaño n=5, se obtenga una media menor que 7, es
essential site
(  ≤ 7).  
functionality, as well as marketing,
personalization, and analytics. You
Solución 
Solución
may change
or accept
  settings at any time
your
thevariable X
Si la default settings.
variable  X es normal entonces    es normal. Estandarizando    se tiene que: 
que: 

Privacy Policy

Marketing

Personalization
Donde Z
Donde  Z sigue una normal estándar y, usando una tabla o Excel, se obtiene que Pr (  ≤ 7) = 0.0001. 
0.0001. 
Analytics
 __________________________
 _____________
Save
__________________________
Accept All
__________________________
___________________________
___________________________
______________
_  
5
 

4.  Un ascensor limita el peso de sus cuatro ocupantes a 300 kg. Si el peso de un individuo sigue una
distribución N (71,
(71, 7 ), calcular la probabilidad de que el peso de 4 iindividuos kg.  
ndividuos supere los 300 kg.

Solución  
Solución
Como la suma de v.a. normales es normal, entonces:
entonces:  

 __________________________
 _____________ __________________________
__________________________
___________________________
___________________________
______________
_

5.  Si la altura (medida en cm) de los estudiantes de la universidad sigue una distribución normal N (176,
(176,
12), calcular la Pr(  S
S ≤ 10) para una muestra de tamaño 8. 
8. 

Solución 
Solución 
Consideremos
Considerem os que la
l a muestra es aleatoria, y como la distribución subyacente es normal
normal N(µ,
 N(µ, σ 
 ) con
con µ
 µ = 176 y
σ = 12, entonces:

This website stores data such as


cookies to enable essential site
functionality, as well as marketing,
personalization, and analytics. You
may change your settings at any time
or accept the default settings.

Privacy Policy

Marketing

Personalization

Analytics

Save Accept All

6
 

 __________________________
 _____________ __________________________
__________________________
___________________________
_________________________
___________

6.  Calcule la probabilidad de que la media  μ se encuentre entre


n=5.
   ± 3 S, para poblaciones normales y

Solución 
Solución 
En el muestreo aleatorio de poblaciones normales, los estadísticos muestrales
muestrales  y S 2  son independientes y el
estadístico
 
sigue una distribución t de Student de n-1
n-1 grados
 grados de libertad (t 
(t n-1
n-1). En particular, si consideramos

 _____________ __________________________
 __________________________ __________________________
___________________________
___________________________
______________
_

7.  Calcular qué tamaño muestral debemos tomar para obtener  μ con una precisión de 0.001 a partir
de una muestra de una población N(
N(µ,
µ, 3
3)) . 

Solución 
Solución 
El intervalo de confianza que contiene a μ
a μ en
 en una población normal con varianza conocida, es de la forma:

This website stores data such as


cookies to enable essential site
functionality, as well as marketing,
personalization, and analytics. You
may change your settings at any time
or accept the default settings.

Privacy Policy

Marketing

Personalization

Analytics

Save Accept All

7
 

 __________________________
 _____________ __________________________
__________________________
___________________________
___________________________
______________
_

8.  Calcular un intervalo de confianza al nivel α = 0.05 para la probabilidad de p de que un recién nacido
niños.  
sea niño, si en una muestra de tamaño 123 se han obtenido 67 niños.

Solución  
Solución

 __________________________
 _____________ __________________________
__________________________
___________________________
___________________________
______________
_

9.  El departamento de control de calidad de una empresa quiere determinar si ha habido un descenso
significativo de la calidad de su producto entre las producciones de dos semanas consecutivas a
consecuencia de un incidente ocurrido durante el fin de semana. Deciden tomar una muestra de la
producción de cada semana, si la calidad de cada artículo se mide en una escala de 100, obtienen los
resultados siguientes:

Semana 1: 93 86 90 90 94 91 92 96
Semana 2: 93 87 97 90 88 87 84 93

Suponiendo que las varianzas de la puntuación en las dos producciones son iguales, construye un
intervalo de confianza para la diferencia de medias al nivel de 95%. Interpreta los resultados
This website stores data such as
obtenidos.
cookies to enable essential site
functionality, as well as marketing,
Solución  
Solución
personalization, and analytics. You
En primer
may change your lugar, observamos
settings at any timeque se disponen de dos poblaciones, la primera corresponde a la producción de
la primera
or accept the defaultsemana mientras que la segunda corresponde a la de la segunda semana. En este sentido,
settings.
introducimos las dos variables
variables X 
 X 1 que mide la puntuación de calidad de un artículo de la
l a primera semana,
semana, y X 
y X 2 
 para la segunda. Además, en el caso en el que las varianzas en las dos poblaciones son desconocid desconocidas
as pero
Privacy Policy
iguales, X 
iguales,  X 1 y
 y X 
 X 2 se asumen normales e independientes, utilizamos el estadístico:
Marketing

Personalization

Analytics

Save Accept All

8
 

donde

√ (    1)
      2     (     1 )
 

intervalo de confianza al 100(1-α


+ − 
En consecuencia, T sigue una distribución de Student de
de     2  grados de libertad. Así un
100(1-α)% para la diferencia entre medias de dos distribuciones normales con

varianzas desconocidas pero iguales es:

Por último, podemos concluir que, con los datos de la muestra, es posible que la diferencia de
las medias poblacionales, sea igual o muy próximo a cero. En consecuencia, no podemos afirmar
que ha habido un descenso significativo
significativo de la calidad entre las dos semanas.

This website stores data such as


cookies to enable essential site
functionality, as well as marketing,
personalization, and analytics. You
may change your settings at any time
or accept the default settings.

Privacy Policy

Marketing

Personalization

Analytics

Save Accept All

También podría gustarte