UT 1 Inferencia Básica en Poblaciones Normales

Curso Básico de Diseño de
Experimentos
Máster Universitario en Ingeniería de análisis de

datos, mejora de procesos y toma de decisiones
Departamento de Estadística e Investigación

Operativa Aplicadas y Calidad
Curso Básico de Diseño de
Experimentos
Contenidos
1. Conceptos estadísticos previos
2. Inferencia básica en poblaciones normales
3. Análisis de la varianza, ANOVA
4. Diseño de Experimentos. Planes 2K
5. Planes con factores a más de dos niveles
Departamento de Estadística e Investigación

Operativa Aplicadas y Calidad
1 – Conceptos estadísticos previos.
Inferencia básica en poblaciones
normales.
Ingeniería de análisis de datos, mejora de procesos y toma de decisiones

Contenidos
 Introducción
 Normalidad de los datos
 Conceptos generales
 Una población. Media, Desviación típica y Proporción.
 Estimación puntual
 Tamaño de muestra
 Estimación por intervalos de confianza
 Pruebas de hipótesis
 Dos poblaciones. Comparación de Medias, Desviaciones típicas y

Proporciones.
 Validación de la prueba. Análisis de residuos
 Datos apareados
Introducción y conceptos generales
Población
Conjunto de individuos que son objeto de estudio
Variable aleatoria
Característica cuantitativa aleatoria observada en el individuo
Distribución
Pauta observada en la proporción de individuos que tienen un
determinado valor de la característica
Parámetro
Número que resume los datos observados y define la distribución de
la variable
Introducción
Un problema básico de Inferencia Estadística es el de obtener
conclusiones sobre la pauta de variabilidad y/o los parámetros de
una variable aleatoria en una determinada población, a partir de la
información contenida en una muestra aleatoria de individuos de dicha
población, así como medir su significación, esto es, la confianza que
nos merecen.
El primer requisito para que un estudio de este tipo sea válido, es que
la muestra sea representativa de la población sobre la que se desea
obtener conclusiones seleccionada al azar, o por un procedimiento
equivalente a juicio de los expertos en el proceso
Introducción
m.a.s.
POBLACIÓN
muestreo
, s, p, N
inferencia
¿m? ¿? ¿p?

Con los datos de la muestra, y margen
Parámetros de error pequeño y conocido, ¿qué
poblacionales
podemos averiguar acerca de m,  y p?
desconocidos
¿Hasta qué punto las características

muestrales pueden diferir de las
poblacionales?
Introducción
Población 1 m.a.s. 1
, , , INFERENCIA DE DOS
m1 , 1 , p1 POBLACIONES
¿m1 = m2?
Población 2 m.a.s. 2 ¿1 = 2?
¿p1 = p2?
, , ,
m2 , 2 , p2
Un ejemplo
Una máquina envasadora de bolsas de malla de naranjas, de las que se

usan en los almacenes de confección de esta fruta, se regula para
obtener un peso de 2000 gramos.
Debido a una serie de causas de variabilidad:

 variación en el calibre de las frutas
 imprecisión en las pesadas automáticas
 etc
¡ es imposible obtener constantemente bolsas que pesen

exactamente 2000 gramos !
Un ejemplo
 El peso obtenido es realmente una variable aleatoria, definida

sobre la población de todas las bolsas que se confeccionan.
 Se considera que la máquina está bien regulada si la media de

dicha variable aleatoria es 2000 gramos.
 Para controlar si esto es así se ha tomado al azar una muestra

de 15 bolsas, cuyos pesos (gramos) son:
1989 2015 1962 2013 1983 1989 1992 2011

1958 2023 1980 1977 1994 2017 2001
Un ejemplo
La media muestral ha resultado igual a 1993,6 gramos, y es, por tanto,
diferente de 2000 gramos
¿quiere ello decir que la máquina envasadora se ha desajustado y que,

por tanto, hay que detener la producción y proceder a reajustar la
máquina?
¡ NO NECESARIAMENTE !
Un ejemplo
La diferencia entre 1993,6 y 2000 puede deberse al azar del

muestreo, de hecho nunca saldrá exactamente igual a 2000 gramos
Necesitamos algún procedimiento que nos permita obtener

conclusiones sobre el valor de m en la población a partir de la
información que hemos obtenido en la muestra, lo cual incluye la
distribución de la característica muestral
Objeto de la Inferencia Estadística

Inferencia estadística en poblaciones normales
 Introducción

Proporciones.
 Datos apareados
Normalidad de los datos
La mayor parte de las técnicas de Inferencia Estadística para variables

continuas asumen que las poblaciones muestreadas son normales.
¿Cómo podemos comprobar si esta hipótesis previa es admisible en

nuestro caso?
Hay varias formas de hacerlo:

 Hacer un Histograma (Exige al menos 40-50 datos).
 Analizar los parámetros muestrales (valores de los coeficientes

de asimetría y curtosis de los datos, ...)
 Usar tests estadísticos formales (Exigen muchos datos, en
general. Poco útiles en la práctica).
 Gráfico en Papel Probabilístico Normal.
Parámetros muestrales
Summary Statistics for PESO_BOLSA
estimador de m 2000
Count = 15
Average = 1993,6
Median = 1992,0 Son muy parecidas
Mode = 1989,0
Variance = 391,971
Standard dev. = 19,7983 estimador de 
Minimum = 1958,0
Maximum = 2023,0
[-2,2]  CA=0
Range = 65,0
Stnd. skewness = -0,405564
Stnd. kurtosis = -0,593681
[-2,2]  (CC=0)
Parámetros muestrales
CA > 0 CA < 0
CC > 0
kurtosis
apuntamiento
CC = 0
skewness
CA = 0 simetría
CC < 0
Papel Probabilístico Normal
Normal Probability Plot

Los puntos se alinean a lo largo
99,9
de una línea recta.
99
percentage
95
80
50
20
5
1
0,1
1950 1970 1990 2010 2030
PESO_BOLSA
Datos PROCEDENTES de una población Normal

99,9
99
percentage
95
80
50
20
Los puntos NO se alinean a
5
lo largo de una línea recta.
1
0,1
0 3 6 9 12 15
PESO (Kg)
Datos NO PROCEDENTES de una población Normal

99,9
99
percentage
95
80
50
20
5
1
0,1
1950 1970 1990 2010 2030
PESO_BOLSA
Datos agrupados
mezcla de dos o más poblaciones
Análisis descriptivo: conclusiones
 A la vista de los parámetros muestrales y de las

representaciones gráficas estudiadas
se puede admitir la hipótesis de que los datos

proceden de una población normal
 Tampoco se han apreciado anomalías en los datos.

 Introducción

Proporciones.
 Datos apareados
Conceptos generales
Todas las distribuciones de probabilidad dependen de uno o más
parámetros que se definen basándose en toda la población.
Dichos parámetros no se conocen, es posible que no puedan ser

calcularlos, e incluso puede que no interese calcularlos.
Para solucionar este problema, la estadística propone la estimación

de los parámetros poblacionales. La forma de hacerlo será
obtener una muestra, calcular el parámetro muestral correspondiente,
y tratar de extrapolarlo al resto de la población.
La necesidad de observar una muestra y no toda la población es

porque se tienen algunos inconvenientes:
 Económicos
 Temporales
 Naturaleza del estudio
 Estratégicos
Conceptos generales
El objeto de la Inferencia Estadística es deducir conclusiones

válidas respecto a la población, con un margen de error reducido y
conocido, a partir del análisis de los datos de una muestra obtenida
al azar de dicha población.
El punto de partida es obtener una muestra aleatoria simple (mas):

 Todos los individuos de la población tienen, a priori, la misma
probabilidad de aparecer en la muestra.
 Los individuos han sido seleccionados independientemente unos de
otros
Además:
 El tamaño de la muestral condiciona la precisión de las
estimaciones que se obtengan a partir de la muestra, el error.
 Introducción

Proporciones.
 Datos apareados
Estimación puntual
La estimación puntual consiste en obtener un valor
aproximado de la característica poblacional para poder utilizarlo
en los cálculos. Para ello es necesario una muestra aleatoria de
tamaño n y el estimador puntual de la característica poblacional.
Estimador puntual
Se dice que el estadístico es un estimador puntual de θ, si se
utiliza para obtener valores aproximados del parámetro θ.
Media
En una distribución simétrica, el estimador de la media poblacional es
la media muestral
∑
= ̅=
Estimación puntual
Varianza
Estimadores de la varianza poblacional es la varianza muestral
∑ − ̅
= =
−1
Proporción
El estimador de la proporción poblacional es la proporción muestral
̂=
Con los datos de la muestra, y margen de error pequeño y

conocido, ¿qué podemos averiguar acerca de m,  y p?
Ejemplo
Summary Statistics for PESO_BOLSA
---------------------------------------
Count = 15
Average = 1993,6
Median = 1992,0
Mode = 1989,0
Variance = 391,971
Standard dev. = 19,7983
Minimum = 1958,0
Maximum = 2023,0
Range = 65,0
Stnd. skewness = -0,405564
Stnd. kurtosis = -0,593681
 La media muestral es de 1993,6 gramos, y se estima que la media

poblacional es este valor
 La desviación típica muestral es de 19,7983 gramos, y se estima

que la desviación típica poblacional es este valor
Conceptos Generales
n
POBLACIÓN DE
m.a.s1 x1 POSIBLES
2 MUESTRAS
s 1
POBLACIÓN n
X: (m,) m.a.s2
x2
2
s
 Nueva población cuyos individuos son muestras
2
 La media o desviación típica muestrales serán nuevas variables
…
aleatorias
n
Constantes xi
desconocidas m.a.si 2
s i
Conceptos Generales
Cualquier ESTADÍSTICO es una variable aleatoria:
 Tendrá sus parámetros (centralidad, dispersión,…)
 Seguirá una distribución 
• Distribución población original

• Tamaño de la muestra (n)
Inferencia Estadística se centra en el conocimiento de las

relaciones que ligan la distribución de los estadísticos muestrales con:
• La distribución de la población
• Características de la distribución o parámetros poblacionales
Distribución de la varianza muestral
La varianza muestral se define por la expresión:
( − $ ) + .... + ( − $) ∑( − $)
= =
−1 −1
La varianza muestral es una variable aleatoria, y su distribución
)
viene dada por la expresión:
(( − ) ≡ ,("
*
Donde ! " es una nueva distribución, conocida como chi-
cuadrado.
La distribución chi-dos o 2
Importante en el estudio de la distribución de S2 de una muestra de
una población normal (K. Perason, S. XIX)
Se define: Grados de libertad
! =- Con X ≡ 1(0,1) independientes
Chi-Cuadrada
0,1
.(! ) =
10
densidad 0,08
0,06
(! ) = 2
0,04
0,02
0
0 10 20 30 40
x
La distribución chi-dos o 2
3 ! ≥ 5 = 0,05 5 = 19,675 3(! ≥ 5) = α
Distribución de la media muestral
La media muestral se define por la expresión:
+ + ... + ∑
$= <
=
La media muestral es una variable aleatoria, y su distribución

viene dada por la expresión:
$ −=
≡ @n−1
s/ (
Donde ;n−1 es una nueva distribución, conocida como

distribución t de student.
La distribución t de Student
Importante en la inferencia de una muestra respecto de la media de
una población normal (Gosset)
Se define
1(0,1) Con 1(0,1) y ! independientes

; =
!
t de Student
0,4
10
.(; ) = 0
0,3
densidad
0,2
(; ) = ( > 2)
−2
0,1
0
-6 -4 -2 0 2 4 6
x
La distribución t de Student
3 ; C ≥ 5 = 0,025 5 = 2,16 3(; ≥ 5) = α
Distribución de la proporción muestral
La proporción muestral se define por la expresión:
+ + ... + ∑
̄= =
con xi≡D(p)
La proporción muestral es una variable aleatoria, y su

distribución viene dada por la expresión:
̄−
≡ (E, )
̄ (1− ̄ )/(
Distribución normal tipificada
3 F ≤ 5 = 0,025 5 = −1,96 3(F ≤ 5) = α
Tamaño de muestra
Para determinar el tamaño de la muestra que permita estimar
parámetros poblacionales es necesario:
 Conocer la distribución del parámetro muestral que estima el

parámetro poblacional de interés
 Fijar el error que se está dispuesto a cometer en la estimación, δ,
que será la diferencia entre el parámetro poblacional y el muestral
 Fijar la probabilidad (pequeña) β de que la diferencia entre ambos
parámetros sea mayor que el error escogido
Por ejemplo, para la proporción poblacional:
3( − ̅ > H) ≤ I
y de esta condición se obtiene la expresión del tamaño de la muestra.

Tamaño de muestra
donde H = − ̅ y se supone conocida la varianza de la variable

media
L
<∗JK/L ∗P L
≥
L
JK/L ∗P L
≥ O L <" QJK/L
L ∗R L
OL
Población de tamaño infinito Población de tamaño N
donde H = − ̅ y se supone conocida la proporción

proporción
L
<∗JK/L ∗N∗( "N)
≥
L
JK/L ∗N∗( "N)
≥ OL O L <" QJK/L
L ∗N̅ ∗( "N̅ )

Tamaño de muestra
donde H = − ̅ y se estima la varianza de la variable a partir de una

media
muestra previa, de tamaño np

K/L
K/L <∗(STUVW )L∗RUL
≥
(STUVW )L ∗RUL
≥ OL
K/L
O L <" Q(STUVW )L∗RUL
donde H = − ̅ y la proporción se estima a partir de una muestra

proporción
previa, de tamaño np
K/L
<∗(STUVW )L∗N̅U ∗( "N̅U )
≥
K/L
(STUVW )L ∗N̅U ∗( "N̅U )
≥ OL
K/L
O L <" Q(STUVW )L∗N̅U ∗( "N̅U )

Ejemplo
Se precisa determinar el tamaño de la muestra que permite estimar
una proporción, teniendo en cuenta que se desea una probabilidad
inferior al 5% (β) de que el error supere el valor 0,0001 (δ), cuando
la proporción estimada previamente es de p=0,001
Determinación de Tamaño de Muestra
Parámetro a estimar: parámetro binomial
Tolerancia deseada: +- 0,0001 cuando la proporción = 0,001
Nivel de confianza: 95,0%
El tamaño de muestra requerido es n=422065 observaciones.
 Es necesaria una muestra de tamaño 422065 para poder estimar la

proporción poblacional con las condiciones impuestas
Las proporciones pequeñas exigen

tamaños de muestra muy elevados
Ejemplo
Se precisa determinar el tamaño de la muestra que permite estimar
una proporción, teniendo en cuenta que se desea una probabilidad
inferior al 5% (β) de que el error supere el valor 0,0001 (δ)
Si no se conociera el orden de magnitud de la proporción buscada,

una aproximación muy conservadora es suponer que su valor es
p=0,5
Determinación de Tamaño de Muestra

Parámetro a estimar: parámetro binomial
Tolerancia deseada: +- 0,0001 cuando la proporción = 0,5
Nivel de confianza: 95,0%
El tamaño de muestra requerido es n=96075259 observaciones.
 Si no se tiene idea del orden de magnitud de la proporción

buscada, el tamaño de muestra se eleva a 96075259.
Estimación por intervalos de confianza
Definición de intervalo de confianza
Un intervalo de confianza es un intervalo que tiene por extremos a
dos estadísticos L1(X) y L2(X), tales que la probabilidad de que el
del parámetro de interés, sea igual a una cantidad prefijada 1-α.

intervalo formado por ellos contenga al valor verdadero y desconocido
 En general se opera con  =0,05, con lo que el intervalo tendrá

una probabilidad del 95% de contener a , o con  =0,01, con lo
que el intervalo tendrá una probabilidad del 99% de contenerlo
 Es una forma de precisar el margen de incertidumbre que existe
sobre cuál es el verdadero valor del parámetro desconocido de la
población.
A partir de las distribuciones de los parámetros muestrales, se

obtienen las expresiones de los intervalos de confianza de los
parámetros poblacionales:
Estimación por intervalos de confianza
media
̅± ; "
Y⁄ $−
≡ ;n−1
s/
varianza
X − 1) X − 1) ( − 1) ≡!
, "
! Y⁄
" ! "
"Y⁄
0
proporción
̅ (1 − ̅ )
̄−
≡ 1(0,1)
̅±F Y⁄ ̄ (1− ̄ )/
0
Ejemplo
Confidence Intervals for PESO_BOLSA
---------------------------------------------------------------------
95,0% confidence interval for mean: 1993,6 +/- 10,9639
[1982,64;2004,56]
95,0% confidence interval for standard deviation:

[14,4948;31,2238]
 Se estima que la media poblacional es de 1933,6 gramos, aunque

el valor real puede encontrarse 10,9639 gramos por encima o por
debajo de dicho valor, o lo que es lo mismo, se encuentra dentro
del intervalo [1982,64;2004,56] gramos, con una probabilidad del
95%
 Se estima que la desviación típica es de 19,7983 gramos, si bien el

valor real se encuentra dentro del intervalo [14,4948;31,2238]
gramos, con una probabilidad del 95%
Test de hipótesis
 Una hipótesis estadística es una afirmación respecto a alguna
característica de una población.
 Contrastar una hipótesis es comparar las afirmaciones con la
realidad que observamos. Si dentro del margen de error que nos
permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en
caso contrario la rechazaremos.
 La hipótesis emitida se suele designar por H0 y se llama Hipótesis
nula porque parte del supuesto de que la diferencia entre el valor
verdadero del parámetro y su valor hipotético es debida al azar, es
decir no hay diferencia.
 La hipótesis contraria se designa por H1 y se llama Hipótesis
alternativa
Test de hipótesis
Los contrastes pueden ser unilaterales o bilaterales (también

llamados de una o dos colas) según establezcamos las hipótesis:
 Hipótesis bilateral: si las definimos en términos de ser igual o

distinto
 Hipótesis unilateral: si suponemos una dirección, en términos de

ser igual o mayor, o ser igual o menor
Test o contraste de Hipótesis: método
1. Enunciar la hipótesis
2. Elegir un nivel de significación  y construir
la zona de aceptación, intervalo fuera del
cual se encuentran los valores menos
probables del estadístico a utilizar. A la α
zona de rechazo la llamaremos región
crítica, y su área (probabilidad) es el
nivel de significación.
3. Verificar la hipótesis: extraer una muestra m
rechazar aceptar 0 rechazar
(tamaño y método establecidos antes) y
calcular el correspondiente estadístico.
4. Decidir. Si el valor del estadístico cae
dentro de la zona de aceptación se
acepta la hipótesis y si no se rechaza.
Hipótesis Nula H0
 Es la hipótesis de salida.
 Es la base de partida para el razonamiento e incluye el

conocimiento previo de la situación.
 Supone que la diferencia entre el valor verdadero del
parámetro muestral y su valor hipotético es debida al azar, es
decir no hay diferencia.
 Es la hipótesis que mantenemos “mientras no se demuestre lo
contrario”, esto es, a no ser que los datos de la muestra
aporten la suficiente evidencia como para que indiquen
falsedad.
 Nunca podrá ser probada, pero puede ser rechazada por los
datos.
Errores posibles en un test estadístico
Al realizar un CONTRASTE existen dos posibles decisiones erróneas

que pueden cometerse:
H0 verdadera H0 falsa
Decisión incorrecta
Aceptar H0 Decisión correcta Error de tipo II
2ª especie
Decisión incorrecta
Rechazar H0 Error de tipo I Decisión correcta
1ª especie
Riesgos de 1ª y 2ª especie
Se denomina riesgo de 1ª o 2ª especie a las probabilidades de
cometer los errores respectivos.
 Riesgo de 1ª especie ():

probabilidad de cometer un error de 1ª especie
 Riesgo de 2ª especie ():

probabilidad de cometer un error de 2ª especie
¿Cuál es el valor del

riesgo de segunda
especie?
β
α
m0 m1
rechazar aceptar rechazar

¿Cómo cambia el
riesgo de segunda
especie con la media
real?
m0 m1 m2 m3

AL AUMENTAR EL TAMAÑO
DE LA MUESTRA DISMINUYE
EL RIESGO DE 2ª ESPECIE
α
β
m0 m1
Prueba de hipótesis para la media
H0: m = m0
α
H1: m ≠ m0
Se toma una muestra de tamaño n,
̅−
se calcula el estadístico tcalc
;\]^\ =
_ −; Y⁄
+; Y"
⁄
0
"
Región de aceptación
−; "
Y⁄
, +; "
Y⁄
3 − `5abc = 3( ; " > ;\]^\ )
o el P-Valor ≥ α, entonces aceptar H0

Si tcalc pertenece a la región de aceptación,
Prueba de hipótesis para la media
P-Valor
α
;\]^\
0
rechazar aceptar rechazar 0
−; Y" +; Y"
⁄
rechazar
⁄
aceptar rechazar
;\]^\ −; Y" +; Y"

⁄ ⁄
;\]^\
̅−
;\]^\ =
_
3 − `5abc = 3( ; " > ;\]^\ )

Si tcalc pertenece a la región de aceptación,
Ejemplo
Determinar si es aceptable que la media poblacional del peso de la
bolsa es 2000 gramos
Hypothesis Tests for PESO

Sample mean = 1993,6
Sample median = 1992,0
Sample standard deviation = 19,7983
t-test
Null hypothesis: mean = 2000,0
Alternative: not equal
Computed t statistic = -1,25198

P-Value = 0,231089
Do not reject the null hypothesis for alpha = 0,05
 Como P-Valor es de 0,231089 > 0,05, es aceptable pensar que la

media poblacional es de 2000 gramos
 Como tcalc = 1,25198 < t140,025 = 2,14 , es aceptable pensar que la
media poblacional es de 2000 gramos
Prueba de hipótesis para la varianza
H0: σ2 = σ02
α
H1: σ2 ≠ σ02
Se toma una muestra de tamaño n, se calcula
−1
el estadístico de prueba
!klmk = ! !
"Y⁄ Y⁄
" "
0
Región de aceptación:
! "Y⁄
,! Y⁄ 3 − `5abc = 3( ! " > !klmk )
" "
Si !klmk pertenece a la región de aceptación,

o el P-Valor ≥ α, entonces aceptar H0.
Ejemplo
Determinar si es aceptable que la desviación típica poblacional del
peso de la bolsa es de 20 gramos
Hypothesis Tests for PESO

Sample mean = 1993,6
Sample median = 1992,0
Sample standard deviation = 19,7983
chi-square test
Null hypothesis: sigma = 20,0
Alternative: not equal
Computed chi-square statistic = 13,719

P-Value = 0,941698
Do not reject the null hypothesis for alpha = 0,05.
 Como P-Valor=0,941698 > 0,05, es razonable pensar que la
Como !klmk =13,719 está incluido (! n ) en [5,63;16,1], es razonable

desviación típica poblacional es de 20 gramos

pensar que la desviación típica poblacional es de 20 gramos
Prueba de hipótesis para la proporción
H0: p = p0
α
H1: p ≠ p0
Se toma una muestra de tamaño n,
̅−
se calcula el estadístico zcalc
F\]^\ =
_ −F Y⁄ +F Y⁄
_ (1 − _)
0
−F Y⁄ , +F Y⁄ 3 − `5abc = 3( F > F\]^\ )

Si zcalc pertenece a la región de aceptación,
Ejemplo
En una factoría automovilística, las suciedades que aparecen en los
capós a la salida de los hornos de secado tras la imprimación son un
problema importante.
Alguien propone que, para reducir su número, se levanten los capós a
la entrada de los hornos.
AUTOEVALUACIÓN:
 ¿Cuál puede ser a priori el argumento técnico a favor de esta

medida?
 ¿Qué argumentos podrían avanzarse a priori en contra de la
pertinencia de la modificación propuesta?
 ¿Cuál es la única forma racional de decidir ante estos argumentos
contradictorios?
Objeto del estudio
Analizar el efecto de la medida propuesta comparando las dos

poblaciones resultantes:
- CAPÓS LEVANTADOS.
- CAPÓS BAJADOS.
La comparación de dos poblaciones constituye el caso más

sencillo que puede plantearse en el contexto del DISEÑO DE
EXPERIMENTOS:
Influencia de un solo factor (la posición del capó), con dos

variantes (bajado o levantado) sobre la variable respuesta
(nº medio de suciedades).
Objeto del estudio
El análisis detallado del ejemplo tiene como objetivos:
1. Poner de manifiesto la importancia de la ALEATORIZACIÓN para

evitar que el experimento conduzca a conclusiones sesgadas o
erróneas.
2. Poner de manifiesto la importancia del BLOQUEO para mejorar la
potencia de nuestro experimento.
3. Estudiar cómo se realiza el análisis estadístico de los resultados.
Consideraciones previas
Datos históricos capó Nuevas pruebas capó

bajado levantado
Nº medio de suciedades por capó=3,5 tiempo
¿Cómo podemos saber en estas condiciones que los días de la prueba

son comparables con aquéllos pasados en los que se obtuvo el valor
de 3,5 manchas/capó?
¿Cómo podemos garantizar, por ejemplo, que las suciedades se

midieron entonces con los mismos criterios que ahora?
¡ Esta forma de proceder no es recomendable !

Consideraciones previas
Con el fin de que los resultados sean

comparables:
¡ LOS DOS TRATAMIENTOS DEBEN INCLUIRSE EN EL

EXPERIMENTO !
NUEVAS PRUEBAS
CAPÓ BAJADO Y
LEVANTADO
tiempo
Realización del experimento
Se decide hacer 20 pruebas:
10 con capó
Lunes a Viernes levantado
mañana y tarde
10 con capó
bajado
¿Qué se va a medir en cada prueba?
v.a.: {El número medio de suciedades en 10 capós

consecutivos del mismo modelo}
Resultados
Con el fin de simplificar la organización del experimento se decidió
que las pruebas con el capó levantado, que son más complicadas
pues suponen un cambio sobre la manera habitual de trabajar, se
realizaran en el turno de tarde, dado que se cuenta con la
colaboración de un empleado de confianza.
̅ s
C. BAJ. 3,4 3,7 2,9 2,5 1,6 2,8 3,7 5,9 4,8 4,3 3,56 1,23
C. LEV. 2,7 3,2 1,8 1,9 1,1 2,2 2,8 4,8 4,3 3,4 2,82 1,15
¿Qué opinas sobre esta solución y los resultados?

Problema
¡Es un mal diseño!

No podemos saber operando de este modo si las diferencias entre los
dos tratamientos se deben a:
• Posición del capó

• Diferencias entre turnos
• Diferentes condiciones ambientales entre mañana y tarde.
La aparente diferencia (3,56–2,82=0,73 suc/capó) entre capós

levantados y bajados puede estar sesgada por los efectos del turno o
por las diferencias entre mañana o tarde.
Solución
¿Puede un análisis estadístico sofisticado resolver el problema
planteado por el mal diseño utilizado?
¡ NO !
Los efectos que un mal diseño ha “confundido”

completamente, no puede “separarlos” ningún tipo
de análisis.
ALEATORIZACIÓN
Aleatorización
Asignar al azar (por sorteo) el tratamiento que se va a aplicar en
cada prueba del experimento, pero respetando el número total
asignado a cada tratamiento.
Única garantía contra la presencia de sesgos o errores sistemáticos.
Permite obtener conclusiones estadísticas válidas, incluso aunque los

procesos estudiados no estén bajo control.
Puede ser:
 Total (diseños completamente al azar)

 Restringida (como en el caso de datos apareados)
Diseño completamente al azar
Lu Ma Mi Ju Vi
B B B L B
Mañana
B B L B L
L B L L L
Tarde
B L L L B
B : Prueba CAPÓ BAJADO

SORTEO
L : Prueba CAPÓ LEVANTADO
Supuesto 1: diseño completamente al azar
Poblaciones estudiadas: grupos de 10 capós del mismo modelo de

coche fabricados con este proceso (bajados y levantados).
Variable aleatoria: nº suciedades/capó medida como el promedio de

este valor en 10 capós.
Se supone que la característica se distribuye normalmente

 Introducción

Proporciones.
 Datos apareados
Inferencia para dos poblaciones normales
1 2
Poblaciones
m1 m2
Muestreo: X1 , X2 , … , Xn1 X1 , X2 , … , Xn2
̄ ̄
s s
Estadísticos
calculados a partir de
las muestras:
Preguntas fundamentales
> > >

1ª ¿ 1 = 2 ? 2ª ¿ m1 = m2 ? 3ª ¿ p1 = p2 ?
< < <
Estimación puntual y por intervalos de confianza
Cuando hay dos poblaciones involucradas en un estudio, es más
importante encontrar diferencias entre ellas que estimar los
parámetros de sus distribuciones.
 Para media y proporción poblaciones se calculará la diferencia

entre parámetros poblacionales
− −
 Para la varianza poblacional se calculará el cociente de varianzas

poblacionales
El motivo es la distribución de la diferencia o cociente de los

respectivos parámetros poblacionales
Estimación puntual
(o − o )
 media
≡; Q "
1 1
− o − o p 1
+ 2
1−1 p + 2−1 p
p =
 proporción poblaciones 1+ 2−2
− ̅ − ̅
( ̅ − ̅ )
≡ 1(0.1)
̅ 1− ̅ ̅ 1− ̅
+
1 2
Distribución del cociente de varianzas
∑( − $ )
El cociente de varianzas muestrales se define por la expresión:
−1
q = r
∑( − $ )
−1
El cociente de varianzas muestrales es una variable aleatoria, y
su distribución viene dada por la expresión:
) s*
≡ t(
) s*
" ( "
Donde es una nueva distribución, conocida como distribución F

de Snedecor. Si las varianzas poblacionales son iguales
entonces:
≡u " "
La distribución F de Snedecor
En el estudio de los modelos de Regresión Lineal y de Análisis de la
Varianza desempeña un papel fundamental la distribución F de Fisher,
denominada así por Snedecor,
Se define
! Wq
Con ! y!
u W, =
! Lq
independientes
L
F (razón de varianzas)
0,8
10,10
0,6
densidad
0,4
0,2
0
0 1 2 3 4 5
x
La distribución F de Snedecor
3 uv w ≥ 5 = 0,05 5 = 2,85 3(u ≥ 5) = α
Intervalos de confianza
De las correspondientes distribuciones se tiene que:
Diferencia de medias
1 1
o o
( − )±; Q
Y⁄
p +
"
1 2
1−1 p + 2−1 p
con
p =
1+ 2−2
y suponiendo que las varianzas poblaciones respectivas son iguales

Intervalos de confianza
De las correspondientes distribuciones se tiene que:
Cociente de varianzas
⁄ ⁄
,
u "
Y⁄
" u "Y⁄
" "
Diferencia de proporciones
̅ 1− ̅ ̅ 1− ̅
( ̅ − ̅ )±F Y/
+
1 2
Ejemplo
Comparison of Standard Deviations
Ratio of Variances = 1,14937
95,0% Confidence Intervals
Standard deviation of CBAJ: [0,845661;2,2445]
Standard deviation of CLEV: [0,788798;2,09358]
Ratio of Variances: [0,285488;4,62738]
 El intervalo de confianza para el cociente de varianzas es

[0,285488;4,62738], lo cual no dice mucho, porque las varianzas
del número de defectos por ambos métodos pueden ser iguales
(valor 1) o muy diferentes
Ejemplo
Comparison of Means
95,0% confidence interval for mean of CBAJ: 3,56 +/- 0,8795
[2,6805;4,4395]
95,0% confidence interval for mean of CLEV: 2,82 +/- 0,820361
[1,99964;3,64036]
95,0% confidence interval for the difference between the means assuming
equal variances: 0,74 +/- 1,11699 [-0,376987;1,85699]
 El intervalo de confianza para la diferencia de medias es

[-0,376987;1,85699], siendo el 0 un valor razonable, por lo que
levantar el capó no influye sobre el número medio de defectos
Prueba de hipótesis para comparar varianzas
H0: σ12 = σ22
α
H1: σ12 ≠ σ22
Se toman dos muestras, de tamaños n1 y n2
u\]^\ = ⁄
se calcula
uY " "
0
con la varianza muestral mayor en el numerador.
Región de aceptación:
1, u Y " " 3 − `5abc = 3(u " " > u\]^\ )
Si u = ⁄
o si P-Valor ≥ α, entonces aceptar H0
pertenece a la región de aceptación,
Ejemplo
F-test to Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 1,14937 P-value = 0,839105
 Dado que el P-Valor = 0,839105 > 0,05, las varianzas son iguales,
los resultados obtenidos son compatibles con la idea de que
levantar el capó no influye sobre la variabilidad (varianza) del
número de suciedades por capó
Prueba de hipótesis para comparar medias
( ̅ − ̅ )
H0: m1= m2
;\]^\ =
1 1
H1: m1≠ m2
Se toman dos muestras, de tamaños 1+ 2

n1 y n2, y se calcula el estadístico.
1−1 + 2−1
=
Región de aceptación 1+ 2−2
−; Q
Y/
" , +; Q
Y⁄
"
3 − `5abc = 3( ; Q " > ;\]^\ )
o si P-Valor ≥ α se acepta la hipótesis nula

Si el estadístico pertenece a la región de aceptación,
Si 12  22 la prueba de comparación de medias presentada tienen

sólo carácter aproximado.
Ejemplo
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = 1,39186 P-value = 0,180927
 Como P-Valor = 0,180927 > 0,05, las medias son iguales, y

levantar el capó no influye sobre el número medio de suciedades
por capó
Prueba de hipótesis para comparar proporciones
̅ − ̅
H0: p1= p2
F\]^\ =
H1: p1 ≠ p2
1 1
′(1 − z )( + 2)
Se toman dos muestras, de tamaños
1
n1 y n2, y se calcula el estadístico
1 ̅ + 2 ̅
′=
1+ 2
−{Y⁄ , +{Y⁄ 3 − `5abc = 3( F > F\]^\ )

Si zcalc pertenece a la región de aceptación,
Validación de la prueba - Análisis de residuos
Residuo de cada observación:
es la parte de la misma debida a la variabilidad de los factores no
controlados en la experiencia.
Media estimada
Dato = + Residuo
del tratamiento
Ejemplo: primera observación con el capó bajado
3,4 = 3,56 + -0,16
Residuo
Defectos con Media de defectos

el capó bajado con el capó bajado
Análisis de residuos
Los análisis estadísticos anteriores se basan sobre tres hipótesis
matemáticas teóricas, que si no se “cumplen” pueden llevar a
resultados incorrectos:
 Normalidad
Papel Probabilístico Normal (Normalidad, Valores anómalos)
 Incorrelación
Los errores no están relacionados entre sí. Aleatorizar.
Gráfico de residuos / orden de pruebas
 Homocedasticidad
Los errores tienen la misma varianza
Prueba para la varianza
Residuos y Papel Probabilístico Normal
99,9
99
95
80
50
20
5
1
0,1
-2 -1 0 1 2 3
Residuos suciedades
No se detectan datos anómalos y puede

asumirse normalidad en los datos.
Residuos vs. orden de pruebas
2
Residuos
-1
-2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Orden pruebas
Se detecta cierta pauta NO aleatoria en los datos. Los

residuos correspondientes a las 10 primeras pruebas
tienen un comportamiento parecido al de las siguientes.
Residuos y Homocedasticidad
Residual Plot for SUCIEDAD
2,5
1,5
residual
0,5
-0,5
-1,5
-2,5
bajado levantado
POSICION
Aunque las alturas de los intervalos pueden parecer un poco
diferentes, son iguales, porque la prueba de la varianza ha indicado
que deben considerarse iguales

UT 1 Inferencia Básica en Poblaciones Normales

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

UT 1 Inferencia Básica en Poblaciones Normales

Cargado por

Copyright:

Formatos disponibles

Curso Básico de Diseño de

Máster Universitario en Ingeniería de análisis de

Departamento de Estadística e Investigación

Departamento de Estadística e Investigación

Ingeniería de análisis de datos, mejora de procesos y toma de decisiones

 Estimación por intervalos de confianza

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y

 Estimación por intervalos de confianza

 Validación de la prueba. Análisis de residuos

¿m? ¿? ¿p?

¿Hasta qué punto las características

Una máquina envasadora de bolsas de malla de naranjas, de las que se

Debido a una serie de causas de variabilidad:

 imprecisión en las pesadas automáticas

¡ es imposible obtener constantemente bolsas que pesen

 El peso obtenido es realmente una variable aleatoria, definida

 Se considera que la máquina está bien regulada si la media de

 Para controlar si esto es así se ha tomado al azar una muestra

1989 2015 1962 2013 1983 1989 1992 2011

¿quiere ello decir que la máquina envasadora se ha desajustado y que,

La diferencia entre 1993,6 y 2000 puede deberse al azar del

Necesitamos algún procedimiento que nos permita obtener

Objeto de la Inferencia Estadística

 Estimación por intervalos de confianza

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y

 Estimación por intervalos de confianza

 Validación de la prueba. Análisis de residuos

La mayor parte de las técnicas de Inferencia Estadística para variables

¿Cómo podemos comprobar si esta hipótesis previa es admisible en

Hay varias formas de hacerlo:

 Analizar los parámetros muestrales (valores de los coeficientes

Normal Probability Plot

Normal Probability Plot

Normal Probability Plot

 A la vista de los parámetros muestrales y de las

se puede admitir la hipótesis de que los datos

 Tampoco se han apreciado anomalías en los datos.

 Estimación por intervalos de confianza

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y

 Estimación por intervalos de confianza

 Validación de la prueba. Análisis de residuos

Dichos parámetros no se conocen, es posible que no puedan ser

Para solucionar este problema, la estadística propone la estimación

La necesidad de observar una muestra y no toda la población es

El objeto de la Inferencia Estadística es deducir conclusiones

El punto de partida es obtener una muestra aleatoria simple (mas):

 Estimación por intervalos de confianza

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y

 Estimación por intervalos de confianza

 Validación de la prueba. Análisis de residuos

Con los datos de la muestra, y margen de error pequeño y

 La media muestral es de 1993,6 gramos, y se estima que la media

 La desviación típica muestral es de 19,7983 gramos, y se estima

 Seguirá una distribución 

• Distribución población original

Inferencia Estadística se centra en el conocimiento de las

La varianza muestral es una variable aleatoria, y su distribución

Se define: Grados de libertad

! =- Con X ≡ 1(0,1) independientes

La media muestral es una variable aleatoria, y su distribución

Donde ;n−1 es una nueva distribución, conocida como

1(0,1) Con 1(0,1) y ! independientes

La proporción muestral es una variable aleatoria, y su