Está en la página 1de 93

Curso Básico de Diseño de

Experimentos

Máster Universitario en Ingeniería de análisis de


datos, mejora de procesos y toma de decisiones

Departamento de Estadística e Investigación


Operativa Aplicadas y Calidad
Curso Básico de Diseño de
Experimentos
Contenidos
1. Conceptos estadísticos previos
2. Inferencia básica en poblaciones normales
3. Análisis de la varianza, ANOVA
4. Diseño de Experimentos. Planes 2K
5. Planes con factores a más de dos niveles

Departamento de Estadística e Investigación


Operativa Aplicadas y Calidad
1 – Conceptos estadísticos previos.
Inferencia básica en poblaciones
normales.

Ingeniería de análisis de datos, mejora de procesos y toma de decisiones


Contenidos
 Introducción
 Normalidad de los datos
 Conceptos generales
 Una población. Media, Desviación típica y Proporción.
 Estimación puntual

 Tamaño de muestra

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y


Proporciones.
 Estimación puntual

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Validación de la prueba. Análisis de residuos

 Datos apareados
Introducción y conceptos generales
Población
Conjunto de individuos que son objeto de estudio

Variable aleatoria
Característica cuantitativa aleatoria observada en el individuo

Distribución
Pauta observada en la proporción de individuos que tienen un
determinado valor de la característica

Parámetro
Número que resume los datos observados y define la distribución de
la variable
Introducción
Un problema básico de Inferencia Estadística es el de obtener
conclusiones sobre la pauta de variabilidad y/o los parámetros de
una variable aleatoria en una determinada población, a partir de la
información contenida en una muestra aleatoria de individuos de dicha
población, así como medir su significación, esto es, la confianza que
nos merecen.

El primer requisito para que un estudio de este tipo sea válido, es que
la muestra sea representativa de la población sobre la que se desea
obtener conclusiones seleccionada al azar, o por un procedimiento
equivalente a juicio de los expertos en el proceso
Introducción
m.a.s.
POBLACIÓN

muestreo
, s, p, N

inferencia

¿m? ¿? ¿p?


Con los datos de la muestra, y margen
Parámetros de error pequeño y conocido, ¿qué
poblacionales
podemos averiguar acerca de m,  y p?
desconocidos

¿Hasta qué punto las características


muestrales pueden diferir de las
poblacionales?
Introducción

Población 1 m.a.s. 1

, , , INFERENCIA DE DOS
m1 , 1 , p1 POBLACIONES
¿m1 = m2?
Población 2 m.a.s. 2 ¿1 = 2?
¿p1 = p2?

, , ,
m2 , 2 , p2
Un ejemplo

Una máquina envasadora de bolsas de malla de naranjas, de las que se


usan en los almacenes de confección de esta fruta, se regula para
obtener un peso de 2000 gramos.

Debido a una serie de causas de variabilidad:


 variación en el calibre de las frutas

 imprecisión en las pesadas automáticas

 etc

¡ es imposible obtener constantemente bolsas que pesen


exactamente 2000 gramos !
Un ejemplo

 El peso obtenido es realmente una variable aleatoria, definida


sobre la población de todas las bolsas que se confeccionan.

 Se considera que la máquina está bien regulada si la media de


dicha variable aleatoria es 2000 gramos.

 Para controlar si esto es así se ha tomado al azar una muestra


de 15 bolsas, cuyos pesos (gramos) son:

1989 2015 1962 2013 1983 1989 1992 2011


1958 2023 1980 1977 1994 2017 2001
Un ejemplo
La media muestral ha resultado igual a 1993,6 gramos, y es, por tanto,
diferente de 2000 gramos

¿quiere ello decir que la máquina envasadora se ha desajustado y que,


por tanto, hay que detener la producción y proceder a reajustar la
máquina?

¡ NO NECESARIAMENTE !
Un ejemplo

La diferencia entre 1993,6 y 2000 puede deberse al azar del


muestreo, de hecho nunca saldrá exactamente igual a 2000 gramos

Necesitamos algún procedimiento que nos permita obtener


conclusiones sobre el valor de m en la población a partir de la
información que hemos obtenido en la muestra, lo cual incluye la
distribución de la característica muestral

Objeto de la Inferencia Estadística


Inferencia estadística en poblaciones normales
 Introducción
 Normalidad de los datos
 Conceptos generales
 Una población. Media, Desviación típica y Proporción.
 Estimación puntual

 Tamaño de muestra

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y


Proporciones.
 Estimación puntual

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Validación de la prueba. Análisis de residuos

 Datos apareados
Normalidad de los datos

La mayor parte de las técnicas de Inferencia Estadística para variables


continuas asumen que las poblaciones muestreadas son normales.

¿Cómo podemos comprobar si esta hipótesis previa es admisible en


nuestro caso?

Hay varias formas de hacerlo:


 Hacer un Histograma (Exige al menos 40-50 datos).

 Analizar los parámetros muestrales (valores de los coeficientes


de asimetría y curtosis de los datos, ...)
 Usar tests estadísticos formales (Exigen muchos datos, en
general. Poco útiles en la práctica).
 Gráfico en Papel Probabilístico Normal.
Parámetros muestrales
Summary Statistics for PESO_BOLSA
estimador de m 2000
Count = 15
Average = 1993,6
Median = 1992,0 Son muy parecidas
Mode = 1989,0
Variance = 391,971
Standard dev. = 19,7983 estimador de 
Minimum = 1958,0
Maximum = 2023,0
[-2,2]  CA=0
Range = 65,0
Stnd. skewness = -0,405564
Stnd. kurtosis = -0,593681
[-2,2]  (CC=0)
Parámetros muestrales

CA > 0 CA < 0
CC > 0

kurtosis
apuntamiento
CC = 0
skewness
CA = 0 simetría
CC < 0
Papel Probabilístico Normal

Normal Probability Plot


Los puntos se alinean a lo largo
99,9
de una línea recta.
99
percentage

95
80
50
20
5
1
0,1
1950 1970 1990 2010 2030
PESO_BOLSA
Datos PROCEDENTES de una población Normal
Papel Probabilístico Normal

Normal Probability Plot


99,9
99
percentage

95
80
50
20
Los puntos NO se alinean a
5
lo largo de una línea recta.
1
0,1
0 3 6 9 12 15
PESO (Kg)
Datos NO PROCEDENTES de una población Normal
Papel Probabilístico Normal

Normal Probability Plot


99,9
99
percentage

95
80
50
20
5
1
0,1
1950 1970 1990 2010 2030
PESO_BOLSA
Datos agrupados
mezcla de dos o más poblaciones
Análisis descriptivo: conclusiones

 A la vista de los parámetros muestrales y de las


representaciones gráficas estudiadas

se puede admitir la hipótesis de que los datos


proceden de una población normal

 Tampoco se han apreciado anomalías en los datos.


Inferencia estadística en poblaciones normales
 Introducción
 Normalidad de los datos
 Conceptos generales
 Una población. Media, Desviación típica y Proporción.
 Estimación puntual

 Tamaño de muestra

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y


Proporciones.
 Estimación puntual

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Validación de la prueba. Análisis de residuos

 Datos apareados
Conceptos generales
Todas las distribuciones de probabilidad dependen de uno o más
parámetros que se definen basándose en toda la población.

Dichos parámetros no se conocen, es posible que no puedan ser


calcularlos, e incluso puede que no interese calcularlos.

Para solucionar este problema, la estadística propone la estimación


de los parámetros poblacionales. La forma de hacerlo será
obtener una muestra, calcular el parámetro muestral correspondiente,
y tratar de extrapolarlo al resto de la población.

La necesidad de observar una muestra y no toda la población es


porque se tienen algunos inconvenientes:

 Económicos
 Temporales
 Naturaleza del estudio
 Estratégicos
Conceptos generales

El objeto de la Inferencia Estadística es deducir conclusiones


válidas respecto a la población, con un margen de error reducido y
conocido, a partir del análisis de los datos de una muestra obtenida
al azar de dicha población.

El punto de partida es obtener una muestra aleatoria simple (mas):


 Todos los individuos de la población tienen, a priori, la misma
probabilidad de aparecer en la muestra.
 Los individuos han sido seleccionados independientemente unos de
otros
Además:
 El tamaño de la muestral condiciona la precisión de las
estimaciones que se obtengan a partir de la muestra, el error.
Inferencia estadística en poblaciones normales
 Introducción
 Normalidad de los datos
 Conceptos generales
 Una población. Media, Desviación típica y Proporción.
 Estimación puntual

 Tamaño de muestra

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y


Proporciones.
 Estimación puntual

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Validación de la prueba. Análisis de residuos

 Datos apareados
Estimación puntual
La estimación puntual consiste en obtener un valor
aproximado de la característica poblacional para poder utilizarlo
en los cálculos. Para ello es necesario una muestra aleatoria de
tamaño n y el estimador puntual de la característica poblacional.

Estimador puntual
Se dice que el estadístico es un estimador puntual de θ, si se
utiliza para obtener valores aproximados del parámetro θ.

Media
En una distribución simétrica, el estimador de la media poblacional es
la media muestral


= ̅=
Estimación puntual
Varianza
Estimadores de la varianza poblacional es la varianza muestral

∑ − ̅
= =
−1

Proporción
El estimador de la proporción poblacional es la proporción muestral

̂=

Con los datos de la muestra, y margen de error pequeño y


conocido, ¿qué podemos averiguar acerca de m,  y p?
Ejemplo
Summary Statistics for PESO_BOLSA
---------------------------------------
Count = 15
Average = 1993,6
Median = 1992,0
Mode = 1989,0
Variance = 391,971
Standard dev. = 19,7983
Minimum = 1958,0
Maximum = 2023,0
Range = 65,0
Stnd. skewness = -0,405564
Stnd. kurtosis = -0,593681

 La media muestral es de 1993,6 gramos, y se estima que la media


poblacional es este valor

 La desviación típica muestral es de 19,7983 gramos, y se estima


que la desviación típica poblacional es este valor
Conceptos Generales
n
POBLACIÓN DE
m.a.s1 x1 POSIBLES
2 MUESTRAS
s 1

POBLACIÓN n
X: (m,) m.a.s2
x2
2
s
 Nueva población cuyos individuos son muestras
2
 La media o desviación típica muestrales serán nuevas variables


aleatorias
n
Constantes xi
desconocidas m.a.si 2
s i
Conceptos Generales
Cualquier ESTADÍSTICO es una variable aleatoria:
 Tendrá sus parámetros (centralidad, dispersión,…)

 Seguirá una distribución 

• Distribución población original


• Tamaño de la muestra (n)

Inferencia Estadística se centra en el conocimiento de las


relaciones que ligan la distribución de los estadísticos muestrales con:
• La distribución de la población
• Características de la distribución o parámetros poblacionales
Distribución de la varianza muestral
La varianza muestral se define por la expresión:

( − $ ) + .... + ( − $) ∑( − $)
= =
−1 −1

La varianza muestral es una variable aleatoria, y su distribución

)
viene dada por la expresión:

(( − ) ≡ ,("
*
Donde ! " es una nueva distribución, conocida como chi-
cuadrado.
La distribución chi-dos o 2
Importante en el estudio de la distribución de S2 de una muestra de
una población normal (K. Perason, S. XIX)

Se define: Grados de libertad

! =- Con X ≡ 1(0,1) independientes

Chi-Cuadrada

0,1

.(! ) =
10
densidad 0,08

0,06

(! ) = 2
0,04

0,02

0
0 10 20 30 40
x
La distribución chi-dos o 2
3 ! ≥ 5 = 0,05 5 = 19,675 3(! ≥ 5) = α
Distribución de la media muestral
La media muestral se define por la expresión:

+ + ... + ∑
$= <
=

La media muestral es una variable aleatoria, y su distribución


viene dada por la expresión:

$ −=
≡ @n−1
s/ (

Donde ;n−1 es una nueva distribución, conocida como


distribución t de student.
La distribución t de Student
Importante en la inferencia de una muestra respecto de la media de
una población normal (Gosset)

Se define

1(0,1) Con 1(0,1) y ! independientes


; =
!
t de Student
0,4
10

.(; ) = 0
0,3

densidad
0,2

(; ) = ( > 2)
−2
0,1

0
-6 -4 -2 0 2 4 6
x
La distribución t de Student
3 ; C ≥ 5 = 0,025 5 = 2,16 3(; ≥ 5) = α
Distribución de la proporción muestral
La proporción muestral se define por la expresión:

+ + ... + ∑
̄= =

con xi≡D(p)

La proporción muestral es una variable aleatoria, y su


distribución viene dada por la expresión:

̄−
≡ (E, )
̄ (1− ̄ )/(
Distribución normal tipificada
3 F ≤ 5 = 0,025 5 = −1,96 3(F ≤ 5) = α
Tamaño de muestra
Para determinar el tamaño de la muestra que permita estimar
parámetros poblacionales es necesario:

 Conocer la distribución del parámetro muestral que estima el


parámetro poblacional de interés
 Fijar el error que se está dispuesto a cometer en la estimación, δ,
que será la diferencia entre el parámetro poblacional y el muestral
 Fijar la probabilidad (pequeña) β de que la diferencia entre ambos
parámetros sea mayor que el error escogido

Por ejemplo, para la proporción poblacional:

3( − ̅ > H) ≤ I

y de esta condición se obtiene la expresión del tamaño de la muestra.


Tamaño de muestra

donde H = − ̅ y se supone conocida la varianza de la variable


media

L
<∗JK/L ∗P L

L
JK/L ∗P L
≥ O L <" QJK/L
L ∗R L
OL
Población de tamaño infinito Población de tamaño N

donde H = − ̅ y se supone conocida la proporción


proporción

L
<∗JK/L ∗N∗( "N)

L
JK/L ∗N∗( "N)
≥ OL O L <" QJK/L
L ∗N̅ ∗( "N̅ )

Población de tamaño infinito Población de tamaño N


Tamaño de muestra

donde H = − ̅ y se estima la varianza de la variable a partir de una


media

muestra previa, de tamaño np


K/L
K/L <∗(STUVW )L∗RUL

(STUVW )L ∗RUL
≥ OL
K/L
O L <" Q(STUVW )L∗RUL

Población de tamaño infinito Población de tamaño N

donde H = − ̅ y la proporción se estima a partir de una muestra


proporción

previa, de tamaño np
K/L
<∗(STUVW )L∗N̅U ∗( "N̅U )

K/L
(STUVW )L ∗N̅U ∗( "N̅U )
≥ OL
K/L
O L <" Q(STUVW )L∗N̅U ∗( "N̅U )

Población de tamaño infinito Población de tamaño N


Ejemplo
Se precisa determinar el tamaño de la muestra que permite estimar
una proporción, teniendo en cuenta que se desea una probabilidad
inferior al 5% (β) de que el error supere el valor 0,0001 (δ), cuando
la proporción estimada previamente es de p=0,001
Determinación de Tamaño de Muestra
Parámetro a estimar: parámetro binomial
Tolerancia deseada: +- 0,0001 cuando la proporción = 0,001
Nivel de confianza: 95,0%
El tamaño de muestra requerido es n=422065 observaciones.

 Es necesaria una muestra de tamaño 422065 para poder estimar la


proporción poblacional con las condiciones impuestas

Las proporciones pequeñas exigen


tamaños de muestra muy elevados
Ejemplo
Se precisa determinar el tamaño de la muestra que permite estimar
una proporción, teniendo en cuenta que se desea una probabilidad
inferior al 5% (β) de que el error supere el valor 0,0001 (δ)

Si no se conociera el orden de magnitud de la proporción buscada,


una aproximación muy conservadora es suponer que su valor es
p=0,5

Determinación de Tamaño de Muestra


Parámetro a estimar: parámetro binomial
Tolerancia deseada: +- 0,0001 cuando la proporción = 0,5
Nivel de confianza: 95,0%
El tamaño de muestra requerido es n=96075259 observaciones.

 Si no se tiene idea del orden de magnitud de la proporción


buscada, el tamaño de muestra se eleva a 96075259.
Estimación por intervalos de confianza
Definición de intervalo de confianza
Un intervalo de confianza es un intervalo que tiene por extremos a
dos estadísticos L1(X) y L2(X), tales que la probabilidad de que el

del parámetro de interés, sea igual a una cantidad prefijada 1-α.


intervalo formado por ellos contenga al valor verdadero y desconocido

 En general se opera con  =0,05, con lo que el intervalo tendrá


una probabilidad del 95% de contener a , o con  =0,01, con lo
que el intervalo tendrá una probabilidad del 99% de contenerlo
 Es una forma de precisar el margen de incertidumbre que existe
sobre cuál es el verdadero valor del parámetro desconocido de la
población.

A partir de las distribuciones de los parámetros muestrales, se


obtienen las expresiones de los intervalos de confianza de los
parámetros poblacionales:
Estimación por intervalos de confianza
media

̅± ; "
Y⁄ $−
≡ ;n−1
s/

varianza

X − 1) X − 1) ( − 1) ≡!
, "

! Y⁄
" ! "
"Y⁄
0

proporción

̅ (1 − ̅ )
̄−
≡ 1(0,1)
̅±F Y⁄ ̄ (1− ̄ )/
0
Ejemplo
Confidence Intervals for PESO_BOLSA
---------------------------------------------------------------------
95,0% confidence interval for mean: 1993,6 +/- 10,9639
[1982,64;2004,56]

95,0% confidence interval for standard deviation:


[14,4948;31,2238]

 Se estima que la media poblacional es de 1933,6 gramos, aunque


el valor real puede encontrarse 10,9639 gramos por encima o por
debajo de dicho valor, o lo que es lo mismo, se encuentra dentro
del intervalo [1982,64;2004,56] gramos, con una probabilidad del
95%

 Se estima que la desviación típica es de 19,7983 gramos, si bien el


valor real se encuentra dentro del intervalo [14,4948;31,2238]
gramos, con una probabilidad del 95%
Test de hipótesis
 Una hipótesis estadística es una afirmación respecto a alguna
característica de una población.
 Contrastar una hipótesis es comparar las afirmaciones con la
realidad que observamos. Si dentro del margen de error que nos
permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en
caso contrario la rechazaremos.
 La hipótesis emitida se suele designar por H0 y se llama Hipótesis
nula porque parte del supuesto de que la diferencia entre el valor
verdadero del parámetro y su valor hipotético es debida al azar, es
decir no hay diferencia.
 La hipótesis contraria se designa por H1 y se llama Hipótesis
alternativa
Test de hipótesis

Los contrastes pueden ser unilaterales o bilaterales (también


llamados de una o dos colas) según establezcamos las hipótesis:

 Hipótesis bilateral: si las definimos en términos de ser igual o


distinto

 Hipótesis unilateral: si suponemos una dirección, en términos de


ser igual o mayor, o ser igual o menor
Test o contraste de Hipótesis: método

1. Enunciar la hipótesis
2. Elegir un nivel de significación  y construir
la zona de aceptación, intervalo fuera del
cual se encuentran los valores menos
probables del estadístico a utilizar. A la α
zona de rechazo la llamaremos región
crítica, y su área (probabilidad) es el
nivel de significación.
3. Verificar la hipótesis: extraer una muestra m
rechazar aceptar 0 rechazar
(tamaño y método establecidos antes) y
calcular el correspondiente estadístico.
4. Decidir. Si el valor del estadístico cae
dentro de la zona de aceptación se
acepta la hipótesis y si no se rechaza.
Hipótesis Nula H0
 Es la hipótesis de salida.

 Es la base de partida para el razonamiento e incluye el


conocimiento previo de la situación.
 Supone que la diferencia entre el valor verdadero del
parámetro muestral y su valor hipotético es debida al azar, es
decir no hay diferencia.
 Es la hipótesis que mantenemos “mientras no se demuestre lo
contrario”, esto es, a no ser que los datos de la muestra
aporten la suficiente evidencia como para que indiquen
falsedad.
 Nunca podrá ser probada, pero puede ser rechazada por los
datos.
Errores posibles en un test estadístico

Al realizar un CONTRASTE existen dos posibles decisiones erróneas


que pueden cometerse:

H0 verdadera H0 falsa

Decisión incorrecta
Aceptar H0 Decisión correcta Error de tipo II
2ª especie

Decisión incorrecta
Rechazar H0 Error de tipo I Decisión correcta
1ª especie
Riesgos de 1ª y 2ª especie
Se denomina riesgo de 1ª o 2ª especie a las probabilidades de
cometer los errores respectivos.

 Riesgo de 1ª especie ():


probabilidad de cometer un error de 1ª especie

 Riesgo de 2ª especie ():


probabilidad de cometer un error de 2ª especie
Riesgos de 1ª y 2ª especie

¿Cuál es el valor del


riesgo de segunda
especie?

β
α

m0 m1

rechazar aceptar rechazar


Riesgos de 1ª y 2ª especie

¿Cómo cambia el
riesgo de segunda
especie con la media
real?

m0 m1 m2 m3

rechazar aceptar rechazar


Riesgos de 1ª y 2ª especie

AL AUMENTAR EL TAMAÑO
DE LA MUESTRA DISMINUYE
EL RIESGO DE 2ª ESPECIE

α
β

m0 m1
rechazar aceptar rechazar
Prueba de hipótesis para la media
H0: m = m0

α
H1: m ≠ m0

Se toma una muestra de tamaño n,

̅−
se calcula el estadístico tcalc

;\]^\ =
_ −; Y⁄
+; Y"

0

"

Región de aceptación

−; "
Y⁄
, +; "
Y⁄
3 − `5abc = 3( ; " > ;\]^\ )

o el P-Valor ≥ α, entonces aceptar H0


Si tcalc pertenece a la región de aceptación,
Prueba de hipótesis para la media

P-Valor

α
;\]^\

0
rechazar aceptar rechazar 0

−; Y" +; Y"

rechazar

aceptar rechazar

;\]^\ −; Y" +; Y"


⁄ ⁄
;\]^\
̅−
;\]^\ =
_
3 − `5abc = 3( ; " > ;\]^\ )

o el P-Valor ≥ α, entonces aceptar H0


Si tcalc pertenece a la región de aceptación,
Ejemplo
Determinar si es aceptable que la media poblacional del peso de la
bolsa es 2000 gramos

Hypothesis Tests for PESO


Sample mean = 1993,6
Sample median = 1992,0
Sample standard deviation = 19,7983

t-test
Null hypothesis: mean = 2000,0
Alternative: not equal

Computed t statistic = -1,25198


P-Value = 0,231089
Do not reject the null hypothesis for alpha = 0,05

 Como P-Valor es de 0,231089 > 0,05, es aceptable pensar que la


media poblacional es de 2000 gramos
 Como tcalc = 1,25198 < t140,025 = 2,14 , es aceptable pensar que la
media poblacional es de 2000 gramos
Prueba de hipótesis para la varianza
H0: σ2 = σ02

α
H1: σ2 ≠ σ02

Se toma una muestra de tamaño n, se calcula

−1
el estadístico de prueba

!klmk = ! !
"Y⁄ Y⁄
" "
0

Región de aceptación:

! "Y⁄
,! Y⁄ 3 − `5abc = 3( ! " > !klmk )
" "

Si !klmk pertenece a la región de aceptación,


o el P-Valor ≥ α, entonces aceptar H0.
Ejemplo
Determinar si es aceptable que la desviación típica poblacional del
peso de la bolsa es de 20 gramos

Hypothesis Tests for PESO


Sample mean = 1993,6
Sample median = 1992,0
Sample standard deviation = 19,7983

chi-square test
Null hypothesis: sigma = 20,0
Alternative: not equal

Computed chi-square statistic = 13,719


P-Value = 0,941698
Do not reject the null hypothesis for alpha = 0,05.

 Como P-Valor=0,941698 > 0,05, es razonable pensar que la

Como !klmk =13,719 está incluido (! n ) en [5,63;16,1], es razonable


desviación típica poblacional es de 20 gramos

pensar que la desviación típica poblacional es de 20 gramos
Prueba de hipótesis para la proporción
H0: p = p0

α
H1: p ≠ p0

Se toma una muestra de tamaño n,

̅−
se calcula el estadístico zcalc

F\]^\ =
_ −F Y⁄ +F Y⁄

_ (1 − _)
0

Región de aceptación

−F Y⁄ , +F Y⁄ 3 − `5abc = 3( F > F\]^\ )

o el P-Valor ≥ α, entonces aceptar H0


Si zcalc pertenece a la región de aceptación,
Ejemplo
En una factoría automovilística, las suciedades que aparecen en los
capós a la salida de los hornos de secado tras la imprimación son un
problema importante.
Alguien propone que, para reducir su número, se levanten los capós a
la entrada de los hornos.

AUTOEVALUACIÓN:

 ¿Cuál puede ser a priori el argumento técnico a favor de esta


medida?
 ¿Qué argumentos podrían avanzarse a priori en contra de la
pertinencia de la modificación propuesta?
 ¿Cuál es la única forma racional de decidir ante estos argumentos
contradictorios?
Objeto del estudio

Analizar el efecto de la medida propuesta comparando las dos


poblaciones resultantes:

- CAPÓS LEVANTADOS.
- CAPÓS BAJADOS.

La comparación de dos poblaciones constituye el caso más


sencillo que puede plantearse en el contexto del DISEÑO DE
EXPERIMENTOS:

Influencia de un solo factor (la posición del capó), con dos


variantes (bajado o levantado) sobre la variable respuesta
(nº medio de suciedades).
Objeto del estudio
El análisis detallado del ejemplo tiene como objetivos:

1. Poner de manifiesto la importancia de la ALEATORIZACIÓN para


evitar que el experimento conduzca a conclusiones sesgadas o
erróneas.
2. Poner de manifiesto la importancia del BLOQUEO para mejorar la
potencia de nuestro experimento.
3. Estudiar cómo se realiza el análisis estadístico de los resultados.
Consideraciones previas

Datos históricos capó Nuevas pruebas capó


bajado levantado

Nº medio de suciedades por capó=3,5 tiempo

¿Cómo podemos saber en estas condiciones que los días de la prueba


son comparables con aquéllos pasados en los que se obtuvo el valor
de 3,5 manchas/capó?

¿Cómo podemos garantizar, por ejemplo, que las suciedades se


midieron entonces con los mismos criterios que ahora?

¡ Esta forma de proceder no es recomendable !


Consideraciones previas

Con el fin de que los resultados sean


comparables:

¡ LOS DOS TRATAMIENTOS DEBEN INCLUIRSE EN EL


EXPERIMENTO !

NUEVAS PRUEBAS
CAPÓ BAJADO Y
LEVANTADO

tiempo
Realización del experimento

Se decide hacer 20 pruebas:

10 con capó
Lunes a Viernes levantado
mañana y tarde
10 con capó
bajado

¿Qué se va a medir en cada prueba?

v.a.: {El número medio de suciedades en 10 capós


consecutivos del mismo modelo}
Resultados
Con el fin de simplificar la organización del experimento se decidió
que las pruebas con el capó levantado, que son más complicadas
pues suponen un cambio sobre la manera habitual de trabajar, se
realizaran en el turno de tarde, dado que se cuenta con la
colaboración de un empleado de confianza.

̅ s
C. BAJ. 3,4 3,7 2,9 2,5 1,6 2,8 3,7 5,9 4,8 4,3 3,56 1,23
C. LEV. 2,7 3,2 1,8 1,9 1,1 2,2 2,8 4,8 4,3 3,4 2,82 1,15

¿Qué opinas sobre esta solución y los resultados?


Problema

¡Es un mal diseño!


No podemos saber operando de este modo si las diferencias entre los
dos tratamientos se deben a:

• Posición del capó


• Diferencias entre turnos
• Diferentes condiciones ambientales entre mañana y tarde.

La aparente diferencia (3,56–2,82=0,73 suc/capó) entre capós


levantados y bajados puede estar sesgada por los efectos del turno o
por las diferencias entre mañana o tarde.
Solución
¿Puede un análisis estadístico sofisticado resolver el problema
planteado por el mal diseño utilizado?

¡ NO !

Los efectos que un mal diseño ha “confundido”


completamente, no puede “separarlos” ningún tipo
de análisis.

ALEATORIZACIÓN
Aleatorización
Asignar al azar (por sorteo) el tratamiento que se va a aplicar en
cada prueba del experimento, pero respetando el número total
asignado a cada tratamiento.

Única garantía contra la presencia de sesgos o errores sistemáticos.

Permite obtener conclusiones estadísticas válidas, incluso aunque los


procesos estudiados no estén bajo control.

Puede ser:

 Total (diseños completamente al azar)


 Restringida (como en el caso de datos apareados)
Diseño completamente al azar

Lu Ma Mi Ju Vi
B B B L B
Mañana
B B L B L
L B L L L
Tarde
B L L L B

B : Prueba CAPÓ BAJADO


SORTEO
L : Prueba CAPÓ LEVANTADO
Supuesto 1: diseño completamente al azar

Poblaciones estudiadas: grupos de 10 capós del mismo modelo de


coche fabricados con este proceso (bajados y levantados).

Variable aleatoria: nº suciedades/capó medida como el promedio de


este valor en 10 capós.

Se supone que la característica se distribuye normalmente


Inferencia estadística en poblaciones normales
 Introducción
 Normalidad de los datos
 Conceptos generales
 Una población. Media, Desviación típica y Proporción.
 Estimación puntual

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Dos poblaciones. Comparación de Medias, Desviaciones típicas y


Proporciones.
 Estimación puntual

 Estimación por intervalos de confianza

 Pruebas de hipótesis

 Validación de la prueba. Análisis de residuos

 Datos apareados
Inferencia para dos poblaciones normales

1 2
Poblaciones
m1 m2
Muestreo: X1 , X2 , … , Xn1 X1 , X2 , … , Xn2

̄ ̄
s s
Estadísticos
calculados a partir de
las muestras:

Preguntas fundamentales

> > >


1ª ¿ 1 = 2 ? 2ª ¿ m1 = m2 ? 3ª ¿ p1 = p2 ?
< < <
Estimación puntual y por intervalos de confianza
Cuando hay dos poblaciones involucradas en un estudio, es más
importante encontrar diferencias entre ellas que estimar los
parámetros de sus distribuciones.

 Para media y proporción poblaciones se calculará la diferencia


entre parámetros poblacionales

− −

 Para la varianza poblacional se calculará el cociente de varianzas


poblacionales

El motivo es la distribución de la diferencia o cociente de los


respectivos parámetros poblacionales
Estimación puntual

(o − o )
 media

≡; Q "
1 1
− o − o p 1
+ 2

1−1 p + 2−1 p
p =
 proporción poblaciones 1+ 2−2

− ̅ − ̅
( ̅ − ̅ )
≡ 1(0.1)
̅ 1− ̅ ̅ 1− ̅
+
1 2
Distribución del cociente de varianzas

∑( − $ )
El cociente de varianzas muestrales se define por la expresión:

−1
q = r
∑( − $ )
−1
El cociente de varianzas muestrales es una variable aleatoria, y
su distribución viene dada por la expresión:

) s*
≡ t(
) s*
" ( "

Donde es una nueva distribución, conocida como distribución F


de Snedecor. Si las varianzas poblacionales son iguales
entonces:

≡u " "
La distribución F de Snedecor
En el estudio de los modelos de Regresión Lineal y de Análisis de la
Varianza desempeña un papel fundamental la distribución F de Fisher,
denominada así por Snedecor,

Se define

! Wq
Con ! y!
u W, =
! Lq
independientes
L
F (razón de varianzas)

0,8
10,10

0,6
densidad

0,4

0,2

0
0 1 2 3 4 5
x
La distribución F de Snedecor
3 uv w ≥ 5 = 0,05 5 = 2,85 3(u ≥ 5) = α
Intervalos de confianza
De las correspondientes distribuciones se tiene que:

Diferencia de medias

1 1
o o
( − )±; Q
Y⁄
p +
"
1 2

1−1 p + 2−1 p
con
p =
1+ 2−2

y suponiendo que las varianzas poblaciones respectivas son iguales


Intervalos de confianza
De las correspondientes distribuciones se tiene que:

Cociente de varianzas

⁄ ⁄
,
u "
Y⁄
" u "Y⁄
" "

Diferencia de proporciones

̅ 1− ̅ ̅ 1− ̅
( ̅ − ̅ )±F Y/
+
1 2
Ejemplo
Comparison of Standard Deviations
Ratio of Variances = 1,14937
95,0% Confidence Intervals
Standard deviation of CBAJ: [0,845661;2,2445]
Standard deviation of CLEV: [0,788798;2,09358]
Ratio of Variances: [0,285488;4,62738]

 El intervalo de confianza para el cociente de varianzas es


[0,285488;4,62738], lo cual no dice mucho, porque las varianzas
del número de defectos por ambos métodos pueden ser iguales
(valor 1) o muy diferentes
Ejemplo
Comparison of Means
95,0% confidence interval for mean of CBAJ: 3,56 +/- 0,8795
[2,6805;4,4395]
95,0% confidence interval for mean of CLEV: 2,82 +/- 0,820361
[1,99964;3,64036]
95,0% confidence interval for the difference between the means assuming
equal variances: 0,74 +/- 1,11699 [-0,376987;1,85699]

 El intervalo de confianza para la diferencia de medias es


[-0,376987;1,85699], siendo el 0 un valor razonable, por lo que
levantar el capó no influye sobre el número medio de defectos
Prueba de hipótesis para comparar varianzas
H0: σ12 = σ22

α
H1: σ12 ≠ σ22

Se toman dos muestras, de tamaños n1 y n2

u\]^\ = ⁄
se calcula
uY " "
0

con la varianza muestral mayor en el numerador.

Región de aceptación:

1, u Y " " 3 − `5abc = 3(u " " > u\]^\ )

Si u = ⁄
o si P-Valor ≥ α, entonces aceptar H0
pertenece a la región de aceptación,
Ejemplo
F-test to Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 1,14937 P-value = 0,839105
Do not reject the null hypothesis for alpha = 0,05.

 Dado que el P-Valor = 0,839105 > 0,05, las varianzas son iguales,
los resultados obtenidos son compatibles con la idea de que
levantar el capó no influye sobre la variabilidad (varianza) del
número de suciedades por capó
Prueba de hipótesis para comparar medias

( ̅ − ̅ )
H0: m1= m2

;\]^\ =
1 1
H1: m1≠ m2

Se toman dos muestras, de tamaños 1+ 2


n1 y n2, y se calcula el estadístico.

1−1 + 2−1
=
Región de aceptación 1+ 2−2

−; Q
Y/
" , +; Q
Y⁄
"
3 − `5abc = 3( ; Q " > ;\]^\ )

o si P-Valor ≥ α se acepta la hipótesis nula


Si el estadístico pertenece a la región de aceptación,

Si 12  22 la prueba de comparación de medias presentada tienen


sólo carácter aproximado.
Ejemplo
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = 1,39186 P-value = 0,180927
Do not reject the null hypothesis for alpha = 0,05.

 Como P-Valor = 0,180927 > 0,05, las medias son iguales, y


levantar el capó no influye sobre el número medio de suciedades
por capó
Prueba de hipótesis para comparar proporciones

̅ − ̅
H0: p1= p2

F\]^\ =
H1: p1 ≠ p2

1 1
′(1 − z )( + 2)
Se toman dos muestras, de tamaños
1
n1 y n2, y se calcula el estadístico
1 ̅ + 2 ̅
′=
1+ 2

Región de aceptación

−{Y⁄ , +{Y⁄ 3 − `5abc = 3( F > F\]^\ )

o el P-Valor ≥ α, entonces aceptar H0


Si zcalc pertenece a la región de aceptación,
Validación de la prueba - Análisis de residuos
Residuo de cada observación:
es la parte de la misma debida a la variabilidad de los factores no
controlados en la experiencia.

Media estimada
Dato = + Residuo
del tratamiento

Ejemplo: primera observación con el capó bajado

3,4 = 3,56 + -0,16

Residuo

Defectos con Media de defectos


el capó bajado con el capó bajado
Análisis de residuos
Los análisis estadísticos anteriores se basan sobre tres hipótesis
matemáticas teóricas, que si no se “cumplen” pueden llevar a
resultados incorrectos:

 Normalidad
Papel Probabilístico Normal (Normalidad, Valores anómalos)

 Incorrelación
Los errores no están relacionados entre sí. Aleatorizar.
Gráfico de residuos / orden de pruebas

 Homocedasticidad
Los errores tienen la misma varianza
Prueba para la varianza
Residuos y Papel Probabilístico Normal

99,9
99
95
80
50
20
5
1
0,1
-2 -1 0 1 2 3
Residuos suciedades

No se detectan datos anómalos y puede


asumirse normalidad en los datos.
Residuos vs. orden de pruebas

2
Residuos

-1

-2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Orden pruebas

Se detecta cierta pauta NO aleatoria en los datos. Los


residuos correspondientes a las 10 primeras pruebas
tienen un comportamiento parecido al de las siguientes.
Residuos y Homocedasticidad
Residual Plot for SUCIEDAD
2,5

1,5
residual
0,5

-0,5

-1,5

-2,5
bajado levantado
POSICION
Aunque las alturas de los intervalos pueden parecer un poco
diferentes, son iguales, porque la prueba de la varianza ha indicado
que deben considerarse iguales

También podría gustarte