Está en la página 1de 264

Lean Seis Sigma

Programa de certificacin
de Black Belts

VI. Lean Seis Sigma Anlisis


B
Segunda Parte

P. Reyes / Abril de 2010

1
VI.F Mtodos de anlisis
adicionales

2
Mtodos adicionales de
anlisis
1. Anlisis de brecha

2. Anlisis de causa raz

3. Anlisis del Muda

3
VI.F.1 Anlisis de brecha

4
El anlisis de brecha (Gap Analysis) es una
herramienta de evaluacin para comparar el
desempeo actual de la organizacin, a un
desempeo potencial deseado.

Identifica la diferencia de lo que es y lo que


debera ser

5
Anlisis de brecha
Se pueden redirigir los esfuerzos a objetivos
como:
Permanecer en el negocio
Mantener o incrementar la participacin del
mercado
Mejorar el clima laboral
Igualar o exceder a Benchmarks
Igualar o exceder a la competencia
Reducir tiempos de ciclo
Lograr certificaciones
Mejorar la productividad
Mejorar los niveles de calidad 6
Anlisis de brecha
Se requieren tres categoras de informacin
Dnde estamos?
Dnde queremos ir?
Cmo vamos a medir los resultados?

7
Planeacin de escenarios
Al elaborar planes estratgicos, los directivos
pueden confiarse o ser orgullosos de aceptar
cambios. Por lo que se sugiere considerar
escenarios del mejor y del peor caso, para
evitar errores en la toma de decisiones

Los escenarios permiten imaginar el


desempeo futuro de la organizacin ante
riesgos, para tomar las mejores decisiones y
atender estos eventos. Aunque algunos
elementos sean desconocidos
8
Planeacin de escenarios
El proceso de planeacin es como sigue:
Seleccionar al personal que pueda dar muchas
perspectivas
Desarrollar una lista de cambios percibidos,
sociales, tcnicos y econmicos
Agrupar estas percepciones en patrones
relacionados
Desarrollar una lista de las mejores
percepciones (prioridades)

9
Planeacin de escenarios
El proceso de planeacin es como sigue:
Desarrollar un escenario grueso del futuro
basado en estas prioridades
Determinar como afectan los escenarios a la
organizacin
Determinar los cursos de accin potenciales a
tomar
Monitorear, evaluar, y revisar los escenarios

10
Planeacin de escenarios
Por lo comn se perciben de 6 10 amenazas
u oportunidades en 2 o 3 escenarios
desarrollados. Evitar las siguientes trampas:

No utilizar un facilitador experimentado

Considerar escenarios como pronsticos

Hacer escenarios simplistas

Limitar el impacto global de los escenarios


11
Planeacin de escenarios
Evitar las siguientes trampas..:
No incluir a un equipo directivo en el proceso

Tratar los escenarios solo como actividad


informativa

Limitar el estmulo imaginativo en el diseo del


escenario

No desarrollar escenarios para rea de impacto


clave del negocio
12
Planeacin Hoshin
Es una herramienta de ejecucin, usada para
organizar y desplegar planes estratgicos

Hoshin traduce la visin de la empresa en


resultados medibles dramticos y rupturas
estratgicas

Hoshin se enfoca a identificar los pocos logros


vitales de ruptura

13
Planeacin Hoshin
Tiene seis objetivos:
Alinear las metas organizacionales

Enfocarse en las pocas brechas vitales


estratgicas

Trabajar con otros para cerrar las brechas

Especificar los mtodos para lograr los objetivos

Hacer visible el enlace entre planes locales


14
Otras tcnicas de anlisis
clave
Benchmarking

Anlisis FODA

Anlisis PEST

Las cinco fuerzas competitivas de Porter

15
Evaluacin organizacional
Anlisis funcional con datos de coleccin:
Entrevistas cara a cara
Seleccin de muestra apropiada
Entradas de grupo de enfoque
Observaciones de visitas a la planta
Datos colectados de fuentes de la industria

Se divide a la organizacin en reas


funcionales clave
Liderazgo, prcticas de negocio, anlisis
financiero, mercadotecnia, gestin de la calidad,
diseo y desarrollo, manufactura, salud y
seguridad, etc 16
Evaluacin organizacional
Se deben analizar los resultados y presentarlos
a la direccin, quien debe promover e
implementar planes de accin claros

Normalmente el consultor colecta y resume la


informacin en categoras principales para su
revisin por la direccin. Quienes deben
generar e implementar las soluciones y guiar
al xito

17
Mtricas organizacionales
Se establecen metas de desempeo
organizacional y sus mtricas en las reas de:
Utilidades
Tiempos de ciclo
Recursos
Respuestas del mercado

Por cada meta organizacional mayor deben


desarrollarse mtricas, con unidades y
mtodos de medicin.

18
Mtricas organizacionales
Para los anteriores, las mtricas pueden ser:
Utilidades a corto y largo plazo

Valor de acciones, inversin de capital, costos


personales, comparaciones competitivas, ROI,
ventas$

Tiempos de ciclo
Tiempos de ciclo actuales
Benchmarks internos
Benchmarks externos
Reduccin en tiempos de ciclo
19
Mtricas organizacionales
Recursos
No. De proyectos de mejora, ROI de proyectos,

estudios de capacidad de procesos, reducciones de


variabilidad, costos de calidad con relacin a una
base, porcentaje de defectos con relacin a alguna
base

Respuestas del mercado


Encuestas con clientes

Anlisis de devoluciones

Desarrollo de nuevos productos

Retencin de clientes

Prdidas con clientes

Tasas de cortesas e instalaciones


20
Mtricas organizacionales
Las mtricas permiten medir los avances en
relacin a las metas organizacionales

De acuerdo a Juran se debe tomar en cuenta lo


siguiente:
Las mtricas deben tener un significado
estndar
Deben apoyar el proceso de toma de decisiones
Deben proporcionar informacin valiosa
Debe ser fcil de instalar
Si son valiosas, deben usarse en todo
Las mtricas se basan en la retroalimentacin
con base en clientes, proveedores,21o internas
VI.F.2 Anlisis de causa
raz

22
Anlisis de causa raz

Un equipo tiene la responsabilidad de


determinar la causa raz de una deficiencia y
corregirla. Pueden tomar varios pasos:

Situacin (presa con fuga)


Accin inmediata (desahogarla)
Accin intermedia (reparar la presa)
Accin en la causa raz (identificar que caus la
fuga para evitar su recurrencia y reconstruir la
presa)

23
Anlisis de causa raz

Se pueden utilizar las siguientes herramientas:


Herramientas subjetivas:

Preguntar por qu cinco veces, tormenta de


ideas,

anlisis de flujo de proceso, PHVA, grupo


nominal,

observacin de operacin, diagrama de causa


efecto,

24 de
tcnicas de consenso, seis sombreros
Anlisis de causa raz

Se pueden utilizar las siguientes herramientas:


Herramientas analticas:
Coleccin y anlisis de datos

Anlisis de Pareto, anlisis de regresin, hoja de


verificacin

Anlisis de matriz de datos


Anlisis de capacidad de procesos, divisin de
variacin

Subgrupos de datos, experimentos simples, DOE



25
Anlisis de causa raz

Ante una accin correctiva permanente, la


direccin debe determinar si:

El anlisis de causa raz ha identificado el


impacto completo del problema

La accin correctiva es efectiva para eliminar o


prevenir la recurrencia

La accin correctiva es realista y sostenible

26
Los 5 Por qus
Se hace la pregunta Por qu? Cinco veces
Por qu? Nos faltaron partes por mquina
daada
Por qu? La mquina no ha tenido
mantenimiento en los ltimos 3 meses
Por qu? El departamento de mantenimiento se
ha reducido a 6 personas de 8
Por qu? Se pas del presupuesto, les quitaron
el tiempo extra y dos personas
Por qu? La empresa no ha tenido los
resultados esperados y el director ha hecho
recortes para salvar la situacin, teme por su
puesto 27
5Ws y 1H
El mtodo de las 5Ws y 1H se resume al
preguntar quin?, qu?, cundo?, dnde?,
por qu? Y cmo?.

Pueden usarse las ramas del diagrama de


causa efecto

28
Diagrama de causa efecto
Rompe el problema en partes ms pequeas
Muestra muchas causas potenciales
grficamente
Muestra como interactan las causas
Sigue las reglas de la tormenta de ideas
Las sesiones tienen tres partes:
Tormenta de ideas
Dar prioridades (identificar las tres causas
principales)
Desarrollo de un plan de accin

29
Diagrama de Pareto
Sirve para identificar problemas u
oportunidades prioritarias o mayores

De acuerdo a Juran permite identificar los


pocos vitales de los muchos triviales

El principio de Pareto sugiere que unas


cuantas categoras de problemas (20% aprox.)
presentan la mayor oportunidad para la
mejora (80% aprox.)

30
Mtodo de las 8 disciplinas -
Ford
El mtodo de Ford para el anlisis de causa
raz es:
D1. Establecer el equipo
D2. Describir el problema
D3. Desarrollar una accin de contencin
D4. Identificar la causa raz
D5. Desarrollar alternativas de solucin
D6. Implementar una accin correctiva
permanente
D7. Prevenir la recurrencia
D8. Reconocer al equipo y las contribuciones
individuales 31
Anlisis de rbol de falla -
FTA
FTA es un mtodo sistemtico deductivo, para
definir un evento singular especfico e
indeseable, y determinar todas las posibles
razones (fallas) que pueden hacer que ocurra
el evento

Se utiliza el las primeras fases del diseo


como herramienta para impulsar
modificaciones iniciales de diseo.

32
Anlisis de rbol de falla -
FTA
Otras reas de su aplicacin son:
Anlisis funcional de sistemas complejos
Evaluacin de requerimientos de seguridad,
confiabilidad,
defectos de diseo,
riesgos de peligro,
acciones correctivas,
simplificacin de mantenimiento y deteccin de
falla,
eliminacin lgica de causas de falla

33
Anlisis de rbol de falla -
FTA
Se prefiere el FTA en vez del FMEA cuando:
La seguridad el personal es importante
Se pueden identificar un nmero pequeo de
eventos superiores
Hay alto potencial de falla
El problema es cuantificar la evaluacin del
riesgo
La funcionalidad del producto es altamente
compleja
El producto no es reaprables

34
Anlisis de rbol de falla -
FTA
Se prefiere el FMEA en vez del FTA cuando:
Los eventos superiores no se pueden definir
explcitamente
Son factibles mltiples perfiles potencialmente
exitosos
La identificacin de todos los modos de falla es
importante
La funcionalidad del producto tiene poca
intervencin externa

35
Anlisis de rbol de falla -
FTA
Smbolos de compuertas lgicas para
determinar la confiabilidad del sistema. Hay
smbolos de eventos y smbolos de
compuertas

Smbolos de eventos

Evento superior, falla a nivel sistema o evento


indeseable

Evento bsico, evento falla de ms bajo nivel


a estudiar

Evento de falla, evento de falla de bajo nivel. Puede recibir


entradas o proporcionar salidas a una compuerta lgica
36
Anlisis de rbol de falla -
FTA
Smbolos de compuertas lgicas

AND. El evento de salida ocurre solo


Si ocurren todos los eventos de entrada
Simultaneamente

OR. El evento de salida ocurre si


Ocurre alguno de los eventos de
La entrada

37
Anlisis de rbol de falla -
FTA
Ejemplo: se asume que falla el sistema
superior

38
Anlisis de rbol de falla -
FTA
La probabilidad de falla del sistema es 5.02%.
Se indica que el teclado es prioritario (0.20),
despus la CPU (0.015) y el monitor (0.015)

39
VI.F.3 Anlisis del Muda

40
Anlisis de Muda
Las actividades que no agregan valor se
clasifican como Muda, de acuerdo a Imai son:
Sobreproduccin
Inventarios
Reparaciones / rechazos
Movimientos
Transportes
Re Procesos
Esperas

41
Sobreproduccin
Se produce ms en cierto momento, por:
Producir ms de lo necesario por el siguiente
proceso
Producir antes de lo requerido por el siguiente
proceso
Producir ms rpido de lo requerido por el
siguiente proceso
Sus consecuencias son:
Espacio extra en las instalaciones del cliente
Materias primas adicionales en uso
Utilizacin de energticos y transportes
adicionales

42
Inventario en exceso
Las partes, materias primas, inventario en
proceso, refacciones y productos terminados
forman el inventario, el inventario es Muda ya
que requiere:
Espacio en piso, Transporte, Montacargas
Sistemas de transportadores
Inters sobre el costo de los materiales

Puede verse afectado por:


El polvo, deterioro, obsolescencia
Humedad (oxidacin), dao durante el manejo
43
Inventario en exceso
Las partes, materias primas, inventario en
proceso, refacciones y productos terminados
forman el inventario, el inventario es Muda ya
que requiere:
Espacio en piso, Transporte, Montacargas
Sistemas de transportadores
Inters sobre el costo de los materiales

Puede verse afectado por:


El polvo, deterioro, obsolescencia
Humedad (oxidacin), dao durante el manejo
44
Reparaciones / defectos
Las reparaciones o el retrabajo de partes
defectivas significa un segundo intento de
producirlas bien. Se rompe el Takt Time

Puede haber desperdicio de materiales o


productos no recuperable

Si hay defectos, no puede implementarse el


flujo de una pieza
Los cambios de diseo tambin son Muda

45
Movimientos
Los movimientos adicionales del personal son
Muda. Caminar mucho, cargar pesado,
agacharse, estirarse mucho, repetir
movimientos, etc.

El lugar de trabajo debe disearse


ergonmicamente, analizando cada estacin
de trabajo

La ergonoma puede causar daos y


produccin perdida
46
Movimientos
Algunas reglas de la ergonoma incluyen:
Enfatizar la seguridad todas las veces
Adecuar el empelado a la tarea
Cambiar el lugar de trabajo para que se adecue
al empleado
Mantener posiciones neutrales del cuerpo
Redisear las herramientas para reducir
esfuerzo y daos
Variar las tareas con rotacin de puestos
Hacer que la mquina sirva al ser humano

47
Reprocesos
Consiste de pasos adicionales en el proceso de
manufactura, por ejemplo:
Remocin de rebabas
Maquinado de partes mal moldeadas
Agregar procesos de manejo adicionales
Realizar procesos de inspeccin
Repetir cambios al producto innecesarios
Mantener copias adicionales de informacin

48
Transportes
Todo transporte es Muda excepto la entrega al
cliente. Incluye:
Uso de montacargas
Uso de transportadores
Uso de movedores de pallets y camiones

Puede ser causado por:


Deficiente distribucin de planta o de celdas
Tiempos de espera largos, reas grandes de
almacenaje, o problemas de programacin

49
Esperas
Ocurre cuando un operador est listo para
realizar su operacin, pero permanece ocioso,
por falla de mquina, falta de partes, paros de
lnea, etc. El Muda de espera puede ser por:
Operadores ociosos
Fallas de maquinaria
Tiempos de ajuste y preparacin largos
Tareas no programadas a tiempo
Flujo de materiales en lotes
Juntas largas e innecesarias

50
Mudas adicionales
Otros mudas adicionales a los 7 desperdicios
son:
Recursos mal utilizados
Recursos poco utilizados
Actividades de conteo
Bsqueda de herramientas o partes
Sistemas mltiples
Manos mltiples
Aprobaciones innecesarias
Fallas de mquinas
Envo de producto defectivo al cliente o mal
servicio 51
VI.B.3 Regresin lineal
mltiple

52
Regresin mltiple
Cuando se usa ms de una variable independiente para
predecir los valores de una variable dependiente, el
proceso se llama anlisis de regresin mltiple, incluye
el uso de ecuaciones lineales.

Yu 0 1 X u1 2 X u 2 ....... k X uk u

Se asume que los errores u tienen las caractersticas


siguientes:
Tienen media cero y varianza comn 2.

Son estadsticamente independientes.

Estn distribuidos en forma normal.

53
Regresin mltiple
Estimacin de los parmetros del modelo
Se trata de minimizar los errores cuadrticos en:
N
R ( 0 , 1 ,..., k ) (Yu 0 1 X u1 2 X u 2 ..... uk ) 2
u 1

El modelo de regresin mltiple en forma matricial es:


Y = X + = [1 : D] +
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la 1. columna
es 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1,54
2, ......, k
Regresin mltiple
Estimacin de los parmetros del modelo:

b = (XX)-1 XY
El vector de valores ajustados
Y Xb se puede expresar
como:
Y Xb X ( X ' X ) 1 X ' Y Hy

La varianza del modelo se estima como:


n
SSE (Y Y ) e e' e
i
2 2
i
i 1

SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb
SSE
SSE Y ' Y b' X ' Y s 2 MSE
N 55
p
Tamao de muestra
Tomar 5 observaciones para cada una de las
variables independientes, si esta razn es
menor de5 a 1, se tiene el riesgo de
sobreajustar el modelo

Un mejor nivel deseable es tomar 15 a 20


observaciones por cada variable
independiente

56
Ejemplo de regresin
mltiple
Un embotellador est analizando las rutas de servicio de
mquinas dispensadoras, est interesado en predecir la
cantidad de tiempo requerida por el chofer para surtir
las mquinas en el local (Y).

La actividad de servicio incluye llenar la mquina con


refrescos y un mantenimiento menor.

Se tienen como variables el nmero de envases con que


llena la mquina (X1) y la distancia que tiene que
caminar (X2).

57
Ejemplo de regresin
mltiple

58
Ejemplo de regresin mltiple
Solucin matricial

59
Ejemplo de regresin mltiple
Solucin matricial

60
Ejemplo de regresin mltiple
Solucin matricial

61
Ejemplo de regresin mltiple
Solucin matricial
Intervalo de confianza para Beta 1

b1 t.025, 22 se(b1 ) 1 b1 t.025, 22 se(b1 )

1.61591 ( 2.074) (10.6239)(0.00274378) 1 1.6191 ( 2.074)(0.17073)

Por tanto el intervalo de confianza para el 95% es:


1.26181 1 1.97001

62
Ejemplo de regresin mltiple
Solucin matricial
El embotellador desea construir un intervalo de
confianza sobre el tiempo medio de entrega para un
local requiriendo:

X1 = 8 envases y cuya distancia es X2 = 275 pies.


1 2.34123
X0 8 Y0 X ' 0 b 1,8,275 1.61591 19.22minutos

275 0.01438

La varianza de la Y0 estimada es (tomando M8=inv(XX) :


1
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0 10.62391,8,275 M 8 8 10.6239(0.05346) 0.56794

275

63
Ejemplo de regresin mltiple
Solucin matricial
El intervalo de confianza sobre el tiempo medio de
entrega para un local requiriendo es para 95% de nivel
de confianza:
19.22 2.074 0.56794 Y0 19.22 2.074 0.56794

Que se reduce a: 17.66 Y0 20.78

64
Ejemplo de regresin mltiple
Solucin matricial
El anlisis de varianza es:

65
Ejemplo de regresin mltiple
Solucin matricial
El comportamiento de los residuos es como sigue:

66
Multicolinealidad
La multicolinealidad implica una dependencia cercana
entre regresores (columnas de la matriz X ), de tal
forma que si hay una dependencia lineal exacta har
que la matriz XX sea singular.

La presencia de dependencias cercanamente lineales


impactan dramticamente en la habilidad para estimar
los coeficientes de regresin.

La varianza de los coeficientes de la regresin son


inflados debido a la multicolinealidad. Es evidente por
los valores diferentes de cero que no estn en la
diagonal principal de XX. Que son correlaciones
simples entre los regresores.

67
Multicolinealidad
Una prueba fcil de probar si hay multicolinealidad
entre dos variables es que su coeficiente de correlacin
sea mayor a 0.7

Los elementos de la diagonal principal de la matriz XX


se denominan Factores de inflacin de varianza (VIFs) y
se usan como un diagnstico importante de
multicolinealidad. Para el componente j simo se
tiene: 1
VIF j
1 R 2j

Si es mayor a 10 implica que se tienen serios problemas


de multicolinealidad. 68
Anlisis de los residuos
Los residuos graficados vs la Y estimada, pueden
mostrar diferentes patrones indicando adecuacin o no
adecuacin del modelo:

Grfica de residuos aleatorios cuya suma es cero (null


plot) indica modelo adecuado

Grfica de residuos mostrando una no linealidad


curvilnea indica necesidad de transformar las variables

Si los residuos se van abriendo indica que la varianza


muestra heteroestacidad y se requiere transformar las
variables. Se puede probar con la prueba de Levene de
homogeneidad de varianzas 69
Escalamiento de residuos
En algunos casos es difcil hacer comparaciones directas
entre los coeficientes de la regresin debido a que la
magnitud de bj refleja las unidades de medicin del
regresor Xj. Por ejemplo:

Y 5 X 1 1000 X 2

Para facilitarla visualizacin de residuos ante grandes


diferencias en los coeficientes, se sugiere estandarizar o
estudentizar los residuos

70
Escalamiento de residuos
Residuos estandarizados
Se obtienen dividiendo cada residuo entre la
desviacin estndar de los residuos
ei
di ,
MSE

Despus de la estandarizacin, los residuos


tienen una media de 0 y desviacin estndar de
1

Con ms de 50 datos siguen a la distribucin t,


de manera que si exceden a 1.96 (lmite
71 para
Escalamiento de residuos
Residuos estudentizados
Son similares a los residuos donde se elimina una
observacin y se predice su valor, pero adems se
elimina la i-sima observacin en el clculo de la
desviacin estndar usada para estandarizar la -
sima observacin

Puede identificar observaciones que tienen una gran


influencia pero que no son detectadas por los
residuos estandarizados

H = X (XX)-1X es
e la matriz sombrero o hat matriz.
ri i
,
MSE (1 hii ) 72
Escalamiento de residuos
El estadstico PRESS (Prediction Error Sum of Squares)
es una medida similar a la R2 en la regresin. Difiere en
que se estiman n-1 modelos de regresin.

En cada modelo se omite una observacin en la


estimacin del modelo de regresin y entonces se
predice el valor de la observacin omitida con el modelo
estimado. El residuo isimo ser:
e( i ) Yi Y( i )

El residuo PRESS es la suma al cuadrado de los residuos


individuales e indica una medida de la capacidad de
prediccin PRESS
PRESS e( i ) Yi Y( i )
N
2 2
RPr ediccin 1
2

i 1 SYY 73
Grficas parciales de
regresin
Para mostrar el impacto de casos individuales es ms
efectiva la grfica de regresin parcial. Un caso outlier
impacta en la pendiente de la ecuacin de regresin (y
su coeficiente).

Una comparacin visual de la grfica de regresin


parcial con y sin la observacin muestra la influencia de
la observacin

El coeficiente de correlacin parcial es la correlacin de


la variable independiente Xi la variable dependiente Y
cuando se han eliminado de ambos Xi y Y

La correlacin semiparcial refleja la correlacin


74 entre las
Matriz sombrero
Los puntos de influencia son observaciones
substancialmente diferentes de las observaciones
remanentes en una o ms variables independientes

Contiene valores (sombrero en su diagonal) para cada


observacin que representa influencia. Representa los
efectos combinados de todos las variables
independientes para cada caso

75
Matriz sombrero
Los valores en la diagonal de la matriz sombrero miden
dos aspectos:
Para cada observacin miden la distancia de la

observacin al centro de la media de todas las


observaciones de las variables independientes

Valores altos en la diagonal indica que la observacin


tiene mucho peso para la prediccin del valor de la
variable dependiente, minimizando su residuo
El rango de valores es de 0 a 1, con media p/n, p es
el nmero de predictores y n es el tamao de
muestra. Valores lmite se encuentran en 2p/n y 3p/n

76
Distancia de Mahalanobis
D2 es una medida comparable a los valores sombrero
(hat values) que considera slo la distancia de una
observacin del valor medio de las variables
independientes.

Es otra forma de identificar outliers

La significancia estadstica de la distancia de


Malahanobis se puede hacer a partir de tablas del texto:
Barnett, V., Outliers in Statistical Data, 2nd. Edition,

Nueva York, Wiley, 2984

77
Influencia en coeficientes
individuales
El impacto de eliminar una observacin simple en
cada uno de los coeficientes de la regresin
mltiple se muestra con la DFBETA y su versin
estandarizada SDFBETA.

Se sugiere aplicar como lmites 1.0 o 2 para


tamaos de muestra pequeos y n para muestras
medias y grandes

La distancia de Cook (Di) captura el impacto de una


observacin:
La dimensin del cambio en los valores pronosticados

cuando se omite la observacin y la distancia de las


otras observaciones, el lmite es 1 o 4/(n-k-1)
78
Influencia en coeficientes
individuales
La medida COVRATIO estima el efecto de la
observacin en la eficiencia del proceso, en sus
errores estndar de los coeficientes de la
regresin. Considera a todos los coeficientes
colectivamente.

El lmite puede ser establecido en 1 3p/n, los


valores mayores al lmite hacen el proceso ms eficiente y
los menores ms ineficiente

La medida SDFFIT es el grado en que cambian los


valores ajustados o pronosticados cuando el caso se
elimina. El valor lmite es 2*raz((k+1)/(n-k-1))
Ejemplo de regresin
mltiple
Solucin con Excel y Minitab

80
Ejemplo de Regresin Mltiple
Cat. (US News) GMAT Salario Inicial ($) % Aceptacin
Stanford 1 711 82000 7.4
Harvard 2 670 80000 12.8
Penn (Wharton) 3 662 79000 14.7
MIT (Sloan) 4 650 78000 15.1
Chicago 5 680 65000 25.0
Northwestern 6 660 70000 16.0
Columbia 7 660 83000 14.8
Dartmouth 8 670 70000 12.6
Duke 9 646 67500 20.5
Berkeley 10 653 70000 13.3
Virginia 11 660 66000 18.9
Michigan 12 645 65000 28.0
NYU 13 646 70583 20.9
Carnegie Mellon 14 640 67200 30.8
Yale 15 675 65000 23.5
U.N.C. 16 630 60000 19.8
UCLA 17 651 65000 17.5
Texas-Austin 18 630 60000 27.3
Indiana 19 630 61500 44.7
Cornell 20 637 64000 25.4
Rochester 21 630 58500 36.0
Ohio State 22 611 61000 23.2
Emory 23 626 60000 33.0
Purdue 24 603 63700 20.7
Maryland 25 640 53000 18.9
81
nterpretacin de Resultados de Excel- Regresin Multiple
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8749313 R Square 0.76550478
Adjusted R Square 0.732005463 Standard Error 4050.855918 Observations
25
ANOVA
df SS MS F Significance F
Regression 3 1.12E+09 374977790.1 22.851355 8.17E-07
Residual 21 3.45E+08 16409433.67
Total 24 1.47E+09

Coefficients Standard t Stat P-value Lower 95% U pper 95%


Error
Intercept 122481.40 41473.13 2.953271081 0.007589
36233.29 208729.5

X Variable1 -926.873 198.8104 -4.662094325 0.0001336 -1340.32 -


513.424

X Variable2 -59.9488 60.44875 -0.991730876 0.3326192 -185.659


65.76118

X Variable3 -191.7291 125.6138 -1.526337637 0.1418472 -452.957


69.49917
Resultados de Excel- Regresin slo con slo X1
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.855974
R Square 0.732691
Adjusted R Square 0.721069
Standard Error 4132.688
Observations 25

ANOVA
df SS MS F Significance F
Regression 1 1.08E+09 1.08E+09 63.04264 4.88E-08
Residual 23 3.93E+08 17079107
Total 24 1.47E+09

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 79230.32 1703.951 46.49801 2.98E-2475705.43405
82755.20595
X Variable1 -910.077 114.6201 -7.93994 4.88E-08-1147.186411
-672.9674353

Con
Conslo
sloX1,
X1,el
el Modelo
Modelosesesimplifica
simplificaenormemente
enormemente
poca
pocaimportancia
importanciaprctica
prcticase
se pierde
pierdeen
enRR2 (ajustada)
2
(ajustada)
Reduccin del Modelo
Vuelva a correr la regresin usando la categora
US News, como el nico agente de prediccin (predictor)

La ecuacin de regresin es:


y = 79230 - 910 x

Predictor Coef Desv. Estndar T p


Constante 79230 1704 46.50 0.000
x -910.1 114.6 -7.94 0.000

S = 4133 R2 = 73.3% R2 (ajustada) = 72.1%

Anlisis de Variancia

Fuente DF SS MS F p
Regresin 1 1076712008 1076712008 63.04 0.000
Error 23 392819470 17079107
Total 24 1469531477

El
El Modelo
Modelo se
se simplifica
simplifica enormemente..poca
enormemente..poca
importancia
importancia prctica se pierde en R (ajustada)
prctica se pierde en R 22
(ajustada)
Corrida en Minitab
Se introducen los datos en varias columnas C1
a C5 incluyendo la respuesta Y (heatflux) y las
variables predictoras Xs (North, South, East)
HeatFlux Insolation East South North
271.8 783.35 33.53 40.55 16.66
264.0 748.45 36.50 36.19 16.46
238.8 684.45 34.66 37.31 17.66
230.7 827.80 33.13 32.52 17.50
251.6 860.45 35.75 33.71 16.40
257.9 875.15 34.46 34.14 16.28

85
Corrida en Minitab
Utilzar el archivo de ejemplo Exh_regr.mtw
Opcin: Stat > Regression > Regression
Para regresin lineal indicar la columna de
respuesta Y (Score2) y X (Score1)

En Regresin lienal en opciones se puede


poner un valor Xo para predecir la respuesta e
intervalos. Las grficas se obtienen Stat >
Regression > Regression > Fitted line Plots

Para regresin mltiple Y (heatflux) y las


columnas de los predictores (north, south,
east) 86
Resultados de la regresin
lineal
The regression equation is
Score2 = 1.12 + 0.218 Score1
Predictor Coef SE Coef T P
Constant 1.1177 0.1093 10.23 0.000
Score1 0.21767 0.01740 12.51 0.000
S = 0.1274 R-Sq = 95.7% R-Sq(adj) = 95.1%
Analysis of Variance
Source DF SS MS F P
Regression 1 2.5419 2.5419 156.56 0.000
Residual Error 7 0.1136 0.0162
Total 8 2.6556
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 2.6414 0.0474 ( 2.5292, 2.7536) ( 2.3197, 2.9631)

New Obs Score1


1 7.00
87
Resultados de la regresin
lineal
Regression Plot
Score2 = 1.11771 + 0.217670 Score1

S = 0.127419 R-Sq = 95.7 % R-Sq(adj) = 95.1 %

3.5
Score2

2.5

Regression
1.5 95% CI
95% PI

2 3 4 5 6 7 8 9

Score1

88
Resultados de la regresin
Mltiple
The regression equation is
HeatFlux = 389 - 24.1 North + 5.32 South + 2.12 East
Predictor Coef SE Coef T P
Constant 389.17 66.09 5.89 0.000
North -24.132 1.869 -12.92 0.000
South 5.3185 0.9629 5.52 0.000
East 2.125 1.214 1.75 0.092
S = 8.598 R-Sq = 87.4% R-Sq(adj) = 85.9%
Analysis of Variance
Source DF SS MS F P
Regression 3 12833.9 4278.0 57.87 0.000
Residual Error 25 1848.1 73.9
Total 28 14681.9
Source DF Seq SS
North 1 10578.7
South 1 2028.9
East 1 226.3
89
Resumen de la Regresin
La regresin slo puede utilizarse con informacin de variables
continuas.

Los residuos deben distribuirse normalmente con media cero.

Importancia prctica: (R2). Importancia estadstica: (valores p)

La regresin puede usarse con un predictor X o ms,


para una respuesta dada

Reduzca el modelo de regresin cuando sea posible,


sin perder mucha importancia prctica

90
VI.B.4 Herramientas
multivariadas

91
Herramientas multivariadas
1. Introduccin

2. Anlisis de componentes principales

3. Anlisis factorial

4. Anlisis discriminante

5. MANOVA

92
Introduccin
En el anlisis multivariado se incluyen dos o
ms variables dependientes Y1, Y2, etc.
Consideradas simultneamente para las
variables independientes X1, X2, ., Xn

Normalmente se resuelven con herramientas


computacionales tales como Minitab y SPSS.

Entre las herramientas principales se


encuentran:
Componentes principales, anlisis factorial,
anlisis discriminante, anlisis de
conglomerados, anlisis cannico, 93MANOVA
Anlisis de componentes
principales
El anlisis (PCA) y el anlisis factorial (FA) se
usan para encontrar patrones de correlacin
entre muchas variables posibles y
subconjuntos de datos

Busca reducirlas a un menor nmero de


componentes o factores que representen la
mayor parte de la varianza.

Normalmente se requieren al menos 100


observaciones y cinco observaciones por
variable 94
Anlisis de componentes
principales
Pasos de anlisis en Minitab
Se usa una matriz de correlacin para
determinar la relacin entre componentes
Las matrices definen cantidades como
eigenvalores y eigenvectores
Se suman los eigenvalores y se calculan las
proporciones de cada componente
Se identifican los PC1, PC2, que explican la
mayor parte de la varianza
Se puede hacer un diagrama de Pareto como
apoyo

95
Ejemplo: Alimentos en
Europa

96
Corrida en Minitab
2Stat > Multivariate > Principal components
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9

4En Number of factors to extract, 3. Seleccionar


Correlation Matrix
5Click Graphs y seleccionar Scree Plot, Score plot
for first 2 components Loading plot for first 2
components

8 Click Storage e indicar las columnas donde se


guarden los coeficientes y los valores Z (scores) Coef1
Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de dilogo

97
Ejemplo: Alimentos en
Europa

Dos componentes exceden


El eigenvalor de ref. de 1

98
Ejemplo: Alimentos en
Europa

99
Ejemplo: factores principales para
crecimiento tecnolgico en la
comunidad
Factores independientes
Miles de trabajadores en alta tecnologa
Cultura emprendedora (inicios por ao)
Interacciones con la universidad (proyectos por
ao)
Clases de creatividad (porcentaje de
profesionales)
Cantidad de capital de aventura (millones de
dlares)

100
Matriz de correlacin del
ejemplo

101
Resultados
La suma de los eigenvalores es aprox. cinco

La proporcin de la varianza explicada por el


componente 1 es de 71.7%

PC1 y PC2 explican el 89.2% de la varianza,


por tanto son los componentes principales

102
Anlisis factorial
Es una tcnica de reduccin de variables para
identificar factores que expliquen la variacin,
aunque se reiere un juicio subjetivo.

Las variables de salida estn relacionadas


linealmente con las variables de entrada.

Las variables deben ser medibles y simtricas.


Debe haber cuatro o ms factores de entrada
para cada variable independiente

103
Anlisis factorial
Se especifican un cierto nmero de factores
comunes

El anlisis factorial se hace en dos etapas:


Extraccin de factores, para identificar los
factores principales para un estudio posterior
Rotacin de factores, para hacerlos ms
significativos

104
Corrida con Minitab
2Stat > Multivariate > Factor Analysis.
3En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4En Number of factors to extract, 4.
En Method of Extraction, seleccionar Principal
components
6En Type of Rotation, seleccionar Varimax.
7Click Graphs y seleccionar Loading plot for first 2
factors y Scree Plot.
Click Results y seleccionar Sort loadings.
Seleccionar Storage e indicar columnas para
ponderaciones, coeficientes, Zs, eigenvalores, etc.
Click OK en cada uno de los cuadros de d

105
Ejemplo

106
Ejemplo:

107
Anlisis discriminante
Si se tiene una muestra con grupos conocidos,
el anlisis discriminante clasifica las
observaciones o atributos en dos o ms grupos

Puede utilizarse como herramienta predictiva o


descriptiva

Las variables deben ser multivariadamente


normales, con la misma varianza y covarianza
poblacional entre variables dependientes, y las
muestras exhiben independencia

108
pases

109
Corrida con Minitab
2Stat > Multivariate > Discriminant
Analysis.

3En Groups, poner SalmonOrigin.

4 En Predictors, poner Freshwater Marine.


Click OK.

110
Corrida con Minitab

111
Anlisis de conglomerados

112
Anlisis de conglomerados
Se usa para determinar agrupaciones o
clasificaciones de un conjunto de datos

Las personas se pueden agrupar por IQ,


padres, hbitos de estudio, etc.

Se trata de dar sentido a grandes cantidades


de datos de cuestionarios, ecnuestas, etc.

113
Ejemplo
Suponer que un estudio Variables V1 V2
de mercado trata de
determinar segmentos A 3 2
de mercado en base a los B 4 5
patrones de lealtad de
marcas (V1) y tiendas C 4 7
(V2), medidas del 0 al 10
en 7 personas (A-G). D 2 7

E 6 6

F 7 7

G 6 4

114
Corrida en Minitab
Stat > Multivariate Anlisis > Cluster
Observations
Distance Measured Euclidean Seleccionar
Show Dendogram OK

115
Anlisis de correlacin
cannico
Prueba la hiptesis de que los efectos pueden
tener causas mltiples y de que las causas
pueden tener efectos mltiples (Hotelling
1935)

Es como una regresin mltiple para


determinar la correlacin entre dos conjuntos
de combinaciones lineales, cada conjunto
puede tener varias variables relacionadas.
La relacin de un conjunto de variables
dependientes a un conjunto de variables
independientes forma combinaciones lineales
116
Anlisis de correlacin
cannico
Se usan los ms altos valores de correlacin
para los conjuntos. Los pares de
combinaciones lineales se denominan variates
cannicas con correlaciones cannicas (Rc con
valor mayor a 0.3)

Por ejemplo se quiere determinar si hay una


correlacin entre las caractersticas de un
ingeniero industrial y las habilidades
requeridas en la descripcin de puesto del
mismo ingeniero.
117
coches

118
coches

119
coches

120
coches

121
Ejemplo: Statgraphics -
coches

La primera correlacin de 0.94 tiene correlaciones


cannicas asociadas:

U1 = 0.262 Engine Size + 0.127 Horsepower +


0.024 Length + 0.041 Wheelbase - 0.068 Width +
0.004 Rear Seat + 0.658 Weight

V1 = 0.257 Mid Price 0.097 * GPM Highway +


0.652 GPM City + 0.322 U Turn Space

Las variables estn estandarizadas. Parece haber


una relacin primaria entre peso del vehculo y las
millas por galn de rendimiento. 122
MANOVA
(Anlisis de varianza mltiple)
Es un modelo para analizar la relacin entre
una o ms variables independientes y dos o
ms variables dependientes

Prueba si hay diferencias significativas en las


medias de grupos de una combinancin de
respuestas Y.

Los datos deben ser normales, con covarianza


homogenea y observaciones independientes

123
MANOVA
(Anlisis de varianza mltiple)

124
Diferencias de ANOVA y MANOVA

125
Ejemplo:
Extrusin de pelcula plstica
Se realiza un estudio para determinar las
condiciones ptimas para extruir pelcula
plstica.

Se miden tres respuestas Tear, gloss y


opacity cinco veces en cada combinacin de
dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos
y altos.

Se utiliza el MANOVA balanceado para probar


la igualdad de las medias. 126
Ejemplo:
Extrusin de pelcula plstica

127
Ejemplo:
Extrusin de pelcula plstica
1Abrir el archivo EXH_MVAR.MTW.
2Seleccionar Stat > ANOVA > Balanced
MANOVA.
3En Responses, poner Tear Gloss Opacity.
4En Model, poner Extrusion | Additive.
5Click Results. En Display of Results,
seleccionar Matrices (hypothesis, error,
partial correlations) y Eigen analysis.
6 Click OK en cada cuadro de dilogo.

128
Ejemplo

129
Ejemplo:
Extrusin de pelcula plstica
Las matrices SSCP evalan la contribucin a la
variabilidad de manera similar a la suma de
cuadrados en la ANOVA univariada.

Las correlaciones parciales entre Tear y Gloss son


pequeas. Como la estructura de las
correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una
de las respuestas.

130
VI.B.5 Anlisis de datos
por atributos

131
Anlisis de datos por
atributos
Si los CTQs son variables continuas, se usa la
regresin, dependiendo de la naturaleza de la
caracterstica crtica para el cliente (CTSs)
como ste la expresa:

CTS HERRAMIENTA
Nominal (Verde, Rojo, azul) Regresin Logstica
Nominal
Atributo (Pasa/No pasa) Regresin Logstica
Binaria
Ordinal (1, 2, 3, 4, 5) Regresin Logstica
Ordinal
132
Anlisis de datos por
atributos
El anlisis de datos por atributos se organiza
en valores, categoras o grupos dicotmicos

Las decisiones incluyen: si / no, pasa / no pasa,


bueno / malo,
pobre/justo/bueno/superior/excelente, etc.

Entre los modelos no lineales de regresin


usados se tienen: regresin logstica, regresin
logit y regresin probit

133
Anlisis de datos por
atributos
Regresin logstica
Relaciona variables independientes categricas
a una variable dependiente (Y). Minitab incluye
los modelos binario, ordinal y nominal

Regresin logit
Es subconjunto del modelo log-lineal. Tiene solo
una variable dependiente, usa determinaciones
de probabilidad o tasa de probabilidad

134
Anlisis de datos por
atributos
Regresin probit
Es similar a la prueba de vida acelerada, la
unidad se somete a esfuerzo con la respuesta
pasa/falla, bueno o malo. Es una respuesta
binaria en un tiempo de falla futuro

135
Regresin logstica o binaria
En caso de informacin cualitativa es
necesario traducir las preferencias del cliente
expresadas como atributos a un intervalo de
valores aceptables de variables
(Especificaciones).

136
Regresin logstica o binaria
Es similar a la regresin mltiple excepto que
la respuesta es binaria (si/no, bueno/malo,
etc.) Sus coeficientes se determinan por el
mtodo de mxima verosimilitud

Su funcin tiene forma de S, con valores


mximos de Cero y Uno.

Yi = 0, 1

137
Regresin logstica o binaria
La probabilidad de que el resultado est en
cierta categora es:

El mtodo de clculo del coeficiente b es


diferente que en la regresin lineal

Los coeficientes se determinan con la relacin


sig.:

138
Regresin logstica
Condiciones:
Hay solo dos resultados posibles
Hay solo un resultado por evento
Los resultados son independientes
estadsticamente
Todos los predictores relevantes estn en el
modelo
Es mutuamente exclusivo y colectivamente
exhaustivo
Los tamaos de muestra son mayores que para
la regresin mltiple

Los efectos positivos se obtienen con


139b1>1 y
Regresin logstica
Relacin con ajuste pobre

Relacin con buen ajuste

140
Regresin logstica -
Procedimiento
Definir el atributo a traducir (y)
Definir la variable apropiada para el atributo
(x)
Definir el modelo matemtico a probar
Determinar los defectos que est dispuesto a
aceptar
Recolecte informacin de x vs y. Asigne 1
si falla y 0 si es aceptable.
Analice la informacin mediante Regresin
Logstica Binaria

141
Regresin logstica-
Procedimiento

142
Regresin logstica -
Procedimiento

Coeficientes del modelo

P-Value de Deviance

Observe el P-Value de Deviance en la


Sesin, debe de ser grande (P >0.10)
Obtenga los coeficientes del modelo (De la
Sesin)
143
Regresin logstica -
Procedimiento
Construya el modelo de regresin para la
probabilidad de falla estar dado por :

P(Falla) =
e
b +b x +....
0 1 1

Donde :
1 +e
b +b x +....
0
b , b , ... = Coeficientes del modelo
1 1
0 1

Identifique el(los) valor(es) de x que le


generarn como mximo la cantidad de
defectos que usted est dispuesto a aceptar
[4]

144
Ejemplo de riesgo de paro
cardiaco

Para Fuma, el coeficiente negativo de -1.193 y la tasa


de posibilidades de 0.30, indica que quien fuma, tiende
a tener una tasa de pulso ms alta que los sujetos que
no fuman. Si los sujetos tienen el mismo peso, las
posibilidades de que los fumadores tengan un pulso
bajo sea slo del 30% de las posibilidades de que los no
fumadores tengan un pulso bajo. 145
Regresin logstica ordinal
Cuando la respuesta CTS es de tipo ordinal
(Varias categoras de respuesta como
totalmente de acuerdo, de acuerdo, en
desacuerdo y totalmente en desacuerdo) y
el Factor CTQ es de naturaleza continua,
entonces, para definir Especificaciones, la
herramienta a utilizar es la Regresin
Logstica Ordinal.

146
Regresin logstica ordinal -
Procedimiento
Defina la variable de respuesta a traducir
(y CTS)
Defina el CTQ (x) variable a relacionar con
el CTS
Defina el modelo matemtico a probar
Determine los defectos que est dispuesto a
aceptar en la categora de inters
Recolecte informacin de x vs y
Analice la informacin mediante Regresin
Logstica Ordinal

147
Regresin logstica ordinal -
Procedimiento
Stat > Regression > Ordinal Logistic
Regression
Seleccione la respuesta (y)
Seleccione los trminos que estima tiene el
modelo [3]
Constantes y
Coeficientes
del modelo

148
Regresin logstica ordinal -
Procedimiento
Observe el P-Value de Deviance en la
Sesin, debe de ser grande (P >0.10)

Obtenga las constantes y coeficientes del


modelo (De la Sesin)

Construya los modelos de regresin para la


probabilidad acumulada por categora

149
Regresin logstica ordinal -
Procedimiento

P =
e Ki+b1x1+ b2x2.... Donde :
Ki = Constante de la categora i
acumulada hasta
categora i 1+ e Ki+b1x1+ b2x2.... b1, b2, ... = Coeficientes del modelo

Constantes y
Coeficientes
del modelo

Identifique el(los) valor(es) de x que le generarn como mximo la


cantidad de defectos que usted est dispuesto a aceptar en la
categora de inters [4]
150
Regresin logstica ordinal -
Procedimiento
Una vez que se tienen establecidos los CTQs
con los que se medir el desempeo del
producto, es necesario indicar las
Especificaciones de los mismos
Parmetros

Expectativas
de Diseo

Matriz de

Importan.
CTQs
Diseo

Producto

(CTSs)
(DPs)

Tipo
(General) Especificaciones Clientes
LIE LSE Otra
Usuarios
Finales

Producto
(Especfico)

151
Anlisis Logit
Usa razones para determinar que tanta
posibilidad tiene una observacin de pernecer
a un grupo que a otro.
Una posibilidad de 0.8 de estar en el grupo A
se puede expresar como una tasa de
posibilidades de 4:1 ( que es p/(1-p)), cuyo
logaritmo es el logit.

La probabilidad para un valor L est dado por


la ecuacin

152
Anlisis Logit - ejemplo
50 estudiantes tomaron un examen, donde solo 27
pasaron. Cules son las posibilidades de pasar?
Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1

Un estudiante que estudia 80 horas tiene un 54.5% de


pasar, cules son las posibilidades?
Posibilidades = 0.545/(1-0.545) = 1.198 o 1.198:1

Logit = ln(p/(1-p)) = ln(1.189) = 0.1809 y despejando al


Exp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a
otro nivel

153
Anlisis Probit
Es similar a las pruebas de vida acelerada y
anlisis de sobrevivencia. Un artculo sujeto a
esfuerzo puede fallar o sobrevivir. El modelo
probit tiene un valor esperado de 0 y una
varianza de 1.

Requiere tamaos de muestra muy grandes


para diferenciarse del modelo logit

Los coeficientes b del modelo logit difieren del


probit en 1.814 con: bl = -1.1814154bp
VI.C.7 Pruebas de bondad
de ajuste

155


i
(OE
)
Bondad de ajuste
PRUEBAS DE BONDAD DE AJUSTE

Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma

2iK
2
de distribucin particular planteada como hiptesis
Si el ajuste es razonablemente cercano, puede concluirse que s exite la forma de distribucin

1
planteada como hiptesis

Por ejemplo:

Ho: La distribucin poblacional es uniforme


Ha: La distribucin poblacional no es uniforme

Se usa el estadstico Chi-Cuadrado

Oi = Frecuencia de los eventos observados en los datos muestrales

Ei = Frecuencia de los eventos esperados si la hiptesis nula es correcta


Para que la prueba sea confiable Ei >= 5. De otra forma se combinan las categorias para
cumplir con este requisito.
K = Nmero de categoras o clases
156
Bondad de ajuste
Ejemplo:

Se venden n = 48 botes en 4 meses. Si la demanda es uniforme se esperara que se vendieran


12 botes / mes. La cantidad real que se vendi fue:

Ventas (Oi) Ventas (Ei)


Tipo de bote observadas esperadas
A 15 12
B 11 12
C 10 12
D 12 12
DISTR.CHI

Entonces el estadstico Chi Cuadrado de la muestra es = 1.17 el valor P corresp.= 0.76020818

El Chi Cuadrado de excel se determina con alfa = 0.05 y K - 1 grados de libetad = 3

Chi cuadrado de excel = 7.815

El estadstico Chi cuadrado calculado de 1.17 es menor al de excel de 7.815 por tanto se acepta
la hiptesis nula

PRUEBA.CHI.INV 157
Prueba de Bondad de ajuste
para la distribucin de Poisson
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. De
Poisson
Ha: Caso contrario
2. Tomar una muestra aleatoria, anotar la frecuencia
observada fi y calcular la media de ocurrencias
3. Calcular la frecuencia esperada de ocurrencias ei.
Multiplicar el tamao de muestra con la prob. de Poisson
para cada valor de la variable aleatoria.
n Si hay menos
( f i ei ) 2
de 5 combinar las categoras
2

i 1 i e

4. Calcular el estadstico
2 2 de prueba

5. Rechazar Ho si 158 y alfa


o si p < alfa. Con gl=k-p-1
Ejemplo:
Distribucin de Poisson =5
Ho: No. de clientes que llega en intervalos de 5 min. tiene una
distribucin de Poisson Ha: No se sigue una distribucin de
Poisson
Clientes Frec. observada f(x) de Poisson 128*f(x)
cantidad
esperada
0 2 0.0067 0.8576
1 8 0.0337 4.3136
2 10 0.0842 10.7776
3 12 0.1404 17.9712
4 18 0.1755 22.4640
5 22 0.1755 22.4640
6 22 0.1462 18.7136
7 16 0.1044 13.3662
8 12 0.0653 8.3584
9 6 0.0363 4.6464
10 o ms 0.0318 1594.0704
Ejemplo:
Distribucin de Poisson =5
Combinando X=0,1 y X=9, 10 o ms para que la frecuencia
observada sea mayor a 5 y se pueda aplicar la distribucin Chi
Cuadrada se tiene
Clientes Frec. Observada f(x) de Poisson 128*f(x)
(fi) frecuencia
esperada (ei)
0o1 10 0.0067+0.0337 5.1712
2 10 0.0842 10.7776
3 12 0.1404 17.9712
4 18 0.1755 22.4640
5 22 0.1755 22.4640
6 22 0.1462 18.7136
7 16 0.1044 13.3662
8 12 0.0653 8.3584
9 o ms 6 0.0363+0.0318 8.7168
160
Estadstico y conclusin
Con los datos anteriores se calcula el estadstico Chi
cuadrada que se compara con Chi Cuadrada de alfa
para k-p-1 grados de libertad (K categoras: 9, p
parmetros a estimar: 1 media).
( f i ei ) 2
n

2

i 1 ei

2 2
Ho se rechaza si o si p es mayor que alfa.

El valor de Chi Cuadrada calculado es de 10.9766 y el


valor Chi Cuadrada de alfa 0.05 con 2 gl. Es de 14.07 no
se rechaza Ho
En este caso p = 0.14 > 0.05 por tanto no se 161
rechaza Ho y
Prueba de Bondad de ajuste
para la distribucin Normal
1. Plantear la hiptesis nula y alterna
Ho: La poblacin tiene una distribucin de prob. Normal
Ha: Caso contrario

2. Tomar una muestra aleatoria, calcular la media y la


desviacin estndar

3. Definir K intervalos de valores de forma que la


frecuencia esperada sea 5 cuando menos para cada uno
(intervalos de igual probabilidad). Anotar la frecuencia
observada de los valores de datos fi, en cada intervalo

162
Prueba de Bondad de ajuste
para la distribucin Normal
4. Calcular el nmero de ocurrencias esperado ei, para
cada intervalo de valores. Multiplicar el tamao de
muestra por la probabilidad de que una variable
aleatoria est en el intervalo.
n
( f i ei ) 2
2

i 1 ei
5. Calcular el estadstico de prueba
2 2
6. Rechazar Ho si o si p < alfa. Con gl=k-p-1 y alfa
nivel de significancia

163
Prueba de Bondad de ajuste
para la distribucin Normal
Ejemplo: datos de calificaciones: Media = 68.42; S =
10.41
Calificaciones
71 66 61 65 54 93
60 86 70 70 73 73
55 63 56 62 76 54
82 79 76 68 53 58
85 80 56 61 61 64
65 62 90 69 76 79
77 54 64 74 65 65
61 56 63 80 56 71
79 84 164
Prueba de Bondad de ajuste
para la distribucin Normal
Ho: la poblacin tiene una distribucin normal con media
68.42 y S=10.41 Ha: Caso contrario

Para una muestra de 50 con una frecuencia mnima


esperada de 5 se tiene el 10% al menos por cada celda

La primera celda correspondiente al 10% est en Z =


-1.28 con
X = (Media - Z*S) = 55.10

Para el rea del 20%, Z = -0.84 y X = 59.68


y as sucesivamente

165
Prueba de Bondad de ajuste
para la distribucin Normal
Intervalo Frecuencia Frecuencia Se registran las
observada esperada
frecuencias de
(fi) (ei)
los datos
Menos de 5 5 tomados de las
55.10
calificaciones
55.10 a 5 5
59.68
59.68 a 9 5
63.01
63.01 a 6 5
65.82
65.82 a 2 5
68.42
68.42 a 5 5
71.02
166
71.02 a 2 5
Prueba de Bondad de ajuste
para la distribucin Normal
Se determina el estadstico Chi Cuadrado = 7.2

( f i ei ) 2
n

2

i 1 ei

El Valor de Chi Cuadrado de alfa = 0.10 para k p 1


grados de libertad. K = 10 categoras, p = 2
parmetros. Gl = 7. Chi Cuadrado es 12.017

Como 2 2 no se puede rechazar la hiptesis nula de


normalidad de las calificaciones

167
Prueba de Bondad de ajuste
para la distribucin Multinomial
1. Enunciar la hiptesis nula y alternativa
Ho: La poblacin sigue una distribucin de probabilidad
multinomial con probabilidades especificadas para cada
una de las K categoras Ha: Caso contrario

2. Tomar una muestra aleatoria y anotar las frecuencias


observadas fi para cada categora

3. Suponiendo que Ho es cierta, determinar la frecuencia


esperada ei, en cada categora multiplicando la
probabilidad de la categora por el tamao de muestra

168
Prueba de Bondad de ajuste
para la distribucin Multinomial
4. Se determina el estadstico Chi Cuadrado de prueba

( f i ei ) 2
n

2

i 1 ei
5. Regla de rechazo:

Si 2
2
no se puede rechazar la hiptesis nula

Rechazar si el valor p es menor a alfa

Con alfa nivel de significancia y los grados de libertad son


k-1
169
Prueba de Bondad de ajuste
para la distribucin Multinomial
Ejemplo: El ao pasado la participacin de mercado para
la empresa A fue del 30%, 50% para la empresa B y
20% para la empresa C. La empresa C hace una prueba
con un nuevo producto para estimar su impacto en las
preferencias del mercado.

Se tom una muestra de 200 clientes resultando


preferencias de compra de: 48 para A, 98 para B y 54
para C.

De acuerdo a las probabilidades esperadas, en los 200


clientes las preferencias esperadas son:
A=200*0.3=60, B=200*0.5=100, C=200*0.2=40
170
Prueba de Bondad de ajuste
para la distribucin Multinomial
Datos para calcular el estadstico de prueba Chi Cuadrado

Categora Proporcin Frecuencia Frecuencia


hipottica observada esperada

Empresa A 0.3 48 60

Empresa B 0.5 98 100

Empresa C 0.2 54 40

171
Prueba de Bondad de ajuste
para la distribucin Multinomial
Chi Cuadrado calculado = 7.34

Chi cuadrado de alfa = 0.05 con k 1 = 2 grados de


libertad = 2 es de 5.99. El valor p correspondiente es
de 0.025.

Como 7.34 es mayor a 5.99 o el valor p de 0.025 es menor


a alfa de 0.05 se rechaza la hiptesis nula Ho y se
concluye que el nuevo producto modificar las
preferencias del mercado actuales

La participacin de la empresa C aumenta con el nuevo


producto
172
Prueba de Bondad
de ajuste en Minitab
La columna C1 Observadas contiene las frecuencias
observadas y la C2 esperadas las frecuencias
esperadas

Calc > Calculator > Store result in variable ChiCuadrada


Teclear en el cuadro de expresin sum((Observadas-
Esperadas)**2/Esperadas)

Calc > Probability distributions > Chi Square


Seleccionar Cummulative probability
Degrees of freedom 2
Input column ChiCuadrada; Optional Storage CumProb
OK
Calc > Calculator > Store results in variable p
173
Prueba de Bondad
de ajuste en Minitab
Ejemplo: investigacin de mercado

Observadas Esperadas ChiCuadrada CumProb p


48 60 7.34 0.974524 0.0254765
98 100
54 40

174
Prueba de Bondad
de ajuste en Excel
Ejemplo: investigacin de mercado

1. Calcular el estadstico Chi Cuadrada con =(A2-B2)^2/B2


y Suma
Chi cuadrada = 7.34
2. El valor P es =distr.chi(7.34, 2)

3. El estadstico Chi Cuadrada de alfa es:


=prueba.chi.inv(0.05,2) = 5.99

4. Como p es menor a alfa de 0.05 se rechaza la Ho

175
VI.C.8 Tablas de contingencia

Prueba Chi2 (2)

176
Para qu se utiliza?

1. Para probar si una serie de datos


observada, concuerda con el modelo (serie
esperada) de la informacin.

2. Para probar las diferencias entre las


proporciones de varios grupos (tabla de
contingencia).
Para todos los casos, Ho: No hay diferencia
Ha: Hay diferencia

2
177
Ejemplo 1: Chi Cuadrada(
2
)
Se lanza una moneda al aire 100 veces y
que obtenemos 63 guilas y 37 soles.

La proporcin de guilas y soles sucede


por casualidad? O, se concluye que la
moneda est cargada?

Ho: La moneda es buena

Ha: La moneda est cargada


178
Ejemplo 1: Chi Cuadrada( 2
)

Observada Esperada (fo - fe)2


( fo ) ( fe ) fe

Aguilas 63 50 3.38
Soles 37 50 3.38
2 = 3.38 + 3.38
2 = 6.76

Estadstico Chi Cuadrada


g (fo - fe)2
c=
2

j=1
fe

179
Ejemplo 1: Chi cuadrada
Funcin de Distribucin Acumulada Chi2 con 1 grado de
libertad (d.f)
2c P(2c > x)
6.7600 p = 1 - 0.9907 = 0.0093

De tablas X2Crtica, (0.05, 1) = 3.8414

Ho: La moneda es buena.


Ha: La moneda est cargada.

Para un 95% de confianza antes de concluir que la moneda est


cargada, se requiere que X2c > X2Crtica o que el valor de p sea
0.05.

Como p 0.05, se puede concluir -con un 95% de confianza -


que la moneda est cargada.
180
Clculo en Excel del estadstico Chi cuadrada

1. Posicionarse en una celda vaca

2. Accesar el men de funciones con Fx

3. Seleccionar STATISTICAL o ESTADSTICAS, CHIINV.

4. Dar valores de probabilidad (0.05) y grados de libertad,


normalmente (n - 1) para un parmetro o (# de renglones -1)
* (# de columnas - 1) para el caso de tablas de proporciones.

181
Tabla de Valores Crticos Seleccionados de Chi2
df .250 .100 .050 .025 .010 .005 .001
1 1.323 2.706 3.841 5.024 6.635 7.879 10.828
2 2.773 4.605 5.991 7.378 9.210 10.597 13.816
3 4.108 6.251 7.815 9.348 11.345 12.838 16.266
4 5.385 7.779 9.488 11.143 13.277 14.860 18.467
5 6.626 9.236 11.070 12.832 15.086 16.750 20.515

6 7.841 10.645 12.592 14.449 16.812 18.548 22.458


7 9.037 12.017 14.067 16.013 18.475 20.278 24.322
8 10.219 13.362 15.507 17.535 20.090 21.955 26.125
9 11.389 14.684 16.919 19.023 21.666 23.589 27.877
10 12.549 15.987 18.307 20.483 23.209 25.188 29.588

11 13.701 17.275 19.675 21.920 24.725 26.757 31.264


12 14.845 18.549 21.026 23.337 26.217 28.300 32.909
13 15.984 19.812 22.362 24.736 27.688 29.819 34.528
14 17.117 21.064 23.685 26.119 29.141 31.319 36.123
15 18.245 22.307 24.996 27.488 30.578 32.801 37.697

16 19.369 23.542 26.296 28.845 32.000 34.267 39.252


17 20.489 24.769 27.587 30.191 33.409 35.718 40.790
18 21.605 25.989 28.869 31.526 34.805 37.156 43.312
19 22.718 27.204 30.144 32.852 36.191 38.582 43.820
20 23.828 28.412 31.410 34.170 37.566 39.997 45.315

21 24.935 29.615 32.671 35.479 38.932 41.401 46.797


22 26.039 30.813 33.924 36.781 40.289 42.796 48.268
23 27.141 32.007 35.172 38.076 41.638 44.181 49.728
24 28.241 33.196 36.415 39.364 42.980 45.558 51.179
25 29.339 34.382 37.652 40.646 44.314 46.928 52.620

26 30.434 35.563 38.885 41.923 45.642 48.290 54.052


27 31.528 36.741 40.113 43.194 46.963 49.645 55.476
28 32.620 37.916 41.337 44.461 48.278 50.993 56.892
29 33.711 39.087 42.557 45.722 49.588 52.336 58.302
30 34.800 40.256 43.773 46.979 50.892 53.672 59.703

40 45.616 51.805 55.758 59.342 63.691 66.766 73.402


50 56.334 63.167 67.505 71.420 76.154 79.490 86.661
60 66.981 74.397 79.082 83.298 88.379 91.952 99.607

70 77.577 85.527 90.531 95.023 100.425 104.215 112.317


80 88.130 96.578 101.879 106.629 112.329 116.321 124.839
90 98.650 107.565 113.145 118.136 124.116 128.299 137.208

182
100 109.141 118.498 124.342 129.561 135.807 140.169 149.449
Tabla de contingencia
Una tabla de clasificacin de dos vas (filas y columnas)
que contiene frecuencias originales, se puede analizar
para determinar si las dos variables (clasificaciones) son
independientes o tienen una asociacin significativa.

La prueba Chi Cuadrada probar si hay dependencia


entre las dos clasificaciones.

Adems se puede calcular el coeficiente de


contingencia (correlacin) que en todo caso muestra la
fuerza de la dependencia

183
Tabla de contingencia
Para esta prueba se usa la prueba Chi Cuadrada donde:

Entre mayor sea su valor, mayor ser la diferencia de la


discrepancia entre frecuencias observadas y tericas.
Esta prueba es similar a la de bondad de ajuste.

184
Tabla de contingencia
Ejemplo: Cada una de las 15 celdas hace una
contribucin al estadstico Chi Cuadrado (una celda)

Asumiendo Alfa = 0.1 y Gl= (reng 1)*(Col 1) = 4*2 =


8 Chi-Cuadrado de alfa = 20.09
Como Chi Cuadrada calculada >> Chi C. Alfa, se
rechaza Ho de igualdad de resultados entre negocios

185
Ejemplo 2: Chi2 Para comparacin de
dos grupos; son las mismas
proporciones?)
Ho: No existen diferencias en los ndices de defectos de las dos mquinas.
Ha: Existen diferencias en los ndices de defectos de las dos mquinas.

Los valores observados (fo) son los siguientes:

Partes buenas Partes defectuosas

mquina 1 fo = 517 fo = 17 Total = 534

mquina 2 fo = 234 fo = 11 Total = 245


779
Total 751 28

El ndice de defectos totales es 28 / 779 = 3.6%

186
Ejemplo 2: Chi2 Para comparacin de
dos grupos; son las mismas
proporciones?)
Clculo de los valores esperados

Partes buenas Partes defectuosas

mquina 1 fo = 751*534/779 fo = 28*534/779 Total = 534

mquina 2 fo = 751*245/779 fo = 28*245/779 Total = 245


779
Basados en este ndice, los valores esperados (fe) seran:
Partes Partes defectuosas
buenas
mquina 1 530.53 3.47

mquina 2 233.47 1.53


187
Prueba de chi cuadrada:
Los conteos esperados estn debajo de los conteos observados
Partes buenas Partes Defectuosas Total
1 532 2 534
530.53 3.47

2 232 3 235
233.47 1.53
Total 764 5 769

Chi2 = 0.004 + 0.624 + 0.009 + 1.418 = 2.056


DF= 1; valor de p = 0.152

2 celdas con conteos esperados menores a 5.0

Nota: Chi cuadrada no podr aplicarse en los casos donde los conteos seas menores a 5 en 20%
de celdas.
Si cualquiera de los conteos esperados en las celdas es menor a uno, no deber usarse Chi 2.

Si algunas celdas tienen un conteo menor a los esperados, ya sea combinando u omitiendo
renglones y/o columnas, las categoras pueden ser de utilidad.
188
Tabla de Chi2
Tabla de valores crticos seleccionados para Chi2

DF .250 .100 .050 .025 .010 .005 .001


1 1.323 2.706 3.841 5.024 6.635 7.879 10.828
2 2.773 4.605 5.991
. 7.378 9.210 10.597 13.816
3 4.108 6.251 7.815 9.348 11.345 12.838 16.266
4 5.385 7.779 9.488 11.143 13.277 14.860 18.467
5 6.626 9.236 11.070 12.832 15.086 16.750 20.515

6 7.841 10.645 12.592 14.449 16.812 18.548 22.458


7 9.037 12.017 14.067 16.013 18.475 20.278 24.322
8 10.219 13.362 15.507 17.535 20.090 21.955 26.125
9 11.389 14.684 16.919 19.023 21.666 23.589 27.877
10 12.549 15.987 18.307 20.483 23.209 25.188 29.588

11 13.701 17.275 19.675 21.920 24.725 26.757 31.264


12 14.845 18.549 21.026 23.337 26.217 28.300 32.909
13 15.984 19.812 22.362 24.736 27.688 29.819 34.528
14 17.117 21.064 23.685 26.119 29.141 31.319 36.123
15 18.245 22.307 24.996 27.488 30.578 32.801 37.697

16 19.369 23.542 26.296 28.845 32.000 34.267 39.252


17 20.489 24.769 27.587 30.191 33.409 35.718 40.790
18 21.605 25.989 28.869 31.526 34.805 37.156 43.312
19 22.718 27.204 30.144 32.852 36.191 38.582 43.820
20 23.828 28.412 31.410 34.170 37.566 39.997 45.315

189
Problema: Fugas
Beneficios Potenciales: $10,000 de ahorro en retrabajos, y en la
reduccin de tiempo de ciclo.

Variacin en familias a probar


Operador a operador
Ho: No existe diferencia en los ndices de defecto de los diferentes
operadores
Ha: Existe diferencia en los ndices de defecto de los diferentes
operadores

Mquina a mquina
Ho: No existe diferencia en los ndices de defecto de las diferentes
mquinas
Ha: Existe diferencia en los ndices de defecto de las diferentes
mquinas

Tamao de la muestra:
5000 + total de oportunidades (172 piezas) 190
Prueba de chi2 (mquina a mquina)
Los conteos esperados estn colocados debajo de los conteos observados
Con fugas Sin fugas Total
1 30 610 640
32.11 607.89

2 235 4217 4452


223.38 4228.62

3 3 253 256
12.84 243.16

4 18 334 352
17.66 334.34

Total 286 5414 5700

Chi2 = 0.139 + 0.007 + 0.604 + 0.032 + 7.546 + 0.399 + 0.006 +


0.000 = 8.734
DF= (4-1)(2-1) = 3; valor P = 0.033
191
Prueba de chi2 (operador a operador)
Los conteos esperados estn colocados debajo de los conteos observados.
Con gotera Sin gotera Total
1 6 122 128
6.61 121.39

2 1 127 128
6.61 121.39

3 200 3836 4036


208.55 3827.45

4 54 202 256
13.23 242.77

5 5 699 704
36.38 667.62

6 12 116 128
6.61 121.39
Total 278 5102 5380

Chi2 = 0.057 + 0.003 + 4.765 + 0.260 + 0.351 + 0.019 +125.666 + 6.847 + 27.065 + 1.475
+ 4.386 + 0.239 = 171.132
DF= 5; valor P = 0.000 192
Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?
(en este caso, operador a operador y mquina a mquina)

Se utiliza un procedimiento denominado Coeficiente de Contingencia como clave


para determinar qu grupo de variacin debe investigarse primero.

Coeficiente de Chi Cuadrada


x 100
Contingencia N
Chi2 N CC

Mquina 8.734 5700 0.15

Operador 171.132 5380 3.18


Controlador Mayor
SI el tamao de la muestra (N), es similar para los grupos. Al dividir entre N,
probablemente, llevar a la misma ruta que hubiera alcanzado con slo ver la
estadstica Chi2.

Sin embargo, si N tiene una variacin considerable, dependiendo del grupo de


variacin que se investiga, el coeficiente de contingencia puede ser una herramienta
valiosa para determinar la prioridad sobre qu grupo debe investigarse primero.
193
Qu sucede si los grupos mltiples de variacin son estadsticamente significativos?
(en este caso, operador a operador y mquina a mquina)
Ahora que la informacin nos
ha llevado a investigar a los Con gotera Sin gotera Total
grupos de operador a 1 6 122 128
operador. Qu debemos 6.61 121.39
hacer ahora?
Encontremos cul de los 2 1 127 128
operadores estaban fuera del 6.61 121.39
estndar.
Era alguno de ellos 3 200 3836 4036
notablemente peor (o mejor) 208.55 3827.45
que el resto?
Mucho peor que 4 54 202 256
lo esperado 13.23 242.77

Mucho mejor que 5 5 699 704


lo esperado 36.38 667.62

6 12 116 128
6.61 121.39
(Estos mismos operadores fueron quienes
tuvieron los nmeros ms grandes de chi2)
194
Operador a operador: = 0.000
Rechace
Ho y acepte Ha
(Existe una diferencia significativa entre los operadores)

Los operadores 4 y 5 estn fuera del estndar:


El operador 4 es notablemente peor que el resto,
El operador 5 es notablemente mejor que los dems

Cul es el prximo paso? Hable con todos los operadores para averiguar qu diferencias
pueden existen en sus tcnicas.

El operador 4 no tena experiencia en este tipo de trabajo y apenas se estaba acostumbrado a


soldar este producto en particular.

El operador 5 encontr un modo de mejor de hacer el ensamble, con lo cual consigui mejorar
el trabajo de soldadura, aunque esto mostraba un grado de dificultad ergonmica. Se aadi
un colocador para ensamblar la parte en forma segura. (Esto tambin redujo el tiempo que
requeran los operadores para acostumbrarse a trabajar en esta forma)

195
Ejercicios

1. Se quiere evaluar la habilidad de tres inspectores de rayos


X en un aeropuerto para detectar artculos clave. Como
prueba se pusieron radios de transistores en 90 maletas,
cada inspector fue expuesto a 30 maletas conteniendo radios
mezcladas entre otras que nos los contenan. Los resultados
se resumen a continuacin:
Inspectores
1 2 3

Radios detectados 27 25 22
Radios no detectados 3 5 8

Con un 95% de confianza, existe una diferencia entre los


inspectores?

Ho: p1 = p2 = p3; Ha: al menos una es diferente


Grados de libertad = (columnas - 1) ( filas -1)
196
Ejercicios

1. Se quiere evaluar si hay preferencia por manejar en un


carril de una autopista dependiendo de la hora del da. Los
datos se resumen a continuacin:

Hora del da
Carril 1:00 3:00 5:00
Izquierdo 44 37 18
Central 28 50 72
Derecho 8 13 30

Con un 95% de confianza, existe una diferencia entre las


preferencias de los automovilistas dependiendo de la hora?

Ho: P1 = P2 = P3; Ha: al menos una es diferente


Grados de libertad = (columnas - 1) ( filas -1)

197
Coeficiente de Contingencia
Coeficiente de contingencia es el grado de relacin o
dependencia de las clasificaciones en la tabla de
contingencias es:

X2
C2
X2 N

Donde N es la frecuencia total y X es el estadstico Chi


Cuadrado calculado

198
Coeficiente de Contingencia
Para los datos del ejemplo anterior se tiene:

X2 66. 22 2
C2 2 0.38
X N
2
66.22 393
2

El valor mximo de C se obtiene de:

k 2 82
Max C 0.866
k 8
199
Correlacin de atributos
Para tablas de orden k * k, el coeficiente de correlacin,
r, es :

2
X
r
N (k 1)
Donde 0<= r <= 1

200
VI.C.9 Pruebas de
Hiptesis no paramtricas

201
Pruebas no paramtricas
Las pruebas paramtricas asumen una distribucin para
la poblacin, tal como la Normal

Las pruebas no paramtricas no asumen una


distribucin especfica de la poblacin

Bajo los mismos tamaos de muestra la Potencia o


probabilidad de rechazar Ho cuando es falsa es mayor
en las pruebas paramtricas que en las no paramtricas

Una ventaja de las pruebas no paramtricas es que los


resultados de la prueba son ms robustos contra
violacin de los supuestos

202
Prueba de Hiptesis

Variable Atributo

No Normal Tablas de
Contingencia de

Varianza Medianas
Correlacin
Correlacin
Homogeneidad
Prueba de signos
de la Variacin
de Levene Wilcoxon
Normal
Mann-
Whitney Variancia Medias
Kurskal-
Pruebas de t
Wallis
Prueba-F Muestra-1
Residuos
Prueba de Mood Muestra-2
Homogeneidad distribuidos
Friedman de la Variacin ANOVA
de Bartlett Una va normalmente
Dos vas
Correlacin
Regresin 203
Resumen de pruebas de Hiptesis
Datos Normales Datos No Normales
Pruebas de Variancias
Pruebas de Varianzas
X2 : Compara la variancia de una Homogeneidad de la varianza de
muestra con una variancia de un Levene : Compara dos o ms
universo conocido. varianzas de muestras de la misma
poblacin.
Prueba F : Compara dos varianzas
de muestras.

Homogeneidad de la variancia de
Bartlett: Compara dos o ms
varianzas muestras de la misma
poblacin.

204
Resumen de pruebas de Hiptesis
Datos Normales Datos No Normales
Pruebas de los Promedios Pruebas de la Mediana

Prueba t de 1 muestra : Prueba si el promedio Prueba de signos o Prueba Wilcoxon : Prueba si


de la muestra es igual a un promedio la mediana de la muestra es igual a un valor
conocido o meta conocida. conocido o a un valor a alcanzar.
Prueba t de 2 muestras : Prueba si los dos Prueba Mann-Whitney : Prueba si dos medianas
promedios de las muestras son iguales. de muestras son iguales.
ANOVA de un factor: Prueba si ms de dos Prueba Kruskal-Wallis: Prueba si ms de dos
promedios de las muestras son iguales. medianas de muestras son iguales. Asume que
ANOVA de dos factores : Prueba si los todas las distribuciones tienen la misma forma.
promedios de las muestras clasificadas Prueba de la mediana de Mood : Otra prueba
bajo dos categoras, son iguales. para ms de dos medianas. Prueba ms firme
para los valores atpicos contenidos en la
Correlacin : Prueba la relacin lineal entre informacin.
dos variables. Prueba Friedman : Prueba si las medianas de las
muestras, clasificadas bajo dos categoras, son
Regresin : Define la relacin lineal entre una iguales.
variable dependiente y una independiente. Correlacin : Prueba la relacin lineal entre dos
(Aqu la "normalidad" se aplica al valor variables.
residual de la regresin)
205
Acciones a tomar con datos No Normales
Revise y asegrese de que los datos no siguen una distribucin normal.

Desarrollar una Prueba de normalidad (para verificar realmente lo


anormal. Para la prueba de Bartlet el valor de p debe ser < 0.05)

Desarrollar una Prueba de Corridas (para verificar que no existen


sucesos no aleatorios que puedan haber distorsionado la informacin)

Revisar la informacin para detectar errores (tipogrficos, etc.).


Investiguar los valores atpicos.

Una muestra pequea (n < 30) proveniente de un universo normal, se


mostrar algunas veces como anormal.

Intentar transformar los datos. Las transformaciones comunes incluyen:


- Raz cuadrada de todos los datos
- Logaritmo de todos los datos
- Cuadrado de todos los datos

Si la informacin es todava anormal, entonces usar las herramientas no


paramtricas. 206
7B8. Definiciones
Promedio : Es la media aritmtica de la informacin. Es la suma de todos
los datos, dividida entre el nmero de datos de referencia.

Mediana: Valor del punto medio de los datos, cuando se ordenan en forma
ascendente (en caso de datos pares, obtener promedio).

Moda : Valor que se repite con ms frecuencia sobre el conjunto de datos.


Ejemplo:
Se cuestion a veinte personas sobre cunto tiempo les tomaba estar
listas para ir a trabajar, en las maanas. Sus respuestas (en minutos) se
muestran ms adelante. Cules son el promedio y la mediana para esta
muestra?

30, 37, 25, 35, 42, 35, 35, 47, 45, 60


39, 45, 30, 38, 35, 40, 44, 55, 47, 43
207
Un dibujo dice ms que mil palabras

Promedio
Mediana

28.0 35.0 42.0 49.0 56.0 63.0


++++++C1

Promedio = 40.35 Mediana = 39.5

El promedio puede estar influenciado considerablemente por los


valores atpicos porque, cuando se calcula un promedio, se incluyen
los valores reales de estos valores.

La mediana, por otra parte, asigna la misma importancia a todas las


observaciones, independientemente de los valores reales de los
valores atpicos, ya que es la que sencuentra en la posicin media de
los valores ordenados.

208
Pruebas Alternativas comnmente
usadas
Pruebas para datos No normales Analoga con datos normales

Prueba de Corridas : Calcula la Prueba de Corridas (la misma


probabilidad de que un X nmero de prueba para ambos tipos de
puntos de referencia, est por encima o informacin)
por debajo del promedio aleatoriamente.

Prueba de signos, de 1 muestra : Prueba t de una muestra


Prueba la probabilidad de que la
mediana de la muestra, sea igual al valor
hipottico.

Prueba Mann-Whitney : Comprueba el Prueba t de 2 muestras


rango de dos muestras, por la diferencia
entre dos medianas del universo.

Prueba de la Mediana de Mood : ANOVA de un factor


Prueba para ms de dos medianas del
universo. Ms robusta para los valores
atpicos o para los errores en la
informacin. 209
Prueba de Rachas
Considere los siguientes datos (que se muestran aqu en orden cronolgico):
325, 210, 400, 72, 150, 145, 110, 507, 56, 120, 99, 144, 110, 110,
320, 290, 101, 0, 80, 500, 201, 50, 140, 80, 220, 180, 240, 309, 80

Es importante tener los datos registrados en orden cronolgico.

Una representacin grfica de los datos se asemeja a esto:


600

500 Promedio
Primera 400

"corrida"
300

200

100

Segunda racha"

Racha: Un punto o una serie consecutiva de puntos que caen


en un lado del promedio.
Nmero total de Rachas: 12
Nmero total de puntos > al promedio: 11
Nmero total de puntos < al promedio: 18
Prueba de Rachas
Ho: Los datos son aleatorios
Ha:Los datos NO so aleatorios

Prueba de Rachas
Promedio K = 184.4483 Promedio

Nmero de rachas observado = 12

Nmero de rachas esperado = 14.6552


=> No se rechaza Ho Este es el valor p
de las Prueba de
11 observaciones por encima de K; 18 por
Corridas
debajo
La prueba es significativa en p= 0.2860
No se puede rechazar Ho con valor alfa = 0.05

Ya que p > 0.05, no podemos rechazar la hiptesis nula.


Los datos son aceptados, siendo aleatorios.
Clculos de la Prueba de Rachas
El estadstico Z cuando n > 20 se calcula como:

Z = (G - MediaG) / DesvStG

Con MediaG = 1 + (2n1*n2) / (n1 + n2)


DesvStG = Raiz [ (2n1*n2) (2n1*n2 - n1 -n2) / (n1 + n2)^2* (n1+n2 -1)

Del ejemplo anterior G = 12; n1 = 11n2 = 18

MediaG = 14.655 DesStG = 2.4843

Z1 = (12 - 14.655) / 2.4843 = -1.0687


P(Z1) = 0.1430 y para dos colas se tiene

P(Z1) + P(Z2) = 0.2860 > Alfa crtico de 0.05, no rechazndose Ho

Si las n1 y n2 son menores a 21, entonces se consulta la tabla de


valores crticos para el nmero de Rachas G
212
Corrida con Minitab
Stat > Nonparametrics > Runs Test
Variable C1, Above and below the mean

Runs Test: C1
Runs test for C1
Runs above and below K = 184.448
The observed number of runs = 12
The expected number of runs = 14.6552
11 observations above K, 18 below
P-value = 0.285
P > 0.05
No rechazar
Ho 213
Prueba de Signos de la Mediana

Ho : La mediana de la muestra es igual a la mediana de la hiptesis


Ha : Las medianas son diferentes

Ejemplo (usando los datos del ejemplo anterior):

Ho: Valor de la mediana = 115.0


Ha: Valor de la mediana diferente de 115.0

N DEBAJO IGUAL ENCIMA VALOR P MEDIANA


29 12 0 17 0.4576 144.0

Ya que p >0.05, no se puede rechazar la hiptesis nula.


No se puede probar que la mediana real y la mediana hipottica son
diferentes.

En las pginas siguientes se muestra el detalle del clculo.


214
Clculos de la Prueba de Signos de la
Mediana

Ejemplo: Con los datos del ejemplo anterior y ordenndo de menor a


mayor se tiene: n = 29, Mediana de Ho = 115

No. Valor Signo No. Valor Signo No. Valor Signo


1 0 - 11 110 - 21 220 +
2 50 - 12 110 - 22 240 +
3 56 - 13 120 + 23 290 +
4 72 - 14 140 + 24 309 +
5 80 - 15 144 + 25 320 +
6 80 - 16 145 + 26 325 +
7 80 - 17 150 + 27 400 +
8 99 - 18 180 + 28 500 +
9 101 - 19 201 + 29 507 +
10 110 - 20 210 +

Con la mediana en 144. Si el valor contra el cual se desea


probar es 115, entonces hay 12 valores por debajo de el (-) y 17
valores por arriba (+).
215
Clculos de la Prueba de Signos de la
Mediana

El estadstico X es el el nmero de veces que ocurre el signo menos


frecuente, en este caso el 12 (-).

Cmo n 25, se calcula el estadstico Z para la prueba de signos con:

Z = [ (Y + 0.5) - (0.5*n) ]/ 0.5 n

En este caso Z1 = - 0.74278 y P(Z1) = 0.2288 para la cola izquierda


en forma similar P(Z2) 0-2288 para la cola derecha, por lo que la
probabilidad total es 0.4576 >> 0.05 del criterio de rechazo.

Si n hubiera sido < 25 entonces se hubiera consultado la tabla de


valores crticos para la prueba de signo.
216
Prueba de Signos de la Mediana

Es esto correcto?144 podra ser igual a 115?


Bueno, veamos una grfica de la informacin

0 100 200 300 400 500

115 144
Despus de todo, tal vez
esto SEA lo correcto.
217
Corrida en Minitab
Stat > Nonparametrics > 1-Sample sign Variable C1
Confidence interval 95% Test Median 115 Alternative
Not equal
SignTestforMedian:Signos
Signtestofmedian=115.0versusnot
=115.0

NBelowEqualAbove
PMedian
Signos2912017
0.4583144.0
Como P > 0.05 no se rechaza Ho y la mediana es 115
218
Prueba de Signos de la Mediana
Para observaciones pareadas

Calificaciones de amas de casa a dos limpiadores de


ventanas:

Ho: p = 0.5 no hay preferencia de A sobre B


Ha: p<>0.5
Ama Limpiad
or B
Casa A
Hay evidencia que indique
1 10 7 cierta preferencia de las ama
2 7 5 de casa por lo limpiadores?
3 8 7
4 5 2 219
Prueba de Signos de la Mediana
Product
o B Media = 0.5*n
Familia A
Desv. Estand.= 0.5*raiz(n)
1 - +
Zc = (Y media) / Desv. Estnd
2 - +
Rechazar Ho si Zc ><Zalfa/2
3 + -
4 - +
5 0 0
Hay evidencia que indique
6 - +
cierta preferencia por un
7 - +
Producto A o B?
8 + -
9 - +
10 - + 220
Prueba de Signos de la Mediana

Media = 0.5*11 = 5.5


Desv. Estand.= 0.5*raiz(n) = 1.67

Para Zc = (8 5.5) / 1.67 = 1.497

Zexcel = 1.96 para alfa/2 = 0.025

Como Zc < Zexcel no se rechaza Ho o


Como p value = 0.067 > 0.025
No hay evidencia suficiente de que los
Consumidores prefieran al producto B
221
Wilconox
Es la alternativa no paramtrica de la prueba paramtrica de
muestras pareadas
Ejemplo: HO: Las poblaciones son idnticas Ha: Caso
contrario
Trabaja Mtodo Mtodo Diferen Abs(difere Rango
dor 1 2 cias n.) Rango c/signo
1 10.2 9.5 0.7 0.7 8 8
2 9.6 9.8 -0.2 0.2 2 -2
3 9.2 8.8 0.4 0.4 3.5 3.5
4 10.6 10.1 0.5 0.5 5.5 5.5
5 9.9 10.3 -0.4 0.4 3.5 -3.5
6 10.2 9.3 0.9 0.9 10 10
7 10.6 10.5 0.1 0.1 1 1
8 10 10 0 0 Eliminar
9 11.2 10.6 0.6 0.6 7 7
10 10.7 10.2 0.5 0.5 5.5 5.5
11 10.6 9.8 0.8 0.8 9 9

222 T = 44
Prueba rango con signo de
Wilconox

Distribucin muestral T para poblaciones idnticas


Se aproxima a la distribucin normal para n >= 10

T 0 T
n(n 1)(2n 1)
6
En este caso n = pares eliminando las que son iguales con dif. =
0 para el trabajador 8.

= raiz(10 x 11 x 21/6) = 19.62


Z = (T )/ = 44/19.62 = 2.24

Z alfa/2 = Z0.025 = 1.96

Como Zc = 2.24 > Z0.025 se rechaza Ho, los mtodos son


diferentes 223
Prueba en Minitab para prueba
de mediana con Wilconox
File> Open worksheet > Exh_Stat
Stat > Nonparametrics > 1-Sample Wilconox Achievement
Variables C1 Test Median 77 77
Altenative Not equal 88
85
Wilcoxon Signed Rank Test: Achievement
Test of median = 77.00 versus median not = 77.00 74
for Wilcoxon Estimated 75
for Wilcoxon Estimated
N Test Statistic P Median 62
Achievement 9 8 19.5 0.889 77.50 80
70
Ho: Mediana = 77 Ha: Mediana <> 77
Como P de 0.889 >> alfa de 0.05 no se rechaza Ho 83

224
Prueba de Mann-
Whitney
Se llev a cabo un estudio que analiza la frecuencia del pulso en dos
grupos de personas de edades diferentes, despus de diez minutos de
ejercicios aerbicos.

Los datos resultantes se muestran a continuacin.

Edad 40-44 Edad 16-20


C1 C2
Tuvieron diferencias 140 130
significativas las frecuencias de 135 166
pulso de ambos grupos? 150 128
140 126
144 140
154 136
160 132
144 128
136 124
148
225
Prueba de Mann-
Whitney
Ordenando los datos y asignndoles el (rango) de su posicin relativa se tiene (promediando
posiciones para el caso de que sean iguales):
Edad 40-44 Edad 16-20
C1 C2
(7) 135 (1) 124
(8.5) 136 (2) 126
(11) 140 (3.5) 128
(11) 140 (3.5) 128
(13.5) 144 (5) 130
(13.5) 144 (6) 132
(15) 148 (8.5) 136
(16) 150 (11)140
(17) 154 (15)166
(18) 160

n1 = 10 n2 = 9
Ta = 130.5 Tb = 55.5
226
Prueba de Mann-
Whitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas poblacionales no son idnticas
Ho: 1 = 2 Ha: 1 2 1, 2 = Medianas de las poblaciones
Ordenando los datos y asignndoles su posicin relativa se tiene:
Ua = n1*n2 + (n1) * (n1 + 1) /2 - Ta
Ub = n1*n2 + (n2) * (n2 + 1) /2 - Tb
Ua + Ub = n1 * n2

Ua = 90 + 55 - 130.5 = 14.5 P(Ua) = 0.006 Ub = 90 + 45 - 55.5 = 79.5


El menor de los dos es Ua.
Para alfa = 0.05 el valor de Uo = 25
Como Ua < 25 se rechaza la Hiptesis Ho de que las medianas son iguales.

Dado que p < 0.05, rechazamos la hiptesis nula.


Estadsticamente existe una diferencia significativa entre los
dos grupos de edad. 227
Prueba de Mann-
Whitney
Ho: Las distribuciones de frecuencias relativas de las poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas poblacionales no son idnticas

Ua = 14.5 Ub = 79.5
Utilizando el estadstico Z y la distribucin normal se tiene:
45 12.24
Z = [ (U - (n1* n2 / 2 ) / Raiz (n1 * n2 * (n1 + n2 + 1) / 12)
Con Ua y Ub se tiene:
Za = (14.5 - 45) / 12.24 = - 2.49 P(Z) = 0.0064 similar a la anterior
Zb = (79.5 -45) / 12.24 = 2.81 P(total) = 2 * 0.0064 = 0.0128 menor = 0.05
El valor crtico de Z para alfa 0.025 por ser prueba de dos colas, es 1.96.
Como Za > Zcrtico se rechaza la Hiptesis Ho de que las medianas son iguales.

Dado que p < 0.05, rechazamos la hiptesis nula.


Estadsticamente existe una diferencia significativa entre los
dos grupos de edad. 228
Prueba de Mann-Whitney
16-20 aos de edad
130 166 128 126 140 136 132 128 124
140 10 -26 12 14 0 4 8 12 16
40-44 aos de

135 5 -31 7 9 -5 -1 3 7 11
150 20 -16 22 24 10 14 18 22 26
140 10 -26 12 14 0 4 8 12 16
144 14 -22 16 18 4 8 12 16 20
154 24 -12 26 28 14 18 22 26 30
160 30 -6 32 34 20 24 28 32 36
edad

144 14 -22 16 18 4 8 12 16 20
136 6 -30 8 10 -4 0 4 8 12
148 18 -18 20 22 8 12 16 20 24

Diferencias entre los encabezados de


los renglones y las columnas
De esta manera, se calcula la mediana de todas estas diferencias, denominada
"punto estimado". Este punto estimado es una aproximacin de la diferencia entre
las medianas de los dos grupos (ETA1 y ETA2).

Una vez ajustados los "enlaces" (eventos de un mismo valor en ambos grupos de
informacin), Minitab usa este punto estimado para calcular el valor p.
Corrida en Minitab
Stat > Nonparametrics > Mann Whitney
First Sample C1 Second Sample C2 Conf. Level 95%
Alternative Not equal

ann-Whitney Test and CI: C1, C2


N Median P>0.05
1 10 144.00 Se rechaza Ho
2 9 130.00
oint estimate for ETA1-ETA2 is 12.00
5.5 Percent CI for ETA1-ETA2 is (4.01,20.00)
= 130.5
st of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.014
he test is significant at 0.0140 (adjusted for ties)
230
Prueba de Kruskal
Wallis
Ordenando los datos de ventas y asignndoles el (rango) de su posicin relativa se tiene
(promediando posiciones para el caso de que sean iguales):

Zona 1 Zona 2 Zona 3


(15.5) 147 (17.5) 160 (24) 215
(17.5) 17.5 (14) 140 (8) 127
(9) 128 (21) 173 (2) 98
(19) 162 (4) 113 (15.5) 127
(12) 135 (1) 85 (23) 184
(10) 132 (7) 120 (3) 109
(22) 181 (25) 285 (20) 169
(13) 138 (5) 117
(11) 133
(6) 119

n1 = 8 n2 = 10 n3 = 7 N = n1 + n2 + n3 = 25
Ta = 118 Tb = 111.5 Tc = 95.5

231
Prueba de Kruskal
Wallis

Ho: Las poblaciones A, B y C son iguales


Ha: Las poblaciones no son iguales
Ho: 1 = 2 = 3 Ha: 1 2 3 ; 1, 2, 3 = Medianas de las poblaciones

Calculando el valor del estadstico H se tiene:


H = [ 12 /( N* ( N + 1)) ] * [ Ta2 / n1 + Tb2 / n2 + Tc2 / n3 ] - 3 * ( N +1 )
H = 0.01846 * (1740.5 + 1243.225 + 1302.893 ) - 78 = 1.138

Se compara con el estadstico 2 para = 0.05 y G.l. = k - 1 = 3-1 = 1 (k muestras)


2 crtico = 5.991 (vlido siempre que las muestras tengan al menos 5 elementos)

Como H < 2 crtico, no se rechaza la Hiptesis Ho: Afirmando que no hay


diferencia entre las poblaciones

232
Corrida en Minitab
Stat > Nonparametrics > Kruskal Wallis
Response C1 Factor C2 OK

Kruskal-Wallis Test: Datos versus Factor


Kruskal-Wallis Test on Datos
Factor N Median Ave Rank Z
Zona 1 7 138.0 14.7 0.98
Zona 2 10 126.5 11.1 -0.82
Zona 3 7 127.0 12.3 -0.10
Overall 24 12.5 P > 0.05
H = 1.08 DF = 2 P = 0.581 No se rechaza Ho
H = 1.09 DF = 2 P = 0.581 (adjusted for ties)
233
Prueba de Medianas de Mood
Realiza prueba de hiptesis de igualdad de medias en un
diseo de una va. La prueba es robusta contra Outliers y
errores en datos y es adecuada para anlisis preliminares

Determina si K grupos independientes han sido extraidas de la


misma poblacin con medianas iguales o poblaciones con
formas similares

Con base en la gran mediana, anotar un signo positivo si la


observacin excede la mediana o un signo menos si es menor.
Los valores que coincidan se reparten en los grupos

Hacer una tabla de contingencia K x 2 con las frecuencias de


signos ms y menos en cada grupo K

234
Prueba de Medianas de Mood
Se determina el estadstico Chi Cuadrada con:

(O E ) 2

2

E
Probar Ho: Todas las medianas son iguales
Ha: Al menos una mediana es diferente

Se compara Chi Cuadrada calculada con Chi Cuadrada de


alfa para 0.05 y (reng 1)*(Col 1) grados de libertad

235
Corrida con Minitab
Se les da a 179 participantes una conferencia
con dibujos para ilustrar el tema. Despus se
les da la prueba OTIS que mide la habilidad
intelectual. Los participantes se clasificaron
por nivel educativo 0-No prof., 1-Prof., 2-Prepa

Ho: h1 = h2 = h3 Ha: no todas las medianas


son iguales
File > Open Worksheet > Cartoon.mtw
Stat > Nonparametrics > Moods Median Test
Response Otis Factor ED Ok

236
Corrida con Minitab
Mood Median Test: Otis versus ED
Mood median test for Otis P>0.05
Chi-Square = 49.08 DF = 2 P = 0.0005 Se
rechaza Ho
Individual 95.0% CIs
ED N<= N> Median Q3-Q1 ----+---------+---------
+---------+--
0 47 9 97.5 17.3 (-----*-----)
1 29 24 106.0 21.5 (------*------)
2 15 55 116.5 16.3 (----*----)
----+---------+---------+---------+--
96.0 104.0 112.0 120.0
Overall median = 107.0 237
Diseos factoriales aleatorias
bloqueados de Friedman
Esta prueba es una alternativa al ANOVA de dos
vas, es una generalizacin de las pruebas
pareadas con signo. La aditividad es requerida
para para estimar los efectos de los
tratamientos

Ho: Los tratamientos no tienen un efecto


significativo
Ha: Algunos tratamientos tienen efecto
significativo

238
Diseos factoriales aleatorias
bloqueados de Friedman
Resultados de salida:
Se muestra el estadstico de prueba con

distribucin Chi Cuadrada aproximada con gl =


Tratamientos 1.

Si hay observaciones parecidas en uno o ms


bloques, se usa el rango promedio y se
muestra el estadstico corregido

La mediana estimada es la gran mediana ms


el efecto del tratamiento
239
Diseos factoriales aleatorias
bloqueados de Friedman
Ejemplo:
Se evala el efecto del tratamiento de una

droga en la actividad enzimtica con tres


niveles, probado en cuatro animales

Open the worksheet EXH_STAT.MTW.


Stat > Nonparametrics > Friedman.
Response, seleccionar EnzymeActivity.
En Treatment, seleccionar Therapy.
En Blocks, seleccionar Litter. Click OK.

240
Diseos factoriales aleatorias
bloqueados de Friedman
Datos: EnzymeActivity Therapy Litter
0.15 1 1
0.26 1 2
0.23 1 3
0.99 1 4
0.55 2 1
0.26 2 2
-0.22 2 3
0.99 2 4
0.55 3 1
0.66 3 2
0.77 3 3
0.99 3 4241
Diseos factoriales aleatorias
bloqueados de Friedman
Resultados:
Friedman Test: EnzymeActivity versus
Therapy blocked by Litter
S = 2.38 DF = 2 P = 0.305 No
rechazar Ho
S = 3.80 DF = 2 P = 0.150 (adjusted for
ties)
Sum
of
Therapy N Est Median Ranks
1 4 0.2450 6.5
2 4 0.3117 7.0
3 4 0.5783 10.5
Grand median = 0.3783 242
Diseos factoriales aleatorias
bloqueados de Friedman
Resultados:
El estadstico de prueba S tiene un valor P de 0.305 sin

ajustar para observaciones en cero y 0.150 para el


valor ajustado.

Por tanto no hay evidencia suficiente para rechazar Ho

Las medianas estimadas asociadas con los


tratamientos son la gran mediana ms los efectos
estimados de los tratamientos.

El estadstico de prueba se determina con base a los


rangos en cada bloque y totales

243
Diseos factoriales aleatorias
bloqueados de Friedman
Resultados:

244
Diseos factoriales aleatorias
bloqueados de Friedman
Resultados:

245
Diseos factoriales aleatorias
bloqueados de Friedman
Resultados:

246
Prueba de igualdad de
varianzas de Levene
Se usa para probar la hiptesis nula de que las
varianzas de k mltiples poblacionales son iguales

Las igualdad de varianzas en las muestras se denomina


homogeneidad de varianzas

La prueba de Levene es menos sensible que la prueba


de Bartlett o la prueba F cuando se apartan de la
normalidad

La prueba de Bartlett tiene un mejor desempeo para la


distribucin normal o aproximadamente normal

247
Prueba de igualdad de
varianzas de Levene
Para dos muestras el procedimiento es como sigue:

Determinar la media

Calcular la desviacin de cada observacin


respecto a la media

Z es el cuadrado de las desviaciones respecto a la


media

Aplicar la prueba t a las dos medias de los datos


248
Rot Temp Oxygen
13 10 2
Prueba de igualdad 11 10 2

de Varianzas-Minitab10
3 10
10
2
6
4 10 6
Se estudian tamaos de 7 10 6
papa inyectando con
15 10 10
bacterias y sujetas a
2 10 10
diferentes temperaturas.
7 10 10
Antes del ANOVA se
verifica la igualdad de 26 16 2
varianzas 19 16 2
24 16 2
Stat > ANOVA > Test for 15 16 6
equal variances 22 16 6

Response Rot 18 16 6
20 16 10
Factors Temp Oxigen
24 16 10
Confidence level 95%
8 16 10
249
Resultados

250
Resultados
Test for Equal Variances: Rot versus Temp, Oxygen
95% Bonferroni confidence intervals for standard
deviations
Temp Oxygen N Lower StDev Upper
10 2 3 2.26029 5.29150 81.890
10 6 3 1.28146 3.00000 46.427
10 10 3 2.80104 6.55744 101.481
16 2 3 1.54013 3.60555 55.799
16 6 3 1.50012 3.51188 54.349
16 10 3 3.55677 8.32666 128.862
Bartlett's Test (normal distribution)
Test statistic = 2.71, p-value = 0.744 P>0.05 no
rechazar Ho
Levene's Test (any continuous distribution)
Test statistic = 0.37, p-value = 0.858 251
Prueba de la concordancia del
Coeficiente de Kendall
El coeficiente expresa el grado de asociacin entre las
calificaciones mltiples realizadas por un evaluador

Ho: Las variables son independientes


Ha: Las variables estn asociadas

Kendall usa la informacin relacionada con las


calificaciones relativas y es sensible a la seriedad de
mala clasificacin

Por ejemplo para K = jueces N = Muestras = 10

Rango medio = 220 / 22 S = 1066 Gl = n-1 = 9


Chi Cuadrada crtica = X2 0.01,9 = 21.67
252
Prueba de la concordancia del
Coeficiente de Kendall
El Estadstico Chi Cuadrada calculado es:

Como Chi Cuadrada de alfa es menor que la calculada,


los cuatro jueces estn asociados significativamente.
Constituyen un panel uniforme. No quiere decir que
estn en lo correcto, solo que responden de manera
uniforme a los estmulos

253
El coeficiente de correlacin de
rangos de Spearman (rs)
El coeficiente de correlacin es una medida de la
asociacin que requiere que ambas variables sean
medidas en al menos una escala ordinal de manera que
las muestras u observaciones a ser analizadas pueden

6 d
ser clasificadas en rangos en dos series ordenadas 2

Ho: Las variables son independientess


r 1
Ha: Las variables estn asociadas
N N
3

Para el ejemplo anterior si N = 10, el coeficiente es:

6(5.5)
rs 1 1 0.03 0.97
990
254
Coeficiente de correlacin
de rangos para monotona
de preferencias
Una persona interesada en adquirir un TV asigna
rangos a modelos de cada uno de 8
fabricantes
Preferencia Precio Rang
Fab.
(rango) o Di
cuadrada
Di
1 7 449.50 (1)
6 36
2 4 525.00 (5)
3 2 479.95 (3) -1 1
4 6 499.95 (4) -1 1
5 1 580.00 (8) 2 4
6 3 549.95 (7) -7 49
7 8 469.95 (2)
-4 16
8 5 532.50 (6) 255
Coeficiente de correlacin
de rangos para monotona
de preferencias

Ho: No existe asociacin entre los rangos


Ha: Existe asociacin entre los rangos o es positiva o negativa

El coeficiente de correlacin de rangos de Spearman es:

Rs = 1 6*suma(di cuadrada) / (n(n cuadrada 1))

En este caso: Rs = 1 6(144)/(8*(64-1) = -0.714

R0 se determina de la tabla de Valores crticos del coeficiente de


correlacin del coeficiente de correlacin de rangos de
Spearman

Rt = 0.686

Por tanto si hay asociacin significativa en las


preferencias
256
Tabla de constantes
n Alfa=0.05 Alfa = 0.025
5 0.900 -
6 0.829 0.886
7 0.714 0.786
8 0.643 0.738
9 0.600 0.683
10 0.564 0.648
11 0.523 0.623
12 0.497 0.591
13 0.475 0.566
14 0.457 0.545
15 0.441 0.525
16 0.425 0.507
17 0.412 0.490
18 0.388 0.476
19 0.377 0.462
20 0.368 0.450
21 0.359 0.438
22 0.351 0.428
23 0.343 0.418
24 0.336 0.409
25 0.329 0.400
26 0.329 0.392
27 0.323 0.385
28 0.317 0.377
29 0.311 0.370
30 0.305 257
0.364
Corrida con Minitab
Para la corrida en Minitab primero Fabric Prefe- Preci
se deben determinar los ante rencia Precio o
rangos en forma manual para
las variables X y Y. 1 7 1 449
Stat > Basic statistics >
2 4 5 525
Correlation
3 2 3 479
Variables Preferencia Precio
Correlations: Preferencia, 4 6 4 499
Precio
5 1 8 580
Pearson correlation of 6 3 7 549
Preferencia and Precio =
7 8 2 469
-0.714
8 5 6 532
P-Value = 0.047 258
Ejemplo con Minitab
Se estudia la relacin entre
colgeno y Proline en Paciente Colgeno Proline
pacientes con cirrosis
Stat > Basic statistics > 1 7.1 2.8
Correlation 2 7.1 2.9
Variables Colgeno Proline
3 7.2 2.8
Correlations: Colageno,
4 8.3 2.6
Proline
5 9.4 3.5
Pearson correlation of
Colageno and Proline = 6 10.5 4.6
0.935 7 11.4 5

P-Value = 0.002 259


Resumen de pruebas
no paramtricas
Prueba de signos de 1 muestra: Prueba la igualdad de la
mediana a un valor y determina el intervalo de
confianza

Prueba de Wilconox de 1 muestra: Prueba la igualdad de


la mediana a un valor con rangos con signo y determina
el intervalo de confianza

Comparacin de dos medianas poblacionales de Mann


Whitney: Prueba la igualdad de las medianas y
determina el intervalo de confianza

260
Resumen de pruebas
no paramtricas

Comparacin de igualdad de medianas poblacionales de


Kruskal Wallis: Prueba la igualdad de las medianas en
un diseo de una va y determina el intervalo de
confianza

Comparacin de medianas poblacionales de Mood:


Prueba la igualdad de medianas con un diseo de una
va

261
262
263
Salidas de la Fase de Anlisis
Causas raz validadas

Gua de oportunidades de mejora

264

También podría gustarte