Y Ejercicio Analisis Discriminante Isabel

PROBLEMA 1
Un restaurante está realizando un proceso de selección para contratar a un nuevo camarero.

De entre todos los candidatos presentados, el gerente del local ha seleccionado cuatro para
realizar una prueba final. Esta prueba consiste en hacer que cada candidato ocupe el puesto
de camarero durante cierto número de horas un día determinado. El criterio para seleccionar
al candidato que ocupará finalmente el puesto es la cuantía de las propinas recibidas por los
candidatos en ese periodo de prueba, ya que se asume que las propinas pueden ser
consideradas como un indicador de la satisfacción de los clientes con el servicio recibido de
cada camarero. Los resultados correspondientes a esta prueba se recogen en la tabla adjunta,
donde las cifras representan las propinas recibidas expresadas como un porcentaje del total
de la cuenta correspondiente.
Sr. Ruiz Sr. Pérez Sr. González Sr. Ortega

8 10 8’5 13
7’5 9’5 5 10’5
10’9 11’4 15 9’5
10 10’3 11’1 12
12 12 10’5 16
6’5 7 8
10 11
Utilizando un nivel de significación del 10%, ¿puede admitirse que los cuatro candidatos
están igualmente cualificados para este trabajo?
Resolución
Definimos las variables aleatorias:

Xi: porcentaje de propina sobre el importe total de la cuenta recibida por el camarero i.
 i = 1, 2, 3, 4
Los candidatos estarán igualmente cualificados para realizar el trabajo si los porcentajes
medios de propinas son iguales para los cuatro. Por tanto, el contraste que hay que realizar
es:
Ho: 1 = 2 = 3 = 4
H1:  (i , j), i  j / i  j
Este tipo de contrastes se resuelven realizando un análisis de la varianza, o ANOVA de un

factor. Para poder aplicar el método del análisis de la varianza tenemos que testar si se
verifican las siguientes hipótesis:
- Las distribuciones poblacionales deben ser normales.
- Las poblaciones deben ser independientes.
- Las varianzas 2 deben ser iguales (homoscedasticidad).
- Las muestras deben ser aleatorias.
Por tanto, como paso previo a aplicar ANOVA, tendremos que contrastar esas hipótesis.
1
Normalidad e igualdad de varianzas (homoscedasticidad)
H0: La muestra procede de una población distribuida según una normal

H1: La muestra procede de una población no distribuida según una normal
Analizar / Estadísticos Descriptivos / Explorar
Los resultados son:
Pruebas de normalidad
Camarero Kolmogorov-Smirnov(a) Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.
Porcentaje de propina Sr. Ruíz
,215 7 ,200(*) ,952 7 ,749
sobre el total de la factura
Sr. Pérez ,229 5 ,200(*) ,940 5 ,668
Sr. González ,193 7 ,200(*) ,969 7 ,893
Sr. Ortega ,138 6 ,200(*) ,979 6 ,948
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors
2
Puesto que el tamaño muestral es inferior a 50, podemos aplicar el contraste de Shapiro-
Wilk. A partir los resultados obtenidos con este contraste, concluimos que los porcentajes de
propinas de cada uno de los camareros se distribuyen según una normal, puesto que para los
4 casos el p-value asociado es mayor del nivel de significación 0’1 (Sr. Ruiz p=0’749, Sr
Pérez=0’668, Sr. González p=0’893, Sr. Ortega p=0’948 todos mayores del nivel de
significación de 0’1).
A continuación, testamos la hipótesis de igualdad de varianzas entre las muestras:
H0: X=Y =Z=T

H1: alguna de las varianzas es distinta
Prueba de homogeneidad de la varianza
Estadístico
de Levene gl1 gl2 Sig.
Porcentaje de propina Basándose en la media 1,646 3 21 ,209
sobre el total de factura Basándose en la
1,163 3 21 ,347
mediana.
Basándose en la
mediana y con gl 1,163 3 15,295 ,356
corregido
Basándose en la media
1,662 3 21 ,206
recortada
En el contraste para la igualdad de las varianzas, el p-value = 0’209 > 0’1, por lo que no hay
evidencias para rechazar la igualdad de las varianzas en las cuatro poblaciones.
Aleatoriedad
H0: La muestra de porcentaje de propina sobre el total de la cuenta recibido por el camarero i es aleatoria
H1: La muestra de porcentaje de propina sobre el total de la cuenta recibido por el camarero i no es aleatoria
 i = 1, 2, 3, 4
Esta hipótesis implica testar si se verifica la aleatoriedad de cada una de las 4 muestras. Para
ello, empezamos seleccionando los datos correspondientes al Sr. Ruiz y mediante el test de
rachas contrastamos la aleatoriedad. Posteriormente, procederemos de igual manera con el
resto de muestras.
Datos / Seleccionar casos/ Si satisface la condición
3
Analizar/ Pruebas no paramétricas/ Rachas
Para el Sr. González:
Prueba de rachas
Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,000
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
En base a la muestra, y con un nivel de significación del 10%, no hay evidencias para
rechazar la aleatoriedad de la muestra del porcentaje de propinas correspondiente al Sr. Ruiz
(p-value= 1>0’1).
A continuación, seleccionamos los datos correspondientes al Sr. Pérez, y volvemos a aplicar

el test de rachas.
4
Prueba de rachas
Porcentaje de
propina sobre
el total de
factura
Casos >= Valor de
3
prueba
Casos en total 5
Número de rachas 2
Z -,982
Sig. asintót. (bilateral) ,326
a. Mediana
Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de

porcentaje de propinas correspondiente al Sr. Pérez (p-value= 0’326>0’1). Para el Sr.
González:
Prueba de rachas
Porcentaje de
propina sobre
el total de
factura
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
a. Mediana

porcentaje de propinas correspondiente al Sr. González (p-value= 1>0’1). Para el Sr. Ortega:
Prueba de rachas
Porcentaje de
propina sobre
el total de
factura
Casos >= Valor de
3
prueba
Casos en total 6
Número de rachas 4
Z ,000
a. Mediana
5
porcentaje de propinas correspondiente al Sr. Ortega (p-value= 1>0’1).
Independencia:
Por la propia naturaleza de los datos, las muestras son independientes, ya que no se trata de
muestras pareadas.
Por tanto, hemos comprobado que se verifican las hipótesis necesarias para aplicar ANOVA
de un factor. Con este análisis, vamos a comprobar si el porcentaje de propinas sobre el
total de las cuentas varía según el factor camarero.
Analizar/ Comparar medias/ Anova de un factor/Post hoc
6
Opciones
La salida que obtenemos será:
ANOVA de un factor
Descriptivos
Porcentaje de propina sobre el total de factura

Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
Sr. Ruiz 7 9,271 1,983 ,750 7,437 11,105 6,5 12,0
Sr. Perez 5 10,640 1,031 ,461 9,360 11,920 9,5 12,0
Sr. Gonzalez 7 9,729 3,245 1,227 6,727 12,730 5,0 15,0
Sr. Ortega 6 11,500 2,828 1,155 8,532 14,468 8,0 16,0
Total 25 10,208 2,498 ,500 9,177 11,239 5,0 16,0
Prueba de homogeneidad de varianzas

Estadístico
1,646 3 21 ,209
7
ANOVA

Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 18,698 3 6,233 ,999 ,413
Intra-grupos 131,041 21 6,240
Total 149,738 24
En la tabla ANOVA, podemos observar que no existen diferencias significativas en cuanto al

porcentaje de propina recibido por los camareros. Es decir, en base a la muestra, y al 10% de
significación, no podemos rechazar que los cuatro camareros están igualmente cualificados
para el trabajo (p-value=0’413>0’1)
El propósito de las siguientes tablas es mostrar de dónde surgen las diferencias en el caso de
que éstas existan. Es decir, supongamos que en la tabla anterior hubiésemos rechazado la
hipótesis nula de igualdad de medias. En tal caso, estaríamos interesados en estudiar de
dónde surgen esas diferencias, qué camareros son similares entre sí en cuento a su porcentaje
de propinas y cuáles son diferentes. Esta información está contenida en las siguientes tablas.
No obstante, dado que en ese ejercicio la prueba ANOVA nos ha mostrado que no existen
diferencias, la información proporcionada por estas tablas no será de gran utilidad.
La siguiente tabla muestra las comparaciones en los porcentajes de propinas entre

camareros. Esta tabla recoge los resultados obtenidos al realizar los correspondientes
contrastes de diferencia de medias entre porcentajes de propinas, así como los intervalos de
confianza de la diferencia de los porcentajes medios de propinas entre camareros.
Obviamente, toda esta información refrenda la conclusión anterior de que no existen
diferencias en los porcentajes medios de propinas entre los 4 camareros.
Comparaciones múltiples
Variable dependiente: Porcentaje de propina sobre el total de factura

Scheffé
Intervalo de confianza al
90%
Diferencia de Límite
(I) Camarero (J) Camarero medias (I-J) Error típico Sig. Límite inferior superior
Sr. Ruiz Sr. Perez -1,369 1,463 ,831 -5,265 2,527
Sr. Gonzalez -,457 1,335 ,989 -4,014 3,099
Sr. Ortega -2,229 1,390 ,479 -5,930 1,473
Sr. Perez Sr. Ruiz 1,369 1,463 ,831 -2,527 5,265
Sr. Gonzalez ,911 1,463 ,942 -2,985 4,807
Sr. Ortega -,860 1,513 ,955 -4,889 3,169
Sr. Gonzalez Sr. Ruiz ,457 1,335 ,989 -3,099 4,014
Sr. Perez -,911 1,463 ,942 -4,807 2,985
Sr. Ortega -1,771 1,390 ,659 -5,473 1,930
Sr. Ortega Sr. Ruiz 2,229 1,390 ,479 -1,473 5,930
Sr. Perez ,860 1,513 ,955 -3,169 4,889
Sr. Gonzalez 1,771 1,390 ,659 -1,930 5,473
8
La siguiente tabla muestra los subconjuntos homogéneos, es decir, cómo se pueden agrupar
los camareros en grupos de forma que los porcentajes de propinas de los camareros dentro
de un mismo grupo sean significativamente homogéneos. En este ejercicio, hemos obtenidos
que las medias de las proporciones de propinas son iguales para los cuatro camareros.

a,b
Scheffé
Subconju
nto para
alfa = .1
Camarero N 1
Sr. Ruiz 7 9,271
Sr. Gonzalez 7 9,729
Sr. Perez 5 10,640
Sr. Ortega 6 11,500
Sig. ,501
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 6,131.
b. Los tamaños de los grupos no son iguales. Se utilizará
la media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados.
PROBLEMA 2
Una entidad bancaria está estudiando el nivel de absentismo laboral en 3 sucursales de una
misma provincia. Para ello, solicita de cada sucursal información sobre el número de
ausencias anuales de 7 empleados seleccionados al azar en cada sucursal. Los datos
obtenidos se recogen en la siguiente tabla:
Empresa A Empresa B Empresa C

1 6 1
2 5 2
3 8 1
5 9 5
1 7 4
3 3 3
5 5 2
Considerando un nivel de confianza del 95%, ¿podría admitirse que el número de ausencias
por empleado presenta diferencias significativas según la sucursal considerada?
Resolución
Las variables aleatorias son:

Xi: número de ausencias anuales de un empleado de la sucursal i
i= 1(A), 2(B), 3(C)
9
Para comprobar si existen diferencias significativas en el número de ausencias por empleado
según la sucursal de procedencia, contrastamos la hipótesis:
Ho: 1 = 2 = 3
H1:  (i , j), i  j / i  j
Resolvemos el contraste mediante un análisis de la varianza de un factor. En primer lugar

habrá que comprobar si se verifican las hipótesis necesarias para aplicar ANOVA.
Normalidad e igualdad de varianzas (homoscedasticidad):
Analizar/ Estadísticos descriptivos/ Explorar
La salida que proporciona SPSS es la siguiente:
Pruebas de normalidad
Kolmogorov-Smirnov(a) Shapiro-Wilk
Empresa Estadístico gl Sig. Estadístico gl Sig.
Número de Empresa A ,185 7 ,200(*) ,877 7 ,215
ausencias anuales Empresa B ,144 7 ,200(*) ,978 7 ,948
Empresa C ,219 7 ,200(*) ,915 7 ,432
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors
10
Puesto que el tamaño muestral es menor de 50 nos fijaremos en los resultados del contraste
de Shapiro-Wilk. Al 5% de significación, no hay evidencias para rechazar la normalidad de
las poblaciones, es decir, no se rechaza que el número de ausencias anuales en cada una de
las sucursales se distribuye según una normal (todos los p-values asociados al contraste de
normalidad de Shapiro-Wilk son mayores que el nivel de significación).
Prueba de homogeneidad de la varianza
Estadístico
Número de Basándose en la media ,307 2 18 ,739
ausencias anuales Basándose en la
,300 2 18 ,744
mediana.
Basándose en la
mediana y con gl ,300 2 17,647 ,745
corregido
Basándose en la media
,318 2 18 ,732
recortada
Al 5% de significación no hay evidencias significativas para rechazar la igualdad de

varianzas (p-value=0’739>0’05). Las variables pueden considerarse homoscedásticas.
Aleatoriedad
En primer lugar se analiza la aleatoriedad de la muestra procedente de la sucursal A, para lo

que seleccionamos (filtramos) los datos correspondientes a dicha empresa. Posteriormente,
realizamos el test de rachas.
Analizar/ Pruebas no paramétricas/ Rachas
11
Los resultados son:
Prueba de rachas
Número de
ausencias
anuales
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
a. Mediana
El p-value=1>0’05, por lo que no hay evidencias para rechazar la hipótesis de aleatoriedad

de la muestra de ausencias de trabajadores de la sucursal A al 5% de significación.
A continuación, hacemos lo mismo con la sucursal B:
12
Prueba de rachas
Número de
ausencias
anuales
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
a. Mediana
El p-value=1>0’05, por lo que no hay evidencias al 5% de significación para rechazar la

hipótesis de aleatoriedad de la muestra de ausencias de trabajadores de la sucursal B.
Finalmente, para la sucursal C obtenemos:

Prueba de rachas
Número de
ausencias
anuales
Casos >= Valor de
5
prueba
Casos en total 7
Número de rachas 4
Z ,000
a. Mediana
El p-value=1>0’05, por lo que no hay evidencias al 5% de significación para rechazar la

hipótesis de aleatoriedad de la muestra de ausencias de trabajadores de la sucursal C.
Por tanto, las muestras reúnen las condiciones necesarias para aplicar el análisis de la
varianza.
Analizar/ Comparar medias/ Anova de un factor/ Post hoc
13
Opciones:
14
La salida es la siguiente:
ANOVA de un factor
Descriptivos
Número de ausencias anuales

Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
Empresa A 7 2,86 1,68 ,63 1,31 4,41 1 5
Empresa B 7 6,14 2,04 ,77 4,26 8,03 3 9
Empresa C 7 2,57 1,51 ,57 1,17 3,97 1 5
Total 21 3,86 2,35 ,51 2,79 4,93 1 9
Prueba de homogeneidad de varianzas

Estadístico
,307 2 18 ,739
15
ANOVA

Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 55,143 2 27,571 8,954 ,002
Intra-grupos 55,429 18 3,079
Total 110,571 20
En la tabla ANOVA podemos observar que existen diferencias significativas en cuanto al

factor sucursal (p-value=0’002<0’05). Es decir, al 5% de significación se rechaza la
hipótesis de igualdad de medias: los datos muestrales indican que existen diferencias
significativas en el número de ausencias por empleado según la sucursal considerada. Para
tratar de averiguar entre qué sucursales se producen esas diferencias, analizamos a
continuación los resultados obtenidos del test de comparaciones múltiples de Scheffé
(pruebas post hoc).
Comparaciones múltiples
Variable dependiente: Número de ausencias anuales

Scheffé
Intervalo de confianza al
95%
Diferencia de Límite
(I) Empresa (J) Empresa medias (I-J) Error típico Sig. Límite inferior superior
Empresa A Empresa B -3,29* ,94 ,009 -5,79 -,78
Empresa C ,29 ,94 ,955 -2,22 2,79
Empresa B Empresa A 3,29* ,94 ,009 ,78 5,79
Empresa C 3,57* ,94 ,005 1,07 6,07
Empresa C Empresa A -,29 ,94 ,955 -2,79 2,22
Empresa B -3,57* ,94 ,005 -6,07 -1,07
*. La diferencia entre las medias es significativa al nivel .05.
Al 5% de significación no podemos rechazar que no existan diferencias en el número medio

de ausencias entre las sucursales A y C (p=0.955>0.05), mientras que podemos apreciar
diferencias significativas entre las sucursales A y B (p=0’009<0’05), y las sucursales B y C
(p=0’005<0’05).
Subconjuntos homogéneos
16
a
Scheffé
Subconjunto para alfa
= .05
Empresa N 1 2
Empresa C 7 2,57
Empresa A 7 2,86
Empresa B 7 6,14
Sig. ,955 1,000
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 7,000.
Los grupos homogéneos en cuanto al número de ausencias son el formado por las sucursales
A y C por un lado, y la empresa B por el otro. Este resultado podía deducirse intuitivamente
viendo las diferencias existentes en el número de ausencias medias entre sucursales.
PROBLEMA 3
Una subdelegación del Ministerio de Educación y Ciencia está interesada en estudiar la

cantidad mensual pagada por los padres de alumnos de enseñanza primaria en los colegios
privados pertenecientes al territorio de su competencia. Para realizar el estudio clasificaron
los colegios privados de ese territorio en bloques según su localización geográfica y según el
número de alumnos por aula que los colegios afirmaban tener. En cada una de las
combinaciones obtenidas seleccionaron una muestra aleatoria de tres colegios, recogiendo de
cada uno de ellos información sobre la cantidad mensual que el colegio recibía por cada
alumno de enseñanza primaria. Los datos obtenidos, en decenas de euros, fueron los
siguientes:
Número de
Zona norte Zona centro Zona sur
alumnos por aula
32 25’4 50
Menos de 25 45’5 37’2 20’9
28’95 23 27
21’6 26’5 15
25 o más 25 17’2 24
19 22 18
A la vista de estos datos y suponiendo que se verifican las hipótesis de normalidad,

independencia y homocedasticidad, ¿puede decirse que los colegios privados pertenecientes
a esta subdelegación presentan diferencias significativas en las cantidades cobradas a los
alumnos de enseñanza primaria? Utilice un nivel de significación del 5%.
Resolución
Definimos las variables aleatorias:
17
Xij: cantidad mensual que un colegio del bloque i,j recibe por alumno de enseñanza primaria,
donde:
i= 1 (menos de 25 alumnos por aula), 2 (25 o más alumnos por aula)
j= 1 (zona norte), 2 (zona centro), 3 (zona sur)
Hay que estudiar la cantidad mensual que los colegios reciben por cada alumno de
enseñanza primaria considerando los factores Número de alumnos por aula y Zona en la que
está situado el colegio. Por tanto, se trata de un análisis de la varianza con dos factores.
La hipótesis que hay que contrastar es:
Ho:  11 = … = rs
H1:  (i , j) (h, k) / i j  hk
 r =1, 2 y s =1, 2, 3
Aceptar la hipótesis nula anterior equivale a aceptar todas las hipótesis nulas H 0’, H0’’y H0’’’
de los siguientes contrastes:
Ho’:  1 =  2 = 0 Ho’’:  1 =  2 =  3 = 0 Ho’’’: () 11 = ... = () rs = 0

H1’:  i /  i  0 H1’’:  j /  j  0 H1’’’:  (i , j) /() ij  0
Analizar/ Modelo lineal general/ Univariante
18
La salida que obtenemos es la siguiente:
Análisis de varianza univariante
Factores inter-sujetos
Etiqueta
del valor N
Zona de localización 1 Zona
6
del colegio norte
2 Zona
6
centro
3 Zona sur 6
Número de alumnos 1 Menos de
9
por aula 25
2 25 o mas 9
Pruebas de los efectos inter-sujetos
Variable dependiente: Cantidad cobrada a los alumnos de enseñanza primaria

Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 663,904a 5 132,781 1,885 ,171
Intersección 12706,837 1 12706,837 180,437 ,000
ZONA 40,980 2 20,490 ,291 ,753
ALUMNOS 574,040 1 574,040 8,151 ,014
ZONA * ALUMNOS 48,884 2 24,442 ,347 ,714
Error 845,072 12 70,423
Total 14215,813 18
Total corregida 1508,976 17
a. R cuadrado = ,440 (R cuadrado corregida = ,207)
Obtenemos la tabla ANOVA con la suma de cuadrados y los cuadrados medios para cada
uno de los factores, para la interacción entre los factores, para el error y el total. Además
obtenemos el estadístico F para los tres contrastes que realizamos, junto con su p-value
correspondiente:
CMZona=20'490; CMAlumnos=574'040; CMZona*Alumnos=24'442; CMError=70'423
El valor del estadístico para contrastar el efecto del factor Zona de localización del colegio
sobre la cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria
es F=0’291, y el valor del p-value asociado al contraste es 0’753>0’05, por lo que no
existen diferencias significativas en la cantidad mensual que reciben los colegios según la
zona donde se localiza éste.
El estadístico para contrastar el efecto del factor Número de alumnos por aula sobre la
cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria es
F=8’151. El valor del p-value de ese contraste es 0’014<0’05. Por tanto, existen diferencias
en la cantidad de dinero que reciben los colegios según el número de alumnos por aula o,
19
dicho de otra manera, podemos decir que existen diferencias en el precio debidas al número
de alumnos por aula que el colegio admite.
El estadístico para contrastar si existe interacción o no entre los factores es F=0’347, y el p-

value=0’714>0’05. Por tanto, no rechazamos la hipótesis, por lo que los datos no indican
una interacción entre los factores Número de alumnos por aula y Zona de localización del
colegio.
Por todo lo anterior podemos afirmar que hay diferencias significativas entre los precios de
los colegios, y que éstas son debidas al factor Número de alumnos por aula.
PROBLEMA PROPUESTO 1
El programa de proyecciones de la Filmoteca Nacional para el mes de marzo consta de 3

ciclos de películas dedicados a los directores A, B y C, respectivamente. La programación
diaria ha sido dividida en 3 sesiones. En la primera sesión, se proyectarán las películas del
director A, en la segunda sesión las del director B, y en la tercera, las del director C. La tabla
adjunta presenta los ingresos diarios, en miles de euros, obtenidos en días elegidos al azar,
clasificados en función de la película proyectada y del tipo de día de proyección según éste
sea laborable o festivo:
Director de la película Días laborables Días festivos

18’125
40
Director A 23’5
45
28’45
63
Director B 29
51’5
35
60’8
Director C 40
58
Utilizando un nivel de significación del 1%, y suponiendo que las muestras correspondientes
a los ingresos por día pueden considerarse independientes, normales y homoscedásticas,
¿confirman los datos la existencia de diferencias significativas en los ingresos diarios según
los dos factores considerados?
20
21
22
23
24
25
Rechazamos hipótesis nula en día y director, existen diferencias en las variables que se
relfejan en las medias debido al factore dia y el factor director
Los p valores sopn pequeños , rechazamos hipótesis nula , las medias no son iguales, la
hipótesis nula decíaque las medias son iguales.
Aceptar la interacción entre día y director por ser grande 0,0482, acepto la Ho.
ANCOVA otro caso

Profesores y nota alumnos
26
27
28
29
30
31
32
33
34
35
36
37
38
39
Quiero ver si existen diferencias entre G1 G2 G3
Y=a+bx
=a1+a2 grupo 2 +a3 grupo3
Vale 0 vale 0
Vale 1 vale 1
Para un indivuduo que pertenece al grupo 1, Y=a1 a1 es promedio de lgrupo 1 X

Y=a1
Y=a1+A2
Y=a1+ + a3
A1=7,5
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
Miramos la constante en B, en Anova miro la media 7,5
La media del grupo 2 A2= 5,25
Y= 7,5
A3=-1,5
Se queja el profe y dice que vean las notas de ingreso del grupo pretest
58
59
60
61
62
63
Que pasa con la varible grupo?
El profesor ve que la varible grupo ya no es significativa, el´p rofesor esta contento, existen
difernecias en los grupos en pretest
Las
64
65
66
67
Estoy comparando las medias de cada grupo.
Tego en cuenta la covariable tengo en cuetna que uno tiene alumnos mejroes y oros peores
Cuanto cmparo las medias del grupo en términos de pretest
Las medias entre los grupos son más homogéneas
Tengo también las difrencias entre gurpos.
Vamos a hacer la regresión lineal viendo que con modelos que no sean Dummis vamso a ver
68
69
70
71
Según SPSS el modelo lineal es:
Test=3.865-0.635d1-0,423d2+0.538*5.0833(residuo)
El modelo de la regrsión muestras más claramente el modelo
Ahora estiduaremos Análisis de la regresión.-
Análisis conjunto
72
73
74
75
Si las variables son relevantes para eso testo la igualdad de medias rechazo en patrimnio y
rechazo en deuda.
Queremos rechazar la hipótesis nula que las medias son iguales
Tenemos el autovalor uno solo
Que porcentaje dentro de lgrupo representa del total
He obtendio grupos diferenciados
76
Necesitaoms testar la igualdad de varianzas
Hipotesis nula varianzas iguales
Testamos igualdad de varianzas No rechazamos la hipótesis nula.
La landa de Wills
Queremosque dentro de lgrupo sea pequeña
En que medida de los representantes de lgrupo son iguales
Cuando mas baj oes la W la de dentro de grupo con la total
Cuanto mas grande es la W la varianza dentro de lgrupo entonces la varianza dentro de

lgrupo es muy grande eso es muy malo porque se pueden sloapar, los centroides de lgrupo
pueden solaparse
El p valor es muy pequeño, o,002 rechazo la hipótesis nula}

Digo que las medias n oson iguales
77
Acá tengo los centrides de lgrupo -1.225 y +1,225
Mas patrimonio mas positivo

Cuant omas aumente el patrimonio mas me acerco a la derecha al grupo que reclama malos
clientes
Patrimonio neto me aporta mas que deuda pendiente con l ocual patrimonio es mas
importante
P valor mas pequeño es mas significativa mas diferente de lcero!!!
78
79
80
Solo hemos fallado en un ccaso 13
El 93,8% es 15/16 es la tasa de éxito
Analisis interdependencias etre variables
Voy a construir constructors,

Voy a reducir filas eso quiero conseguri
El aná lisis cluster
La agrupación final resultante dependerá del metodi que yo use aquí no tengo una variable
que me contenga los grupos, no hay una clasificación exacta, no existe un R2
Hace análisis descriptivos de un conjunto de datos.
Si qieremos lanzar un nuevo producto ejemplo debemos elegir variable a estudiar.
Quiero definir bien los grupos

Si tengo muchas variables deebo buscar alguna técnica que reduzca la cantiad de variables
pero el problema es que luego como las interpreta
81
Ejm, armonía y feliicidad
No son buenas las técnicas de reducción de varibles
Imaginar que todas las variables son cuantittativas
Tenenmos diferentes variables, tipod de variables diferentes, ejm variables de intervalos
A una variable:
Cualitativa en cuantitativas
cualitativa la puedo transformar en binaria
2.- Como defino yo ccuando dos individuos son semejantes y diferentes

Los que están mas cercanos
Usamos categorías los que tiene un dos un tres y un cuatro
Las cualitiaivas se suele convierten en binarias

Ejm: le gusta el pisco, si no
Estudio una carrera si no
Tengo 30 preguntas y estoy viendo cuando han coincididod y cuand ono
Bianria 0,1
Me interesasn cuando coinciden no cuando no coinciden.
Ind 1 ind 2 1 0
1 a b
0 c d
Se agrupa ntambien según tipología
Vas mmodificando los grupos
Luego vemos procedimientos para formar lso grupos
Los métodos jerárquicos y lso metoddos n ojerarquicos
Método jerarquico.-
Me va a mostrar el panorama complteto,
Imagino 5 individuos y 5 grupos

Cuales son los individuos mas parecidos entre si
Método aglomerativo
82
Metodo no jerarquico.-
Según lo que quiero.
Supongamsoque tengo variables continuas.
Como mida distancia de este grupo a los demás
Puedo usar el centroide
Vinculacon entre grupos, considera la media, calcula la distancia entre todos lasos pares y de
la media.
Este método es muy empleado.
Agrupacion de lso centriodes.-

Uso empelo la distancia oclidia
Com oel centroide peude cambair puede producirse cambis.
Agrupacion de medianas
Es mas estable que lso centroides
El vecino mas próximo
Origina un grupo que domina a los demás
El vecino mas lejano, que tiene varios grupos

Vinculoa intragurpos
La distancia promedio entre los grupos sea la menor posible
Metodo de Ward
Lo asigna la grupo que se produzca el menor incremento de la variana
Minimimiza la cvarianza entre lso grupo
Meotod jerarquico.
Cuanto menos grupos mejor

Parto de la heterogeneadoda de un grupo
Debo mverme
Quiero conseguir una lcasificacion no sea muy alta dentro del grupo
83
Metodo no jerarquico.-
Debo partir de un numero predifinido fr grupos.
Métodos de K medias.-
Digamso que queremos hacer traes grupos , extablezco 3 semillas de todo el grupo.
Una vez tenida las 3 semillas, spss va asignando una cada grupo.
Va a colocar las semillas (centroids), contua hayando los cuadrados hasta que n ose produce
ningún cambio.
Desventaja, definir las semillas y los grupos

Definimos las semillas a raíz de los resutlados de los METodos Jerarquicos
Validez, mediante varibles externas veo si son diferentes entre lso grupos, si siguen siéndolo.
Las variables externas deben diferri también entre lso grupos.
Las agrupaciones son sustamciales

Accesibles
Diferencailes
Para una buena interpetación, prguntos si exitesn diferencias entre las medias que yo he
usado
Quiero ver que lso grupos son distinguibles, quieor recuriria vriables observables externar,
Queiro tenr variables que me perimitan caracterizar
84

Y Ejercicio Analisis Discriminante Isabel

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Y Ejercicio Analisis Discriminante Isabel

Cargado por

Copyright:

Formatos disponibles

PROBLEMA 1

Un restaurante está realizando un proceso de selección para contratar a un nuevo camarero.

Sr. Ruiz Sr. Pérez Sr. González Sr. Ortega

Definimos las variables aleatorias:

Este tipo de contrastes se resuelven realizando un análisis de la varianza, o ANOVA de un

H0: La muestra procede de una población distribuida según una normal

Analizar / Estadísticos Descriptivos / Explorar

Los resultados son:

Camarero Kolmogorov-Smirnov(a) Shapiro-Wilk

A continuación, testamos la hipótesis de igualdad de varianzas entre las muestras:

H0: X=Y =Z=T

Prueba de homogeneidad de la varianza

Datos / Seleccionar casos/ Si satisface la condición

Para el Sr. González:

A continuación, seleccionamos los datos correspondientes al Sr. Pérez, y volvemos a aplicar

Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de

Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de

Analizar/ Comparar medias/ Anova de un factor/Post hoc

La salida que obtenemos será:

Porcentaje de propina sobre el total de factura

Prueba de homogeneidad de varianzas

Porcentaje de propina sobre el total de factura

Porcentaje de propina sobre el total de factura

En la tabla ANOVA, podemos observar que no existen diferencias significativas en cuanto al

La siguiente tabla muestra las comparaciones en los porcentajes de propinas entre

Variable dependiente: Porcentaje de propina sobre el total de factura

Porcentaje de propina sobre el total de factura

Empresa A Empresa B Empresa C

Las variables aleatorias son:

Resolvemos el contraste mediante un análisis de la varianza de un factor. En primer lugar

Normalidad e igualdad de varianzas (homoscedasticidad):

Analizar/ Estadísticos descriptivos/ Explorar

La salida que proporciona SPSS es la siguiente:

Prueba de homogeneidad de la varianza

Al 5% de significación no hay evidencias significativas para rechazar la igualdad de

En primer lugar se analiza la aleatoriedad de la muestra procedente de la sucursal A, para lo

El p-value=1>0’05, por lo que no hay evidencias para rechazar la hipótesis de aleatoriedad

El p-value=1>0’05, por lo que no hay evidencias al 5% de significación para rechazar la

Finalmente, para la sucursal C obtenemos:

El p-value=1>0’05, por lo que no hay evidencias al 5% de significación para rechazar la

Analizar/ Comparar medias/ Anova de un factor/ Post hoc

Número de ausencias anuales

Prueba de homogeneidad de varianzas

Número de ausencias anuales

Número de ausencias anuales

En la tabla ANOVA podemos observar que existen diferencias significativas en cuanto al

Variable dependiente: Número de ausencias anuales

Al 5% de significación no podemos rechazar que no existan diferencias en el número medio

Una subdelegación del Ministerio de Educación y Ciencia está interesada en estudiar la

A la vista de estos datos y suponiendo que se verifican las hipótesis de normalidad,

Definimos las variables aleatorias:

La hipótesis que hay que contrastar es:

Ho’:  1 =  2 = 0 Ho’’:  1 =  2 =  3 = 0 Ho’’’: () 11 = ... = () rs = 0

Analizar/ Modelo lineal general/ Univariante

Análisis de varianza univariante

Pruebas de los efectos inter-sujetos

Variable dependiente: Cantidad cobrada a los alumnos de enseñanza primaria

CMZona=20'490; CMAlumnos=574'040; CMZona*Alumnos=24'442; CMError=70'423

El estadístico para contrastar si existe interacción o no entre los factores es F=0’347, y el p-

El programa de proyecciones de la Filmoteca Nacional para el mes de marzo consta de 3

Director de la película Días laborables Días festivos

ANCOVA otro caso