Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y Ejercicio Analisis Discriminante Isabel
Y Ejercicio Analisis Discriminante Isabel
Utilizando un nivel de significación del 10%, ¿puede admitirse que los cuatro candidatos
están igualmente cualificados para este trabajo?
Resolución
Los candidatos estarán igualmente cualificados para realizar el trabajo si los porcentajes
medios de propinas son iguales para los cuatro. Por tanto, el contraste que hay que realizar
es:
Ho: 1 = 2 = 3 = 4
H1: (i , j), i j / i j
1
Normalidad e igualdad de varianzas (homoscedasticidad)
Pruebas de normalidad
2
Puesto que el tamaño muestral es inferior a 50, podemos aplicar el contraste de Shapiro-
Wilk. A partir los resultados obtenidos con este contraste, concluimos que los porcentajes de
propinas de cada uno de los camareros se distribuyen según una normal, puesto que para los
4 casos el p-value asociado es mayor del nivel de significación 0’1 (Sr. Ruiz p=0’749, Sr
Pérez=0’668, Sr. González p=0’893, Sr. Ortega p=0’948 todos mayores del nivel de
significación de 0’1).
Estadístico
de Levene gl1 gl2 Sig.
Porcentaje de propina Basándose en la media 1,646 3 21 ,209
sobre el total de factura Basándose en la
1,163 3 21 ,347
mediana.
Basándose en la
mediana y con gl 1,163 3 15,295 ,356
corregido
Basándose en la media
1,662 3 21 ,206
recortada
En el contraste para la igualdad de las varianzas, el p-value = 0’209 > 0’1, por lo que no hay
evidencias para rechazar la igualdad de las varianzas en las cuatro poblaciones.
Aleatoriedad
H0: La muestra de porcentaje de propina sobre el total de la cuenta recibido por el camarero i es aleatoria
H1: La muestra de porcentaje de propina sobre el total de la cuenta recibido por el camarero i no es aleatoria
i = 1, 2, 3, 4
Esta hipótesis implica testar si se verifica la aleatoriedad de cada una de las 4 muestras. Para
ello, empezamos seleccionando los datos correspondientes al Sr. Ruiz y mediante el test de
rachas contrastamos la aleatoriedad. Posteriormente, procederemos de igual manera con el
resto de muestras.
3
Analizar/ Pruebas no paramétricas/ Rachas
Prueba de rachas
Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,000
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
En base a la muestra, y con un nivel de significación del 10%, no hay evidencias para
rechazar la aleatoriedad de la muestra del porcentaje de propinas correspondiente al Sr. Ruiz
(p-value= 1>0’1).
4
Prueba de rachas
Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,300
Casos < Valor de prueba 2
Casos >= Valor de
3
prueba
Casos en total 5
Número de rachas 2
Z -,982
Sig. asintót. (bilateral) ,326
a. Mediana
Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,500
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 11,250
Casos < Valor de prueba 3
Casos >= Valor de
3
prueba
Casos en total 6
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
5
Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de
porcentaje de propinas correspondiente al Sr. Ortega (p-value= 1>0’1).
Independencia:
Por la propia naturaleza de los datos, las muestras son independientes, ya que no se trata de
muestras pareadas.
Por tanto, hemos comprobado que se verifican las hipótesis necesarias para aplicar ANOVA
de un factor. Con este análisis, vamos a comprobar si el porcentaje de propinas sobre el
total de las cuentas varía según el factor camarero.
6
Opciones
ANOVA de un factor
Descriptivos
7
ANOVA
El propósito de las siguientes tablas es mostrar de dónde surgen las diferencias en el caso de
que éstas existan. Es decir, supongamos que en la tabla anterior hubiésemos rechazado la
hipótesis nula de igualdad de medias. En tal caso, estaríamos interesados en estudiar de
dónde surgen esas diferencias, qué camareros son similares entre sí en cuento a su porcentaje
de propinas y cuáles son diferentes. Esta información está contenida en las siguientes tablas.
No obstante, dado que en ese ejercicio la prueba ANOVA nos ha mostrado que no existen
diferencias, la información proporcionada por estas tablas no será de gran utilidad.
Comparaciones múltiples
8
La siguiente tabla muestra los subconjuntos homogéneos, es decir, cómo se pueden agrupar
los camareros en grupos de forma que los porcentajes de propinas de los camareros dentro
de un mismo grupo sean significativamente homogéneos. En este ejercicio, hemos obtenidos
que las medias de las proporciones de propinas son iguales para los cuatro camareros.
PROBLEMA 2
Una entidad bancaria está estudiando el nivel de absentismo laboral en 3 sucursales de una
misma provincia. Para ello, solicita de cada sucursal información sobre el número de
ausencias anuales de 7 empleados seleccionados al azar en cada sucursal. Los datos
obtenidos se recogen en la siguiente tabla:
Considerando un nivel de confianza del 95%, ¿podría admitirse que el número de ausencias
por empleado presenta diferencias significativas según la sucursal considerada?
Resolución
9
Para comprobar si existen diferencias significativas en el número de ausencias por empleado
según la sucursal de procedencia, contrastamos la hipótesis:
Ho: 1 = 2 = 3
H1: (i , j), i j / i j
Pruebas de normalidad
Kolmogorov-Smirnov(a) Shapiro-Wilk
Empresa Estadístico gl Sig. Estadístico gl Sig.
Número de Empresa A ,185 7 ,200(*) ,877 7 ,215
ausencias anuales Empresa B ,144 7 ,200(*) ,978 7 ,948
Empresa C ,219 7 ,200(*) ,915 7 ,432
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors
10
Puesto que el tamaño muestral es menor de 50 nos fijaremos en los resultados del contraste
de Shapiro-Wilk. Al 5% de significación, no hay evidencias para rechazar la normalidad de
las poblaciones, es decir, no se rechaza que el número de ausencias anuales en cada una de
las sucursales se distribuye según una normal (todos los p-values asociados al contraste de
normalidad de Shapiro-Wilk son mayores que el nivel de significación).
Estadístico
de Levene gl1 gl2 Sig.
Número de Basándose en la media ,307 2 18 ,739
ausencias anuales Basándose en la
,300 2 18 ,744
mediana.
Basándose en la
mediana y con gl ,300 2 17,647 ,745
corregido
Basándose en la media
,318 2 18 ,732
recortada
Aleatoriedad
11
Los resultados son:
Prueba de rachas
Número de
ausencias
anuales
Valor de prueba a 3,00
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
12
Prueba de rachas
Número de
ausencias
anuales
Valor de prueba a 6,00
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
Número de
ausencias
anuales
Valor de prueba a 2,00
Casos < Valor de prueba 2
Casos >= Valor de
5
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana
Por tanto, las muestras reúnen las condiciones necesarias para aplicar el análisis de la
varianza.
13
Opciones:
14
La salida es la siguiente:
ANOVA de un factor
Descriptivos
15
ANOVA
Comparaciones múltiples
Subconjuntos homogéneos
16
Número de ausencias anuales
a
Scheffé
Subconjunto para alfa
= .05
Empresa N 1 2
Empresa C 7 2,57
Empresa A 7 2,86
Empresa B 7 6,14
Sig. ,955 1,000
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 7,000.
Los grupos homogéneos en cuanto al número de ausencias son el formado por las sucursales
A y C por un lado, y la empresa B por el otro. Este resultado podía deducirse intuitivamente
viendo las diferencias existentes en el número de ausencias medias entre sucursales.
PROBLEMA 3
Número de
Zona norte Zona centro Zona sur
alumnos por aula
32 25’4 50
Menos de 25 45’5 37’2 20’9
28’95 23 27
21’6 26’5 15
25 o más 25 17’2 24
19 22 18
Resolución
17
Xij: cantidad mensual que un colegio del bloque i,j recibe por alumno de enseñanza primaria,
donde:
i= 1 (menos de 25 alumnos por aula), 2 (25 o más alumnos por aula)
j= 1 (zona norte), 2 (zona centro), 3 (zona sur)
Hay que estudiar la cantidad mensual que los colegios reciben por cada alumno de
enseñanza primaria considerando los factores Número de alumnos por aula y Zona en la que
está situado el colegio. Por tanto, se trata de un análisis de la varianza con dos factores.
Ho: 11 = … = rs
H1: (i , j) (h, k) / i j hk
r =1, 2 y s =1, 2, 3
Aceptar la hipótesis nula anterior equivale a aceptar todas las hipótesis nulas H 0’, H0’’y H0’’’
de los siguientes contrastes:
18
La salida que obtenemos es la siguiente:
Factores inter-sujetos
Etiqueta
del valor N
Zona de localización 1 Zona
6
del colegio norte
2 Zona
6
centro
3 Zona sur 6
Número de alumnos 1 Menos de
9
por aula 25
2 25 o mas 9
Obtenemos la tabla ANOVA con la suma de cuadrados y los cuadrados medios para cada
uno de los factores, para la interacción entre los factores, para el error y el total. Además
obtenemos el estadístico F para los tres contrastes que realizamos, junto con su p-value
correspondiente:
El valor del estadístico para contrastar el efecto del factor Zona de localización del colegio
sobre la cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria
es F=0’291, y el valor del p-value asociado al contraste es 0’753>0’05, por lo que no
existen diferencias significativas en la cantidad mensual que reciben los colegios según la
zona donde se localiza éste.
El estadístico para contrastar el efecto del factor Número de alumnos por aula sobre la
cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria es
F=8’151. El valor del p-value de ese contraste es 0’014<0’05. Por tanto, existen diferencias
en la cantidad de dinero que reciben los colegios según el número de alumnos por aula o,
19
dicho de otra manera, podemos decir que existen diferencias en el precio debidas al número
de alumnos por aula que el colegio admite.
Por todo lo anterior podemos afirmar que hay diferencias significativas entre los precios de
los colegios, y que éstas son debidas al factor Número de alumnos por aula.
PROBLEMA PROPUESTO 1
Utilizando un nivel de significación del 1%, y suponiendo que las muestras correspondientes
a los ingresos por día pueden considerarse independientes, normales y homoscedásticas,
¿confirman los datos la existencia de diferencias significativas en los ingresos diarios según
los dos factores considerados?
20
21
22
23
24
25
Rechazamos hipótesis nula en día y director, existen diferencias en las variables que se
relfejan en las medias debido al factore dia y el factor director
Los p valores sopn pequeños , rechazamos hipótesis nula , las medias no son iguales, la
hipótesis nula decíaque las medias son iguales.
Aceptar la interacción entre día y director por ser grande 0,0482, acepto la Ho.
26
27
28
29
30
31
32
33
34
35
36
37
38
39
Quiero ver si existen diferencias entre G1 G2 G3
Y=a+bx
=a1+a2 grupo 2 +a3 grupo3
Vale 0 vale 0
Vale 1 vale 1
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
Miramos la constante en B, en Anova miro la media 7,5
La media del grupo 2 A2= 5,25
Y= 7,5
A3=-1,5
Se queja el profe y dice que vean las notas de ingreso del grupo pretest
58
59
60
61
62
63
Que pasa con la varible grupo?
El profesor ve que la varible grupo ya no es significativa, el´p rofesor esta contento, existen
difernecias en los grupos en pretest
Las
64
65
66
67
Estoy comparando las medias de cada grupo.
Tego en cuenta la covariable tengo en cuetna que uno tiene alumnos mejroes y oros peores
Cuanto cmparo las medias del grupo en términos de pretest
Las medias entre los grupos son más homogéneas
Vamos a hacer la regresión lineal viendo que con modelos que no sean Dummis vamso a ver
68
69
70
71
Según SPSS el modelo lineal es:
Test=3.865-0.635d1-0,423d2+0.538*5.0833(residuo)
Análisis conjunto
72
73
74
75
Si las variables son relevantes para eso testo la igualdad de medias rechazo en patrimnio y
rechazo en deuda.
76
Necesitaoms testar la igualdad de varianzas
Hipotesis nula varianzas iguales
Testamos igualdad de varianzas No rechazamos la hipótesis nula.
La landa de Wills
Queremosque dentro de lgrupo sea pequeña
77
Acá tengo los centrides de lgrupo -1.225 y +1,225
78
79
80
Solo hemos fallado en un ccaso 13
El 93,8% es 15/16 es la tasa de éxito
La agrupación final resultante dependerá del metodi que yo use aquí no tengo una variable
que me contenga los grupos, no hay una clasificación exacta, no existe un R2
81
Ejm, armonía y feliicidad
A una variable:
Cualitativa en cuantitativas
cualitativa la puedo transformar en binaria
Bianria 0,1
Ind 1 ind 2 1 0
1 a b
0 c d
Método jerarquico.-
Me va a mostrar el panorama complteto,
Método aglomerativo
82
Metodo no jerarquico.-
Vinculacon entre grupos, considera la media, calcula la distancia entre todos lasos pares y de
la media.
Este método es muy empleado.
Agrupacion de medianas
Metodo de Ward
Lo asigna la grupo que se produzca el menor incremento de la variana
Minimimiza la cvarianza entre lso grupo
Meotod jerarquico.
Debo mverme
Quiero conseguir una lcasificacion no sea muy alta dentro del grupo
83
Metodo no jerarquico.-
Métodos de K medias.-
Digamso que queremos hacer traes grupos , extablezco 3 semillas de todo el grupo.
Una vez tenida las 3 semillas, spss va asignando una cada grupo.
Va a colocar las semillas (centroids), contua hayando los cuadrados hasta que n ose produce
ningún cambio.
Validez, mediante varibles externas veo si son diferentes entre lso grupos, si siguen siéndolo.
Para una buena interpetación, prguntos si exitesn diferencias entre las medias que yo he
usado
Quiero ver que lso grupos son distinguibles, quieor recuriria vriables observables externar,
84