Está en la página 1de 84

PROBLEMA 1

Un restaurante está realizando un proceso de selección para contratar a un nuevo camarero.


De entre todos los candidatos presentados, el gerente del local ha seleccionado cuatro para
realizar una prueba final. Esta prueba consiste en hacer que cada candidato ocupe el puesto
de camarero durante cierto número de horas un día determinado. El criterio para seleccionar
al candidato que ocupará finalmente el puesto es la cuantía de las propinas recibidas por los
candidatos en ese periodo de prueba, ya que se asume que las propinas pueden ser
consideradas como un indicador de la satisfacción de los clientes con el servicio recibido de
cada camarero. Los resultados correspondientes a esta prueba se recogen en la tabla adjunta,
donde las cifras representan las propinas recibidas expresadas como un porcentaje del total
de la cuenta correspondiente.

Sr. Ruiz Sr. Pérez Sr. González Sr. Ortega


8 10 8’5 13
7’5 9’5 5 10’5
10’9 11’4 15 9’5
10 10’3 11’1 12
12 12 10’5 16
6’5 7 8
10 11

Utilizando un nivel de significación del 10%, ¿puede admitirse que los cuatro candidatos
están igualmente cualificados para este trabajo?

Resolución

Definimos las variables aleatorias:


Xi: porcentaje de propina sobre el importe total de la cuenta recibida por el camarero i.
 i = 1, 2, 3, 4

Los candidatos estarán igualmente cualificados para realizar el trabajo si los porcentajes
medios de propinas son iguales para los cuatro. Por tanto, el contraste que hay que realizar
es:

Ho: 1 = 2 = 3 = 4
H1:  (i , j), i  j / i  j

Este tipo de contrastes se resuelven realizando un análisis de la varianza, o ANOVA de un


factor. Para poder aplicar el método del análisis de la varianza tenemos que testar si se
verifican las siguientes hipótesis:
- Las distribuciones poblacionales deben ser normales.
- Las poblaciones deben ser independientes.
- Las varianzas 2 deben ser iguales (homoscedasticidad).
- Las muestras deben ser aleatorias.
Por tanto, como paso previo a aplicar ANOVA, tendremos que contrastar esas hipótesis.

1
Normalidad e igualdad de varianzas (homoscedasticidad)

H0: La muestra procede de una población distribuida según una normal


H1: La muestra procede de una población no distribuida según una normal

Analizar / Estadísticos Descriptivos / Explorar

Los resultados son:

Pruebas de normalidad

Camarero Kolmogorov-Smirnov(a) Shapiro-Wilk


Estadístico gl Sig. Estadístico gl Sig.
Porcentaje de propina Sr. Ruíz
,215 7 ,200(*) ,952 7 ,749
sobre el total de la factura
Sr. Pérez ,229 5 ,200(*) ,940 5 ,668
Sr. González ,193 7 ,200(*) ,969 7 ,893
Sr. Ortega ,138 6 ,200(*) ,979 6 ,948
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors

2
Puesto que el tamaño muestral es inferior a 50, podemos aplicar el contraste de Shapiro-
Wilk. A partir los resultados obtenidos con este contraste, concluimos que los porcentajes de
propinas de cada uno de los camareros se distribuyen según una normal, puesto que para los
4 casos el p-value asociado es mayor del nivel de significación 0’1 (Sr. Ruiz p=0’749, Sr
Pérez=0’668, Sr. González p=0’893, Sr. Ortega p=0’948 todos mayores del nivel de
significación de 0’1).

A continuación, testamos la hipótesis de igualdad de varianzas entre las muestras:

H0: X=Y =Z=T


H1: alguna de las varianzas es distinta

Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
Porcentaje de propina Basándose en la media 1,646 3 21 ,209
sobre el total de factura Basándose en la
1,163 3 21 ,347
mediana.
Basándose en la
mediana y con gl 1,163 3 15,295 ,356
corregido
Basándose en la media
1,662 3 21 ,206
recortada

En el contraste para la igualdad de las varianzas, el p-value = 0’209 > 0’1, por lo que no hay
evidencias para rechazar la igualdad de las varianzas en las cuatro poblaciones.

Aleatoriedad

H0: La muestra de porcentaje de propina sobre el total de la cuenta recibido por el camarero i es aleatoria
H1: La muestra de porcentaje de propina sobre el total de la cuenta recibido por el camarero i no es aleatoria
 i = 1, 2, 3, 4

Esta hipótesis implica testar si se verifica la aleatoriedad de cada una de las 4 muestras. Para
ello, empezamos seleccionando los datos correspondientes al Sr. Ruiz y mediante el test de
rachas contrastamos la aleatoriedad. Posteriormente, procederemos de igual manera con el
resto de muestras.

Datos / Seleccionar casos/ Si satisface la condición

3
Analizar/ Pruebas no paramétricas/ Rachas

Para el Sr. González:

Prueba de rachas

Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,000
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana

En base a la muestra, y con un nivel de significación del 10%, no hay evidencias para
rechazar la aleatoriedad de la muestra del porcentaje de propinas correspondiente al Sr. Ruiz
(p-value= 1>0’1).

A continuación, seleccionamos los datos correspondientes al Sr. Pérez, y volvemos a aplicar


el test de rachas.

4
Prueba de rachas

Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,300
Casos < Valor de prueba 2
Casos >= Valor de
3
prueba
Casos en total 5
Número de rachas 2
Z -,982
Sig. asintót. (bilateral) ,326
a. Mediana

Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de


porcentaje de propinas correspondiente al Sr. Pérez (p-value= 0’326>0’1). Para el Sr.
González:
Prueba de rachas

Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 10,500
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana

Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de


porcentaje de propinas correspondiente al Sr. González (p-value= 1>0’1). Para el Sr. Ortega:
Prueba de rachas

Porcentaje de
propina sobre
el total de
factura
Valor de prueba a 11,250
Casos < Valor de prueba 3
Casos >= Valor de
3
prueba
Casos en total 6
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana

5
Al 10% de significación no hay evidencias para rechazar la aleatoriedad de la muestra de
porcentaje de propinas correspondiente al Sr. Ortega (p-value= 1>0’1).

Independencia:

Por la propia naturaleza de los datos, las muestras son independientes, ya que no se trata de
muestras pareadas.

Por tanto, hemos comprobado que se verifican las hipótesis necesarias para aplicar ANOVA
de un factor. Con este análisis, vamos a comprobar si el porcentaje de propinas sobre el
total de las cuentas varía según el factor camarero.

Analizar/ Comparar medias/ Anova de un factor/Post hoc

6
Opciones

La salida que obtenemos será:

ANOVA de un factor

Descriptivos

Porcentaje de propina sobre el total de factura


Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
Sr. Ruiz 7 9,271 1,983 ,750 7,437 11,105 6,5 12,0
Sr. Perez 5 10,640 1,031 ,461 9,360 11,920 9,5 12,0
Sr. Gonzalez 7 9,729 3,245 1,227 6,727 12,730 5,0 15,0
Sr. Ortega 6 11,500 2,828 1,155 8,532 14,468 8,0 16,0
Total 25 10,208 2,498 ,500 9,177 11,239 5,0 16,0

Prueba de homogeneidad de varianzas

Porcentaje de propina sobre el total de factura


Estadístico
de Levene gl1 gl2 Sig.
1,646 3 21 ,209

7
ANOVA

Porcentaje de propina sobre el total de factura


Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 18,698 3 6,233 ,999 ,413
Intra-grupos 131,041 21 6,240
Total 149,738 24

En la tabla ANOVA, podemos observar que no existen diferencias significativas en cuanto al


porcentaje de propina recibido por los camareros. Es decir, en base a la muestra, y al 10% de
significación, no podemos rechazar que los cuatro camareros están igualmente cualificados
para el trabajo (p-value=0’413>0’1)

El propósito de las siguientes tablas es mostrar de dónde surgen las diferencias en el caso de
que éstas existan. Es decir, supongamos que en la tabla anterior hubiésemos rechazado la
hipótesis nula de igualdad de medias. En tal caso, estaríamos interesados en estudiar de
dónde surgen esas diferencias, qué camareros son similares entre sí en cuento a su porcentaje
de propinas y cuáles son diferentes. Esta información está contenida en las siguientes tablas.
No obstante, dado que en ese ejercicio la prueba ANOVA nos ha mostrado que no existen
diferencias, la información proporcionada por estas tablas no será de gran utilidad.

La siguiente tabla muestra las comparaciones en los porcentajes de propinas entre


camareros. Esta tabla recoge los resultados obtenidos al realizar los correspondientes
contrastes de diferencia de medias entre porcentajes de propinas, así como los intervalos de
confianza de la diferencia de los porcentajes medios de propinas entre camareros.
Obviamente, toda esta información refrenda la conclusión anterior de que no existen
diferencias en los porcentajes medios de propinas entre los 4 camareros.

Comparaciones múltiples

Variable dependiente: Porcentaje de propina sobre el total de factura


Scheffé
Intervalo de confianza al
90%
Diferencia de Límite
(I) Camarero (J) Camarero medias (I-J) Error típico Sig. Límite inferior superior
Sr. Ruiz Sr. Perez -1,369 1,463 ,831 -5,265 2,527
Sr. Gonzalez -,457 1,335 ,989 -4,014 3,099
Sr. Ortega -2,229 1,390 ,479 -5,930 1,473
Sr. Perez Sr. Ruiz 1,369 1,463 ,831 -2,527 5,265
Sr. Gonzalez ,911 1,463 ,942 -2,985 4,807
Sr. Ortega -,860 1,513 ,955 -4,889 3,169
Sr. Gonzalez Sr. Ruiz ,457 1,335 ,989 -3,099 4,014
Sr. Perez -,911 1,463 ,942 -4,807 2,985
Sr. Ortega -1,771 1,390 ,659 -5,473 1,930
Sr. Ortega Sr. Ruiz 2,229 1,390 ,479 -1,473 5,930
Sr. Perez ,860 1,513 ,955 -3,169 4,889
Sr. Gonzalez 1,771 1,390 ,659 -1,930 5,473

8
La siguiente tabla muestra los subconjuntos homogéneos, es decir, cómo se pueden agrupar
los camareros en grupos de forma que los porcentajes de propinas de los camareros dentro
de un mismo grupo sean significativamente homogéneos. En este ejercicio, hemos obtenidos
que las medias de las proporciones de propinas son iguales para los cuatro camareros.

Porcentaje de propina sobre el total de factura


a,b
Scheffé
Subconju
nto para
alfa = .1
Camarero N 1
Sr. Ruiz 7 9,271
Sr. Gonzalez 7 9,729
Sr. Perez 5 10,640
Sr. Ortega 6 11,500
Sig. ,501
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 6,131.
b. Los tamaños de los grupos no son iguales. Se utilizará
la media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados.

PROBLEMA 2

Una entidad bancaria está estudiando el nivel de absentismo laboral en 3 sucursales de una
misma provincia. Para ello, solicita de cada sucursal información sobre el número de
ausencias anuales de 7 empleados seleccionados al azar en cada sucursal. Los datos
obtenidos se recogen en la siguiente tabla:

Empresa A Empresa B Empresa C


1 6 1
2 5 2
3 8 1
5 9 5
1 7 4
3 3 3
5 5 2

Considerando un nivel de confianza del 95%, ¿podría admitirse que el número de ausencias
por empleado presenta diferencias significativas según la sucursal considerada?

Resolución

Las variables aleatorias son:


Xi: número de ausencias anuales de un empleado de la sucursal i
i= 1(A), 2(B), 3(C)

9
Para comprobar si existen diferencias significativas en el número de ausencias por empleado
según la sucursal de procedencia, contrastamos la hipótesis:

Ho: 1 = 2 = 3
H1:  (i , j), i  j / i  j

Resolvemos el contraste mediante un análisis de la varianza de un factor. En primer lugar


habrá que comprobar si se verifican las hipótesis necesarias para aplicar ANOVA.

Normalidad e igualdad de varianzas (homoscedasticidad):

Analizar/ Estadísticos descriptivos/ Explorar

La salida que proporciona SPSS es la siguiente:

Pruebas de normalidad

Kolmogorov-Smirnov(a) Shapiro-Wilk
Empresa Estadístico gl Sig. Estadístico gl Sig.
Número de Empresa A ,185 7 ,200(*) ,877 7 ,215
ausencias anuales Empresa B ,144 7 ,200(*) ,978 7 ,948
Empresa C ,219 7 ,200(*) ,915 7 ,432
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors

10
Puesto que el tamaño muestral es menor de 50 nos fijaremos en los resultados del contraste
de Shapiro-Wilk. Al 5% de significación, no hay evidencias para rechazar la normalidad de
las poblaciones, es decir, no se rechaza que el número de ausencias anuales en cada una de
las sucursales se distribuye según una normal (todos los p-values asociados al contraste de
normalidad de Shapiro-Wilk son mayores que el nivel de significación).

Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
Número de Basándose en la media ,307 2 18 ,739
ausencias anuales Basándose en la
,300 2 18 ,744
mediana.
Basándose en la
mediana y con gl ,300 2 17,647 ,745
corregido
Basándose en la media
,318 2 18 ,732
recortada

Al 5% de significación no hay evidencias significativas para rechazar la igualdad de


varianzas (p-value=0’739>0’05). Las variables pueden considerarse homoscedásticas.

Aleatoriedad

En primer lugar se analiza la aleatoriedad de la muestra procedente de la sucursal A, para lo


que seleccionamos (filtramos) los datos correspondientes a dicha empresa. Posteriormente,
realizamos el test de rachas.
Analizar/ Pruebas no paramétricas/ Rachas

11
Los resultados son:
Prueba de rachas

Número de
ausencias
anuales
Valor de prueba a 3,00
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana

El p-value=1>0’05, por lo que no hay evidencias para rechazar la hipótesis de aleatoriedad


de la muestra de ausencias de trabajadores de la sucursal A al 5% de significación.
A continuación, hacemos lo mismo con la sucursal B:

12
Prueba de rachas

Número de
ausencias
anuales
Valor de prueba a 6,00
Casos < Valor de prueba 3
Casos >= Valor de
4
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana

El p-value=1>0’05, por lo que no hay evidencias al 5% de significación para rechazar la


hipótesis de aleatoriedad de la muestra de ausencias de trabajadores de la sucursal B.

Finalmente, para la sucursal C obtenemos:


Prueba de rachas

Número de
ausencias
anuales
Valor de prueba a 2,00
Casos < Valor de prueba 2
Casos >= Valor de
5
prueba
Casos en total 7
Número de rachas 4
Z ,000
Sig. asintót. (bilateral) 1,000
a. Mediana

El p-value=1>0’05, por lo que no hay evidencias al 5% de significación para rechazar la


hipótesis de aleatoriedad de la muestra de ausencias de trabajadores de la sucursal C.

Por tanto, las muestras reúnen las condiciones necesarias para aplicar el análisis de la
varianza.

Analizar/ Comparar medias/ Anova de un factor/ Post hoc

13
Opciones:

14
La salida es la siguiente:

ANOVA de un factor

Descriptivos

Número de ausencias anuales


Intervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error típico Límite inferior superior Mínimo Máximo
Empresa A 7 2,86 1,68 ,63 1,31 4,41 1 5
Empresa B 7 6,14 2,04 ,77 4,26 8,03 3 9
Empresa C 7 2,57 1,51 ,57 1,17 3,97 1 5
Total 21 3,86 2,35 ,51 2,79 4,93 1 9

Prueba de homogeneidad de varianzas

Número de ausencias anuales


Estadístico
de Levene gl1 gl2 Sig.
,307 2 18 ,739

15
ANOVA

Número de ausencias anuales


Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 55,143 2 27,571 8,954 ,002
Intra-grupos 55,429 18 3,079
Total 110,571 20

En la tabla ANOVA podemos observar que existen diferencias significativas en cuanto al


factor sucursal (p-value=0’002<0’05). Es decir, al 5% de significación se rechaza la
hipótesis de igualdad de medias: los datos muestrales indican que existen diferencias
significativas en el número de ausencias por empleado según la sucursal considerada. Para
tratar de averiguar entre qué sucursales se producen esas diferencias, analizamos a
continuación los resultados obtenidos del test de comparaciones múltiples de Scheffé
(pruebas post hoc).

Comparaciones múltiples

Variable dependiente: Número de ausencias anuales


Scheffé
Intervalo de confianza al
95%
Diferencia de Límite
(I) Empresa (J) Empresa medias (I-J) Error típico Sig. Límite inferior superior
Empresa A Empresa B -3,29* ,94 ,009 -5,79 -,78
Empresa C ,29 ,94 ,955 -2,22 2,79
Empresa B Empresa A 3,29* ,94 ,009 ,78 5,79
Empresa C 3,57* ,94 ,005 1,07 6,07
Empresa C Empresa A -,29 ,94 ,955 -2,79 2,22
Empresa B -3,57* ,94 ,005 -6,07 -1,07
*. La diferencia entre las medias es significativa al nivel .05.

Al 5% de significación no podemos rechazar que no existan diferencias en el número medio


de ausencias entre las sucursales A y C (p=0.955>0.05), mientras que podemos apreciar
diferencias significativas entre las sucursales A y B (p=0’009<0’05), y las sucursales B y C
(p=0’005<0’05).

Subconjuntos homogéneos

16
Número de ausencias anuales
a
Scheffé
Subconjunto para alfa
= .05
Empresa N 1 2
Empresa C 7 2,57
Empresa A 7 2,86
Empresa B 7 6,14
Sig. ,955 1,000
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 7,000.

Los grupos homogéneos en cuanto al número de ausencias son el formado por las sucursales
A y C por un lado, y la empresa B por el otro. Este resultado podía deducirse intuitivamente
viendo las diferencias existentes en el número de ausencias medias entre sucursales.

PROBLEMA 3

Una subdelegación del Ministerio de Educación y Ciencia está interesada en estudiar la


cantidad mensual pagada por los padres de alumnos de enseñanza primaria en los colegios
privados pertenecientes al territorio de su competencia. Para realizar el estudio clasificaron
los colegios privados de ese territorio en bloques según su localización geográfica y según el
número de alumnos por aula que los colegios afirmaban tener. En cada una de las
combinaciones obtenidas seleccionaron una muestra aleatoria de tres colegios, recogiendo de
cada uno de ellos información sobre la cantidad mensual que el colegio recibía por cada
alumno de enseñanza primaria. Los datos obtenidos, en decenas de euros, fueron los
siguientes:

Número de
Zona norte Zona centro Zona sur
alumnos por aula
32 25’4 50
Menos de 25 45’5 37’2 20’9
28’95 23 27
21’6 26’5 15
25 o más 25 17’2 24
19 22 18

A la vista de estos datos y suponiendo que se verifican las hipótesis de normalidad,


independencia y homocedasticidad, ¿puede decirse que los colegios privados pertenecientes
a esta subdelegación presentan diferencias significativas en las cantidades cobradas a los
alumnos de enseñanza primaria? Utilice un nivel de significación del 5%.

Resolución

Definimos las variables aleatorias:

17
Xij: cantidad mensual que un colegio del bloque i,j recibe por alumno de enseñanza primaria,
donde:
i= 1 (menos de 25 alumnos por aula), 2 (25 o más alumnos por aula)
j= 1 (zona norte), 2 (zona centro), 3 (zona sur)

Hay que estudiar la cantidad mensual que los colegios reciben por cada alumno de
enseñanza primaria considerando los factores Número de alumnos por aula y Zona en la que
está situado el colegio. Por tanto, se trata de un análisis de la varianza con dos factores.

La hipótesis que hay que contrastar es:

Ho:  11 = … = rs
H1:  (i , j) (h, k) / i j  hk
 r =1, 2 y s =1, 2, 3

Aceptar la hipótesis nula anterior equivale a aceptar todas las hipótesis nulas H 0’, H0’’y H0’’’
de los siguientes contrastes:

Ho’:  1 =  2 = 0 Ho’’:  1 =  2 =  3 = 0 Ho’’’: () 11 = ... = () rs = 0


H1’:  i /  i  0 H1’’:  j /  j  0 H1’’’:  (i , j) /() ij  0

Analizar/ Modelo lineal general/ Univariante

18
La salida que obtenemos es la siguiente:

Análisis de varianza univariante

Factores inter-sujetos

Etiqueta
del valor N
Zona de localización 1 Zona
6
del colegio norte
2 Zona
6
centro
3 Zona sur 6
Número de alumnos 1 Menos de
9
por aula 25
2 25 o mas 9

Pruebas de los efectos inter-sujetos

Variable dependiente: Cantidad cobrada a los alumnos de enseñanza primaria


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 663,904a 5 132,781 1,885 ,171
Intersección 12706,837 1 12706,837 180,437 ,000
ZONA 40,980 2 20,490 ,291 ,753
ALUMNOS 574,040 1 574,040 8,151 ,014
ZONA * ALUMNOS 48,884 2 24,442 ,347 ,714
Error 845,072 12 70,423
Total 14215,813 18
Total corregida 1508,976 17
a. R cuadrado = ,440 (R cuadrado corregida = ,207)

Obtenemos la tabla ANOVA con la suma de cuadrados y los cuadrados medios para cada
uno de los factores, para la interacción entre los factores, para el error y el total. Además
obtenemos el estadístico F para los tres contrastes que realizamos, junto con su p-value
correspondiente:

CMZona=20'490; CMAlumnos=574'040; CMZona*Alumnos=24'442; CMError=70'423

El valor del estadístico para contrastar el efecto del factor Zona de localización del colegio
sobre la cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria
es F=0’291, y el valor del p-value asociado al contraste es 0’753>0’05, por lo que no
existen diferencias significativas en la cantidad mensual que reciben los colegios según la
zona donde se localiza éste.

El estadístico para contrastar el efecto del factor Número de alumnos por aula sobre la
cantidad mensual que los colegios reciben por cada alumno de enseñanza primaria es
F=8’151. El valor del p-value de ese contraste es 0’014<0’05. Por tanto, existen diferencias
en la cantidad de dinero que reciben los colegios según el número de alumnos por aula o,

19
dicho de otra manera, podemos decir que existen diferencias en el precio debidas al número
de alumnos por aula que el colegio admite.

El estadístico para contrastar si existe interacción o no entre los factores es F=0’347, y el p-


value=0’714>0’05. Por tanto, no rechazamos la hipótesis, por lo que los datos no indican
una interacción entre los factores Número de alumnos por aula y Zona de localización del
colegio.

Por todo lo anterior podemos afirmar que hay diferencias significativas entre los precios de
los colegios, y que éstas son debidas al factor Número de alumnos por aula.

PROBLEMA PROPUESTO 1

El programa de proyecciones de la Filmoteca Nacional para el mes de marzo consta de 3


ciclos de películas dedicados a los directores A, B y C, respectivamente. La programación
diaria ha sido dividida en 3 sesiones. En la primera sesión, se proyectarán las películas del
director A, en la segunda sesión las del director B, y en la tercera, las del director C. La tabla
adjunta presenta los ingresos diarios, en miles de euros, obtenidos en días elegidos al azar,
clasificados en función de la película proyectada y del tipo de día de proyección según éste
sea laborable o festivo:

Director de la película Días laborables Días festivos


18’125
40
Director A 23’5
45
28’45
63
Director B 29
51’5
35
60’8
Director C 40
58

Utilizando un nivel de significación del 1%, y suponiendo que las muestras correspondientes
a los ingresos por día pueden considerarse independientes, normales y homoscedásticas,
¿confirman los datos la existencia de diferencias significativas en los ingresos diarios según
los dos factores considerados?

20
21
22
23
24
25
Rechazamos hipótesis nula en día y director, existen diferencias en las variables que se
relfejan en las medias debido al factore dia y el factor director
Los p valores sopn pequeños , rechazamos hipótesis nula , las medias no son iguales, la
hipótesis nula decíaque las medias son iguales.
Aceptar la interacción entre día y director por ser grande 0,0482, acepto la Ho.

ANCOVA otro caso


Profesores y nota alumnos

26
27
28
29
30
31
32
33
34
35
36
37
38
39
Quiero ver si existen diferencias entre G1 G2 G3
Y=a+bx
=a1+a2 grupo 2 +a3 grupo3
Vale 0 vale 0
Vale 1 vale 1

Para un indivuduo que pertenece al grupo 1, Y=a1 a1 es promedio de lgrupo 1 X


Y=a1
Y=a1+A2
Y=a1+ + a3
A1=7,5

40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
Miramos la constante en B, en Anova miro la media 7,5
La media del grupo 2 A2= 5,25

Y= 7,5
A3=-1,5

Se queja el profe y dice que vean las notas de ingreso del grupo pretest

58
59
60
61
62
63
Que pasa con la varible grupo?

El profesor ve que la varible grupo ya no es significativa, el´p rofesor esta contento, existen
difernecias en los grupos en pretest

Las

64
65
66
67
Estoy comparando las medias de cada grupo.
Tego en cuenta la covariable tengo en cuetna que uno tiene alumnos mejroes y oros peores
Cuanto cmparo las medias del grupo en términos de pretest
Las medias entre los grupos son más homogéneas

Tengo también las difrencias entre gurpos.

Vamos a hacer la regresión lineal viendo que con modelos que no sean Dummis vamso a ver

68
69
70
71
Según SPSS el modelo lineal es:

Test=3.865-0.635d1-0,423d2+0.538*5.0833(residuo)

El modelo de la regrsión muestras más claramente el modelo

Ahora estiduaremos Análisis de la regresión.-

Análisis conjunto

72
73
74
75
Si las variables son relevantes para eso testo la igualdad de medias rechazo en patrimnio y
rechazo en deuda.

Queremos rechazar la hipótesis nula que las medias son iguales

Tenemos el autovalor uno solo

Que porcentaje dentro de lgrupo representa del total

He obtendio grupos diferenciados

76
Necesitaoms testar la igualdad de varianzas
Hipotesis nula varianzas iguales
Testamos igualdad de varianzas No rechazamos la hipótesis nula.

La landa de Wills
Queremosque dentro de lgrupo sea pequeña

En que medida de los representantes de lgrupo son iguales

Cuando mas baj oes la W la de dentro de grupo con la total

Cuanto mas grande es la W la varianza dentro de lgrupo entonces la varianza dentro de


lgrupo es muy grande eso es muy malo porque se pueden sloapar, los centroides de lgrupo
pueden solaparse

El p valor es muy pequeño, o,002 rechazo la hipótesis nula}


Digo que las medias n oson iguales

77
Acá tengo los centrides de lgrupo -1.225 y +1,225

Mas patrimonio mas positivo


Cuant omas aumente el patrimonio mas me acerco a la derecha al grupo que reclama malos
clientes
Patrimonio neto me aporta mas que deuda pendiente con l ocual patrimonio es mas
importante

P valor mas pequeño es mas significativa mas diferente de lcero!!!

78
79
80
Solo hemos fallado en un ccaso 13
El 93,8% es 15/16 es la tasa de éxito

Analisis interdependencias etre variables

Voy a construir constructors,


Voy a reducir filas eso quiero conseguri

El aná lisis cluster

La agrupación final resultante dependerá del metodi que yo use aquí no tengo una variable
que me contenga los grupos, no hay una clasificación exacta, no existe un R2

Hace análisis descriptivos de un conjunto de datos.

Si qieremos lanzar un nuevo producto ejemplo debemos elegir variable a estudiar.

Quiero definir bien los grupos


Si tengo muchas variables deebo buscar alguna técnica que reduzca la cantiad de variables
pero el problema es que luego como las interpreta

81
Ejm, armonía y feliicidad

No son buenas las técnicas de reducción de varibles

Imaginar que todas las variables son cuantittativas

Tenenmos diferentes variables, tipod de variables diferentes, ejm variables de intervalos

A una variable:
Cualitativa en cuantitativas
cualitativa la puedo transformar en binaria

2.- Como defino yo ccuando dos individuos son semejantes y diferentes


Los que están mas cercanos
Usamos categorías los que tiene un dos un tres y un cuatro

Las cualitiaivas se suele convierten en binarias


Ejm: le gusta el pisco, si no
Estudio una carrera si no

Tengo 30 preguntas y estoy viendo cuando han coincididod y cuand ono

Bianria 0,1

Me interesasn cuando coinciden no cuando no coinciden.

Ind 1 ind 2 1 0
1 a b
0 c d

Se agrupa ntambien según tipología

Vas mmodificando los grupos

Luego vemos procedimientos para formar lso grupos

Los métodos jerárquicos y lso metoddos n ojerarquicos

Método jerarquico.-
Me va a mostrar el panorama complteto,

Imagino 5 individuos y 5 grupos


Cuales son los individuos mas parecidos entre si

Método aglomerativo

82
Metodo no jerarquico.-

Según lo que quiero.

Supongamsoque tengo variables continuas.

Como mida distancia de este grupo a los demás

Puedo usar el centroide

Vinculacon entre grupos, considera la media, calcula la distancia entre todos lasos pares y de
la media.
Este método es muy empleado.

Agrupacion de lso centriodes.-


Uso empelo la distancia oclidia
Com oel centroide peude cambair puede producirse cambis.

Agrupacion de medianas

Es mas estable que lso centroides

El vecino mas próximo

Origina un grupo que domina a los demás

El vecino mas lejano, que tiene varios grupos


Vinculoa intragurpos

La distancia promedio entre los grupos sea la menor posible

Metodo de Ward
Lo asigna la grupo que se produzca el menor incremento de la variana
Minimimiza la cvarianza entre lso grupo

Meotod jerarquico.

Cuanto menos grupos mejor


Parto de la heterogeneadoda de un grupo

Debo mverme

Quiero conseguir una lcasificacion no sea muy alta dentro del grupo

83
Metodo no jerarquico.-

Debo partir de un numero predifinido fr grupos.

Métodos de K medias.-

Digamso que queremos hacer traes grupos , extablezco 3 semillas de todo el grupo.

Una vez tenida las 3 semillas, spss va asignando una cada grupo.

Va a colocar las semillas (centroids), contua hayando los cuadrados hasta que n ose produce
ningún cambio.

Desventaja, definir las semillas y los grupos


Definimos las semillas a raíz de los resutlados de los METodos Jerarquicos

Validez, mediante varibles externas veo si son diferentes entre lso grupos, si siguen siéndolo.

Las variables externas deben diferri también entre lso grupos.

Las agrupaciones son sustamciales


Accesibles
Diferencailes

Para una buena interpetación, prguntos si exitesn diferencias entre las medias que yo he
usado
Quiero ver que lso grupos son distinguibles, quieor recuriria vriables observables externar,

Queiro tenr variables que me perimitan caracterizar

84

También podría gustarte