Está en la página 1de 11

Universidad Nacional Agraria La Molina

Dpto. de Estadística e Informática


Estadística Aplicada a la Economía y los Negocios II Introducción
„ El AD se utiliza para clasificar a distintos individuos
en grupos o poblaciones, alternativos a partir de los
valores de un conjunto de variables sobre los
individuos a los que se pretende clasificar.
Unidad VII
„ Modelo: Y = f(X1, X2,…, Xp)

Análisis Discriminante „ La variable dependiente Y (categórica) se


denomina VARIABLE CRITERIO y las variables
X1, X2,…, Xp (independientes) se denominan
VARIABLES PREDICTORAS o clasificadoras y
pueden ser cuantitativas y/o cualitativas
Mg.
Mg. Jesú
Jesús Salinas Flores jsalinas@lamolina.edu.pe 2

Finalidad del AD Ejemplo Nº 1


Rendimiento Académico
„ Explicativos. Se trata de determinar la „ Variable criterio: rendimiento del alumno en un
contribución de cada variable predictora a semestre académico (bajo, regular, alto)
la clasificación correcta de cada uno de los „ Variables predictoras: número de cursos
matriculados, promedio semestral anterior,
individuos. promedio semestral acumulado, número de
„ Predictivos. Se trata de determinar el créditos aprobados, carrera, turno, sexo,
grupo al que pertenece un individuo para procedencia de colegio, NSE.
el que se conocen los valores que toman „ El objetivo es descubrir las características que
diferencian a un estudiante universitario con
las variables predictoras. rendimiento regular de uno con rendimiento bajo o
con rendimiento alto.
3 4
Ejemplo Nº 2 Principales Técnicas Discriminantes
Riesgo crediticio „ AD Lineal de Fisher
„ AD Cuadrático
„ Variable criterio: valoración del crédito (moroso, „ Regresión Logística
no moroso) „ Redes Neuronales Supervisadas
„ Variables predictoras: edad, sexo, estado civil, „ AD usando el método de los k-vecinos más
carga familiar, antigüedad laboral, tipo de renta, cercanos
posesión de teléfono particular. „ AD usando estimación de densidad por kernels
„ El objetivo es poder clasificar a quienes solicitan „ AD Flexible
crédito conforme a si representan o no un
riesgo, basándonos en la información disponible. „ AD Penalizado
„ AD usando mezclas gaussianas
„ AD usando algoritmos genéticos
5 „ AD usando árboles de clasificación 6

7 8
Esquema metodológico del ADLineal
DISEÑO DEL ANÁLISIS

ANÁLISIS DE LAS VARIABLES EXPLICATIVAS

ESTIMACIÓN DE LAS FUNCIONES DISCRIMINANTES


¿Cuál es el proceso utilizado en la obtención de las funciones discriminantes?
¿Cuál es el nivel explicativo de las funciones discriminantes?

INTERPRETACIÓN DE LAS FUNCIONES DISCRIMINANTES


¿Cuáles son las variables explicativas diferenciadoras?
¿Cuál es el perfil de cada grupo?

9 VALIDACIÓN DE LAS FUNCIONES DISCRIMINANTES 10

Ejemplo de Aplicación Nº 1 Datos generales


„ La compañía de cable edita y promociona „ Población en estudio:
una revista de cine (de edición mensual) a
„ Suscriptores del servicio de cable del nivel
un grupo (442) de sus suscriptores
socio-económico A.
durante 6 meses.
„ La encuesta estuvo dirigida a los jefes de
„ Al cabo de dicho periodo toma una
familia (no necesariamente al suscriptor
encuesta y ofrece la posibilidad de
del cable).
suscribirse a dicha revista.
„ Usa la información de la encuesta y la
„ De los 442 clientes a los que se ofreció la
información de la ficha de datos del
promoción, se suscribieron a la revista 329
suscriptor al servicio de cable.
y no se suscribieron 113
11 12
Descripción de las variables
Planteamiento del problema
Variable Descripción
„ La compañía de cable está interesada en Educación Educación en años
conocer las características de los que
Edad Edad en años
deciden suscribirse a la revista de cine y
de los que deciden no suscribirse. Tvdiario Horas de TV al día durante
los fines de semana
Organizaciones Número de clubes al que
pertenece
Hijos Número de hijos
13 Suscripción Decisión de suscribirse 14

Analizar – Clasificar – Discriminante…


Análisis de las variables explicativas

„ Análisis de medias de cada variable


explicativa para cada grupo
„ La matriz de correlaciones entre variables
explicativas. Permite detectar si existe
multicolinealidad entre variables
explicativas.
„ El estadístico F. Permite determinar si las
medias de cada variable explicativa dentro
de cada grupo de la variable a explicar son
significativamente distintas. 15 16
Estadísticos de grupo

Decision N válido (según lista)


de No
suscripcion Media Desv. típ. ponderados Ponderados
No Educacion en años 12,35 1,355 113 113,000
Edad en años 30,51 6,727 113 113,000
Horas de TV por día 1,95 ,934 113 113,000
Número de organizaciones 1,42 1,534 113 113,000
Numero de hijos 1,35 1,420 113 113,000
Si Educacion en años 13,73 2,253 329 329,000
Edad en años 43,51 14,001 329 329,000
Horas de TV por día 2,51 1,438 329 329,000
Número de organizaciones 1,56 1,616 329 329,000
Numero de hijos 1,80 1,723 329 329,000
Total Educacion en años 13,38 2,147 442 442,000
Edad en años 40,19 13,766 442 442,000
Horas de TV por día 2,36 1,349 442 442,000
Número de organizaciones 1,52 1,595 442 442,000
Numero de hijos 1,68 1,660 442 442,000

Variables en el análisis

Lambda
Matrices intra-grupo combinadas
Paso Tolerancia F para salir de Wilks
Número de 1 Edad en años 1,000 90,129
Educacion Horas de organizacio Numero 2 Edad en años ,889 137,910 ,920
en años Edad en años TV por día nes de hijos Educacion en años ,889 81,283 ,830
Correlación Educacion en años 1,000 -,334 -,326 ,133 -,259 3 Edad en años ,888 129,786 ,851
Edad en años -,334 1,000 ,092 -,040 ,477 Educacion en años ,801 106,190 ,816
Horas de TV por día -,326 ,092 1,000 -,125 ,050 Horas de TV por día ,894 29,035 ,700
Número de organizaciones ,133 -,040 -,125 1,000 -,072
Numero de hijos -,259 ,477 ,050 -,072 1,000 Variables no incluidas en el análisis

Tolerancia Lambda
Paso Tolerancia mín. F para entrar de Wilks
0 Educacion en años 1,000 1,000 38,094 ,920
Edad en años 1,000 1,000 90,129 ,830
Horas de TV por día 1,000 1,000 14,995 ,967
Pruebas de igualdad de las medias de los grupos Número de
1,000 1,000 ,708 ,998
organizaciones
Lambda Numero de hijos 1,000 1,000 6,039 ,986
de Wilks F gl1 gl2 Sig. 1 Educacion en años ,889 ,889 81,283 ,700
Educacion en años ,920 38,094 1 440 ,000 Horas de TV por día ,992 ,992 7,518 ,816
Número de
Edad en años ,830 90,129 1 440 ,000 organizaciones
,998 ,998 1,239 ,828

Horas de TV por día ,967 14,995 1 440 ,000 Numero de hijos ,773 ,773 4,588 ,821
2 Horas de TV por día ,894 ,801 29,035 ,657
Número de organizaciones ,998 ,708 1 440 ,401 Número de
,982 ,874 ,001 ,700
Numero de hijos ,986 6,039 1 440 ,014 organizaciones
Numero de hijos ,761 ,725 ,952 ,699
3 Número de
,975 ,794 ,183 ,657
organizaciones
19 Numero de hijos ,761 ,725 ,598 ,656
Lambda de Wilks Tolerancia
„ La tolerancia es una medida del grado de
SCIntragrupos asociación lineal entre las variables
Λ= independientes.
SCEntregrupos + SCIntragrupos „ Se usa como protección contra la
multicolinealidad.
La variable que se incluye es la que „ Una tolerancia de 0 significa que la
minimiza la lambda, sin tener en cuenta el variable en cuestión es combinación lineal
perfecta del resto de las variables
efecto de las variables que se hayan independientes.
podido entrar en el modelo „ Una tolerancia de 1 significa que la
variables es totalmente independiente de
las otras variables que ya están en el
21
modelo. 22

Estimación de la función
Coeficientes discriminantes bp
discriminante
„ Obtención de la ecuación asociada a cada „ Los coeficientes se estiman teniendo en
función discriminante. Si la variable a cuenta que las puntuaciones
explicar es de m grupos, el AD calcula m-1 discriminantes de los individuos de un
funciones discriminante. grupo sean lo más distintas posible de
„ Zi=bo + b1X1i+…….+ bpXpi las puntuaciones discriminantes de los
individuos de otro grupo.
„ Esto ocurre cuando el ratio SC
int er SC int ra
es máximo
23 24
Coeficientes de las funciones canónicas discriminantes

Función Coeficientes de la función de clasificación


1
Educacion en años ,409
Edad en años
Decision de
,069
Horas de TV por día ,339 suscripcion
(Constante) -9,040 No Si
Coeficientes no tipificados
Educacion en años 4,342 5,018
Edad en años ,403 ,517
Función Discriminante Canónica Horas de TV por día 2,949 3,510
Z i = −9.040 + 0.409 Educacion + 0.069 Edad + 0.339 Horas (Constante) -36,509 -50,788
Funciones discriminantes lineales de Fisher

25 26

Determinación del nivel explicativo Indicadores estadísticos


El valor propio µ (eigenvalue) asociado a cada función
de cada función discriminante (fd) „
discriminante
µ = SCint er SC int ra

valores propios altos implican función discriminante con


„ Antes de interpretar las fd, hay que un alto poder explicativo
asegurarse que su nivel explicativo sea „ El porcentaje de variancia entre grupos explicada por
cada función discriminante.
elevado, es decir, que realmente ayuden a „ La correlación canónica. El cuadrado indica el % de la
variancia total de la variable a explicar que viene
diferenciar entre los grupos de población explicada por la función discriminante.
analizados. „ La Lambda de Wilks. permite probar si las puntuaciones
discriminantes medias son iguales o diferentes. El
estadístico de prueba se obtiene transformando la
Lambda de Wilks en un estadístico de la Chi-cuadrado
⎧⎪ H 0 : Z 1 = Z 2

27 ⎪⎩ H1 : Z 1 ≠ Z 2 28
Autovalores
Interpretación de las f.d.
Correlación
Función
1
Autovalor % de varianza
,523a 100,0
% acumulado
100,0
canónica
,586
1. Importancia relativa de cada variable
a. Se han empleado las 1 primeras funciones discriminantes explicativa en la diferenciación de los
canónicas en el análisis. grupos usando los coeficientes
discriminantes
„ Las variables con coeficientes
discriminantes elevados, tanto positivos
Lambda de Wilks
como negativos, serán las que más
Contraste de Lambda contribuirán al poder discriminador de
las funciones
1
de Wilks Chi-cuadrado gl Sig. las funciones
,657 184,348 3 ,000
„ Cuando las variables están en escala
distinta usar los coeficientes
29
discriminantes estandarizados 30

Coeficientes estandarizados de las


funciones discriminantes canónicas

Función
Interpretación de las f.d.
1

Importancia relativa de cada variable


Educacion en años ,843
Edad en años ,866 2.
Horas de TV por día ,450 explicativa en la diferenciación de los
grupos, analizando las correlaciones
Coeficientes estandarizados de las entre cada variable y las funciones
funciones discriminantes canónicas
discriminantes (structure matrix)
Función
„ Correlaciones elevadas, tanto positivas
Educacion en años
1
,828 como negativas, indicarán niveles
Edad en años ,895 explicativos elevados para las variables
Horas de TV por día ,450 explicativas correspondientes.
Número de
,032
organizaciones
Numero de hijos -,070
32
Matriz de estructura
Representación gráfica de la fd
Función
1
Edad en años ,626
Educacion en años ,407
Horas de TV por día ,255
Numero de hijos a ,217
Número de 0
a ,021 Menos edad
organizaciones Más edad
Menos educació
educación Más educació
educación
Correlaciones intra-grupo combinadas entre las Menos horas TV Más horas TV
variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
a. Esta variable no se emplea en el análisis.
33 34

Determinación de las características Decision de suscripcion


No Si
Total

diferenciadoras de cada grupo


Promedio Promedio Promedio
Educacion en años 12,35 13,73 13,38
Edad en años 30,51 43,51 40,19
Horas de TV por día 1,95 2,51 2,36
Número de organizaciones 1,42 1,56 1,52

„ El AD calcula la puntuación discriminante Numero de hijos 1,35 1,80 1,68

media de cada grupo también llamada Z i = −9.040 + 0.409 Educacion + 0.069 Edad + 0.339 Horas
centro de gravedad.
„ Estos coeficientes se obtienen aplicando la Funciones en los centroides de los grupos
fd dentro de cada grupo, es decir Función
multiplicando los coeficientes no Decision de suscripcion 1
estandarizados bp de la fd por los valores No -1,231
medios en cada grupo de las variables Si ,423

explicativas correspondientes Funciones discriminantes canónicas no tipificadas


evaluadas en las medias de los grupos

35 36
Posicionamiento de los grupos
Validación de las f.d.
en la f.d.
„ Se obtiene para cada individuo una
puntuación discriminante.
„ Cada individuo es asignado al grupo cuya
0

Menos edad No Más edad


puntuación discriminante media esté más
Menos educació
educación
Menos horas TV Si
Más educació
educación
Más horas TV
próxima a su puntuación discriminante.
„ Se observan los % de clasificación
correctos y erróneos

37 38

Funciones en los centroides de los grupos Punto de corte discriminante

Decision de suscripcion
Función
1
Clasificación
No -1,231
− 1.231(113) + 0.423(329)
Si ,423 C= ≈0 Resultados de la clasificaciónb,c
Funciones discriminantes canónicas no tipificadas 113 + 329
evaluadas en las medias de los grupos Grupo de pertenencia
pronosticado
Decision de suscripcion No Si Total
Z i = −9.040 + 0.409 Educacion + 0.069 Edad + 0.339 Horas Original Recuento No
Si
93
68
20
261
113
329
% No 82,3 17,7 100,0
Si Z i < C , se clasifica al individuo " i" en el grupo I Si 20,7 79,3 100,0
Validación cruzadaa Recuento No 93 20 113
Si 68 261 329
Si Z i > C , se clasifica al individuo " i" en el grupo II % No 82,3 17,7 100,0
Si 20,7 79,3 100,0
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada,
Educación Edad Hora Suscripción Zi Predicción Error cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos.
12 18 3 0 -1.873 0 No b. Clasificados correctamente el 80,1% de los casos agrupados originales.
16 31 2 1 50 1 No c. Clasificados correctamente el 80,1% de los casos agrupados validados mediante
12 20 4 1 -1.396 0 Si validación cruzada.
15 43 2 0 0.74 1 Si
39 40
Bibliografía
Aplicaciones del AD 1. Luque, Teodoro & otros. “Técnicas de análisis de
datos en investigación de mercados”. Ediciones
„ Determinar cuáles son las diferencias Pirámide. 2000. España
básicas entre segmentos 2. Pedret, Ramón & otros. “Herramientas para
segmentar mercados y posicionar productos:
„ Determinar con fin predictivo el grupo a
análisis de información cuantitativa en
que pertenece un individuo pendiente de investigación comercial”. Ediciones Deusto.
clasificación, ya sea porque durante la 2000. España.
entrevista no ha manifestado su grupo de 3. Uriel, Ezequiel & Aldas, Joaquín. “Análisis
pertenencia o porque es un individuo que Multivariante Aplicado. Aplicaciones al
marketing, investigación de mercados,
no forma parte de la muestra analizada: economía, dirección de empresas y turismo”.
nuevo comprador de un producto, nuevo Editorial Thomson. 2005. España.
consumidor, etc.
41 42

También podría gustarte