Está en la página 1de 69

Evaluación de datos en análisis

sensorial

PATRIMONIO DE TODOS LOS COLOMBIANOS


Contenido
1. Técnicas estadísticas tradicionales en análisis sensorial

2. Técnicas multivariadas I: Análisis de Componentes


Principales

3. Técnicas multivariadas II: Métodos de correlación de


atributos

4. Técnicas multivariadas III: Métodos de selección

PATRIMONIO DE TODOS LOS COLOMBIANOS


Técnicas estadísticas tradicionales en
análisis sensorial

PATRIMONIO DE TODOS LOS COLOMBIANOS


Prueba de Kruskal Wallis
- Es el análogo no paramétrico al Análisis de Varianza

- Es útil para comparar la mediana de 3 o más conjuntos de muestras independientes


entre sí

PATRIMONIO DE TODOS LOS COLOMBIANOS


Prueba de Kruskal Wallis
• Hipótesis: ¿En un conjunto de k muestras independientes (donde k ≥ 2), al menos
dos representan poblaciones con diferente mediana?

H0: θ = med

• Suposiciones:

- Las muestras ha sido escogida aleatoriamente de la población que representa.

- Las k muestras son independientes

Donde H ≈ χ2

PATRIMONIO DE TODOS LOS COLOMBIANOS


Prueba de Kruskal Wallis → Comparación pareada

Diferencia Mínima Significativa

Si la diferencia de los rangos (en valor absoluto) Ri – Rj es igual


o mayor a el valor de CDKW, los conjuntos de muestras i y j son
significativamente diferentes.

PATRIMONIO DE TODOS LOS COLOMBIANOS


Prueba de Friedman
- Es el análogo no paramétrico al Análisis de Varianza

- Es útil para comparar la mediana de 3 o más conjuntos de muestras dependientes


entre sí

PATRIMONIO DE TODOS LOS COLOMBIANOS


Prueba de Friedman
• Hipótesis: ¿En un conjunto de k muestras dependientes (donde k ≥ 2), al menos
dos representan poblaciones con diferente mediana?

• H0: θ1 = θ2 = θ3 (Dependientes)

• Suposiciones:

- Las muestras ha sido escogida aleatoriamente de la población que representa.

- La variable dependiente es continua

PATRIMONIO DE TODOS LOS COLOMBIANOS


Prueba de Friedman → Comparación pareada

• H0: θa = θb

• H1: θa ≠ θb

• Diferencia Mínima Significativa

Si la diferencia de los rangos (en valor absoluto) Ri – Rj es igual o mayor


a el valor de CDF, los conjuntos de muestras i y j son significativamente
diferentes.

PATRIMONIO DE TODOS LOS COLOMBIANOS


Técnicas Multivariadas I: Análisis de
Componentes Principales

PATRIMONIO DE TODOS LOS COLOMBIANOS


Análisis de Componentes Principales (PCA)

El Análisis de Componentes Principales es una técnica de


estadística multivariada propuesta por Karl Pearson en 1901
y desarrollada por Harold Hotelling en 1933.

Es de importancia fundamental en la exploración de


datos.

En general, las variables que describen los datos son


transformados en nuevas variables, llamadas componentes
principales (o factores, o variables latentes).

PATRIMONIO DE TODOS LOS COLOMBIANOS


Análisis de Componentes Principales (PCA)

- Evaluar correlaciones entre variables y su importancia


- Visualizar los objectos (detección de outliers, similaridades,
clusters)
- Sintetizar la descripción de los datos (eliminación de ruido, ...)
- Reducir la dimensionalidad de datos

Además, el PCA puede ser usado como paso intermedio para


otras técnicas multivariadas.

PATRIMONIO DE TODOS LOS COLOMBIANOS


Algoritmo PCA
Dado un espacio de datos definidos por p variables...

1. PCA busca la dirección de máxima varianza (T1)

(varianza = información)

2. Entonces, considerando todas las direcciones ortogonales a


T1, busca la nueva dirección de máxima varianza (T2)

3. Entonces, considerando todas las direcciones ortogonales a


T1, busca la nueva dirección de máxima varianza (T3), y así
sucesivamente...

El procedimiento termina después de p direcciones.


PATRIMONIO DE TODOS LOS COLOMBIANOS
PCA
X1= altura
X2
X2= peso

X1

PATRIMONIO DE TODOS LOS COLOMBIANOS


PCA
X1= altura
X2
X2= peso

T1


X1

PATRIMONIO DE TODOS LOS COLOMBIANOS


PCA
X1= altura
X2
X2= peso

T1
T2


X1

PATRIMONIO DE TODOS LOS COLOMBIANOS


PCA
X1= altura

X2= peso

PATRIMONIO DE TODOS LOS COLOMBIANOS


variables
X
o
Escalamiento de datos
b
j datos PCA 1. Eigenvalores:
e decide cuantos
t n,p componentes retener
o
s

2. Eigenvectores (loadings)
Analiza las variables
(loading plot)
3. Scores
Analiza las muestras
(score plot)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Escalamiento de variables

El escalamiento es aplicado para remover la dependencia de los


valores de las variables de su unidad u escala.

El escalamiento seleccionado debe ser aplicado sobre todas las


variables.

El método de escalamiento es importante y los resultados pueden


ser SERIAMENTE afectados por el procedimiento escojido.

PATRIMONIO DE TODOS LOS COLOMBIANOS


Objetivo:

Queremos que las variables sean comparables, es


decir la importancia de cada variable debe
depender de su varianza (y no de su escala)

PATRIMONIO DE TODOS LOS COLOMBIANOS


x11 x12 ... ... x1p
Centrado x21 x22
(mean scaling)
X = ... ... ... ... ...
... ... ... ... ...
xn1 xnp

PATRIMONIO DE TODOS LOS COLOMBIANOS


x11 x12 ... ... x1p
Centrado x21 x22
(mean scaling)
X = ... ... ... ... ...
... ... ... ... ...
xn1 xnp

PATRIMONIO DE TODOS LOS COLOMBIANOS


x11 x12 ... ... x1p
autoescalado x21 x22
X = ... ... ... ... ...
... ... ... ... ...
xn1 xnp
El autoescalado hace todas las variables comparables….

PATRIMONIO DE TODOS LOS COLOMBIANOS


Matriz de loadings L

La matriz de loadings describe el papel de cada variable en los sistemas


complejos bajo análisis.

Podemos graficar esta matriz en el loading plot y estudiar el


comportamiento de cada variable.

PATRIMONIO DE TODOS LOS COLOMBIANOS


PATRIMONIO DE TODOS LOS COLOMBIANOS
Matriz de scores T

La matriz de scores describe la posición de cada muestra en el sistema


complejo bajo análisis

Podemos graficar esta matriz en el score plot y estudiar el comportamiento


de cada muestra.

PATRIMONIO DE TODOS LOS COLOMBIANOS


PATRIMONIO DE TODOS LOS COLOMBIANOS
¿Cómo escoger el número de componentes principales?

Tenemos p variables, pero se retienen sólo M componentes significativos


(M<p) para reducir la dimensionalidad de los datos

Existen diferentes técnicas con el objetivo de determinar el número de


componentes principales significativos:

• % de varianza explicada acumulada


• Criterio del eigenvalor promedio (AEC)
• Truncamiento
• Indicador de la función de Malinowski (MIF)
• Validación doble cruzada (DCV)
• Correlación de la función K

PATRIMONIO DE TODOS LOS COLOMBIANOS


Criterio del Eigenvalor Promedio (AEC)

Los componentes significativos son aquellos para los que el eigenvalor


es mayor que el valor promedio.

p
 j
j =1
1   2   3   M  =
p

Si los datos son autoescalados: los componentes significativos son


aquellos para los que el eigenvalor es mayor a 1

PATRIMONIO DE TODOS LOS COLOMBIANOS


Estadísticos Q y T2

PATRIMONIO DE TODOS LOS COLOMBIANOS


Selección de variables

PATRIMONIO DE TODOS LOS COLOMBIANOS


clase

x11 x12 ... ... x1 p A


x21 x22 A
X = ... ... ... ... ... B
... ... ... ... ... ...
xn1 xnp G

PATRIMONIO DE TODOS LOS COLOMBIANOS


Selección de variables

Wilks ‘ Lambda

Es un estadístico que mide el poder discriminante de un conjunto de


variables. Viene dada por

y toma valores entre 0 y 1 de forma que, cuanto más cerca de 0 esté,


mayor es el poder discriminante de las variables consideradas y
cuanto más cerca de 1, menor es dicho poder.

PATRIMONIO DE TODOS LOS COLOMBIANOS


Multidimensional Scaling

MDS plot

Es una técnica estadística


3
usada para la visualización
2
de la información,
exploración de
1 similaridades o
coordinate 2

disimilaridades en los
0
datos.
-1
Es un avance visual en la
-2 agrupación jerárquica de
datos.
-3

-4 -3 -2 -1 0 1 2 3
coordinate 1

PATRIMONIO DE TODOS LOS COLOMBIANOS


Distancia entre dos puntos

y
(c,d)

(a,b)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Distancia entre dos puntos

y
(c,d)

Euclideana

(a,b)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Distancia entre dos puntos

y
(c,d)

Mahalanobis

(a,b)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Distancia entre dos puntos

y
(c,d)

City Blocks (Manhattan)

(a,b)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Distancia entre dos puntos

y
(c,d)

Minkowski

(a,b)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Análisis Jerárquico

2.5
Es la asignación de un
conjunto de observaciones
distance

en subconjuntos (llamados
2
clusters) de acuerdo a
ciertas similaridades.
1.5

1
7 8 12 2 3 10 11 6 13 18 14 17 9 19 16 15 4 1 5 20 21
samples

PATRIMONIO DE TODOS LOS COLOMBIANOS


Análisis Jerárquico
Vínculo: Simple (vecinos más cercanos)

25
D
I 16
S
T
A 9
N
C
I 4
A
1

E F A B C D

PATRIMONIO DE TODOS LOS COLOMBIANOS


Análisis Jerárquico
Vínculo: Completo (vecinos más lejanos)

225
D
I
S 81
T
A
N 9
C
I
A 4

1
E F A B C D

PATRIMONIO DE TODOS LOS COLOMBIANOS


Análisis Jerárquico
Vínculo: Promedio

183.5
D
I
S 45.5
T
A
N 9
C
I
A 4

1
E F A B C D

PATRIMONIO DE TODOS LOS COLOMBIANOS


Técnicas Multivariadas II: Métodos de
correlación de atributos

PATRIMONIO DE TODOS LOS COLOMBIANOS


PATRIMONIO DE TODOS LOS COLOMBIANOS
Regresión Multivariada

Con la regresión multivariada podemos estudiar la dependencia de


una variable (variable dependiente o respuesta experimental, Y) de
un conjunto de variables independientes (X).

Una vez la relación ha sido obtenida (es decir, se ha construído un


modelo) podemos calcular los valores Y de las muestras
desconocidas

PATRIMONIO DE TODOS LOS COLOMBIANOS


r =1 r = -1 r =0

Y=aX+b

Y = bo + b1 X1 + b2 X2 + ……….. + bn Xn

PATRIMONIO DE TODOS LOS COLOMBIANOS


Regresión Multivariada

La relación representa la manera en la que la descripción del


sistema concuerda con la respuesta y está asociada a la calidad
descriptiva del modelo:

ajuste

Si el modelo esta planeado para usos futuros, la calidad


predictiva del modelo debe ser verificada:

validación

PATRIMONIO DE TODOS LOS COLOMBIANOS


Regresión Multivariada

X Y
(n x p) (n x 1)

PATRIMONIO DE TODOS LOS COLOMBIANOS


Mínimos Cuadrados Ordinarios (OLS)

y = X b + e
(n, 1) = (n, p’) (p’, 1) + (n, 1)

y es el vector respuesta
X la matriz de datos
b vector de los coeficientes de regresión
e vector de errores

(
b = X X T
) −1
X y T

Una vez el vector de coeficientes de regresión b ha sido estimado, las


respuestas calculadas son obtenidas de:

ŷ = X b
PATRIMONIO DE TODOS LOS COLOMBIANOS
Técnicas de validación
- Validación externa
- Validación cruzada
- leave-one-out
- leave-more-out

PATRIMONIO DE TODOS LOS COLOMBIANOS


Contiguous blocks

Venetian blinds

Number of cv groups = ntotal/nout


PATRIMONIO DE TODOS LOS COLOMBIANOS
Muestra X1 X2 X3 Y
S1 4.75 0.09 0.88 4.00
S2 1.16 4.11 2.03 7.20
S3 3.03 2.22 4.68 2.82
S4 2.43 3.08 4.58 4.02
S5 4.46 3.96 2.05 10.37
S6 3.81 4.61 4.47 8.56
S7 2.28 3.69 0.29 9.37

PATRIMONIO DE TODOS LOS COLOMBIANOS


Seleccionamos las dos últimas muestras del conjunto de datos

Muestra X1 X2 X3 Y
S1 4.75 0.09 0.88 4.00
S2 1.16 4.11 2.03 7.20
S3 3.03 2.22 4.68 2.82
S4 2.43 3.08 4.58 4.02
S5 4.46 3.96 2.05 10.37
S6 3.81 4.61 4.47 8.56
S7 2.28 3.69 0.29 9.37

PATRIMONIO DE TODOS LOS COLOMBIANOS


Muestra X1 X2 X3 Y
S1 4.75 0.09 0.88 4.00
S2 1.16 4.11 2.03 7.20
CONJUNTO
ENTRENAMIENTO S3 3.03 2.22 4.68 2.82
S4 2.43 3.08 4.58 4.02
S5 4.46 3.96 2.05 10.37

CONJUNTO Muestra X1 X2 X3 Y
PRUEBA S6 3.81 4.61 4.47 8.56
S7 2.28 3.69 0.29 9.37

PATRIMONIO DE TODOS LOS COLOMBIANOS


Muestra X1 X2 X3 Y
S1 4.75 0.09 0.88 4.00

CONJUNTO S2 1.16 4.11 2.03 7.20


ENTRENAMIENTO S3 3.03 2.22 4.68 2.82
S4 2.43 3.08 4.58 4.02
S5 4.46 3.96 2.05 10.37

El modelo de regresión es construído usando SOLAMENTE el conjunto de entrenamiento

Y = -0.3 + 1.058*X1 + 2.016*X2 -0.9609*X3

CONJUNTO Muestra X1 X2 X3 Y
PRUEBA S6 3.81 4.61 4.47 8.56
S7 2.28 3.69 0.29 9.37
PATRIMONIO DE TODOS LOS COLOMBIANOS
Muestra X1 X2 X3 Y Ycalc
S1 4.75 0.09 0.88 4.00 4.00

CONJUNTO S2 1.16 4.11 2.03 7.20 7.20


ENTRENAMIENTO S3 3.03 2.22 4.68 2.82 2.82
S4 2.43 3.08 4.58 4.02 4.02
S5 4.46 3.96 2.05 10.37 10.37

El modelo de regresión es construído usando SOLAMENTE el conjunto de entrenamiento

Y = -0.3 + 1.058*X1 + 2.016*X2 -0.9609*X3

CONJUNTO Muestra X1 X2 X3 Y
PRUEBA S6 3.81 4.61 4.47 8.56
S7 2.28 3.69 0.29 9.37

PATRIMONIO DE TODOS LOS COLOMBIANOS


Y real y Y calculado son comparados:

Y (real) Y (calc)
(n x 1) (n x 1)

Suma residual de cuadrados


(MINIMIZAR)

Suma total de cuadrados

PATRIMONIO DE TODOS LOS COLOMBIANOS


Y real y Y calculado son comparados:

Y (real) Y (calc)
(n x 1) (n x 1)
RSS
R = 1−
2

TSS
Bondad (calidad) de ajuste
R2 = 1, el modelo es perfecto
R2 = 0, el modelo está completamente errado

PATRIMONIO DE TODOS LOS COLOMBIANOS


Y real y Y calculado son comparados:

Y (real) Y (calc)
(n x 1) (n x 1)
RSS
RMSEC =
n
Root Mean Squared Error of Calibration (RMSEC)

Bondad (calidad) de ajuste

PATRIMONIO DE TODOS LOS COLOMBIANOS


Muestra X1 X2 X3 Y Ycalc
S1 4.75 0.09 0.88 4.00 4.00

CONJUNTO S2 1.16 4.11 2.03 7.20 7.20


ENTRENAMIENTO S3 3.03 2.22 4.68 2.82 2.82
S4 2.43 3.08 4.58 4.02 4.02
S5 4.46 3.96 2.05 10.37 10.37

Comparando Y y Ycalc podemos calcular la calidad de ajuste del modelo de regresión.


En este caso: R2 = 1.
Y = -0.3 + 1.058*X1 + 2.016*X2 -0.9609*X3

CONJUNTO Muestra X1 X2 X3 Y
PRUEBA S6 3.81 4.61 4.47 8.56
S7 2.28 3.69 0.29 9.37
PATRIMONIO DE TODOS LOS COLOMBIANOS
Pero tenemos que evaluar también la calidad predictiva del modelo de regresión.
Podemos hacer esto usando el conjunto de prueba, ya que este no fue usado para
construir el modelo de regresión.

Y = -0.3 + 1.058*X1 + 2.016*X2 -0.9609*X3

Muestra X1 X2 X3 Y
CONJUNTO S6 3.81 4.61 4.47 8.56
PRUEBA
S7 2.28 3.69 0.29 9.37

PATRIMONIO DE TODOS LOS COLOMBIANOS


Pero tenemos que evaluar también la calidad predictiva del modelo de regresión.
Podemos hacer esto usando el conjunto de prueba, ya que este no fue usado para
construir el modelo de regresión.

Y = -0.3 + 1.058*X1 + 2.016*X2 -0.9609*X3

sample X1 X2 X3 Y Ycalc

CONJUNTO S6 3.81 4.61 4.47 8.56 8.67


PRUEBA S7 2.28 3.69 0.29 9.37 9.21

Comparando Y y Ycalc del conjunto de prueba, podemos calcular la calidad


predictiva del modelo de regresión.
En este caso: Rtest2 = 0.89
PATRIMONIO DE TODOS LOS COLOMBIANOS
Consecuentemente, el modelo de regresión bajo análisis tiene:

R2 = 1.00 Perfecto poder descriptivo


Rtest2 = 0.89 Bueno (pero menor) poder predictivo

PATRIMONIO DE TODOS LOS COLOMBIANOS


Leverages (o puntos de apalancamiento):
el leverage (hi) puede ser considerado
como una “medida de distancia” de la i-
X ésima muestra del centro del espacio del
(n x p)
modelo

hi = x X  X
T
i ( T
) −1
 xi
1
n
 hi  1

Regla: si el leverage (hi) es 3 veces más grande que la media de los


leverages, el objeto es un outlier y debe ser removido del conjunto
de datos
PATRIMONIO DE TODOS LOS COLOMBIANOS
Regresión por Componentes Principales (PCR)
datos PCA scores y

X T

50x1000 50xM
PCA OLS

PCR representa el espacio predecido (X) en un número


reducido de Componentes Principales (M), eliminando la
información ligada a las direcciones de mínima varianza.
PATRIMONIO DE TODOS LOS COLOMBIANOS
Mínimos Cuadrados Parciales (PLS)
datos y

X
50x1
50x1000
PLS

PLS:
- Encuentra la relación entre las variables predictoras (X) y la
variable dependiente Y
- Predice Y desconocidos (predicción) y estudia X bajo el
efecto de Y (ajuste)
PATRIMONIO DE TODOS LOS COLOMBIANOS
Técnicas de selección

PATRIMONIO DE TODOS LOS COLOMBIANOS


Método de ordenación total

Funciones de conveniencia y utilidad


𝑝

𝑈𝑖 = ෍ 𝑤𝑗 ∙ 𝑡𝑖𝑗 Promedio ponderado


𝑗=1

𝑝
𝐷𝑖 = 𝑡𝑖1 ∙ 𝑡𝑖2 ∙ ⋯ ∙ 𝑡𝑖𝑝 Promedio geométrico

p = número de variables
w = peso asignado a la variable j
t = valor obtenido de la función de transformación

PATRIMONIO DE TODOS LOS COLOMBIANOS

También podría gustarte