Está en la página 1de 18

TALLER VIRTUAL

ESTADÍSTICA
APLICADA AL
LABORATORIO

INTRODUCCIÓN AL ANÁLISIS
MULTIVARIADO

JOHNNATAN GIRALDO
Introducción Análisis multivariado
¿Datos: univariantes vs multivariantes?
Univariantes: 1 muestra = una variable a la vez Multivariantes: 1 muestra = múltiples variables a la vez

¿Pero… ¿Qué es análisis multivariante?

Realidad
Univariante Multivariante
Conplejidad

Cuantitativas: numéricas pH: 2, 3, 5


Tipos de variables
Cualitativas categóricas:
no numéricas pH: ácido, neutro, básico
Miller JN, Miller JM. Estadística y quimiometría para química analítica [Internet]. Editorial Prentice Hall,. 2002. p. 296. Available from:
http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:Estad?stica+Y+Quimiometr?a+para+Qu?mica+Anal?tica#0%5Cnhttp://scholar.google.com/scholar?hl=en
&btnG=Search&q=intitle:Estad?stica+y+quimiometr?a+para+qu?mica+anal?tica#0

Introducción Análisis multivariado


¿Por que son datos multivariantes? En Quimiometria

Habitualmente

ü Variables de entrada “controladas” y salida “propiedades”


ü Habitualmente V es mucho mayor que N “matrices de datos anchas”
ü Datos perdidos “missing”
ü Datos multivariantes tienen un efecto menor del “ruido”

Complejidad del análisis multivariante


• Para cada variable: medias y varianzas
• Para establecer relaciones entre variables: V*(V-1)/2
Introducción Análisis multivariado
Correlación y causalidad

¿Correlación implica causalidad ? Correlación NO implica causalidad

q La correlación entre los resultados de las variables X, Y se da cuando se


observa una tendencia de los valores de X, Y los cuales cambian sus valores al
mismo tiempo.

q La causalidad aparece cuando los cambios en una variable afectan los


resultados de otra.

Ejemplos de variables correlacionadas .

Sin embargo, esto no implica que


una cause los cambios en otra .

Por qué la banda ancha no te hará más rico [Internet]. [cited 2021 May 19]. Available from: https://blog.cnmc.es/2013/10/30/por-que-la-banda-ancha-no-te-hara-mas-rico/

Introducción Análisis multivariado


Correlación y causalidad: Criterios de Hill
q Calentamiento global (CO2 y temperatura)
Introducción Análisis multivariado
Correlación y causalidad
Correlación NO implica causalidad
¿Correlación implica causalidad ?

La correlación entre los resultados de las variables X, Y se da cuando se observa una tendencia de los valores de X, Y los cuales cambian sus valores al mismo tiempo.

La causalidad aparece cuando los cambios en una variable afectan los resultados de otra.

Ejemplos de variables correlacionadas .


Ejemplos de variables correlacionadas .

Sin embargo, esto no implica que una cause los


cambios en otra .

Con respecto a correlación y causalidad:


a) Siempre que se evidencie una tendencia en los datos se puede decir que la
correlación implica causalidad.
b) Para que la correlación implique causalidad el comportamiento de los datos de las
variables debe ser similar.
c) Si existe correlación no necesariamente debe existir causalidad.

Por qué la banda ancha no te hará más rico [Internet]. [cited 2021 May 19]. Available from: https://blog.cnmc.es/2013/10/30/por-que-la-banda-ancha-no-te-hara-mas-rico/

Introducción Análisis multivariado


Correlación y causalidad
Correlación NO implica causalidad
¿Correlación implica causalidad ?

La correlación entre los resultados de las variables X, Y se da cuando se observa una tendencia de los valores de X, Y los cuales cambian sus valores al mismo tiempo.

La causalidad aparece cuando los cambios en una variable afectan los resultados de otra.

Ejemplos de variables correlacionadas .


Ejemplos de variables correlacionadas .

Sin embargo, esto no implica que una cause los


cambios en otra .

Con respecto a correlación y causalidad:


a) Siempre que se evidencie una tendencia en los datos se puede decir que la correlación
implica causalidad.
b) Para que la correlación implique causalidad el comportamiento de los datos de las
variables debe ser similar.
c) Si existe correlación no necesariamente debe existir causalidad.

Por qué la banda ancha no te hará más rico [Internet]. [cited 2021 May 19]. Available from: https://blog.cnmc.es/2013/10/30/por-que-la-banda-ancha-no-te-hara-mas-rico/
Introducción Análisis multivariado
Medidas experimentales: orden de los datos
Mediciones univariantes

λ=0.148 Una medida de absorbancia, una longitud de onda

[Hg]=1x10-4 Concentración de un único compuesto

18564 Un valor de intensidad de una señal a un valor de m/z


Datos de orden cero: cada muestra se define por un escalar

Múltiples muestras: Análisis univariante = conjunto de datos unidimensional (vector)

LC-MS system for clinical diagnostics announced by SCIEX | Spectroscopy Europe/World [Internet]. [cited 2021 May 20]. Available from:
https://www.spectroscopyeurope.com/product/lc-ms-system-clinical-diagnostics-announced-sciex

Introducción Análisis multivariado


Medidas experimentales: orden de los datos

Mediciones multivariantes

Múltiples lecturas de absorbancia


Espectro

Concentraciones de diferentes contaminantes

[Contaminante]n

Múltiples lecturas de intensidad para un valor de m/z

Barofsky DF. Mass spectrometric analyses in agriculture and natural product research. Brazilian J Phys [Internet]. 1999 Sep [cited 2021 May 21];29(3):432–9. Available
from: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-97331999000300006&lng=en&nrm=iso&tlng=en
Introducción Análisis multivariado
Mediciones multivariantes Medidas experimentales: orden de los datos

Múltiples lecturas de absorbancia Espectro

Concentraciones de diferentes contaminantes

[Contaminante]n

Múltiples lecturas de intensidad para un valor de m/z

Datos de primer orden: cada muestra se define por un vector


Una dimensión de información

Múltiples muestras: Análisis multivariante


Conjunto de datos bidimensional
Es una matriz de datos

Barofsky DF. Mass spectrometric analyses in agriculture and natural product research. Brazilian J Phys [Internet]. 1999 Sep [cited 2021 May 21];29(3):432–9. Available
from: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-97331999000300006&lng=en&nrm=iso&tlng=en

Introducción Análisis multivariado


Medidas experimentales: orden de los datos

Número de muestras M1 V
M2
M3
M4

.
.
. Matriz de datos
Contiene la
Mn información química
N

λ1, λ2 , λ3, λ4 .... λn Número de variables


Introducción Análisis multivariado
Mediciones multivariantes

Señales 2D
Ø Fluorescencia
Ø RMN

Ø Diferentes: contaminantes, puntos, tiempo

[Contaminante]n

Técnicas acopladas Ø Múltiples lecturas a diferentes tiempos de


retención y valores de m/z

Stefanakis D, Philippidis A, Sygellou L, Filippidis G, Ghanotakis D, Anglos D. Synthesis of fluorescent carbon dots by a microwave heating process: structural
characterization and cell imaging applications. J Nanoparticle Res. 2014 Oct 1;16(10).

Introducción Análisis multivariado


Mediciones multivariantes Medidas experimentales: orden de los datos
Señales 2D
Ø Fluorescencia
Ø RMN

Ø Diferentes: contaminantes, puntos, tiempo


[Contaminante]n

Ø Múltiples lecturas a diferentes tiempos de


retención y valores de m/z

Datos de segundo orden: cada muestra se define por una matriz


Dos dimensión de información

Múltiples muestras:

Ø Análisis multivariante
Es un cubo de datos
Barofsky DF. Mass spectrometric analyses in agriculture and natural product research. Brazilian J Phys [Internet]. 1999 Sep [cited 2021 May 21];29(3):432–9. Available
Ø Cubo
from: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-97331999000300006&lng=en&nrm=iso&tlng=en
Introducción Análisis multivariado
Medidas experimentales: orden de los datos (resumen)

1 muestra Orden cero Primer orden Segundo orden Tercer orden


m/z Valores m/z m/z valores

pH
Infusión directa m/z
Intensidad a un solo valor de m/z
Primer tr

Valores m/z

Tiempo de retención (tr)


Segundo tr
LC x LC-MS
LC-MS
Múltiples Tres vías Cuatro vías
Una vía Dos vías
muestras m/z Valores m/z

Muestras
Muestras
Dataset Muestras
Primer tr

Tiempos de retención

Muestras Valores m/z


Valores m/z Segundo tr

Introducción Análisis multivariado


Mediciones multivariantes Medidas experimentales: orden de los datos
Señales 2D
Ø Fluorescencia
Ø RMN

Ø Diferentes: contaminantes, puntos, tiempo


[Contaminante]n

Ø Múltiples lecturas a diferentes tiempos de


retención y valores de m/z

En el análisis de zearalenona (ZEA) en una muestra de maíz se encontró que la


concentración de este analito medido por LC-FLD a una longitud de onda λ=374 nm es
de 10 µg/kg, de acuerdo a lo anterior se podría decir que estos datos son:
a) ¿De orden cero?
b) ¿De orden uno?
c) ¿De orden dos?
d) ¿De enésimo orden?
e) Ninguna de las anteriores
f) Todas las anteriores

Barofs DF. Mass spectrometric analyses in agriculture and natural product research. Brazilian J Phys [Internet]. 1999 Sep [cited 2021 May 21];29(3):432–9. Available
Barofsky
from
from: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-97331999000300006&lng=en&nrm=iso&tlng=en
Introducción Análisis multivariado
Mediciones multivariantes Medidas experimentales: orden de los datos
Señales 2D
Ø Fluorescencia
Ø RMN

Ø Diferentes: contaminantes, puntos, tiempo


[Contaminante]n

Ø Múltiples lecturas a diferentes tiempos de


retención y valores de m/z

En el análisis de zearalenona (ZEA) en una muestra de maíz se encontró que la


concentración de este analito medido por LC-FLD a una longitud de onda λ=374 nm es
de 10 µg/kg, de acuerdo a lo anterior se podría decir que estos datos son:
a) ¿De orden cero?
b) ¿De orden uno?
c) ¿De orden dos?
d) ¿De enésimo orden?
e) Ninguna de las anteriores
f) Todas las anteriores

Barofs DF. Mass spectrometric analyses in agriculture and natural product research. Brazilian J Phys [Internet]. 1999 Sep [cited 2021 May 21];29(3):432–9. Available
Barofsky
from
from: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-97331999000300006&lng=en&nrm=iso&tlng=en

Introducción Análisis multivariado


Medidas experimentales: casos ambientales
Estudios de análisis o monitoreo ambientales generan grupos de datos multivariantes.
Variables Variables Variables Variables
Variables Variables
Muestras

Muestras

Muestras

Muestras
Muestras peces
Muestras sedimentos

Tiempo 1 Tiempo 2 Tiempo 3 Peces Sedimentos


Agua

Estos conjuntos de datos se caracterizan por su gran variabilidad procedente de diferentes fuentes

Fuentes naturales Fuentes antropogénicas Incertidumbre experimental


Variación debida a fenómenos Causada por variables antropogénicas Causada por las diferentes etapas en
naturales sin contribución de que interfieren con la variabilidad la medida instrumental
origen humano natural
´
Introducción Análisis multivariado
Datos perdidos (missing)

ü No se tiene un valor para una V


determinada variable en una muestra

Se pueden distinguir dos casos:


1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis
de datos complejos, por ejemplo en
datos ambientales
N

Valores missing
Ø Valores desconocidos que producen vacíos en las matrices de datos.
Ø Porcentaje, distribución, agrupaciones?.
Ø Solución: estimación por imputación PCA .
Valores por debajo del LOD (< LOD)
Ø Compuestos detectados pero con resultados no fiables.
Ø Porcentaje, distribución, agrupaciones?
Ø Solución: eliminar, valores experimentales, LOD/2 (LOD no se recomienda)

Introducción Análisis multivariado


Datos perdidos (missing)

ü No se tiene un valor para una V


determinada variable en una muestra

Se pueden distinguir dos casos:


1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis
de datos complejos, por ejemplo en
datos ambientales
N

Valores missing
Ø Valores desconocidos que producen vacíos en las matrices de datos.
Ø Porcentaje, distribución, agrupaciones?.
Ø Solución: estimación por imputación PCA .
Valores por debajo del LOD (< LOD)
Ø Compuestos detectados pero con resultados no fiables.
Ø Porcentaje, distribución, agrupaciones?
Ø Solución: eliminar, valores experimentales, LOD/2 (LOD no se recomienda)
Introducción Análisis multivariado
Datos perdidos (missing)

ü No se tiene un valor para una V


determinada variable en una muestra

Se pueden distinguir dos casos:


1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis
de datos complejos, por ejemplo en
datos ambientales
N

Valores missing
Ø Valores desconocidos que producen vacíos en las matrices de datos.
Ø Porcentaje, distribución, agrupaciones?.
Ø Solución: estimación por imputación PCA .
Valores por debajo del LOD (< LOD)
Ø Compuestos detectados pero con resultados no fiables.
Ø Porcentaje, distribución, agrupaciones?
Ø Solución: eliminar, valores experimentales, LOD/2 (LOD no se recomienda)

Introducción Análisis multivariado


Datos perdidos (missing)

ü No se tiene un valor para una V


determinada variable en una muestra

Se pueden distinguir dos casos:


1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis
de datos complejos, por ejemplo en
datos ambientales
N

Valores missing
Ø Valores desconocidos que producen vacíos en las matrices de datos.
Ø Porcentaje, distribución, agrupaciones?.
Ø Solución: estimación por imputación PCA .
Valores por debajo del LOD (< LOD)
Ø Compuestos detectados pero con resultados no fiables.
Ø Porcentaje, distribución, agrupaciones?
Ø Solución: eliminar, valores experimentales, LOD/2 (LOD no se recomienda)
Introducción Análisis multivariado
Datos perdidos (missing)

ü No se tiene un valor para una V


determinada variable en una muestra

Se pueden distinguir dos casos:


1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis
de datos complejos, por ejemplo en
datos ambientales
N

Valores missing
Ø Valores desconocidos que producen vacíos en las matrices de datos.
Ø Porcentaje, distribución, agrupaciones?.
Ø Solución: estimación por imputación PCA .
Valores por debajo del LOD (< LOD)
Ø Compuestos detectados pero con resultados no fiables.
Ø Porcentaje, distribución, agrupaciones?
Ø Solución: eliminar, valores experimentales, LOD/2 (LOD no se recomienda)

Introducción Análisis multivariado


Datos perdidos (missing)

ü No se tiene un valor para una determinada variable Se pueden distinguir dos casos:
en una muestra 1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis de datos
complejos, por ejemplo en datos ambientales

Se realizó la medición de una muestra de maíz contaminado naturalmente con ZEA


por LC-FLD por triplicado cuyos valores obtenidos muestran uno de estos datos por
debajo del límite de detección (LOD). El método más apropiado para hacer la
determinación seria:
a) Eliminar el dato anómalo.
b) hacer la estimación mediante un análisis de PCA.
c) Asignar el LOD/2 al dato anómalo.
d) Asignar un valor de cero al dato missing.
Introducción Análisis multivariado
Datos perdidos (missing)

ü No se tiene un valor para una determinada variable Se pueden distinguir dos casos:
en una muestra 1. Valores missing
2. Valores por debajo del LOD
ü Es de gran importancia en el análisis de datos
complejos, por ejemplo en datos ambientales

Se realizó la medición de una muestra de maíz contaminado naturalmente con ZEA


por LC-FLD por triplicado cuyos valores obtenidos muestran uno de estos datos por
debajo del límite de detección (LOD). El método más apropiado para hacer la
determinación seria:
a) Eliminar el dato anómalo.
b) hacer la estimación mediante un análisis de PCA.
c) Asignar el LOD/2 al dato anómalo.
d) Asignar un valor de cero al dato missing.

Introducción Análisis multivariado

Análisis de datos multivariantes (MultiVariate Data Analysis, MVDA)

q Análisis estadístico de los datos adquiridos para más de una variable (respuesta).
q Análisis simultaneo de todas las variables medidas.
q Estas variables pueden estar correlacionadas entre ellas.
q Se tiene en cuenta la dependencia entre las variables
Introducción Análisis multivariado
Análisis de datos multivariantes: aproximaciones

Aproximación univariante

q Evaluación de una variable X y una variable Y a la vez. X1 X2 X3 Y1 Y2 Y3


q Funciona con pocas variables
Estadística clásica

q Busca una relación entre un grupo de variables de X


y una variable de Y.
q Se supone que solo hay un error experimental variables Y
Y que no hay datos missing. X1 X2 X3 Y1 Y2 Y3
q Funciona con pocas variables y sin correlación.

Análisis multivariante

q Modelización de todas las variables simultáneamente para


encontrar relaciones entre cualquier variable X y cualquier variable Y.
X1 X2 X3 Xn Y1 Y2 Y3 Yn

Introducción Análisis multivariado

Análisis de datos multivariantes: objetivo

q Reducción o simplificación de datos.


ü Comprensión de los datos sin perder información de interés y facilitando la interpretación de los
resultados
q Ordenar y agrupar.
ü Agrupar muestras y variables similares de acuerdo a sus características.
q Investigación de la dependencia entre variables.
ü Relaciones de dependencia independencia entre variables.
q Predicción
ü Las relaciones entre variables se determinan para predecir la respuesta de una (o más) variables
en función de las observaciones de las otras variables.
q Generación y prueba de hipótesis
ü Evaluación de hipótesis estadísticas
Introducción Análisis multivariado

Análisis de datos multivariantes: tipos

q Análisis de datos exploratorios.


ü Investigación de conjunto de datos multivariantes sin considerar la validación de ninguna
hipótesis.
ü Comprensión de los datos. Simplificación de los conjuntos de datos.
q Análisis por regresión (calibración de los modelos).
ü Prueba de las relaciones entre dos conjuntos de variables (correlación), o explicación de una
variable (o conjunto de variables) por otro conjunto (causalidad).
ü Desarrollo de modelos predictivos de nuevos eventos.
q Clasificación para identificación de clases.
ü Reconocimientos de grupos y asignación de clases.
q Evaluación de la significancia estadística.

Introducción Análisis multivariado

Análisis de datos multivariantes: otras clasificaciones

q Análisis de datos supervisados.


ü Se tiene variables de entrada (X) y una o varias variables de salida (Y). Se crea un modelo que
permita explicar la salida de datos a partir de la entrada
Y = f(x)
El objetivo es crear un modelo que permita la predicción de nuevos datos
ü Ejemplos: predicción, clasificación…..
q Análisis de datos no supervisados.
ü Se tiene unas variables de entrada (X) y no existe la información de las variables de salida
correspondientes.
ü El objetivo de los estudios no supervisados es modelar la estructura subyacente en los datos con
el fin de extraer la información de ellos.
ü Ejemplo: exploración, clustering…..
Introducción Análisis multivariado

Análisis de datos multivariantes: otras clasificaciones

q Análisis de datos supervisados. Es mas complejo


Análisis de datos semi-supervisados
q Análisis de datos no supervisados.
Supervisado No-supervisado

Clasificación Clustering

Discretas
Regresión/calibración Reducción de
dimensionalidad

Continuas

Introducción Análisis multivariado

Visualización de los datos


q La simplicidad se puede conseguir dependiendo del estilo seleccionado
ü Efectos 3D
ü Efectos de color para decoración
ü Lineas de cuadricula
ü Ejes
ü Decimales
ü Tipo y tamaño de fuente

!! Less is more !!
Introducción Análisis multivariado
Visualización de los datos
q La simplicidad se puede conseguir dependiendo del estilo seleccionado
ü Efectos 3D
ü Efectos de color para decoración
ü Lineas de cuadricula
ü Ejes
ü Decimales
ü Tipo y tamaño de fuente Complejidad de los datos ¿Qué grafico es mas fácil de entender?

!! Less is more !!

GRACIAS POR SU ATENCIÓN


TALLER VIRTUAL
ESTADÍSTICA
APLICADA AL
LABORATORIO

También podría gustarte