Anteproyecto - Métodos Estadísticos - PS2077099

UNIVERSIDAD VERACRUZANA
ANTEPROYECTO:
Modelos lineales generales y modelos lineales generalizados para el análisis

de datos de la composición química y actividad antioxidante de cinco
frutales Veracruzanos con diferente estado de maduración y de diferentes
tejidos
Especialización en Métodos Estadísticos
PRESENTA:
Q.F.B. Francisco Javier Rivera Reséndiz
DIRECTORES:
Por asignar Carlos Andrés Pascacio

Villafán
Instituto de Ecología
Xalapa Enríquez, Ver. Junio de 2020

1
1.- Introducción
Los datos generados en estudios químicos de productos naturales suelen poseer las
siguientes características lo cual hace que su análisis estadístico sea un reto: valores
atípicos, correlación entre covariables, relaciones no lineales entre variables, así como
estructuras de dependencia espacial y temporal (Zuur & Ieno, 2016). Los modelos
lineales generales son modelos cuyo objetivo puede ser la comparación de
grupos/tratamientos o la predicción de una respuesta (variable dependiente) a partir de
variables independientes (Zar, 2009). Estos modelos incluyen el Análisis de Varianza
(ANOVA), el Análisis de Covarianza (ANCOVA), el Análisis de Varianza Multivariado
(MANOVA) y la correlación espacial (Zar, 2009). Los supuestos de los modelos lineales
generales incluyen una distribución normal y cuando los datos no presentan dicha
distribución lo mejor es obtener una mayor eficiencia mediante ecuaciones de
estimación generalizada (Zar, 2009). Los modelos lineales generalizados (GLM, por su
acrónimo en inglés), por otra parte, son modelos que aportan variaciones al modelo
lineal general y no requieren necesariamente una distribución normal de las variables
de respuesta (Bandera-Fernández & Pérez-Pelea, 2018).
Dos estudios recientes (Rivera-Reséndiz, 2020, Sánchez-Martínez, 2020) que

formaron parte de un gran proyecto multidisciplinario FOMIX-Veracruz (VER-2017-01-
292397), ejecutado en el Instituto de Ecología, A.C. – INECOL, se enfocaron en
analizar químicamente la presencia y cantidad de compuestos fenólicos, carbohidratos,
aminoácidos y lípidos, así como su actividad antioxidante en diferentes tejidos y
estados de maduración del chicozapote (Manilkara zapota), ciruela tropical (Spondias
purpurea), guayaba (Psidium guajava), zapote blanco (Casimiroa edulis) y mango
manila (Mangifera indica) con el fin de obtener información que sustente su importancia
en el consumo y explotación de compuestos bioactivos. Los resultados de este estudio
fueron analizados con estadística no-paramétrica (Kruskall-Wallis) con el fin de
determinar si existían diferencias estadísticamente significativas en la composición
química y capacidad antioxidante de cáscara, pulpa y semilla. El uso de estadística no-
paramétrica para el análisis de estos datos, se basó en que una prueba de Shapiro-Wilk
de normalidad y una de Levene de igualdad de varianzas indicaron que los datos
crudos no seguían una distribución normal ni tenían igualdad de varianzas.
2
Sin embargo, podría ser el caso de que, aunque los datos crudos no sean
normales ni homocedásticos (i.e., con igualdad de varianzas), los residuales de un
modelo lineal general ajustado a esos datos sí sigan una distribución normal y tengan
homocedasticidad (Kéry & Hatfield, 2003, Zuur et al. 2010). En ese caso, el usar una
prueba no-paramétrica sería inapropiado (Kéry & Hatfield, 2003). En este trabajo usaré
los datos de Rivera-Reséndiz (2020) y Sánchez-Martínez (2020) para aplicar los
protocolos propuestos por Zuur et al. (2010) y Zuur & Ieno (2016) respecto a la
exploración de datos, análisis estadístico y presentación de resultados de modelos
lineales generales y modelos lineales generalizados, con la finalidad de generar
modelos estadísticos que permitan la estimación de parámetros y que potencialmente
permitan generar conclusiones más robustas que el análisis de estadística no-
paramétrica usado originalmente para el análisis de esta información.
Como tal, este trabajo se enfocará en el desarrollo de modelos estadísticos que

permita conocer y hacer predicciones sobre la influencia de los estados de maduración
y los diferentes tejidos de los frutos de chicozapote, ciruela tropical, guayaba, zapote
blanco y mango manila en su composición fitoquímica y nutricional.
2.- Planteamiento del problema y justificación
Los conjuntos de datos obtenidos mediante diversas técnicas de muestreo en el campo

de la química de productos naturales requieren de un análisis con enfoques estadísticos
sofisticados. El uso de estadística no-paramétrica no permite la generación de modelos
que tomen en cuenta la forma específica de la distribución de la cual se obtiene la
muestra. El análisis estadístico con una incorrecta exploración de datos y elección de
un modelo estadístico inapropiado puede generar una mala interpretación de
resultados, por consiguiente, conclusiones erróneas y poco contundentes.
Los frutos son fuentes de productos naturales, sin embargo, algunos son
considerados de traspatio debido a que por lo general no son grandes fuentes de
ingresos para los productores ya que no son atractivos para los consumidores. El
análisis de los componentes con valor nutrimental y terapéutico genera información
3
valiosa sobre el potencial uso de los frutos en la industria alimentaria, cosmética y
farmacéutica con la finalidad de aumentar su importancia en el mercado.
El uso de un modelo estadístico adecuado para analizar la influencia de los

diferentes estados de maduración/tejidos en los frutos chicozapote, ciruela tropical,
guayaba, zapote blanco y mango manila en su composición fitoquímica y nutricional,
permitirá proponer el uso adecuado del fruto aprovechando los metabolitos primarios y
secundarios de interés, mejorando el rendimiento durante el desarrollo de productos en
los diversos sectores industriales.
3.- Hipótesis
El análisis mediante modelos lineales generales o modelos lineales generalizados de

los datos generados en los estudios de Rivera-Reséndiz (2020) y Sánchez-Martínez
(2020) representa una mejor aproximación estadística que el análisis de estadística no-
paramétrica usado inicialmente para estos datos. Si esta hipótesis resulta cierta, los
residuales de los modelos ajustados a esos datos, seguirán una distribución normal y
mostrarán igualdad de varianzas.
4.- Objetivo General
Analizar los datos generados en frutos de chicozapote, ciruela tropical, guayaba, zapote
blanco y mango manila por Rivera-Reséndiz (2020) y Sánchez-Martínez (2020) con
modelos lineales generales y modelos lineales generalizados con base en los
protocolos reportados por Zuur et al. (2010) y Zuur & Ieneo (2016).
5.- Objetivos Particulares
 Aplicar un análisis exploratorio a los datos.

 Identificar datos atípicos.
4
 Evaluar el ajuste de un modelo lineal general y un modelo lineal generalizado a
los datos de Rivera-Reséndiz (2020) y Sánchez-Martínez (2020) con base en el
comportamiento de sus residuales.
6.- Materiales y Métodos

Todos los análisis se realizarán con el software estadístico de libre acceso R (R Core
Team 2017).
6.1 Análisis exploratorio

El análisis exploratorio se llevará a cabo con base en el protocolo descrito por Zuur et
al. (2010).
6.1.1 Determinación de valores atípicos en Y y X

Se generarán diagramas de cajas y bigotes para cada una de las variables
dependientes (determinaciones químicas) con relación a las variables independientes
(estados de maduración y tejidos). Se visualizará la difusión de los datos en busca de
valores atípicos, en caso de presentarse, se realizará un diagrama de puntos de
Cleveland para tener más exactitud en la identificación de los valores atípicos.
6.1.2 Determinación de la homogeneidad de varianza

Se generarán diagramas de cajas y bigotes para cada una de las variables
dependientes con relación a las variables independientes, la homogeneidad de varianza
se determinará por el método visual. Posteriormente, se realizará un análisis gráfico de
los residuales de los modelos que se ajusten a los datos para confirmar si cumplen el
supuesto de homocedasticidad.
6.1.3 Determinación de la normalidad

Se elaborarán histogramas de los residuos de los modelos ajustados a los datos,
para poder obtener una impresión de la normalidad de las variables dependientes, en
caso de ser necesario y aceptable, se realizará una transformación de Box-Cox con la
finalidad de corregir falta de normalidad u homocedasticidad.
5
6.2 Formulación del modelo estadístico
Se desarrollará un ANOVA de dos vías, de esta manera se tomarán en cuenta las dos
variables independientes (estados de maduración y tejidos) que pueden influir en la
variable de respuesta. El ANOVA se ajustará al siguiente modelo:
Yijk = µ + αj + βk + (αβ)jk + ϵijk
El modelo completo será entonces aquel en que cada observación puede ser
explicada como Yijk, se puede explicar como una media global µ, el efecto principal del
factor A (αj), el efecto principal de B (βk) y la interacción entre A y B (αβ)jk, más una cierta
varianza no explicada o error (ϵijk). Si existen diferencias significativas se realizará una
prueba post-hoc de Tukey. Todas las pruebas estadísticas se realizarán a un nivel de
confianza de 5%, posterior al ANOVA se revisarán los supuestos de normalidad y
homogeneidad de varianzas.
Si no existe homocedasticidad en los valores residuales de las variables

dependientes se analizará el tipo de distribución y la familia que explica cómo se
distribuyen los errores, por ejemplo, si responden a una distribución Gaussian,
Binomial, Poisson o Gamma. De esta manera se buscará ajustar un GLM a los datos.
Los supuestos de los modelos se verificarán mediante el trazado de los residuos frente
a los valores ajustados, frente a cada covariable en el modelo y frente a cada covariable
que no está en el modelo.
6.3 Conducción y presentación de resultados

La conducción del análisis estadístico y la presentación de los resultados se llevará a
cabo con base al protocolo descrito por Zuur & Ieno (2016).
6.3.1 Interpretación del modelo estadístico

Los datos se presentarán de manera ordenada en tablas, en el caso de ANOVA
de dos vías se expondrán los parámetros estimados, los errores estándar, los valores
de t, R2, varianza estimada. Para el GLM se presentarán datos similares, sin embargo,
se incluirán múltiples variaciones, se calculará la correlación intraclase en caso de ser
6
necesario y se presentarán los grados de libertad. De igual forma se presentarán
gráficos que ayuden al lector a tener una mejor comprensión de los datos.
7
7.- Programa de Actividades
2020
Actividades
Agosto Septiembre Octubre Noviembre Diciembre
Revisión bibliográfica X X X X X
Redacción del proyecto X X X X X
Obtención del conjunto de datos X X
Organizar la base de datos X X
Realizar el análisis exploratorio X X X
Establecer el método estadístico X
2021
Actividades
Enero Febrero Marzo Abril Mayo Junio Julio Agosto
Revisión bibliográfica X X X X X X X
Redacción del proyecto X X X X X X X
Establecer el método estadístico X X

Ejecutar el método estadístico a
carbohidratos, lípidos y % de X X X
inhibición
Contrastar los resultados X X
Disertación de trabajo final X
8
8.- Referencias bibliográficas
Bandera-Fernández E & Pérez-Pelea L. (2018). Los modelos lineales generalizados

mixtos. Su aplicación en el mejoramiento de plantas. Cul Trop, 39: 127-133.
Gómez S, Torres V, García Y, Fraga LM, Sarduy L & Savón LL. (2012). Comparación
de modelos de efectos fijos y mixto en el análisis de un experimento con cepas
mutantes de hongos celulolíticos Trichoderma viride. Rev Cuba Cienc Agríc, 46:
127-131.
Kéry M & Hatfield JS. (2003). Normality of raw data in general linear models: the most
widespread myth in statistics. Bull Ecol Soc Am 84: 92–94.
R Development Core Team. (2017). R: A Language and Environment for Statistical

Computing; R Foundation for Statistical Computing: Vienna, Austria. Disponible en
línea en: https://www.R-project.org/.
Rivera-Reséndiz FJ. (2020). Determinación del contenido de compuestos fenólicos,

lípidos, carbohidratos, aminoácidos y actividad antioxidante de frutos Manilkara
zapota y Spondias purpurea (Tesis de Licenciatura). Universidad Veracruzana. 1-
127 pp.
Sánchez-Martínez DE. (2020). Determinación de compuestos fenólicos, aminoácidos,

carbohidratos, lípidos y actividad antioxidante en diferentes tejidos en dos estados
de maduración de tres frutos producidos en el estado de Veracruz: guayaba,
mango y zapote blanco (Tesis de Licenciatura). Universidad Veracruzana. 1-131
pp.
Zar JH. (2009). Biostatiscal Analysis. 5ta ed. New Jersey: ed. Pearson Prentice Hall.
189-449 p.
Zuur AF & Ieno EN. (2016). A protocol for conducting and presenting results of
regression‐type analyses. Methods Ecol Evol, 7: 636-645.
Zuur AF, Ieno EN & Elphick CS. (2010). A protocol for data exploration to avoid common
statistical problems. Methods Ecol Evol, 1: 3-14.

Anteproyecto - Métodos Estadísticos - PS2077099

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Anteproyecto - Métodos Estadísticos - PS2077099

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD VERACRUZANA

Modelos lineales generales y modelos lineales generalizados para el análisis

Especialización en Métodos Estadísticos

Q.F.B. Francisco Javier Rivera Reséndiz

Por asignar Carlos Andrés Pascacio

Xalapa Enríquez, Ver. Junio de 2020

Dos estudios recientes (Rivera-Reséndiz, 2020, Sánchez-Martínez, 2020) que

Como tal, este trabajo se enfocará en el desarrollo de modelos estadísticos que

2.- Planteamiento del problema y justificación

Los conjuntos de datos obtenidos mediante diversas técnicas de muestreo en el campo

El uso de un modelo estadístico adecuado para analizar la influencia de los

El análisis mediante modelos lineales generales o modelos lineales generalizados de

4.- Objetivo General

5.- Objetivos Particulares

 Aplicar un análisis exploratorio a los datos.

6.- Materiales y Métodos

6.1 Análisis exploratorio

6.1.1 Determinación de valores atípicos en Y y X

6.1.2 Determinación de la homogeneidad de varianza

6.1.3 Determinación de la normalidad

Yijk = µ + αj + βk + (αβ)jk + ϵijk

Si no existe homocedasticidad en los valores residuales de las variables

6.3 Conducción y presentación de resultados

6.3.1 Interpretación del modelo estadístico

Redacción del proyecto X X X X X

Obtención del conjunto de datos X X

Organizar la base de datos X X

Realizar el análisis exploratorio X X X

Establecer el método estadístico X

Redacción del proyecto X X X X X X X

Establecer el método estadístico X X

Disertación de trabajo final X

Bandera-Fernández E & Pérez-Pelea L. (2018). Los modelos lineales generalizados

R Development Core Team. (2017). R: A Language and Environment for Statistical

Rivera-Reséndiz FJ. (2020). Determinación del contenido de compuestos fenólicos,

Sánchez-Martínez DE. (2020). Determinación de compuestos fenólicos, aminoácidos,

También podría gustarte