Está en la página 1de 8

PROYECTO INVESTIGATIVO SOBRE MODELO DE

REGRESIÓN LINEAL SIMPLE

“Enfoque transformador para evaluar el


rendimiento y la aplicabilidad de los modelos de
predicción de la contaminación por arsénico del
arroz basados en métodos de regresión y
probabilidad”

DOI: https://doi.org/10.1016/j.jhazmat.2021.127375

 RESUMEN

El abordaje del presente caso en estudio y respectivo análisis de regresión lineal simple,
amerita que consideremos la utilización de dichos métodos iterativos que comprenden en
articulación con el análisis de varianza, el modelo de regresión lineal (es decir, la ecuación
de orden lineal), el coeficiente de correlación, la suma de cuadrados, el R^2 ajustado, etc;
una denominación que extrapola datos en información predictiva para calcular en un nivel
de confianza determinado, las variables existentes y poder contrastar sus propiedades
cualitativas, pero tratando de transmitir cuantitativamente una semejanza en corcondancia o
lo que se puede definir como el gradiente de correlación simple (evitando una dispersión,
desviación tìpicas) a un grupo que pueda ser relativamente aglomerado. Los modelos de
probabilidad se han venido trabajando con mayor fuerza recientemente a comparación de
los modelos de regresión en la evaluación de la contaminación, pero carecen de una
comparación de rendimiento adecuada entre dos tipos de modelos. Se construyeron
modelos de regresión lineal, regresión logística, regresión basada en XGBoost y de
probabilidad considerando el arsénico del suelo y ciertas propiedades fisicoquímicas del
suelo de 287 muestras para predecir el arsénico en los granos de arroz.

La exactitud, la sensibilidad, la especificidad, la precisión y la puntuación F1 mostraron que


los modelos de probabilidad no presentan ventajas sobre los modelos de regresión, no
obstante los indicadores anteriores no sirvieron como reglas de puntuación adecuadas para
el modelo de probabilidad. Al contrastar la concentración de contaminantes en granos para
el modelado probabilístico, la concentración límite se consideró como el punto de división
pero no la estructura de los conjuntos de datos, lo que reduciría la ventaja inherente del
modelo de probabilidad. Al predecir la contaminación de los cultivos, el modelo de
probabilidad no puede funcionar en ausencia del modelo de regresión, y se recomienda el
uso de los modelos basados en algoritmos simples pero robustos cuando la calidad y la
cantidad del conjunto de datos no son favorables.
Palabras clave: Regresión lineal simple, predicción de eventos, muestra probabilística,
grano de arroz-arsénico.

 ABSTRACT

The approach of the present case under study and the respective simple linear regression
analysis, merits that we consider the use of said iterative methods that comprise, in
conjunction with the analysis of variance, the linear regression model (that is, the equation
of linear order), the correlation coefficient, the sum of squares, the adjusted R ^ 2, etc; a
denomination that extrapolates data into predictive information to calculate existing
variables at a certain level of confidence and to be able to contrast their qualitative
properties, but trying to quantitatively convey a similarity in correspondence or what can be
defined as the simple correlation gradient (avoiding a dispersion, standard deviation) to a
group that can be relatively agglomerated. Probability models have been working more
strongly recently than regression models in assessing contamination, but they lack an
adequate performance comparison between two types of models. Linear regression, logistic
regression, XGBoost-based and probability regression models were constructed considering
soil arsenic and certain soil physicochemical properties of 287 samples to predict arsenic in
rice grains.

Accuracy, sensitivity, specificity, precision showed that probability models do not present
advantages over regression models, however the previous indicators did not serve as
adequate scoring rules for the probability model. When contrasting the concentration of
contaminants in grains for probabilistic modeling, the limit concentration was considered as
the dividing point but not the structure of the data sets, which would reduce the inherent
advantage of the probability model. When predicting crop contamination, the probability
model cannot work in the absence of the regression model, and the use of models based on
simple but robust algorithms is recommended when the quality and quantity of the data set
are not favorable.

Keywords: Simple linear regression, event prediction, probabilistic sample, rice grain-
arsenic.

 PLANTEAMIENTO DEL PROBLEMA

El contexto del actual modelo de regresión simple se remonta a la investigación basada en


los datos reales de contaminación en lugar de simulaciones. Las muestras de suelo y grano
de arroz utilizadas para el modelado se recolectaron de un condado ubicado en el noroeste
de la provincia de Hunan, China. El área de muestreo es típica porque pertenece a la
principal región productora de arroz de China, donde más del 62,3% de la tierra cultivada
es suelo de arroz . El suelo estaba muy contaminado con metales pesados como el arsénico
y el cadmio, lo que se asocia con la preocupación en la descomposición de alimentos de
primera necesidad (materia prima de cultivo como el arroz) y a su vez, una simétrica
repercusión en riesgos de salud humana.
Centrándose en un área minera y sus alrededores que se sabe que están contaminados con
arsénico, se adoptó un método de muestreo denso, y los intervalos de los puntos de
muestreo fueron flexibles, que van desde cientos de metros a kilómetros. En resumen, se
obtuvieron 287 muestras efectivas

 OBJETIVO

Según el consenso científico, los metales pesados en el arroz están controlados por
concentraciones relevantes en el suelo de las plantas y propiedades fisioquímicas
del suelo como el pH, la capacidad de intercambio catiónico (CIC) y la concentración de
materia orgánica (MO). Estos parámetros fueron seleccionados para su análisis.

Por lo tanto, se construyó un conjunto de datos con 287 muestras, 2 variantes dependientes
y 4 variantes independientes. Las variables independientes incluyeron pH del suelo, CIC,
MO y As suelo ; las variantes dependientes incluyeron como arroz y la clase previamente
etiquetada. Solo una variable dependiente estuvo involucrada en cada modelo dependiendo
del tipo de modelo.

Entre varios modelos de regresión y probabilidad basados en algoritmos, se seleccionaron


el modelo LR y la regresión logística (LGR) más clásicos. Dos modelos se utilizaron con
frecuencia en estudios ambientales 
 EL ESTADO DEL ARTE

Estudios anteriores han indicado que los metales pesados se acumulan en plantas cultivadas
en suelo contaminado. Por consiguiente, modelando esta correlación, es teóricamente
factible pronosticar el riesgo de contaminación de los productos bajo ciertas condiciones
del suelo.

La elección de un algoritmo de modelo apropiado es crucial para el modelado exitoso de la


calidad de los datos. En la investigación más relevante, se adopta el algoritmo de regresión
lineal (LR) para pronosticar las concentraciones de metales pesados en las plantas, y
algunos modelos funcionaron bastante bien. Sin embargo, el rendimiento de los modelos
LR se basa en gran medida en la relación lineal significativa entre las variantes
dependientes e independientes, que se encuentran comúnmente en los experimentos con
macetas o ecosistemas afines

 Una vez que se encuentra que la relación lineal está mal satisfecha, el modelo de regresión,
incluso basado en datos de experimentos con macetas, produce un resultado
insatisfactorio. Los modelos de regresión se basan en datos obtenidos de investigaciones de
campo debido a la débil correlación entre las concentraciones de metales pesados en el
suelo y las plantas. Esta tendencia a la corrupta gestión en la obtención de datos surge
netamente de la heterogeneidad espacial de las condiciones del suelo. Por tanto, esta
heterogeneidad hace que el proceso de concentración sea complejo y no lineal.

Recientemente, se han introducido métodos de predicción probabilística para modelar la


relación entre la contaminación de las plantas y el suelo. La diferencia más significativa
entre el modelo de regresión y el modelo de probabilidad es el tipo de variable
dependiente. Para el modelo de regresión, la variable dependiente se comporta como
continua, mientras que para el modelo de probabilidad, la variable dependiente se comporta
de manera discreta y generalmente binaria. 

El modelo de probabilidad ha sido ampliamente utilizado en la protección ambiental y ha


sido recompensado por predecir la contaminación por el Cadmio en los granos de arroz). La
mayoría de las aplicaciones probabilísticas en la investigación ambiental transforman un
problema de regresión en un problema de pronóstico de probabilidad y luego usan un
sistema probabilístico existente para resolver este mismo problema, lo que uno obtendría
respectivamente, una compensación entre la correlación y la precisión de los modelos de
regresión.

 RESULTADOS

Regresión simple

La fórmula general del modelo LR es la siguiente:

y : variable dependiente continua; x : variable independiente; a : coeficiente de x ; b :


interceptar.
Como la variable dependiente en LR debe ser continua, la “ y ” en el modelo LR es
el arroz As .

Regresión logística
LGR no es un modelo de regresión tradicional, sino un modelo de probabilidad conciso y
eficaz. LGR también se conoce como regresión logarítmica de probabilidades ( Ec.
2 ); utiliza la función logit como función de enlace entre la probabilidad y la expresión LR.

Cuando se introducen como variables las propiedades físico-químicas del suelo, se utiliza la
siguiente fórmula:

Básicamente, el modelo de probabilidad se considera ventajoso y rentable, claramente por


dos razones: la incertidumbre de la acumulación de metales pesados en las plantas del suelo
puede evaluarse por probabilidad), y el resultado probabilístico (riesgo de contaminación)
es más preocupante que el concentración exportada por el modelo de regresión). 

Sin embargo, los objetivos de modelado, las funciones objetivas y los criterios de
evaluación del modelo de regresión y el modelo de probabilidad son
diferentes. Independientemente de la diversidad, puede que no sea adecuado inferir cuál
modelo debiera ser ejecutado.
Por lo tanto, los puntos críticos del estudio hacen enfásis en una comparación cautelosa en
cuanto a la selección de modelos. Pocos estudios a disposición han prestado atención a la
comparación de modelos de probabilidad y regresión. En su mayoría, se construyeron y
aplicaron uno o más modelos basados en algoritmos probabilísticos sin análisis y selección
de modelos). 

Después de todo, la estrategia de modelado no fue el foco de esos estudios. Algunos


estudios alguna vez habían comparado el rendimiento del modelo de regresión y el modelo
de probabilidad y concluyeron que el modelo de probabilidad de apoyo. 

Sin embargo, las validaciones expuestas en evidencias demostrables y de carácter perpetuo,


prueba y deja claro, que se evaluaron utilizando los respectivos criterios de evaluación
dedicados a dos tipos de modelos.
 CONCLUSIÓN
La clave para proteger los productos agrícolas como el arroz, el trigo y el maíz de la
contaminación excesiva, especialmente los metales pesados como el arsénico, el cadmio y
el plomo, es determinar la correlación entre las concentraciones de metales pesados en el
suelo y los productos.

 BIBLIOGRAFÍA

1. Antoniadis, V., Robinson, J. S., & Alloway, B. J. (2008). Effects of short-term pH


fluctuations on cadmium, nickel, lead, and zinc availability to ryegrass in a sewage sludge-
amended field. Chemosphere, 71(4), 759-764. doi:10.1016/j.chemosphere.2007.10.015

https://ezproxy.cuc.edu.co:2104/record/display.uri?eid=2-s2.0-
39749101788&origin=reflist&sort=plf-
f&src=s&sid=aa80117ce957d4262f6fd6fdfb443a09&sot=b&sdt=b&sl=39&s=TITLE-
ABS-KEY%28simple+linear+regression%29
2. Ahmad, A., Khan, S. S., & Kumar, A. (2018). Learning regression problems by
using classifiers. Journal of Intelligent and Fuzzy Systems, 35(1), 945-955.
doi:10.3233/JIFS-171812

https://ezproxy.cuc.edu.co:2104/record/display.uri?eid=2-s2.0-
85051376518&origin=reflist&sort=plf-
f&src=s&sid=aa80117ce957d4262f6fd6fdfb443a09&sot=b&sdt=b&sl=39&s=TITLE-ABS-KEY
%28simple+linear+regression%29

3. Azam, S. M. G. G., Sarker, T. C., & Naz, S. (2016). Factors affecting the soil
arsenic bioavailability, accumulation in rice and risk to human health: A review.
Toxicology Mechanisms and Methods, 26(8), 565-579.
doi:10.1080/15376516.2016.1230165

https://ezproxy.cuc.edu.co:2104/record/display.uri?eid=2-s2.0-
84992223521&origin=reflist&sort=plf-
f&src=s&sid=aa80117ce957d4262f6fd6fdfb443a09&sot=b&sdt=b&sl=39&s=TITLE-ABS-KEY
%28simple+linear+regression%29

4. Bi, Y., & Jeske, D. R. (2010). The efficiency of logistic regression compared to
normal discriminant analysis under class-conditional classification noise. Journal of
Multivariate Analysis, 101(7), 1622-1637. doi:10.1016/j.jmva.2010.03.001

https://ezproxy.cuc.edu.co:2104/record/display.uri?eid=2-s2.0-
77952009465&origin=reflist&sort=plf-
f&src=s&sid=aa80117ce957d4262f6fd6fdfb443a09&sot=b&sdt=b&sl=39&s=TITLE-
ABS-KEY%28simple+linear+regression%29

También podría gustarte