Analisis Regresion

1.
- Análisis general:
Supongamos que se tienen los siguientes datos (inventados) de caudal (Q) y concentración
(C):
Procedemos a preparar un gráfico normal, con los datos originales y los ejes normales (no
logarítmicos), Q en el eje X y C en el Y:
Fig. 1
Con esto, vemos que se obtiene lo de la figura 1, con una regresión del tipo “potencial” de la
forma C = 2E+06C-0.974. En realidad, el valor exacto que acompaña a C entiendo que es
1998021 (Excel lo aproxima a “notación científica” como 2E+06 ó 2*10 6). Se advierte que la
pendiente (“b”) de la relación (de la curva) es -0,974.
Luego, la idea de aplicar logaritmos, tiene que ver con que a partir de una relación (general)
de la forma C=aQb, ésta se puede “linearizar” usando logaritmos, y entonces al hacer la
regresión lineal, “a” y “b” se extraen de la ecuación de la recta. Pero esto es solo un tema de
conveniencia (y hasta de apariencia), de “mostrar en forma más simplificada” la relación
entre Q y C y los valores de “a” y “b”.
Siguiendo con el ejemplo de los datos ficticios, los mismos datos (sin ninguna
transformación), graficados en un gráfico con ejes logarítmicos permite obtener esto (Fig. 2):
Fig. 2
Se advierte que, si bien la figura ahora muestra una línea recta, la ecuación de ajuste
asociada sigue siendo una de forma de potencia (potencial), C = 2E+06Q -0.974. Es decir, la
pendiente (b) sigue siendo -0.974 (y ojo, el R2 sigue siendo el mismo).
Ahora bien, ¿el intercepto (a)? Es algo más difícil de advertir del gráfico anterior. Entonces, si
grafico el logaritmo (en base 10) de los valores originales, en un gráfico en escala normal
(ejes normales, no logarítmicos) se obtiene esto:
Datos
Y su representación gráfica es:
Fig. 3
Ahora la ecuación de ajuste (notar que el R 2 cambia, aumenta en este ejemplo ficticio, lo cual
como explico más abajo no es tan importante de todas formas porque nunca fue la idea
basar mucho el análisis en el R 2) es C = -0.9742Q + 6.3006. La pendiente se obtiene
(“observa”) directamente (es una “ecuación de una línea recta”, luego es lo que acompaña a
“X” o “Q” en nuestro caso) y es similar a lo visto en la figura de antes (Fig. 1, 2), es decir, b=-
0.9742. Con respecto al intercepto “a”, se obtiene ahora (desde la ecuación, forma lineal Y =
bX + a, de la recta) el valor de 6.3006. Sin embargo, hay que recordar que esto es a partir de
datos transformados (con logaritmo en base 10), por lo que si calculo 10 6.3006 (para revertir la
transformación logarítmica de los datos) = 2E06 ó 1998021. Con esto advertimos en forma
simple que el intercepto se puede obtener directamente de la relación de los datos originales
en un gráfico con ejes (escala) logarítmica (Fig. 2), siendo el valor que acompaña a “X” (en la
ecuación de ajuste, o al caudal en nuestro caso específico), es decir, el 2E06.
Ahora bien, ¿qué pasa si en vez de considerar log10 (base 10) se usa (o “el programa usa”)
logaritmo natural? Veamos el ejemplo con los datos transformados en un gráfico con ejes
normales (ya vimos que es lo mismo a usar valores normales en un gráfico con ejes, escala,
logarítmica). Sería esto:
Fig. 4
OK, vemos entonces que la pendiente (-0.9742) no cambia! Algo bueno. Pero sí ha cambiado
el intercepto (de la regresión lineal, de la ecuación) ya que ahora es 14.508. Entonces si uno
quisiera conocer “a”, se obtiene como e14,508 = 1998020 (se usa “ex” y no 10x ya que se
consideraron, al transformar los datos, logaritmos naturales). Voilá!!
2.- Análisis con datos “reales”.
Le pedí a Jaime que me hiciera llegar unas figuras obtenidas a partir de los datos reales,
creo que específicamente lo de la CE que vimos el viernes. Dado que él me envió eso y otras
más, posteriormente le pedí los datos de Al (sólo un extracto a continuación):
(continúan…)
OK, siguiendo con el esquema de análisis, al graficar los valores originales en un gráfico con
ejes normales, se obtiene:
Fig. 5
Si graficamos (solo por conveniencia como ya intenté de explicar y mostrar antes, Figs. 1 y
2), lo mismo (datos originales) pero en un gráfico con ejes escala logarítmica (de Excel,
común y silvestre) se obtiene esto:
Fig. 6
Es decir, al comparar las figuras 5 y 6 advertimos que obtenemos la misma pendiente (b =

0,3949), el mismo intercepto (a = 3,9832) (y el mismo R 2 en todo caso).
Cuando comparamos esto con el gráfico que me envió Jaime, surgen algunas diferencias
menores (en los valores), como se muestra a continuación (Fig. 7, Tabla 1):
Fig. 7
Tabla 1.
Excel (ROL) R (Jaime)
a 3,98 3,77
b 0,39 0,37
Es cierto que las diferencias son pequeñas, pero no deja de llamar la atención el por qué
ocurre eso, ya que siendo un cálculo tan simple (una regresión), cabría esperar que Excel y
R entregasen los mismos valores. En fin … . Sugiero de todas formas a Uds. procurar
conocer (entender) cómo hace la regresión el paquete de R considerado (por lo que se habló
el último viernes, procurar no usar las herramientas en forma automática sin entender bien
qué es lo que están haciendo).
De todas formas, partiendo de la base que Uds. ya hicieron todo en R (OK, en fin, supongo
que las regresiones se podrían haber hecho simplemente en Excel, pero también supongo
que en su momento lo vimos y habrá sido más sencillo “automatizar todo” con R), no veo
mayor dificultad en usar los resultados obtenidos (asumiendo, de nuevo, que las diferencias
son mínimas entre Excel y R)
Solo a modo de complemento, presento a continuación el análisis de CE que fue en la que
nos quedamos (o me quedé) pegado el otro día (el viernes):
Excel R
Fig. 8
Acá no hay ninguna diferencia!! (entre el Excel y el R). Y como ya se ha demostrado en este
documento (espero), a = 367 ; b = -0.049 , lo cual se obtiene directamente del gráfico. Así es
que creo que estamos OK, no hay que rehacer nada según entiendo…. .
Lo último, lo de la significancia de la pendiente (si esta es o no diferente de “0”). Al respecto,
es importante recordar que nunca (en el caso de Vanessa) nos fijamos mucho en el R 2 de las
regresiones. Si bien eso va como información (en los gráficos), el análisis o el foco estuvo en
ver, una vez determinadas las pendientes, sus valores (positiva, negativa, o “0”) y en base a
ello, poder describir los comportamientos como quimioestáticos, o dinámicos
(enriquecimiento o dilución o como les hayamos llamado). Al respecto, la literatura (papers)
describen diferentes criterios. Lo que decidimos usar en el caso de Vanessa (que sale en
alguno de los papers) era ver si la pendiente de la regresión era “diferente de 0”, no al
ojímetro, si no en base a un simple test estadístico (“test de “t”).
Al respecto, entiendo que “R” les da esto:
Acá es donde se produce “lo raro” (al menos parcialmente) que conversamos el viernes, ya
que efectivamente en el cuadro de diálogo se indica que el valor estimado del intercepto es
“5.90681” y el de la pendiente es “-0.04882”. Lo segundo (pendiente = -0.04882) está OK,
como hemos visto, la pendiente no cambia (ya sean log10, log natural, etc). Pero lo extraño
es que para el intercepto, a modo de curiosidad, si se calcula 10 5.900681 se obtiene 805378,
que no es el intercepto de la regresión! ( a = 367.5). En cambio, el valor correcto “sí” se
obtiene cuando se calcula e5.900681 = 367. ¿Por qué es esto, por qué es ese el valor que
informa el R? Ni idea. Les sugiero (solicito), averiguar, investigar (volviendo a lo mismo, por
el hecho de entender lo que están haciendo, lo que “R” está haciendo…por último, por
“curiosidad profesional”).
De todas formas, volviendo a lo que “nos interesa” (en esta parte), entiendo (por favor
verificar) que R “sí” les está dando el valor de significancia de la pendiente (si es o no
diferente de “0”). Eso está en el cuarto valor de la línea “log(Q)” del reporte de R. Ese cuarto
valor es, según entiendo (siempre verificar por vuestra cuenta!) el valor del estadístico “t”
asociado a la pendiente (asociado a la hipótesis de si es o no igual a cero). Si no tiene
asteriscos (*) se infiere que la pendiente no es, estadísticamente hablando, diferente de 0. Si
tiene 1 “*” se infiere que es diferente de cero, con un nivel de significancia de 95% (es decir,
hay un potencial error de 5% de que el resultado obtenido no sea cierto, sea un error). Si
tiene 2 “*” es similar a lo anterior pero con una significancia de 99% (error posible de 1%). Y
con 3 “*”, lo mismo, al 99,9%.
Si se fijan, cuando comparamos (rápidamente) los casos de CE y Al, vemos esto (Tabla 2):
Tabla 2
Al CE
Y si vuelven a las figuras (7 y 8), si bien en los dos casos el R 2 es relativamente bajo, este es
“algo” mayor (un orden de magnitud, de hecho) en el caso del Al, y además, visualmente, se
tiende a ver una recta con una pendiente (inclinación) algo más definida (en el caso de la CE
la línea tiende a ser más horizontal, Figs. 7 vs. 8; o dicho de otra forma, en el caso de la CE
la pendiente de la recta, visualmente hablando en las figuras, es más cercana a “0”, la línea
es más horizontal…).
Bueno, dejo acá el análisis, espero sirva (y no me haya equivocado en algo), ya lo podemos
ver el otro viernes…y además, les dejo algunas tareas (verificar, verificar…)
Saludos!
RO

Analisis Regresion

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Regresion

Cargado por

Copyright:

Formatos disponibles

1.

Y su representación gráfica es:

Es decir, al comparar las figuras 5 y 6 advertimos que obtenemos la misma pendiente (b =

También podría gustarte