Analisis de Regrecion y Conrelacion Lineal

Emili Margarita Camas Salas
ESTADISTICA INFERENCIAL
ANALISIS DE REGRECION
Y CONRELACION LINEAL
Universidad filantrópica internacional
Docente: ing. Noe Alexis Roblero Mejía
Materia: estadística inferencial
Carrera: pedagogía
Tema: Analís de regresión y con

relación lineal
Alumna: Emili Margarita Camas Salas
Fecha de entrega: 15 de abril del 2023

Índice
 Introducción
……………………………………………………………………4
 Correlación lineal……………………………………………………5
Ajustes por mínimo

cuadrados…………………………………………………………………9
Métodos de máxima
verosimilitud………………………………………………………………11
Intervalos de confianza y
varianza……………………………………………………………13
Bibliografía……………………………………………………………14
Introducción
La correlación lineal y la regresión lineal simple son métodos estadísticos que

estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables,

mientras que la regresión lineal consiste en generar una ecuación (modelo) que,
basándose en la relación existente entre ambas variables, permita predecir el
valor de una a partir de la otra.

Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es

necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación conjunta
de dos variables aleatorias.
Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1Covarianza
muestral=��(�,�)=∑�=1�(��−�¯)(��−�¯)�−1
siendo x¯¯¯�¯ e y¯¯¯�¯ la media de cada variable y xi�� e yi�� el valor de

las variables para la observación i�.
La covarianza depende de las escalas en que se miden las variables estudiadas,

por lo tanto, no es comparable entre distintos pares de variables. Para poder
hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que
destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva

perfecta y -1 una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
 La correlación de Pearson funciona bien con variables cuantitativas que

tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de la
falta de normalidad. Es más sensible a los valores extremos que las otras
dos alternativas.
 La correlación de Spearman se emplea cuando los datos son ordinales, de
intervalo, o bien cuando no se satisface la condición de normalidad para
variables continuas y los datos se pueden transformar a rangos. Es un
método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para el
estudio de la correlación que trabaja con rangos. Se emplea cuando se
dispone de pocos datos y muchos de ellos ocupan la misma posición en el
rango, es decir, cuando hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario

calcular su significancia. Solo si el p-value es significativo se puede aceptar que
existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy
cercano que sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es
significativo, se ha de interpretar que la correlación de ambas variables es 0, ya
que el valor observado puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de
correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras,
por un lado está el parámetro estimado (en este caso el coeficiente de
correlación) y por otro su significancia a la hora de considerar la población
entera. Si se calcula el coeficiente de correlación entre X� e Y� en diferentes
muestras de una misma población, el valor va a variar dependiendo de las
muestras utilizadas. Por esta razón se tiene que calcular la significancia de la
correlación obtenida y su intervalo de confianza.
t=rN−2−−−−−√1−r2−−−−−√, df=N−2�=��−21−�2, ��=�−2
Para este test de hipótesis, H0�0 considera que las variables son

independientes (coeficiente de correlación poblacional = 0) mientras que,
la Ha��, considera que existe relación (coeficiente de correlación
poblacional ≠≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de
correlación y de su significancia, también tiene un tamaño de efecto asociado. Se
conoce como coeficiente de determinación R2�2. Se interpreta como la cantidad
de varianza de Y� explicada por X�. En el caso del coeficiente de Pearson y el
de Spearman, R2�2 se obtiene elevando al cuadrado el coeficiente de
correlación. En el caso de Kendall no se puede calcular de este modo. (No he
encontrado como se calcula).
Mediante bootstrapping también se puede calcular la significancia de un
coeficiente de correlación. Es una alternativa no paramétrica al t-
test. Resampling: Test de permutación, Simulación de Monte Carlo y
Bootstrapping).
Ejemplo correlación lineal
Se dispone de un data set con información sobre diferentes coches. Se quiere

estudiar si existe una correlación entre el peso de un vehículo (Weight) y la
potencia de su motor (Horsepower).
R contiene funciones que permiten calcular los diferentes tipos de correlaciones y

sus niveles de significancia: cor() y cor.test(). La segunda función es más
completa ya que además de calcular el coeficiente de correlación indica su
significancia (p-value) e intervalo de confianza.
Hide
library(MASS)
library(ggplot2)
data("Cars93")
En primer lugar se representan las dos variables mediante un diagrama de

dispersión para intuir si existe relación lineal o monotónica. Si no la hay, no tiene
sentido calcular este tipo de correlaciones.
El diagrama de dispersión parece indicar una posible relación lineal positiva entre
ambas variables.
Para poder elegir el coeficiente de correlación adecuado, se tiene que analizar el

tipo de variables y la distribución que presentan. En este caso, ambas variables
son cuantitativas continuas y pueden transformarse en rangos para ordenarlas,
por lo que a priori los tres coeficientes podrían aplicarse. La elección se hará en
función de la distribución que presenten las observaciones.
¿Qué es un ajuste de mínimos cuadrados?
El ajuste de mínimos cuadrados utiliza el análisis estadístico para estimar las

coordenadas más probables de los puntos conectados de una medición en una
red. En ArcGIS Pro, se puede ejecutar un ajuste de mínimos cuadrados en la
estructura de parcelas utilizando las herramientas siguientes:
Herramienta Analizar parcelas por ajuste de mínimos cuadrados.
Herramienta Aplicar ajuste de mínimos cuadrados de parcela.
Ajuste por mínimos cuadrados y coordenadas de mejor estimación
Las coordenadas de un nuevo punto se pueden calcular de forma única mediante

un rumbo y una distancia desde un punto existente. Sin embargo, confiar solo en
los resultados de un único conjunto de coordenadas conlleva riesgo, ya que no
hay forma de saber si las mediciones que definen dichas coordenadas son
correctas. Las coordenadas calculadas a partir de mediciones desde otros puntos
existentes se pueden comparar con las coordenadas calculadas por el primer
conjunto de mediciones. Por lo general, mientras más mediciones definan un único
punto, más fiables son sus coordenadas y más confianza existe a la hora de
determinar medidas erróneas. A estas mediciones adicionales se les denomina
mediciones redundantes.
Todas las mediciones contienen un cierto grado de error. Las mediciones

redundantes calcularán coordenadas ligeramente diferentes para el mismo punto.
Dado que solo puede haber una ubicación de coordenadas para un punto, las
coordenadas de mejor precisión para el punto se pueden obtener calculando un
promedio ponderado de las mediciones redundantes, con cada peso definido por
la precisión de la medición. Cuanto mayor sea la precisión de la medición, mayor
será su ponderación y mayor será la influencia que tendrá en el cálculo de las
mejores coordenadas del punto.
Las coordenadas para el punto Sp5 se calculan utilizando un promedio ponderado.
Aunque el enfoque promedio ponderado funciona para calcular un único punto, no

es suficiente calcular las coordenadas de varios puntos de una red como la
estructura de parcelas. Las técnicas y algoritmos en un ajuste de mínimos
cuadrados proporcionan la solución más rigurosa y ampliamente aceptada para
calcular las coordenadas en una red de mediciones ponderadas.
Para resumir, un ajuste de mínimos cuadrados funciona de la siguiente manera:
Estima la solución estadística de mejor ajuste para las coordenadas de los puntos
de una red de medición ponderada.
Calcula una solución buscando un mínimo para la suma de los cuadrados de los
valores residuales de medición. Un valor residual de medición es la cantidad
necesaria para corregir una medición para que se ajuste a la solución de mejor
ajuste.
Es un procedimiento matemático basado en la teoría de la probabilidad; las

coordenadas estimadas se calculan con diversos niveles de incertidumbre.
Incluye pruebas estadísticas para analizar y verificar los resultados del ajuste.
Ajustes de mínimos cuadrados de red limitados y libres

Hay muchos tipos de ajustes de mínimos cuadrados. La estructura de parcelas se
puede ajustar mediante ajustes de mínimos cuadrados de la red, tanto restringidos
como libres.
Ajuste restringido
Un ajuste de mínimos cuadrados restringido se ejecuta en una red de medición

que está restringida por puntos de control. Los puntos de control son puntos que
tienen coordenadas x, y, z conocidas y pueden restringirse completamente (sin
movimiento en el ajuste) o ponderarse (sin movimiento permitido en función de la
precisión). Los puntos de control pueden representar coordenadas exactas y
topográficas para las entidades físicas de la superficie de la Tierra. Los puntos de
control se agregan a una red de medición para colocar la red en un sistema de
coordenadas y para detectar errores de medición conocidos como equivocaciones.
Más información sobre puntos en un ajuste de mínimos cuadrados
Ajuste de red libre
Un ajuste de red libre se ejecuta solo en mediciones, y la red no está restringida

por puntos de control. Se ejecuta un ajuste de red libre para comprobar que la red
no presenta errores de medición antes de conectar las mediciones a los puntos
Método de máxima verosimilitud
El método de máxima verosimilitud encuentra un conjunto de valores, denominados estimaciones

de máxima verosimilitud, en los que la función de logaritmo de verosimilitud alcanza su máximo
local. Los estimadores son los parámetros de efectos fijos, los componentes de varianza y la
varianza residual.
Las estimaciones de máxima verosimilitud se obtienen mediante un procedimiento iterativo que
utiliza tanto el método Newton-Raphson como el método de puntuación Fisher. Aunque los
parámetros de efectos fijos forman parte de los estimadores, sus valores no se muestran. Como
subproducto del procedimiento iterativo, también se obtiene la matriz de varianza-covarianza
asintótica de las estimaciones del componente de varianza.
Para datos equilibrados, las estimaciones de máxima verosimilitud restringidas son idénticas a las
estimaciones de ANOVA, aunque sus matrices de varianza-covarianza son diferentes. Debido a esta
propiedad, se prefiere el método de máxima verosimilitud restringida al método de máxima
verosimilitud para datos equilibrados. Además, las cargas computacionales son menores para el
método de máxima verosimilitud restringida, ya que se maximiza con respecto a un número menor
de variables.
INTERVALO DE CONFIANZA PARA LA VARIANZA
flota y obtiene que la media muestral es de 165km/día y que la
desviación muestral es 6km/día. Hallar un intervalo de confianza al 90 %
para la varianza de dicha distribución.
2.- El tiempo que permanece conectado a lo largo del día determinado equipo
informático es una variable aleatoria con distribución normal de media 5.2
horas. Observados 10 días al azar se obtuvieron los siguientes tiempos de
conexión del equipo: 6, 3.4, 5.6, 6.3, 6.4, 5.3, 5.4, 5, 5.2, 5.5. Obtener un
intervalo de confianza al 95 % para la varianza de dicha variable.
3.- En un centro infantil se pesaron 50 niños de 9 meses de edad, con una
desviación muestral de 250 g. Construya un intervalo de confianza de 90% de
la varianza del peso de los niños.
4.- En una muestra de 70 bandas de cierta marca de automóvil, se determinó
que la desviación estándar muestral de la duración de las mismas es de dos
años. Encuentre un intervalo del 90% de confianza para la varianza de

la
duración de las bandas.
5.- En una muestra de 73 aromatizantes se halló que la desviación estándar
muestral de su duración era de 4.8 horas. Encuentre un intervalo de confianza
de 90% para la varianza de la duración de estos aromatizantes.

Bibliografía
https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
https://www.ibm.com/docs/es/spss-statistics/saas?topic=methods-restricted-
maximum-likelihood-method#varcomp_reml_meth
Referencias
http://www3.uah.es/fsegundo/BioEstad/2013_14_EstadisticaGradoBiologia-
Ejercicios05.pdf
http://www.monografias.com/trabajos91/estimacion-intervalos-
confianza/estimacion-intervalos-confianza.shtml
http://www.geociencias.unam.mx/~ramon/EstInf/Clase10.pdf

Analisis de Regrecion y Conrelacion Lineal

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Regrecion y Conrelacion Lineal

Cargado por

Copyright:

Formatos disponibles

Emili Margarita Camas Salas

Docente: ing. Noe Alexis Roblero Mejía

Materia: estadística inferencial

Tema: Analís de regresión y con

Alumna: Emili Margarita Camas Salas

Fecha de entrega: 15 de abril del 2023

Ajustes por mínimo

La correlación lineal y la regresión lineal simple son métodos estadísticos que

 La correlación cuantifica como de relacionadas están dos variables,

Para estudiar la relación lineal existente entre dos variables continuas es

siendo x¯¯¯�¯ e y¯¯¯�¯ la media de cada variable y xi�� e yi�� el valor de

La covarianza depende de las escalas en que se miden las variables estudiadas,

 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva

Las principales diferencias entre estos tres coeficientes de asociación son:

 La correlación de Pearson funciona bien con variables cuantitativas que

Además del valor obtenido para el coeficiente de correlación, es necesario

Para este test de hipótesis, H0�0 considera que las variables son

Ejemplo correlación lineal

Se dispone de un data set con información sobre diferentes coches. Se quiere

R contiene funciones que permiten calcular los diferentes tipos de correlaciones y

En primer lugar se representan las dos variables mediante un diagrama de

Para poder elegir el coeficiente de correlación adecuado, se tiene que analizar el

El ajuste de mínimos cuadrados utiliza el análisis estadístico para estimar las

Herramienta Analizar parcelas por ajuste de mínimos cuadrados.

Herramienta Aplicar ajuste de mínimos cuadrados de parcela.

Ajuste por mínimos cuadrados y coordenadas de mejor estimación

Las coordenadas de un nuevo punto se pueden calcular de forma única mediante

Todas las mediciones contienen un cierto grado de error. Las mediciones

Aunque el enfoque promedio ponderado funciona para calcular un único punto, no

Para resumir, un ajuste de mínimos cuadrados funciona de la siguiente manera:

Es un procedimiento matemático basado en la teoría de la probabilidad; las

Ajustes de mínimos cuadrados de red limitados y libres

Un ajuste de mínimos cuadrados restringido se ejecuta en una red de medición

Más información sobre puntos en un ajuste de mínimos cuadrados

Ajuste de red libre

Un ajuste de red libre se ejecuta solo en mediciones, y la red no está restringida

El método de máxima verosimilitud encuentra un conjunto de valores, denominados estimaciones

flota y obtiene que la media muestral es de 165km/día y que la

desviación muestral es 6km/día. Hallar un intervalo de confianza al 90 %

para la varianza de dicha distribución.

informático es una variable aleatoria con distribución normal de media 5.2

horas. Observados 10 días al azar se obtuvieron los siguientes tiempos de

intervalo de confianza al 95 % para la varianza de dicha variable.

3.- En un centro infantil se pesaron 50 niños de 9 meses de edad, con una

desviación muestral de 250 g. Construya un intervalo de confianza de 90% de

la varianza del peso de los niños.

4.- En una muestra de 70 bandas de cierta marca de automóvil, se determinó

que la desviación estándar muestral de la duración de las mismas es de dos

años. Encuentre un intervalo del 90% de confianza para la varianza de

duración de las bandas.

5.- En una muestra de 73 aromatizantes se halló que la desviación estándar

muestral de su duración era de 4.8 horas. Encuentre un intervalo de confianza

de 90% para la varianza de la duración de estos aromatizantes.

También podría gustarte