Está en la página 1de 14

Emili Margarita Camas Salas

ESTADISTICA INFERENCIAL

ANALISIS DE REGRECION
Y CONRELACION LINEAL
Universidad filantrópica internacional

Docente: ing. Noe Alexis Roblero Mejía

Materia: estadística inferencial

Carrera: pedagogía

Tema: Analís de regresión y con


relación lineal

Alumna: Emili Margarita Camas Salas

Fecha de entrega: 15 de abril del 2023


Índice

 Introducción
……………………………………………………………………4

 Correlación lineal……………………………………………………5

Ajustes por mínimo


cuadrados…………………………………………………………………9
Métodos de máxima
verosimilitud………………………………………………………………11
Intervalos de confianza y
varianza……………………………………………………………13
Bibliografía……………………………………………………………14
Introducción

La correlación lineal y la regresión lineal simple son métodos estadísticos que


estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:

 La correlación cuantifica como de relacionadas están dos variables,


mientras que la regresión lineal consiste en generar una ecuación (modelo) que,
basándose en la relación existente entre ambas variables, permita predecir el
valor de una a partir de la otra.

Correlación lineal

Para estudiar la relación lineal existente entre dos variables continuas es


necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación conjunta
de dos variables aleatorias.

Covarianza muestral=Cov(X,Y)=∑ni=1(xi−x¯¯¯)(yi−y¯¯¯)N−1Covarianza
muestral=���(�,�)=∑�=1�(��−�¯)(��−�¯)�−1

siendo x¯¯¯�¯ e y¯¯¯�¯ la media de cada variable y xi�� e yi�� el valor de


las variables para la observación i�.

La covarianza depende de las escalas en que se miden las variables estudiadas,


por lo tanto, no es comparable entre distintos pares de variables. Para poder
hacer comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que
destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.

 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva


perfecta y -1 una correlación negativa perfecta.
 Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.

Las principales diferencias entre estos tres coeficientes de asociación son:

 La correlación de Pearson funciona bien con variables cuantitativas que


tienen una distribución normal. En el libro Handbook of Biological
Statatistics se menciona que sigue siendo bastante robusto a pesar de la
falta de normalidad. Es más sensible a los valores extremos que las otras
dos alternativas.
 La correlación de Spearman se emplea cuando los datos son ordinales, de
intervalo, o bien cuando no se satisface la condición de normalidad para
variables continuas y los datos se pueden transformar a rangos. Es un
método no paramétrico.
 La correlación de Kendall es otra alternativa no paramétrica para el
estudio de la correlación que trabaja con rangos. Se emplea cuando se
dispone de pocos datos y muchos de ellos ocupan la misma posición en el
rango, es decir, cuando hay muchas ligaduras.

Además del valor obtenido para el coeficiente de correlación, es necesario


calcular su significancia. Solo si el p-value es significativo se puede aceptar que
existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy
cercano que sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es
significativo, se ha de interpretar que la correlación de ambas variables es 0, ya
que el valor observado puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de
correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras,
por un lado está el parámetro estimado (en este caso el coeficiente de
correlación) y por otro su significancia a la hora de considerar la población
entera. Si se calcula el coeficiente de correlación entre X� e Y� en diferentes
muestras de una misma población, el valor va a variar dependiendo de las
muestras utilizadas. Por esta razón se tiene que calcular la significancia de la
correlación obtenida y su intervalo de confianza.
t=rN−2−−−−−√1−r2−−−−−√,   df=N−2�=��−21−�2,   ��=�−2

Para este test de hipótesis, H0�0 considera que las variables son


independientes (coeficiente de correlación poblacional = 0) mientras que,
la Ha��, considera que existe relación (coeficiente de correlación
poblacional ≠≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de
correlación y de su significancia, también tiene un tamaño de efecto asociado. Se
conoce como coeficiente de determinación R2�2. Se interpreta como la cantidad
de varianza de Y� explicada por X�. En el caso del coeficiente de Pearson y el
de Spearman, R2�2 se obtiene elevando al cuadrado el coeficiente de
correlación. En el caso de Kendall no se puede calcular de este modo. (No he
encontrado como se calcula).
Mediante bootstrapping también se puede calcular la significancia de un
coeficiente de correlación. Es una alternativa no paramétrica al t-
test. Resampling: Test de permutación, Simulación de Monte Carlo y
Bootstrapping).

Ejemplo correlación lineal

Se dispone de un data set con información sobre diferentes coches. Se quiere


estudiar si existe una correlación entre el peso de un vehículo (Weight) y la
potencia de su motor (Horsepower).

R contiene funciones que permiten calcular los diferentes tipos de correlaciones y


sus niveles de significancia: cor() y cor.test(). La segunda función es más
completa ya que además de calcular el coeficiente de correlación indica su
significancia (p-value) e intervalo de confianza.

Hide

library(MASS)

library(ggplot2)

data("Cars93")

En primer lugar se representan las dos variables mediante un diagrama de


dispersión para intuir si existe relación lineal o monotónica. Si no la hay, no tiene
sentido calcular este tipo de correlaciones.
El diagrama de dispersión parece indicar una posible relación lineal positiva entre
ambas variables.

Para poder elegir el coeficiente de correlación adecuado, se tiene que analizar el


tipo de variables y la distribución que presentan. En este caso, ambas variables
son cuantitativas continuas y pueden transformarse en rangos para ordenarlas,
por lo que a priori los tres coeficientes podrían aplicarse. La elección se hará en
función de la distribución que presenten las observaciones.
¿Qué es un ajuste de mínimos cuadrados?

El ajuste de mínimos cuadrados utiliza el análisis estadístico para estimar las


coordenadas más probables de los puntos conectados de una medición en una
red. En ArcGIS Pro, se puede ejecutar un ajuste de mínimos cuadrados en la
estructura de parcelas utilizando las herramientas siguientes:

Herramienta Analizar parcelas por ajuste de mínimos cuadrados.

Herramienta Aplicar ajuste de mínimos cuadrados de parcela.

Ajuste por mínimos cuadrados y coordenadas de mejor estimación

Las coordenadas de un nuevo punto se pueden calcular de forma única mediante


un rumbo y una distancia desde un punto existente. Sin embargo, confiar solo en
los resultados de un único conjunto de coordenadas conlleva riesgo, ya que no
hay forma de saber si las mediciones que definen dichas coordenadas son
correctas. Las coordenadas calculadas a partir de mediciones desde otros puntos
existentes se pueden comparar con las coordenadas calculadas por el primer
conjunto de mediciones. Por lo general, mientras más mediciones definan un único
punto, más fiables son sus coordenadas y más confianza existe a la hora de
determinar medidas erróneas. A estas mediciones adicionales se les denomina
mediciones redundantes.

Todas las mediciones contienen un cierto grado de error. Las mediciones


redundantes calcularán coordenadas ligeramente diferentes para el mismo punto.
Dado que solo puede haber una ubicación de coordenadas para un punto, las
coordenadas de mejor precisión para el punto se pueden obtener calculando un
promedio ponderado de las mediciones redundantes, con cada peso definido por
la precisión de la medición. Cuanto mayor sea la precisión de la medición, mayor
será su ponderación y mayor será la influencia que tendrá en el cálculo de las
mejores coordenadas del punto.
Las coordenadas para el punto Sp5 se calculan utilizando un promedio ponderado.

Aunque el enfoque promedio ponderado funciona para calcular un único punto, no


es suficiente calcular las coordenadas de varios puntos de una red como la
estructura de parcelas. Las técnicas y algoritmos en un ajuste de mínimos
cuadrados proporcionan la solución más rigurosa y ampliamente aceptada para
calcular las coordenadas en una red de mediciones ponderadas.

Para resumir, un ajuste de mínimos cuadrados funciona de la siguiente manera:

Estima la solución estadística de mejor ajuste para las coordenadas de los puntos
de una red de medición ponderada.

Calcula una solución buscando un mínimo para la suma de los cuadrados de los
valores residuales de medición. Un valor residual de medición es la cantidad
necesaria para corregir una medición para que se ajuste a la solución de mejor
ajuste.

Es un procedimiento matemático basado en la teoría de la probabilidad; las


coordenadas estimadas se calculan con diversos niveles de incertidumbre.

Incluye pruebas estadísticas para analizar y verificar los resultados del ajuste.

Ajustes de mínimos cuadrados de red limitados y libres


Hay muchos tipos de ajustes de mínimos cuadrados. La estructura de parcelas se
puede ajustar mediante ajustes de mínimos cuadrados de la red, tanto restringidos
como libres.

Ajuste restringido

Un ajuste de mínimos cuadrados restringido se ejecuta en una red de medición


que está restringida por puntos de control. Los puntos de control son puntos que
tienen coordenadas x, y, z conocidas y pueden restringirse completamente (sin
movimiento en el ajuste) o ponderarse (sin movimiento permitido en función de la
precisión). Los puntos de control pueden representar coordenadas exactas y
topográficas para las entidades físicas de la superficie de la Tierra. Los puntos de
control se agregan a una red de medición para colocar la red en un sistema de
coordenadas y para detectar errores de medición conocidos como equivocaciones.

Más información sobre puntos en un ajuste de mínimos cuadrados

Ajuste de red libre

Un ajuste de red libre se ejecuta solo en mediciones, y la red no está restringida


por puntos de control. Se ejecuta un ajuste de red libre para comprobar que la red
no presenta errores de medición antes de conectar las mediciones a los puntos 
Método de máxima verosimilitud

El método de máxima verosimilitud encuentra un conjunto de valores, denominados estimaciones


de máxima verosimilitud, en los que la función de logaritmo de verosimilitud alcanza su máximo
local. Los estimadores son los parámetros de efectos fijos, los componentes de varianza y la
varianza residual.
Las estimaciones de máxima verosimilitud se obtienen mediante un procedimiento iterativo que
utiliza tanto el método Newton-Raphson como el método de puntuación Fisher. Aunque los
parámetros de efectos fijos forman parte de los estimadores, sus valores no se muestran. Como
subproducto del procedimiento iterativo, también se obtiene la matriz de varianza-covarianza
asintótica de las estimaciones del componente de varianza.
Para datos equilibrados, las estimaciones de máxima verosimilitud restringidas son idénticas a las
estimaciones de ANOVA, aunque sus matrices de varianza-covarianza son diferentes. Debido a esta
propiedad, se prefiere el método de máxima verosimilitud restringida al método de máxima
verosimilitud para datos equilibrados. Además, las cargas computacionales son menores para el
método de máxima verosimilitud restringida, ya que se maximiza con respecto a un número menor
de variables.
INTERVALO DE CONFIANZA PARA LA VARIANZA

flota y obtiene que la media muestral es de 165km/día y que la

desviación muestral es 6km/día. Hallar un intervalo de confianza al 90 %

para la varianza de dicha distribución.

2.- El tiempo que permanece conectado a lo largo del día determinado equipo

informático es una variable aleatoria con distribución normal de media 5.2

horas. Observados 10 días al azar se obtuvieron los siguientes tiempos de

conexión del equipo: 6, 3.4, 5.6, 6.3, 6.4, 5.3, 5.4, 5, 5.2, 5.5. Obtener un

intervalo de confianza al 95 % para la varianza de dicha variable.

3.- En un centro infantil se pesaron 50 niños de 9 meses de edad, con una

desviación muestral de 250 g. Construya un intervalo de confianza de 90% de

la varianza del peso de los niños.

4.- En una muestra de 70 bandas de cierta marca de automóvil, se determinó

que la desviación estándar muestral de la duración de las mismas es de dos

años. Encuentre un intervalo del 90% de confianza para la varianza de


la

duración de las bandas.

5.- En una muestra de 73 aromatizantes se halló que la desviación estándar

muestral de su duración era de 4.8 horas. Encuentre un intervalo de confianza

de 90% para la varianza de la duración de estos aromatizantes.


Bibliografía

https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

https://www.ibm.com/docs/es/spss-statistics/saas?topic=methods-restricted-
maximum-likelihood-method#varcomp_reml_meth
Referencias

http://www3.uah.es/fsegundo/BioEstad/2013_14_EstadisticaGradoBiologia-

Ejercicios05.pdf

http://www.monografias.com/trabajos91/estimacion-intervalos-

confianza/estimacion-intervalos-confianza.shtml

http://www.geociencias.unam.mx/~ramon/EstInf/Clase10.pdf

También podría gustarte