Está en la página 1de 8

Asignatura Datos del estudiante Fecha

Apellidos: Nevado mercado


Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

Actividad
Protocolo individual de la unidad n°: 3

Análisis y síntesis: 
Síntesis e interpretación personal de los temas vistos en la unidad

CORRELACIÓN LINEAL

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

Es común que las personas tomen decisiones personales y profesionales


basadas en predicciones de sucesos futuros. Para hacer estos pronósticos, se
basan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se
debe estimar. Si los responsables de la toma de decisiones pueden determinar
cómo lo conocido se relaciona con un evento futuro, pueden ayudar
considerablemente al proceso de toma de decisiones.

Cualquier método estadístico que busque establecer una ecuación que permita
estimar el valor desconocido de una variable a partir del valor conocido de una o
más variables, se denomina análisis de regresión.

Los análisis de regresión y correlación mostrarán como determinar la naturaleza


y la fuerza de una relación entre dos variables.

El término regresión fue utilizado por primera vez por el genetista y estadístico
inglés Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que
demostró que la altura d los hijos de padres altos tendía a retroceder, o
“regresar”, hacia la talla media de la población. Regresión fue el nombre que le
dio al proceso general de predecir una variable,(la talla de los niños) a partir de
otra (la talla de los padres).

Hoy en día, esta tendencia de miembros de cualquier población que están en


una posición extrema (arriba o debajo de la media poblacional) en un momento,
y luego en una posición menos extrema en otro momento, (ya sea por sí o por
medio de sus descendientes), se llama efecto de regresión.

El análisis de regresión se desarrolla una ecuación de estimación, es decir, una


formula matemática que relaciona las variables conocidas con las desconocidas.
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

Luego de obtener el patrón de dicha relación, se aplica el análisis de correlación


para determinar el grado de relación que hay entre las variables.

Una técnica estadística que establece una ecuación para estimar el valor
desconocido de una variable, a partir del valor conocido de otra variable, (en vez
de valores de muchas otras variables) se denomina análisis de regresión
simple.” Por lo tanto el análisis de regresión lineal simple, es el proceso general
de predecir una variable (Y) a partir de otra (X).

Las relaciones entre las variables pueden ser directas o también inversas. 
Relación directa: la pendiente de esta línea es positiva, por que la variable Y
crece a medida que la variable X también lo hace.

Para estudiar la relación lineal existente entre dos variables continuas es


necesario disponer de parámetros que permitan cuantificar dicha relación. Uno
de estos parámetros es la covarianza, que indica el grado de variación
conjunta de dos variables aleatorias .

Relación inversa: La pendiente de esta línea es negativa, por que a medida que
aumenta el valor de la variable Y, el valor de la variable X disminuye.
VARIABLE INDEPENDIENTE (X) En el análisis de regresión una variable cuyo
valor se suponga conocido y que se utilice para explicar o predecir el valor de
otra variable de interés se llama variable independiente; se simboliza con la letra
X.
Otros nombres alternativos para la variable independiente (X), son variable
explicatoria, variable predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y) En el análisis de regresión una variable cuyo
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

valor se suponga desconocido y que se explique o prediga con ayuda de otra se


llama variable dependiente y se simboliza con la letra Y.
La variable dependiente, al igual que la variable independiente es llamada de
diferentes maneras algunas de ellas son: variable explicada o variable
pronosticada.

DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de
regresión. Consta de una dispersión de puntos tal que cada punto representa un
valor de la variable independiente (medido a lo largo del eje horizontal), y un
valor asociado de la variable dependiente (medido a lo largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de
información, visualmente se pueden determinar los patrones que indican como
las variables están relacionadas (lineal o mediante una curva) y por otro lado si
existe una relación entre ellas visualizando la clase de línea o ecuación de
estimación que describe a dicha relación. A continuación se ilustran algunas
relaciones en los diagramas de dispersión:
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

COEFICIENTE DE PEARSON

El coeficiente de correlación de Pearson es la covarianza estandarizada, y su


ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de
Pearson muestral (r), o si se aplica la población Coeficiente de Pearson
poblacional (ρρ).
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

Condiciones
 La relación que se quiere estudiar entre ambas variables es lineal (de lo
contrario, el coeficiente de Pearson no la puede detectar).
 Las dos variables deben de ser cuantitativas.
 Normalidad: ambas variables se tienen que distribuir de forma
normal. Varios textos defienden su robustez cuando las variables se
alejan moderadamente de la normal.
 Homocedasticidad: La varianza de YY debe ser constante a lo largo de
la variable XX. Esto se puede identificar si en el scatterplot los puntos
mantienen la misma dispersión en las distintas zonas de la
variable XX. Esta condición no la he encontrado mencionada en todos
los libros.
Características
 Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva
perfecta y -1 una correlación lineal negativa perfecta.
 Es una medida independiente de las escalas en las que se midan las
variables.
 No varía si se aplican transformaciones a las variables.
 No tiene en consideración que las variables sean dependientes o
independientes.
 El coeficiente de correlación de Pearson no equivale a la pendiente de la
recta de regresión.
 Es sensible a outliers, por lo que se recomienda en caso de poder
justificarlos, excluirlos del análisis.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su
significancia. Solo si el p-value es significativo se puede aceptar que existe
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

correlación y esta será de la magnitud que indique el coeficiente. Por muy


cercano que sea el valor del coeficiente de correlación a +1 o -1, si no es
significativo, se ha de interpretar que la correlación de ambas variables es 0 ya
que el valor observado se puede deber al azar. (Ver más adelante como
calcular la significancia).

COEFICIENTE DE SPEARMAN (SPEARMAN’S RHO)

El coeficiente de Spearman es el equivalente al coeficiente de Pearson pero con


una previa transformación de los datos a rangos. Se emplea como alternativa
cuando los valores son ordinales, o bien, cuando los valores son continuos pero
no satisfacen la condición de normalidad requerida por el coeficiente de Pearson
y se pueden ordenar transformándolos en rangos. Al trabajar con rangos, es
menos sensible que Pearson a valores extremos. Existe una diferencia adicional
con respecto a Pearson. El coeficiente de Spearman requiere que la relación
entre las variables sea monótona, es decir, que cuando una variable crece la
otra también lo hace o cuando una crece la otra decrece (que la tendencia sea
constante). Este concepto no es exactamente el mismo que linealidad.

JACKKNIFE CORRELATION

El coeficiente de correlación de Pearson resulta efectivo en ámbitos muy


diversos. Sin embargo, tiene la desventaja de no ser robusto frente a  outliers a
pesar de que se cumpla la condición de normalidad. Si dos variables tienen un
pico o un valle común en una única observación, por ejemplo por un error de
lectura, la correlación va a estar dominada por este registro a pesar de que
entre las dos variables no haya correlación real alguna. Lo mismo puede
ocurrir en la dirección opuesta. Si dos variables están altamente
correlacionadas excepto para una observación en la que los valores son muy
dispares, entonces la correlación existente quedará enmascarada. Una forma
Asignatura Datos del estudiante Fecha
Apellidos: Nevado mercado
Estadistica
14/01/2022
Inferencial
Nombre: Nicolas

de evitarlo es recurrir a la Jackknife correlation, que consiste en calcular todos


los posibles coeficientes de correlación entre dos variables si se excluye cada
vez una de las observaciones. El promedio de todas las Jackknife
correlations calculadas atenuará en cierta medida el efecto del outlier.

Discusión: 
Dudas, desacuerdos, discusiones

También podría gustarte