Está en la página 1de 5

Alumno: Rojas Soto Eduardo Grupo:IM401 Materia: Probabilidad y Estadística

CORRELACION
El coeficiente de correlación lineal r que es una medida numérica de la fuerza de la
relación entre dos variables que representan datos cuantitativos. Utilizando datos
muéstrales apareados (que en ocasiones se llaman datos bivariados), calculamos el valor
de r (generalmente con la ayuda de recursos tecnológicos) y luego utilizamos este valor
para concluir que existe (o no) una relación entre las dos variables. En esta sección sólo
consideramos las relaciones lineales, lo que quiere decir que cuando se grafican, los
puntos se aproximan al patrón de una línea recta.
Conceptos básicos de correlación: Iniciamos con la definición básica de correlación, un
término que se utiliza comúnmente en el contexto de una relación entre dos variables.
Definición: Una correlación existe entre dos variables cuando una de ellas está
relacionada con la otra de alguna manera.
El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre los valores
cuantitativos apareados x y y en una muestra. [El coeficiente de correlación lineal también
se conoce como coeficiente de correlación producto momento de Pearson, en honor de
Karl Pearson (1857-1936), quien lo desarrolló originalmente]. Puesto que el coeficiente de
correlación lineal r se calcula utilizando datos muéstrales, se trata de un estadístico
muestral empleado para medir la fuerza de la correlación lineal entre x y y.
Requisitos
Dado cualquier conjunto de datos muéstrales apareados, siempre se puede calcular el
coeficiente de correlación lineal r, pero se deben satisfacer los siguientes requisitos
cuando se prueban hipótesis o cuando se hacen inferencias acerca de r.
1. La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos.
(Es importante que los datos muéstrales no se hayan reunido por medio de algún método
inapropiado, como una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersión debe confirmar que los puntos se acercan
al patrón de una línea recta.
3. Es necesario eliminar cualquier valor extremo, si se sabe que se trata de un error. Los
efectos de cualquier otro valor extremo deben tomarse en cuenta calculando r con y sin el
valor extremo incluido.
Nota: Los requisitos 2 y 3 se simplifican al verificar el siguiente requisito formal:
Los pares de datos (x, y) tienen una distribución normal bivariada. (Las distribuciones
normales, pero este supuesto requiere que, para cualquier valor fijo de x, los valores
correspondientes de y tengan una distribución con forma de campana, y que para
cualquier valor fijo de y, los valores de x tengan también una distribución con forma de
campana). Suele ser difícil verificar este supuesto, así que, por ahora, usaremos los
requisitos 2 y 3 descritos arriba.
Notación para el coeficiente de correlación lineal:
n Representa el número de pares de datos presentes.
∑ Denota la suma de los elementos indicados.
∑ 𝑥 Denota la suma de todos los valores de x.

∑ 𝑥 2 Indica que cada valor de x debe elevarse al cuadrado y después deben sumarse
esos cuadrados.
(∑ 𝑥)2 Indica que los valores de x deben sumarse y el total elevarse al cuadrado. Es
sumamente importante evitar confundirse entre.
∑ 𝑥𝑦 Indica que cada valor de x debe multiplicarse primero por su valor y correspondiente.
Después de obtener todos estos productos, se calcula su suma.
r Representa el coeficiente de correlación lineal de una muestra.
p La letra griega rho se usa para representar el coeficiente de correlación lineal de una
población.
𝒏(∑ 𝒙𝒚)−(∑ 𝒙)(∑ 𝒚)
FORMULA: 𝒓=
√𝒏(∑ 𝒙𝟐 )−(∑ 𝑥)2 √𝒏(∑ 𝒚𝟐 )−(∑ 𝑦)2

Esta fórmula abreviada simplifica los cálculos manuales. Su formato la hace fácil de usar
en una hoja de cálculo o en un programa de cómputo.
Errores comunes en las correlaciones
Ahora identificamos tres de las fuentes más comunes de errores que se cometen al
interpretar los resultados de correlaciones:
1. Un error común es concluir que la correlación implica causalidad
2. Otro error proviene de los datos basados en promedios. Los promedios eliminan la
variación individual y pueden inflar el coeficiente de correlación.
3. Un tercer error implica la propiedad de linealidad. Puede existir una relación entre x y y,
aun cuando no haya una correlación lineal
Prueba de hipótesis de correlación
𝐻0 : 𝑝 = 0 (No existe una correlación lineal).
𝐻1 : 𝑝 ≠ 0 (Existe una correlación lineal).
Método 1: El estadístico de prueba es t
𝒓
Estadístico de prueba: 𝒕 = 𝟐
√𝟏−𝒓
𝒏−𝟐

Valores críticos: Utilice la tabla A-3 con n-2 grados de libertad.


Valor P: Utilice la tabla A-3 con n-2 grados de libertad.
Conclusión: Si |𝑡| > el valor crítico de la tabla A-3, rechace 𝐻0 y concluya que existe una
correlación lineal. Si |𝑡| ≤ valor crítico, no rechace 𝐻0 ; no hay evidencia suficiente para
concluir que existe una correlación lineal.
Método 2: El estadístico de prueba es r
Estadístico de prueba: r
Valores críticos: Remítase a la tabla A-6.
Conclusión: Si el valor crítico de la tabla A-6, rechace 𝐻0 y concluya que existe una
correlación lineal. Si valor crítico, no rechace 𝐻0 ; no hay evidencia suficiente para concluir
que existe una correlación lineal.
Por ejemplo, considera que las variables son el ingreso familiar y el gasto familiar. Se
sabe que los aumentos de ingresos y gastos disminuyen juntos.
REGRESION
El concepto clave de esta sección es describir la relación entre dos variables por medio
del cálculo de la gráfica y la ecuación de la recta que representa mejor la relación. Esta
recta se conoce como recta de regresión y su ecuación como ecuación de regresión, esta
sección se divide en dos partes: 1. Conceptos básicos de regresión; 2. Más allá de los
conceptos básicos de regresión. La primera parte incluye conceptos fundamentales que
deben quedar muy claros antes de pasar a la segunda parte.
Parte 1: Conceptos básicos de regresión
En algunos casos, dos variables están relacionadas de una forma determinista, es decir,
dado un valor de una variable, el valor de la otra variable se determina automáticamente
sin error. Por ejemplo, el costo total y de un artículo con un precio de lista x y un impuesto
de venta del 5% se calcula utilizando la ecuación determinista y 1.05x. Si un artículo tiene
un precio de $50, su costo total será de $52.50. Este tipo de funciones se estudian
ampliamente en los cursos de álgebra. En este capítulo estamos más interesados en los
modelos probabilísticos, en los que una variable no está determinada por completo por la
otra variable. La ecuación de regresión expresa una relación entre x (llamada variable
explicativa, variable de predicción o variable independiente) y 𝑦̂ (llamada variable de
respuesta o variable dependiente).
Requisitos
1. La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos.
2. El examen visual del diagrama de dispersión indica que los puntos se aproximan al
patrón de una línea recta.
3. Se debe eliminar cualquier valor extremo, si se sabe que es un error. Es importante
tomar en cuenta los efectos de cualquier valor extremo que no sea un error conocido.
Nota: Los requisitos 2 y 3 representan una verificación simplificada de los siguientes
requisitos formales del análisis de regresión:
● Para cada valor fijo de x, los valores correspondientes de y tienen una distribución en
forma de campana.
● Para los distintos valores fijos de x, las distribuciones de los valores correspondientes
de y tienen la misma varianza. (Esto se viola si parte del diagrama de dispersión presenta
puntos muy cercanos a la línea de regresión, mientras otra porción del diagrama presenta
puntos que se alejan mucho de la línea de regresión. Consulte la explicación de los
puntos residuales casi al final de esta sección).
● Para los distintos valores fijos de x, las distribuciones de los valores correspondientes
de y tienen medias que se ubican en la misma línea recta.
● Los valores de y son independientes.
Los resultados no se ven muy afectados si la distribución no se aleja demasiado de la
normalidad y si las varianzas no son demasiado diferentes.
Definiciones:
Dado un conjunto de datos muestrales apareados, la ecuación de regresión
𝑦̂ = 𝑏0 + 𝑏1 𝑥
describe algebraicamente la relación entre las dos variables. La gráfica de la ecuación de
regresión se denomina recta de regresión (o recta del mejor ajuste o recta de mínimos
cuadrados).
Notación para la ecuación de regresión
Parámetro poblacional Estadístico muestral
Intercepto y de la ecuación de regresión 𝛽0 𝑏0
Pendiente de la ecuación de regresión 𝛽1 𝑏1
Ecuación de la recta de regresión 𝑦 = 𝛽0 + 𝛽1 𝑥 𝑦̂ = 𝑏0 + 𝑏1 𝑥

Cálculo de la pendiente 𝒃𝟏 y 𝒃𝟎 de (el intercepto y) en la ecuación de regresión


𝒏(∑ 𝒙𝒚)−(∑ 𝒙)(∑ 𝒚)
Fórmula 10-2 Pendiente: 𝒃𝟏 =
𝒏(∑ 𝒙𝟐 )−(∑ 𝒙)𝟐

Fórmula 10-3 intercepto y: 𝑏0 = 𝑦 − 𝑏1 𝑥


El intercepto y, 𝑏0 , también puede calcularse por medio de la siguiente fórmula, pero es
mucho más fácil utilizar la fórmula 10-3.
(∑ 𝑦)(∑ 𝑥 2 ) − (∑ 𝑥)(∑ 𝑥𝑦)
𝑏0 =
𝑛(∑ 𝑥 2 ) − (∑ 𝑥)2
Redondeo de la pendiente 𝒃𝟏 y de 𝒃𝟎 (el intercepto y)
Redondeo de b1 y b0 a tres dígitos significativos. Es difícil dar una regla universal sencilla
para redondear los valores de b1 y b0, pero esta regla servirá en la mayor parte de las
situaciones de este libro. Dependiendo de la forma de redondeo, las respuestas a los
ejemplos y ejercicios de este libro pueden variar un poco de las respuestas de usted.
Lineamientos para el uso de la ecuación de regresión
1. Si no existe una correlación lineal, no utilice la ecuación de regresión para hacer
predicciones.
2. Cuando utilice la ecuación de regresión para hacer predicciones, permanezca en el
ámbito de los datos muéstrales disponibles. Si usted calcula una ecuación de regresión
que relaciona la estatura y el número de calzado de mujeres, es absurdo predecir el
número de calzado de una mujer que mide 10 pies de estatura.
3. Una ecuación de regresión que está basada en datos antiguos no necesariamente es
válida ahora. La ecuación de regresión que relaciona precios de automóviles usados con
la antigüedad de los automóviles ya no es útil si está basada en datos de la década de
1990.
4. No haga predicciones acerca de una población distinta de la población de donde se
obtuvieron los datos muéstrales. Si reunimos datos muéstrales de hombres y
desarrollamos una ecuación de regresión que relaciona la edad con el uso del control
remoto del televisor, los resultados no necesariamente se aplican a las mujeres. Si
empleamos promedios estatales para desarrollar una ecuación de regresión que relaciona
las calificaciones de matemáticas del SAT con las calificaciones verbales del SAT, los
resultados no necesariamente se aplican a los individuos.
Ejemplos:
Estudiar cómo influye la estatura del padre sobre la estatura del hijo.
Estimar el precio de una vivienda en función de su superficie.
Predecir la tasa de paro para cada edad.
Aproximar la calificación obtenida en una materia según el número de horas de estudio
semanal.

También podría gustarte