Está en la página 1de 16

CORRELACIÓN

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una


relación lineal entre dos variables aleatorias. Se considera que dos variables
cuantitativas están correlacionadas cuando los valores de una de ellas varían
sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos
variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los
de B y viceversa
En realidad la correlación es una medida sobre el grado de relación entre dos variables,
sin importar cual es la causa y cual es el efecto. La dependencia de la que se habla en
este sentido es la dependencia entre la varianza de las variables.Como hemos visto el
manejo de unidades adimensionales nos permiten tener un coeficiente sobre el que de
forma cómoda se pueda trabajar, por lo que podemos dividir entre el producto de las
desviaciones de las variables, es decir:

S xy
r
nSxS y 

Cuando, simultáneamente, contemplamos dos variables continuas, aunque por extensión


se pueden emplear para variables discretas cuantitativas, surgen preguntas y problemas
específicos. Esencialmente, se emplearán estadísticos descriptivos y técnicas de
estimación para contestar esas preguntas, y técnicas de contraste de hipótesis específicos
para resolver dichos problemas. La mayoría de estos métodos están encuadrados en las
técnicas regresión y correlación. En este artículo comentaremos las técnicas vicariantes
lineales.

Si se parte de un modelo en el cual una de las dos variables continuas es dependiente o


respuesta (y) y la otra es independiente o explicativa (x), surgen nuevos estadísticos
para describir los datos.

La nube de puntos, o el diagrama de dispersión, resultante de la representación gráfica


de los datos está "concentrada" en la recta de regresión de mejor ajuste obtenida por el
método de mínimos cuadrados. Una condición previa, en las técnicas lineales, es que la
nube de puntos debe tender a la linealidad (en sentido rectilíneo, se entiende). Los
coeficientes de la regresión lineal, la ordenada en el origen (a) y la pendiente de la recta
(b), son estadísticos muéstrales. Se suelen presentar de la forma y´ = a + bx.

La dispersión de los puntos alrededor de la recta de mejor ajuste es una característica de


los datos bidimensionales que merece cuantificarse. El estadístico correspondiente es la
desviación típica de los residuos. Es posible obtener la distribución de los residuos.
Estos son las distancias en vertical de cada punto a la recta de regresión. Su medida es
cero (esta propiedad es compartida por otras muchas rectas de ajuste, además de por la
de mejor ajuste, que es la nuestra), y su desviación típica es el estadístico de elección
para describir la dispersión alrededor de la recta. Sus unidades son las de la variable
dependiente (y).
Una vez que se determina que existe dependencia lineal un aspecto sumamente
relevante es el investigar las características del modelo matemático que relaciona una
variable con otra, así de esta forma podemos decir, una variable puede clasificarse como
EL objetivo de un estudio de correlación es determinar la consistencia de una relación
entre observaciones por partes. EL termino “correlación “significa relación mutua, ye
que indica el grado en el que los valores de una variable se relacionan con los valores de
otra. Se considera tres técnicas de correlación uno para datos de medición, otro para
datos jerarquizados y el último para clasificaciones nominales.

determinístico y probabilistico. El modelo determinístico, que no será abordado en este


curso, esta ligado a la ecuación que regula de forma determinante el comportamiento de
un fenómeno, así por ejemplo podemos determinar a partir de la obtención de una
ecuación sobre el potencial de frenado en un material, que ante cambios de la longitud
de onda la relación es lineal no permitirá predecir cuales serán sus valores. Ecuaciones
que permiten ver como es la oposición a la corriente eléctrica, o resistencia eléctrica, al
aumentar la temperatura de un metal, entre otros, es un claro indicio de una ecuación
que es determinística, en ella se podrá describir como cambiara la resistencia eléctrica
del material en cuestión ante el aumento de una temperatura en el material. Por otro
lado, los fenómenos probabilísticos están sujetos a la modelos que aunque puedan ser
descritos por una ecuación no implica que todos los valores que intervienen en el
estudio puedan ser localizados en el gráfico que los representan, y por supuesto un dato
mas no es garantía que sea localizado en la ecuación

forma de la correlación

La relación entre dos súper variables cuantitativas queda representada mediante la línea
de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes
elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el
sentido y la forma

- La fuerza extrema segun el caso, mide el grado en que la línea representa a la nube de
puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica
que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la
relación es débil.
- El sentido mide la variación de los valores de B con respecto a A: si al crecer los
valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A
disminuyen los de B, la relación es negativa
- La forma establece el tipo de línea que define el mejor ajuste: la línea rectal, la curva
monotónica o la curva no monotónica.

Coeficientes de correlación

- Coeficiente de correlación de Spearman


- Correlación canónica

Coeficiente de correlación de Spearman


En estadística, el coeficiente de correlación de Spearman, ρ (rho), es una medida de la
correlación (la asociación o interdependencia) entre dos variables aleatorias continuas.
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden

Análisis de la correlación canónica

El análisis de correlación canónica es un método de análisis multivariante desarrollado


por Harold Hotelling. Su objetivo es buscar las relaciones que pueda haber entre dos
grupos de variables y la validez de las mismas. Se diferencia del análisis de correlación
múltiple en que éste sólo predice una variable dependiente a partir de múltiples
independientes, mientras que la correlación canónica predice múltiples variables
dependientes a partir de múltiples independientes. La correlación canónica es una
correlación lineal y, por tanto, sólo busca relaciones lineales entre las variables.

Al diseñar el experimento hay que considerar el tamaño de la muestra ya que son


necesarias un mínimo de observaciones por variable, para que el análisis pueda
representar las correlaciones adecuadamente.

Finalmente, hay que interpretar las cargas canónicas para determinar la importancia de
cada variable en la función canónica. Las cargas canónicas reflejan la varianza que la
variable observada comparte con el valor teórico canónico.

MEDIDA DE LA CORRELACIÓN

La apreciación visual de la existencia de correlación no es suficiente. Usaremos un


parámetro, llamado coeficiente de correlación que denotaremos con la letra r, que nos
permite valorar si ésta es fuerte o débil, positiva o negativa. El cálculo es una tarea
mecánica, que podemos realizar con una calculadora o un programa informático.
Nuestro interés está en saber interpretarlo. Antes de ponernos a trabajar destacaremos
una de sus propiedades

-1 < r < 1

Propiedades del coeficiente de correlación

1. El coeficiente de correlación no varía al hacerlo la escala de medición.


Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación
no varía.

2. El signo del coeficiente de correlación es el mismo que el de la covarianza.

- Si la covarianza es positiva, la correlación es directa.


- Si la covarianza es negativa, la correlación es inversa.
- Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido entre menos −1 y


−1 ≤ r ≤ 1

4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es


fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.

5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es


fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.

6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es


débil.

7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre
ambas variables hay dependencia funcional

Las notas de 12 alumnos de una clase en Matemáticas y Física son las


siguientes:

Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

Hallar el coeficiente de correlación de la distribución e interpretarlo.

xi
xi yi xi2 yi2
·yi

2 1 2 4 1

3 3 9 9 9

4 2 8 16 4

4 4 16 16 16

5 4 20 25 16
6 4 24 36 16

6 6 36 36 36

7 4 28 49 16

7 6 42 49 36

8 7 56 64 49

10 9 90 100 81

10 10 100 100 100

72 60 431 504 380

1º Hallamos las medias ariméticas.

2º Calculamos la covarianza.

3º Calculamos las desviaciones típicas.

4º Aplicamos la fórmula del coeficiente de correlación lineal


A l s er el coeficien te d e correlac ión pos itivo, la correlación
es directa.

Como coeficien te d e correlac ión es tá muy próximo a 1 la


correlación es muy fuerte.

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 0 2 4

1 2 1 3

2 1 4 2

3 2 5 0

Determinar el coeficiente de correlación

xi · xi2 · yi · yi2 · xi · yi
xi yi fi
fi fi fi fi · fi

0 1 2 0 0 2 2 0

0 2 1 0 0 2 4 0

0 3 2 0 0 6 18 0

2 1 1 2 4 1 1 2

2 2 4 8 16 8 16 16

2 3 5 10 20 15 45 30

4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16

20 40 120 41 97 76

EJEMPLO 2

Los datos brutos usados en este ejemplo se ven debajo.

CI Horas de TV a la semana

106 7

86 0

100 28

100 50

99 28

103 28
97 20

113 12

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Después, se crean dos
columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las dos
primeras columnas. Después se crea una columna "d" que muestra las diferencias entre
las dos columnas de orden. Finalmente, se crea otra columna "d 2". Esta última es sólo la
columna "d" al cuadrado.

CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2

86 0 1 1 0 0

97 20 2 6 4 16

99 28 3 8 5 25

100 50 4.5 10 5.5 30.25

100 28 4.5 8 3.5 12.25

103 28 6 8 2 4

106 7 7 2.5 4.5 20.25

110 17 8 5 3 9

113 7 9.5 2.5 7 49


113 12 9.5 4 5.5 30.25

Los valores de la columna d2 pueden ser sumados para averiguar

De lo que resulta ρ = − 0.187878787879

REGRESIÓN
El modelo estadístico lineal relaciona una variable aleatoria con una respuesta y a un
conjunto de variables independientes toma la forma en donde son parámetros
desconocidos que generan la linealidad y es una variable, lo que para la relación lineal
de las se considera variables conocidas. Donde la media para la variable aleatoria es
cero, quedando expresada la esperanza como consideremos a continuación el proceso
que se desarrolla mediante el método de mínimos cuadrados en la obtención de la
ecuación de la mejor línea recta.

Si sabemos que existe una relación entre una variable denominada dependiente y otras
denominadas independientes (como por ejemplo las existentes entre: la experiencia
profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de
personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede
darse el problema de que la dependiente asuma múltiples valores para una combinación
de valores de las independientes. La dependencia a la que hacemos referencia es
relacional matemática y no necesariamente de causalidad. Así, para un mismo número
de unidades producidas, pueden existir niveles de costo, que varían empresa a
empresa.Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en
los cuales se obtiene una nueva relación pero de un tipo especial denominado función,
en la cual la variable independiente se asocia con un indicador de tendencia central de la
variable dependiente. Cabe recordar que en términos generales, una función es un tipo
de relación en la cual para cada valor de la variable independiente le corresponde uno y
sólo un valor de la variable dependiente

El método consiste en considerar las mínimas desviaciones que se tienen con respecto a
la mejor aproximación, por lo que pudiéramos considerar las desviaciones que se
generan con respecto al eje de la vertical. Sean las coordenadas las de puntos sobre la
línea de aproximación, o también llamada recta de regresión y sean los puntos de la
muestra a considerar de coordenadas por lo que las desviaciones verticales con respecto
a los puntos las podemos expresar de la forma a las que en ocasiones se les conoce
como error.

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta
variable Y (dependiente), a partir de los de otra X (independiente), entre las que
intuimos que existe una relación. Para ilustrarlo retomemos los ejemplos mencionados
al principio del capítulo. Si sobre un grupo de personas observamos los valores que
toman las variables

Abordaremos en esta página las distribuciones bidimensionales. Las observaciones se


dispondrán en dos columnas, de modo que en cada fila figuren la abscisa x y su
correspondiente ordenada y. La importancia de las distribuciones bidimensionales radica
en investigar como influye una variable sobre la otra. Esta puede ser una dependencia
causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la
producción agrícola (efecto). O bien, el aumento del precio de un bien, da lugar a una
disminución de la cantidad demandada del mismo.

Si utilizamos un sistema de coordenadas cartesianas para representar la distribución


bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de
dispersión, cuyo análisis permite estudiar cualitativamente, la relación entre ambas
variables tal como se ve en la figura. El siguiente paso, es la determinación de la
dependencia funcional entre las dos variables x e y que mejor ajusta a la distribución
bidimensional. Se denomina regresión lineal cuando la función es lineal, es decir,
requiere la determinación de dos parámetros: la pendiente y la ordenada en el origen de
la recta de regresión, y=ax+b.

La regresión nos permite además, determinar el grado de dependencia de las series de


valores X e Y, prediciendo el valor y estimado que se obtendría para un valor x que no
esté en la distribución

Aplicaciones de la regresión lineal

Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través
de un largo periodo de tiempo. Este tipo de líneas puede decirnos si un conjunto de
datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las
acciones) han aumentado o decrementado en un determinado periodo de tiempo.[10] Se
puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de
puntos, pero su posición y pendiente se calcula de manera más precisa utilizando
técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son
generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor
grado dependiendo de la curvatura deseada en la línea.

Rectas de regresión
Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o
también llamado diagrama de dispersión) generada por una distribución binomial.
Matemáticamente, son posibles dos rectas de máximo ajuste

- La recta de regresión de Y sobre X:

- La recta de regresión de X sobre Y:

REGRESIÓN SIMPLE

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar


para solucionar problemas comunes en los negocios. Muchos estudios se basan en la
creencia de que es posible identificar y cuantificar alguna Relación Funcional entre
dos o más variables, donde una variable depende de la otra variable. Se puede decir
que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de
Regresión Simple

"Y es una función de X"


Y = f(X)

-Como Y depende de X,

-Y es la variable dependiente, y

-X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable


dependiente y cuál es la variable independiente. En el Modelo de Regresión Simple
se establece que Y es una función de sólo una variable independiente, razón por la
cual se le denomina también Regresión Divariada porque sólo hay dos variables,
una dependiente y otra independiente y se representa así

Y = f (X)
"Y está regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. También se le


llama REGRESANDO ó VARIABLE DE RESPUESTA. La variable Independiente
X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para
EXPLICAR
En el estudio de la relación funcional entre dos variables poblacionales, una variable
X, llamada independiente, explicativa o de predicción y una variable Y, llamada
dependiente o variable respuesta, presenta la siguiente notación

Y=a+bX+e

- Los valores de la variable independiente X son fijos, medidos sin error.

- La variable Y es aleatoria

- Para cada valor de X, existe una distribución normal de valores de Y


(subpoblaciones Y)

- Las variancias de las subpoblaciones Y son todas iguales.

- Todas las medias de las subpoblaciones de Y están sobre la recta.

- Los valores de Y están normalmente distribuidos y son estadísticamente


independientes

CORRELACIÓN LINEAL Y RECTA DE REGRESIÓN


Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una
recta y será cada vez más débil (o menos fuerte) cuando la nube vaya
desparramándose con respecto a la recta.En el gráfico observamos que en nuestro
ejemplo la correlación es bastante fuerte, ya que la recta que hemos dibujado está
próxima a los puntos de la nube.Cuando la recta es creciente la correlación es
positiva o directa: al aumentar una variable, la otra tiene también tendencia a
aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlación
es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir

EJEMPLO

A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia del


Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media
obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:

Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3

Nota media 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1
Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la
correlación es prácticamente inexistente, es decir, no tiene nada que ver con el
rendimiento académico la distancia del domicilio al instituto

ESTIMACIÓN MEDIANTE LA RECTA DE REGRESIÓN

Es evidente que no todos dibujaríamos exactamente la misma recta para una nube de
puntos, aunque la correlación fuera bastante fuerte.De todas las rectas posibles los
matemáticos han elegido como la mejor aproximación la llamada de los mínimos
cuadráticos, Su cálculo es también algo mecánico que podemos hacer con calculadora .
En el siguiente apartado encontrarás un ejercicio para estudiar sus propiedades

La recta de regresión sirve para hacer estimaciones, teniendo en cuenta que:

- Los valores obtenidos son aproximaciones en términos de probabilidad: es probable


que el valor correspondiente a x0 sea y0.

- La fiabilidad es mayor cuanto más fuerte sea la correlación.

- La fiabilidad aumenta al aumentar el número de datos.

- La estimación es más fiable para los valores de x próximos a la media


UNIVERSIDAD CATOLICA DE SANTA MARIA
FACULTAD DE CIENCIAS FISICAS Y FORMALES

PROGRAMA PROFESIONAL DE:

INGENIERIA INDUSTRIAL

TRABAJO DE:
ESTADISTICA Y PROBABILIDADES

TEMA:
SEGURIDAD CIUDADANA

PERTENECE A:

ALEMAN MEDINA WALTER JONATHAN

NRO: 25

DOCENTE:

RONDON RONDON MAXIMO

SEMESTRE:

TERCERO

AREQUIPA – PERU

2009

También podría gustarte