Está en la página 1de 10

TEMA 62: SERIES ESTADÍSTICAS BIDIMENSIONALES.

REGRESIÓN Y CORRELACIÓN
LINEAL. COEFICIENTE DE CORRELACIÓN. SIGNIFICADO Y APLICACIONES.

1. Inroducción 1

2. Estadística descriptiva e inferencial. Variables estadísticas.


2

3. Series estadísticas bidimensionales 3


3.1. Tablas estadísticas 3

3.2. Representación de gráficas 4

3.3. Independencia y dependencia funcional 6

3.4. Medidas de dependencia funcional 6

3.5. Regresión 7

3.6. Correlación lineal 8

4. Aplicaciones 9
4.1. Uso y abuso de la regresión 9

4.2. Predicción 9

5. Relación del tema con el currículo 9

6. Conclusión 9

7. Bibliografía 9
TEMA 62: SERIES ESTADÍSTICAS BIDIMENSIONALES. REGRESIÓN Y CORRELACIÓN

LINEAL. COEFICIENTE DE CORRELACIÓN. SIGNIFICADO Y APLICACIONES.

Muchos ciudadanos ven la Estadística con gran desconfianza: unos creen que es la ciencia en que
las diferencias individuales quedan ocultas a través de las medias, otros que es la ciencia
mediante la cual con gráficos, tasas de variación y porcentajes, se manipula la opinión desde la
publicidad, la tecnología o la economía. Vivimos en la era de la Estadística y cada aspecto de la
actividad humana es medido e interpretado en términos estadísticos.
El conocimiento de los métodos estadísticos es lo que hará posible participar en la argumentación
pública basada en cifras y datos.
1. Introducción
Históricamente, la estadística comenzó por ser descriptiva, su origen se remonta a los trabajos
demográficos de John Graunt sobre la mortalidad de los habitantes de Londres en el S. XVII.
Tras acumular información, criticarla, ponerla en condiciones, analizarla, sintetizarla, comprobado
analogías, descubierto permanencias estadísticas, reconocido cierto número de distribuciones
tipo, observado algunas formas de dependencias estructurales, la Estadística llegó a ser
explicativa, gracias, en particular a la aportación del Cálculo de Probabilidades. Siendo la
Estadística Descriptiva un auxiliar de éste, las nociones de población estadística y frecuencia
preparan las nociones de suceso aleatorio y probabilidad. La noción de variable aleatoria se
presenta con más claridad conociendo la de variable estadística, la esperanza matemática parece
la prolongación natural de la media estadística. Ambas disciplinas confluyen en el S. XIX.
El modo de hacer de la estadística representa la introducción en matemáticas de esquemas
nuevos que resultan eficaces para la confrontación con un mundo de problemas que los métodos
matemáticos clásicos eran incapaces de manejar. Se trata de encontrar leyes a fin de tomar las
decisiones oportunas en aquellos aspectos que parecen estar dominados por lo aleatorio.
La estadística trata, en primer lugar, de acumular la masa de datos numéricos provenientes de la
observación de multitud de fenómenos. Mediante la teoría de la probabilidad analiza y explora la
estructura matemática subyacente al fenómeno del que estos datos provienen, tratando de sacar
conclusiones y predicciones para aprovechar mejor el fenómeno.
Las teorías de correlación y regresión se deben en sus inicios al médico inglés Sir Francis Galton
(1822-1911), que en 1869 publicó un libro sobre la herencia, y a través del estudio de los
problemas de la herencia, llegó al concepto de correlación, siendo el primero en asignar a un
conjunto de variables un número que permitía obtener una medida del grado de relación existente
entre ellas. Llegó a inferir que las personas excepcionalmente altas solían tener hijos de estatura
menor a la de sus progenitores, mientras que las personas muy bajas solían tener hijos más altos
que sus padres. Lo que le llevó a enunciar su principio de regresión a la mediocridad (que es
totalmente falso y actualmente se le considera como la primera falacia de la teoría de la
regresión), aplicable a las tallas de una generación respecto de las siguientes, que fue el origen
del actual análisis de regresión.
Los trabajos de Galton fueron continuados por Edgeworth, Weldon y Pearson que reelaboraron y
mejoraron sus ideas.

1
2. Estadística descriptiva e inferencial. Variables estadísticas.
Estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos
obtenidos mediante observaciones. Se construyen tablas y se representan gráficos que permiten
simplificar la complejidad de los datos que intervienen en la distribución. Se calculan parámetros
estadísticos que caracterizan la distribución.
Denominamos población al conjunto formado por todos los elementos cuyo conocimiento nos
interesa. A cada uno de los elementos de una población, le llamamos individuo. Muestra es un
subconjunto limitado extraído de una población, con objeto de reducir el número de experiencias.
Estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y
conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra.
Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el
cálculo de probabilidades.
Variable es un símbolo que representa un conjunto de valores. Variable estadística es el símbolo
que representa a un colectivo, o a un conjunto de sucesos.
Dado un conjunto de datos de una variable X, x1,...,xn, la estadística descriptiva estudia
procedimientos para sintetizar la información que contienen.
Tipos de variables:
- Variables cualitativas: no toman valores numéricos y describen cualidades.
- Variables cuantitativas: toman valores numéricos:
- Discretas: toman únicamente valores enteros (en general, valores en un conjunto
discreto).
-Continuas: toman valores en un intervalo, corresponden a medir magnitudes continuas.
Frecuencia absoluta de un dato es el número de veces que éste aparece en el colectivo. La
llamamos fi, la correspondiente a xi.
Frecuencia relativa de un suceso (dato) se define por el cociente entre la frecuencia absoluta y
el número total de datos. hi.
Campo de la variable es el conjunto de valores que ésta toma y recorrido de la variable es la
diferencia entre el mayor y el menor valor de ésta.
Media aritmética es la suma de todos los valores de la variable dividido por el número total de
n

∑x ⋅f i i
datos. Se representa por X . Y su valor se calcula: x = i=1
, siendo N el número total de datos.
N
n
N = ∑ fi
i=1

Varianza es la media aritmética de los cuadrados de las desviaciones respecto a la media. Se


n n

∑ (xi − x)2 ⋅ fi ∑x i
2
⋅ fi
2
representa por σ . σ =
2 2 i=1
= i=1
−x
N N
Desviación típica es la raíz cuadrada positiva de la varianza. Se representa por σ .
El conjunto de datos se puede presentar acompañados de sus frecuencias con cada dato
individualizado, distribución sin agrupar, o englobados con otros, distribución agrupada en
intervalos.

2
3. Series estadísticas bidimensionales.
Dada una determinada población de N individuos, puede que nos interese el estudio de dos o más
caracteres, dando lugar a las variables estadísticas bidimensionales. Suponemos que hemos
observado dos variables, X e Y, veremos la relación que existe entre ellas.
Estudiaremos en X, n- modalidades: x1, x2, ..., xn. Y en Y, m-modalidades: y1, y2,...,ym.
3.1. Tablas estadísticas
Cada individuo de la población pertenecerá a una modalidad de X y otra de Y.
El recuento lo hacemos en una tabla de doble entrada (llamada de contingencia cuando las
variables son de tipo cualitativo).
Y la distribución conjunta quedaría:
Y
X y1 y2 ..................ym fi .

x1 f11 f12 .................f1m f1·


fij es el número de individuos de la población que presentan a
x2 f21 f22.................f2m f2·
la vez la modalidad xi del carácter X e yj del carácter Y.
. .... .... ............... ....
. .... .... ............... ....
. .... .... ............... ....
xn fn1 fn2 ................fnm fn ·

La suma de las frecuencias absolutas de los fij es igual al


f·j f·1 f·2.................f·m N
total de la población:
n m n n n n

∑∑ fij = ∑ (fi 1 + fi 2 + ... + fim ) = ∑fi 1 + ∑fi 2 + ... + ∑fim = (f11 + f21 + ... + fn 1 ) + (f12 + f22 + ... + fn 2 ) + ... +
i j
=1 =1 i =1 i =1 i =1 i =1

+ (f1m + f2m + ... + fnm ) = N


m n
Análogamente: ∑∑
j i
fji
=1 =1
=N

La frecuencia relativa del par (xi,yj), se define como la proporción de individuos que presentan
fij
ese carácter sobre el total de la población: hij =
N
La suma de las frecuencias relativas extendida a todos los pares de modalidades posibles es igual
n m
a la unidad: ∑∑
i j
=1
hij
=1
=1

Hay dos distribuciones marginales, una de la variable X y otra de la variable Y.


La de X es una distribución de ese sólo carácter. Su frecuencia absoluta, fi·, la obtenemos
m
sumando en j la fila correspondiente en la tabla:fi i = ∑fij , que es el número de individuos de la
j =1

población que presentan la modalidad xi del carácter X, independientemente de las modalidades


del carácter Y.
n
Lo mismo ocurre con Y, sumando en i la columna correspondiente: fi j = ∑fij
i =1

3
Quedando las tablas:
X f h n n ⎛ m ⎞ Y f h m m
⎛ n

x1 f1. h1. ∑ fii = ∑ ⎜⎜ ∑fij ⎟⎟ = N
i =1 ⎝ j =1
y1 f.1 h.1 ∑fi j = ∑ ⎜ ∑fij ⎟ = N
⎝ i =1 ⎠
i =1 ⎠ j =1 j =1
x2 f2. h2. y2 f.2 h.2 fi j
f
. . . hi i = i i . . . hi j =
N N
xi fi. hi. yj f.j h.j fi j N
n n
fi i N m m
. . . ∑ h ii = ∑
i =1 N
=
N
=1 . . . ∑ hi j = ∑ = =1
i =1 j =1 j =1 N N
xn fn. hn. ym f.m h.m

Total N 1 Total N 1
De las distribuciones condicionales distinguimos la de X condicionada por yj del carácter Y:
X/yj f h
x1 f1j h 1j fij n n f fi j
∑ ∑
ij
j Con hi
j
= y h i
j
= = =1
x2 f2j h2 fi j i =1 i =1 fi j fi j
. . .
xi fij hij De la de Y condicionada por xi del carácter X:
. . . Y/xi f h
xn fnj hnj y1 fi1 hj1
f f
hj2
ij ij
Con hji = hi j = → fij = fi j hi j y2 fi2
fi i fi j
Total f.j 1 . . .
yj fij hji
fij fi j hi j . . .
Respecto al par: hïj = = = hi j hi j
N N ym fim hmi
fij fi ihji
Análogamente: hïj = = = hi ihji
N N Total N 1
3.2. Representaciones gráficas
Las distribuciones de dos caracteres se pueden clasificar según su naturaleza, obteniéndose seis
tipos generales:
- Los dos cualitativos. En los que se pueden representar sobre un mismo gráfico la distribución
global y una familia de distribuciones condicionadas, pero no las dos simultáneamente. Se
representa la frecuencia absoluta fij por un rectángulo cuya base es proporcional a la f·j y cuya
altura es proporcional a la frecuencia condicionada hij. El área del rectángulo es proporcional a:
f·jhij=fij. Así se pone en evidencia en el gráfico: las frecuencias absolutas marginales f·j(base de
los rectángulos), las frecuencias absolutas de la tabla de doble entrada fij (área de los
rectángulos) y las frecuencias condicionadas hij (altura de los rectángulos).
100%

80%
Hasta 2000
60%
Hasta 1990
40%
Hasta 1980
20%

0%

Agr i cul tor es Industr i a Li ber al es Otr as

También podemos usar un diagrama de sectores.


- Uno cualitativo y otro cuantitativo discreto
- Uno cualitativo y otro cuantitativo continuo
4
Se puede usar el sistema de representación análoga al caso anterior, y se puede dibujar tantos
diagramas diferenciales (histogramas o diagramas de barras según la naturaleza continua o
discreta de carácter cuantitativo) como modalidades posea el carácter cualitativo
- Los dos cuantitativos discretos. Se representa la frecuencia absoluta fij por un círculo con
centro en (xi, yj) cuya superficie es proporcional a fij
- Los dos cuantitativos continuos. La generalización del histograma es el estereograma: serie de
paralelepípedos rectangulares, cuyas alturas son proporcionales a las frecuencias medias por
unidad de amplitud en x y en y, es decir, cuyo volumen es proporcional a la frecuencia absoluta fif.
El paralelepípedo relativo a la clase nº i en x de amplitud aix my a la clase nº j en y de amplitud ajy
fij fij
tiene por altura: y por volumen: aix a jy ⋅ x y = fij i
ai a j
x y
ai a j
El volumen limitado por el estereograma, es decir, la suma de paralelepípedos, es igual a 1:
∑∑fij = 1 . El mayor defecto de la representación por estereograma es la complejidad de su
i j

realización práctica. 30
25

20 [0,3)
15
[3,6)
10 [6,9)
5 [9,12)
[6,9)
0
[0,3)
[0,2) [2,4)
[4,6)
[6,8)

- Uno cuantitativo discreto y otro continuo. Se representan las frecuencias medias por unidad de
amplitud en x por medio de diversos histogramas, cuyas áreas sean iguales a las frecuencias
absolutas marginales correspondientes a la variable discreta.
En cualquier caso, la gráfica más útil de dos variables sin agrupar es el diagrama de dispersión,
que se obtiene representando cada observación bidimensional (xi, yj) como un punto en plano
cartesiano. Este diagrama es especialmente útil para indicar si existe o no relación entre las
variables.
Ejemplos:

a) Relación lineal c) Falta de relación


positiva

y
y
1
1
1
x 1
x

b) Relación lineal d) Relación no lineal


negativa
y
y
1 1

1 1
x x 5
3.3. Independencia y dependencia funcional.
Decimos que el carácter X es independiente del carácter Y, si las distribuciones condicionadas
son idénticas entre sí: la repartición según el carácter X de los individuos que poseen la
modalidad yj de Y es la misma cualesquiera que sea yj. Tanto las filas como las columnas de una
tabla de doble entrada son proporcionales entre sí. El valor de una variable no influye en el valor
de la otra.
Se dice que el carácter X depende funcionalmente de Y, si a cada modalidad yj de Y corresponde
una única modalidad posible de X:
∀j , la frecuencia absoluta fij es nula, salvo para un valor i = ϕ (j), donde fij es igual a fi j
Así, en cada columna, un término y uno solo es diferente de cero, en cambio, puede haber varios
términos no nulos en una misma fila.
Cuando la correspondencia es biunívoca, o sea, a una modalidad xi de X corresponde únicamente
una modalidad posible de Y: j = ϕ −1 (i ) , se dice que la dependencia funcional es recíproca: en cada
fila y en cada columna de la tabla figura uno y solo un término no nulo. Para que esto ocurra la
tabla ha de ser cuadrada, X e Y han de tener el mismo número de modalidades.
La dependencia funcional será lineal cuando todos los pares de puntos se encuentren sobre una
recta; será curvilínea cuando se encuentren sobre una curva definida por la función.
En el resto de los casos se habla de dependencia estadística, que será más o menos fuerte
dependiendo de que el diagrama de dispersión tienda a acercarse más o menos a la
representación de una función.
3.4. Medidas de dependencia lineal
Dadas dos variables cuantitativas: X con n modalidades e Y con m modalidades, se define la
n m n m

∑∑ (xi − x )(y j − y ) ⋅ fij


i =1 j =1
∑∑
i j
=1
xi y j ⋅ fij
=1
covarianza, σ xy , como: σ xy = ⇒ σ xy = − x ⋅ y . (Demostración
N N
inmediata.
Considerando los diagramas de dispersión o nubes de puntos del apartado 3.2 formadas por las
parejas de datos, marcando el punto (x , y ) en dichos diagramas y trasladando los ejes al nuevo
centro de coordenadas (x , y ) , éstos quedan divididos en cuatro cuadrantes, de forma que en el
diagrama a) la mayoría de los puntos se encuentran en el primer y tercer cuadrante, y en el b) la
mayoría de los puntos se encuentran en el segundo y cuarto cuadrante.
En a) σ xy ≥ 0 , se puede interpreta como que la variable Y tiende a aumentar cuando lo hace X.
En b) σ xy ≤ 0 , es decir las observaciones de Y tienden a disminuir cuando aumentan las de X.
Si los puntos se reparten con igual intensidad en todos los cuadrantes entonces σ xy = 0 . Caso c)
El inconveniente de esta medida es que depende de las unidades de medida de las variables. Se
hace necesario definir una medida de la relación entre dos variables que no esté afectada por los
cambios de unidad de medida. Esto se hace dividiendo la covarianza por el producto de las
desviaciones típicas de cada una de las variables, obteniendo el llamado coeficiente de
σ xy
correlación lineal: r =
σx ⋅σy

6
Propiedades de r:
-Es adimensional
-Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.
-Sólo toma valores comprendidos entre -1 y 1.
-Cuando toma valores próximos a -1 o 1, se tiene una relación lineal muy fuerte entre las
variables.
-Cuando es 0, no existe relación entre ambas variables. Se dice que son icorreladas.
Hay que tener en cuenta que este coeficiente nos resume la información dada por el diagrama, es
conveniente dibujarlo para tener toda la información, por ejemplo, los diagramas c) y d) tienen un
coeficiente muy próximo a 0 y corresponden a situaciones muy distintas.
3.5. Regresión.
Se trata de ajustar los puntos del diagrama de dispersión de las variables X e Y.
La regresión lineal consiste en encontrar aproximar los valores de una variable a partir de los de
otra, usando una relación funcional de tipo lineal, es lo que vamos a hacer, usando el criterio de
mínimos cuadrados, que es el que comúnmente más se usa, aunque existen otros.
Éste es el que minimiza las distancias cuadráticas de los puntos con la línea en cuestión.
Sea y = ax + b la recta buscada para predecir Y a partir de X, que llamaremos recta de regresión
de Y sobre X
Buscamos un valor de a y otro de b de forma que el valor
n 2
yn Y'
∑ ( yi − y 'i ) sea mínimo.
y'n i=1

y1 y3 Los puntos y’i serán los de la recta, o sea, de la forma axi + b.


Por tanto minimizaremos: ∑ ( yi − axi − b ) , donde las desviaciones
2
y'1y'2
y2
1
i
1 se han tomado al cuadrado para prescindir de su signo.
Derivando respecto a ambos coeficientes e igualando a cero, resultan las ecuaciones:
2 ⋅ ∑ ( yi − axi − b ) ⋅ ( −1 ) = 0 ⎫ -2∑ yi + 2a ∑ xi + 2nb = 0 ⎫
i ⎪ i i ⎪
⎬ ⇒ Operando se obtiene: ⎬⇒
2 ⋅ ∑ ( yi − axi − b ) ⋅ ( −xi ) = 0 ⎪ −2∑ xi yi + 2a ∑ xi + 2b ∑ xi = 0 ⎪
2

i ⎭ i i i ⎭
Dividiendo por n, que es el número de parejas observadas, tendríamos:
y = a x + b ⇒ Nos dice que la recta tiene que pasar por el punto (x, y )
∑i xi yi ∑i xi 2

= a + bx ⇒ Eliminamos b restando la ecuación anterior multiplicada por x


n n
2
−x y = −a x − bx
∑i xi yi ⎛ ∑ xi2


2⎟
−xy = a i
− ax
n ⎜ n ⎟
⎜ ⎟
⎝ ⎠
El primer miembro es la covarianza σ xy y el segundo es a veces la varianza de x, σ x ⇒
σ xy σ xy σ xy
La pendiente de la recta es: a= 2
, la ordenada en el origen b=y- 2 x ⇒ y = y + 2 ( x − x )
σx σx σx

7
σ xy
A a= se denomina coeficiente de regresión de Y sobre X. En el modelo lineal la bondad del
σ x2
ajuste es r2, por lo que el modelo lineal dará mejores predicciones cuando r esté próximo a -1 ó 1.
La varianza residual es la cantidad que le falta a la varianza de regresión σ y2' (la de la
distribución dada por la recta de regresión) para llegar a la varianza total de Y, σ y2 , o sea la

∑i ( yi − axi − b )
2

correspondiente a la variable Y-Y’, ⇒ σ R2 = .


n
σ R2
En cuyo caso la bondad del ajuste es RY2/ X = 1 − 2
= 1 − (1 − r 2 ) = r 2 .
σy
Para estimar los valores de la variable X dados los de Y, lo que haremos será buscar la recta de la
n 2

forma x = my + n que minimice las distancias: ∑ ( xi − x 'i ) , donde los puntos xi’, son los de la
i =1

recta, con cálculos análogos a los anteriores, obtenemos la recta de regresión de X sobre Y:
σ xy σ xy
x = y − y +x .
σ y2 σ y2
Con lo que se define el error como E= X – X’ y la varianza residual en este caso sería
∑i ( xi − myi − n )
2

⇒ σ R2 = ,que es también proporcional a 1 – r2


n
Resumiendo para los ajustes de tipo lineal se tiene que los dos coeficientes de determinación son
r2, y por tanto representan además la proporción de varianza explicada por la regresión lineal.
RX2 /Y = r 2 = RY2/ X
3.6. Correlación lineal.
El establecimiento de una correlación entre dos variables es importante, pero esto se considera
un primer paso para predecir una variable a partir de la otra. Está claro que si sabemos que la
variable X está muy relacionada con Y, podemos predecir Y a partir de X. (Si no lo está, X no nos
sirve como predicción de Y, evidentemente).
Si r ≈ 1 el ajuste es bueno. Hay dependencia lineal entre las variables.
Si r = 1 la correlación será directa y positiva.
Si r = -1 la correlación será negativa.
Si r ≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene
sentido hacer un ajuste lineal. Aunque no es seguro que las dos variables no posean ningún tipo de
relación. Lo que si podemos decir es que si las variables son independientes ⇒ r = 0.
Si -1 < r < 1, los puntos no están concentrados en una recta. Cuanto más se aproxime r a los
números -1 y 1 la distribución estará más concentrada en torno a una recta.

8
4.- Aplicaciones.
4.1. Uso y Abuso de la Regresión.
La aplicación de los métodos expuestos de regresión y correlación exige un análisis teórico previo
de las posibles relaciones entre las variables. Puede ocurrir que se seleccionen dos variables
cualesquiera al azar y que dé la casualidad de que, estadísticamente, la correlación sea perfecta
cuando no existe relación posible entre ellas.
Por ejemplo, el hecho de que, casualmente, la correlación lineal entre la tasa de natalidad en
Nueva Zelanda y la producción de cereales en España a lo largo de un determinado periodo fuera
perfecta no nos debería llevar a suponer que existe algún tipo de relación lineal entre estas
variables.
Se deben seleccionar variables entre las que la fundamentación teórica avale algún tipo de
relación, evitando, en lo posible, relaciones a través de otra variable principal. Por ejemplo, el
consumo de bebidas puede variar en la misma dirección que el consumo de gasolina, pero no
porque una variable dependa directamente de la otra, sino porque ambas van en el mismo sentido
que las variaciones de la renta, que será la principal variable explicativa.
4.2. Predicción.
El objetivo último de la regresión es la predicción o pronóstico sobre el comportamiento de una
variable para un valor determinado de la otra. Así, dada la recta de regresión de Y sobre X, para
un valor X = x0 de la variable, obtenemos y0.
Es claro que la fiabilidad de esta predicción será tanto mayor, en principio, cuanto mejor sea la
correlación entre las variables. Por tanto, una medida aproximada de la bondad de la predicción
podría venir dada por r.
5. Relación del tema con el currículo
Aunque a lo largo del currículo se ve la estadística en el bloque de Estadística y Probabilidad, no
es hasta 1º de Bachillerato cuando se estudian las variables bidimensionales, tanto en
Matemáticas I como en las Aplicadas a las CCSS I. También se ven en la asignatura optativa de
2º de Bachillerato: Estadística.
6. Conclusión
El conocimiento de este tema nos puede llevar, siempre que se haga una aplicación teórica en
condiciones, a predicciones sobre comportamientos o características de una población con
respecto a otras. Hay que intentar hacerle ver al alumnado la importancia de hacer el estudio
bien para que los ajustes sean válidos.
7. Bibliografia
Cramer. Métodos matemáticos de Estadística. Aguilar.
Cramer. Teoría de Probabilidades y Aplicaciones.Aguilar.
Sixto Rios. Métodos Estadísticos.
Calot. Curso de Estadística Descriptiva.
Estadística. Mc Graw Hill.

También podría gustarte