Está en la página 1de 20

Introducción

Si sobre una población de niños entre 0 y 6 años, estudiamos las variables peso
y estatura, esperamos que en general ocurra que a mayor estatura también
encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra así.

Vemos que existe una relación entre las dos variables, aunque no es funcional,
o sea, no puedo determinar con exactitud el peso que corresponderá a cada talla.

En este tema trataremos de describir y medir este tipo de relaciones, que


aparecen en gran cantidad de problemas.

Distribuciones Bidimensionales

Cuando sobre una población estudiamos simultáneamente los valores de dos


variables estadísticas, el conjunto de los pares de valores correspondientes a cada
individuo se denomina distribución bidimensional.

Ejemplo:

Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas en la


siguiente tabla:

MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9

LENGUA 2 2 5 6 5 7 5 8 7 10

Los pares de valores {(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la distribución


bidimensional.

Idea de Correlación

Es frecuente que estudiemos sobre una misma población los valores de dos
variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es
decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto
decimos que las variables están correlacionadas o bien que hay correlación entre ellas.

En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es
la nota en Matemáticas, mejor es la de lengua.
Nube de Puntos o Diagrama de Dispersión

La primera forma de describir una distribución bidimensional es representar los


pares de valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube
de puntos o diagrama de dispersión.

Regresión

La regresión como una técnica estadística, una de ellas la regresión lineal


simple y la regresión multifactorial, analiza la relación de dos o más variables
continuas, cuando analiza las dos variables a esta se le conoce como variable
bivariantes que pueden corresponder a variables cualitativas, la regresión nos permite
el cambio en una de las variables llamadas respuesta y que corresponde a otra
conocida como variable explicativa, la regresión es una técnica utilizada para inferir
datos a partir de otros y hallar una respuesta de lo que puede suceder.

Siendo así la regresión una técnica estadística, por lo tanto para interpretar
situaciones reales, pero a veces se manipula de mala manera por lo que es necesario
realizar una selección adecuada de las variables que van a construir las formulas
matemática, que representen a la regresión, por eso hay que tomar en cuenta
variables que tiene relación, de lo contraria se estaría matematizando un galimatías.

2
Se pueden encontrar varios tipos de regresión, por ejemplo:

1. Regresión lineal simple


2. Regresión múltiple ( varias variables)
a. Simple
b. Múltiple, etc.
3. Regresión logística

La regresión lineal técnica que usa variables aleatorias, continuas se diferencia


del otro método analítica que es la correlación, porque esta última no distingue entre
las variables respuesta y la variable explicativa por que las trata en forma simétrica.

La matematización nos da ecuaciones para manipular los datos, como por


ejemplo medir la circunferencia de los niños y niñas y que parece incrementarse entre
las edades de 2 meses y 18 años, aquí podemos inferir o predecir que las
circunferencias del cráneo cambiara con la edad, en este ejercicio la circunferencia de
la cabeza es la respuesta y la edad la variable explicativa.

En la regresión tenemos ecuaciones que nos representan las diferentes clases de


regresión:

Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac(bx)
Regresión Cuadrática: y = A + Bx +Cx2

3
Correlación Lineal y Recta de Regresión

Cuando observamos una nube de puntos podemos apreciar si los puntos se


agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen
alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se
denomina recta de regresión.

Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a


una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya
desparramándose con respecto a la recta.

En el gráfico observamos que en nuestro ejemplo la correlación es bastante


fuerte, ya que la recta que hemos dibujado está próxima a los puntos de la nube.

Cuando la recta es creciente la correlación es positiva o directa: al aumentar


una variable, la otra tiene también tendencia a aumentar, como en el ejemplo
anterior. Cuando la recta es decreciente la correlación es negativa o inversa: al
aumentar una variable, la otra tiene tendencia a disminuir.

Ejemplo:

Una persona se entrena para obtener el carnet de conducir repitiendo un test


de 50 preguntas. En la gráfica se describen el nº de errores que corresponden a los
intentos realizados.

Observa que hay una correlación muy fuerte (los puntos están "casi" alineados)
y negativa (la recta es decreciente).

4
Ejemplo:

A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia


del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media
obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:

Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3
Nota media 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1

5
Observamos una nube de puntos que no nos sugiere ninguna recta concreta,
porque la correlación es prácticamente inexistente, es decir, no tiene nada que ver con
el rendimiento académico la distancia del domicilio al instituto,

Estimación mediante la Recta de Regresión

Es evidente que no todos dibujaríamos exactamente la misma recta para una


nube de puntos, aunque la correlación fuera bastante fuerte.

De todas las rectas posibles los matemáticos han elegido como la mejor
aproximación la llamada de los mínimos cuadráticos, Su cálculo es también algo
mecánico que podemos hacer con calculadora o un ordenador. La recta de regresión
sirve para hacer estimaciones, teniendo en cuenta que:
 Los valores obtenidos son aproximaciones en términos de probabilidad: es
probable que el valor correspondiente a x0 sea y0.
 La fiabilidad es mayor cuanto más fuerte sea la correlación.
 La fiabilidad aumenta al aumentar el número de datos.
 La estimación es más fiable para los valores de x próximos a la media.

Ejemplo:

Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemáticas y
en Lengua), podemos contestar con aproximación a la siguiente cuestión: si un alumno
no realizó el examen de lengua, pero sí el de matemáticas, obteniendo un 7, ¿qué nota
cabe esperar que obtuviera en lengua?

MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9

LENGUA 2 2 5 6 5 7 5 8 7 10

Propiedades de la Recta de Regresión de los Mínimos Cuadráticos

En la siguiente escena puedes comprobar las principales propiedades de la recta de


regresión mínimo-cuadrática.

1. Observa la recta blanca, cuyos coeficientes a y b puedes hacer variar en los


recuadros inferiores de la escena, bien con las flechas o introduciendo los
valores deseados. Observa los segmentos denominados di, que marcan las
distancias de los puntos de la nube a la recta en la dirección del eje OY.

6
Haz variar los valores de a y de b. Cuando la recta coincida con la recta de
regresión mínimo-cuadrática (en  color azul claro) la suma de los cuadrados de
las distancias di es la mínima posible. 

2. Observa el punto P(p,q), cuyas coordenadas puedes hacer variar en los


recuadros correspondientes de la parte inferior de la escena. Observa lo que
ocurre si le das a p y a q los valores de las medias de la distribución (puedes
escribir mx en la casilla de p y pulsar intro y escribir my en la casilla de q y
pulsar intro). Mueve ahora los puntos rojos y repite el ejercicio. ¿qué propiedad
puedes deducir?

Métodos de regresión y correlación

Las técnicas de regresión y correlación cuantifican la asociación estadística


entre dos o más variables. La regresión lineal simple expresa la relación entre una
variable dependiente Y y una variable independiente X, en términos de la pendiente y
la intersección de la línea que mejor se ajuste a las variables.

La correlación simple expresa el grado o la cercanía de la relación entre las dos


variables en términos de un coeficiente de correlación que proporciona una medida
indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la
regresión ni la correlación dan pruebas de relaciones causa – efecto.

Regresión: El modelo de regresión lineal simple toma la forma

Y = a + bx,

Donde:

y = variable dependiente
x = variable independiente.

Los valores de la pendiente b y la intersección a se obtienen usando las ecuaciones


normales escritas en la forma conveniente.

b=
∑ xy−n XY
∑ x 2−n X 2
a=Y −b x

7
Desviación estándar de la regresión

Una línea de regresión describe la relación entre un valor dado de la variable


independiente X y la media µy.x de la distribución de probabilidad correspondiente de
la variable dependiente Y. El punto estimado, o pronóstico, es la media de la
distribución para un valor dado X.

La desviación estándar de la regresión S y.x es una medida de la dispersión de


los datos alrededor de la línea de regresión.

S y .X=
√ ∑ Y 2−a ∑ Y −b ∑ XY
n−2

Estimación de intervalo

Se puede establecer una predicción de intervalo para un valor pronosticado


individual de YC usando la expresión:

Intervalo de predicción = YC ± t SIND

Donde t = valor de la tabla de la distribución t para el nivel de confianza especificado, y


2
1 ( X −X )
S IND =S y . x 1+ +
n ∑ ( X− X )2

Para muestras grandes (n≥100), la ecuación anterior puede ser aproximada.


Usando la distribución normal (Z) más que la , en la forma de Y C ± ZSY.X También la
significancia de la pendiente de la línea de regresión (b) puede ser probada usando la
siguiente expresión.

b
t calc=
Sb

S b =SY . X
√ 1
∑ ( X −X )2
Donde:

Si el valor de tcalc de la tabla t, la relación entre X y Y es estadísticamente significativa.

8
Medida de la Correlación

La apreciación visual de la existencia de correlación no es suficiente. Usaremos


un parámetro, llamado coeficiente de correlación que denotaremos con la letra r, que
nos permite valorar si ésta es fuerte o débil, positiva o negativa.  

-1 < r < 1

Coeficiente de Correlación

El coeficiente de correlación lineal simple r es un número entre -1 y 1 que indica qué


tan bien describe la ecuación lineal la relación entre las dos variables. Como se
muestra en la siguiente figura, r se designa como positiva si Y se incrementa cuando lo
hace X, y negativa si Y decrece al incrementarse X. Una r de cero indica una ausencia
de relación entre las dos variables.

La desviación de todos los puntos (Y) de la línea de regresión (Yc) consiste en la


desviación contabilizada por la línea de regresión (explicada) y la variación aleatoria
(no explicada).

9
Variación total = explicada + no explicada

∑ (Y −Y )2=∑ (Y c −Y )2+∑ (Y −Y c )2
El coeficiente de determinación r 2 es la razón de la variación explicada a la
variación total:

r=
∑2(Y C −Y )
2

∑ (Y −Y )2
El coeficiente de correlación r es la raíz cuadrada del coeficiente de determinación:

r=
√ ∑ (Y c −Y )2
∑ (Y −Y )2
Cuando el tamaño de la muestra es lo suficientemente grande (v.g., mayor de
50); el valor de r puede ser calculado más directamente con base en:

n ∑ XY −∑ X ∑ Y
r=
√ [n ∑ X −(∑ X ) ] [ n ∑ Y −( ∑ Y ) ]
2 2 2 2

La significancia de cualesquier valor de r puede probarse estadísticamente con


una hipótesis para mostrar que no existe correlación. Para probarlo, el valor de r es
comparado con un valor de tablas para un tamaño de muestra y un nivel de
significancia dados.

10
Ejemplo:

El gerente general de una planta de producción de materiales de construcción


considera que la demanda de embarques de aglomerado puede estar relacionada con
el número de permisos de construcción emitidos en el municipio durante el trimestre
anterior.

El gerente ha recolectado los datos que se muestran en la tabla.

Permisos de Embarques de
construcción (X) conglomerado (Y)
15 6
9 4
40 16
20 6
25 13
25 9
15 10
35 16

 Si se pide determinar una estimación de los embarques cuando el número de


permisos de construcción es 30.

En el siguiente diagrama de dispersión se puede ver que los datos no son


perfectamente lineales; sin embargo, se puede hacer un enfoque lineal sobre este
periodo corto.

Embarques de conglomerado

18

16

14

12
Embarques Y

10

0
5 10 15 20 25 30 35 40 45

Permisos X

Embarques de conglomerado (Y)

11
Se realizan los cálculos como se muestra en la siguiente tabla

n X Y XY X2 Y2
1 15 6 90 225 36
2 9 4 36 81 16
3 40 16 640 1600 256
4 20 6 120 400 36
5 25 13 325 625 169
6 25 9 225 625 81
7 15 10 150 225 100
8 35 16 560 1225 256
Totales 184 80 2146 5006 950

Se calcula las medias aritméticas de X y Y

X = 23

Y= 10

Se calculan los valores de la pendiente b y la intersección a:

b=
∑ xy−n XY
∑ x 2−n X 2
2146−8(23)(10 )
b=
5006−8(23)(23 )

b= 0.395

a=Y −b x

a = 10 – 0.395(23)

a= 0.915

Se plantea la ecuación de la regresión

Y = a + bx

Y = 0.915 + 0.395X

Recordemos que X = permisos; Y = embarques.

12
Entonces, el número de embarques cuando el número de permisos de
construcción es 30 se puede encontrar sustituyendo el valor en la ecuación.

X = 30

Y = 0.915 + 0.395(30)

Y = 12.76 ≈ 13

El número de embarques será de 13 aproximadamente.

 Desviación estándar de la regresión

Dados los datos de los permisos y embarques calcúlese la desviación estándar de la


regresión

En la siguiente grafica se muestra el comportamiento de la desviación

Embarques de conglomerado

18
16
14
12
Embarques Y

10
8
6
4
2
0
0 5 10 15 20 25 30 35 40 45
Permisos X
Embarques de conglomerado

Por lo tanto, la desviación estándar de la regresión es

S y .X=
√ ∑ Y 2−a ∑ Y −b ∑ XY
n−2

13
SY . X =
√ 950−(0 .91 )(80)−(0 . 396)(2146 )
8−2

S Y . X = 2.2 embarques

 Estimación del intervalo

Desarróllese una predicción de intervalo estimada de 95% para el número


específico de embarques que se realizará cuando son emitidos 30 permisos de
construcción durante el trimestre anterior.

Donde el valor de t (de la tabla estadística) para n-2 = 8-2 = 6 grados de


libertad, y dónde según tablas:

t = 2.447

Se debe calcular ∑ ( X− X )2

X-X (X – X)2
-8.00 64
-14.00 196
17.00 289
-3.00 9
2.00 4
2.00 4
-8.00 64
12.00 144
0.00 774

X= 30 permisos


2
1 ( X −X )
S IND =S y . x 1+ +
n ∑ ( X− X )2


2
1 (30−23 )
S IND =2. 2 1+ + =
8 774 2.40

Intervalo de predicción = YC ± t SIND

14
Intervalo de predicción = 13 ± 2.447 (2.40)

Intervalo de predicción (inferior) = 13 – 5.87 = 7.1

Intervalo de predicción (superior) = 13 + 5.87 = 18.9

7.1< Embarques < 19

 Coeficiente de correlación

n ∑ XY −∑ X ∑ Y
r=
√ [n ∑ X −(∑ X ) ] [ n ∑ Y −( ∑ Y ) ]
2 2 2 2

8(2146 )−(184 )(80 )


r=
√ [ 8(5006 )−(184 )2 ][ 8(950 )−(80 )2 ]
2448
r= =
√ 7430400 0.90

Ejemplos de Distribuciones Bidimensionales

Ejemplo:

Una compañía de seguros considera que el número de vehículos (y) que


circulan por una determinada autopista a más de 120 km/h , puede ponerse en función
del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes
resultados:

Accidentes xi 5 7 2 1 9
Número de vehículos yi 15 18 10 8 20

 Calcula el coeficiente de correlación lineal.


 Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que
circulaban por la autopista a más de 120 km / h?

Construimos una tabla, teniendo en cuenta que la frecuencia absoluta es uno.


Conocer la media aritmética, las varianzas, las desviaciones típicas y la covarianza.

    Media aritmética Varianza Covarianza


2 2
  fi xi yi xi yi xi . yi

15
  1 5 15 25 225 75
  1 7 18 49 324 126
  1 2 10 4 100 20
  1 1 8 1 64 8
  1 9 20 81 400 180
5 24 71 160 1113 409

16
Ejemplo:

Las calificaciones de 40 alumnos en psicología evolutiva y en estadística han


sido las de la tabla adjunta.

Psicología xi 3 4 5 6 6 7 7 8 10
Estadística yi 2 5 5 6 7 6 7 9 10
Nº de alumnos fi 4 6 12 4 5 4 2 1 2

a) Obtener la ecuación de la recta de regresión de calificaciones de estadística respecto


de las calificaciones de psicología.
b) ¿Cuál será la nota esperada en estadística para un alumno que obtuvo un 4,5 en
psicología?
 
        Media aritmética Varianza Covarianza
2 2
  xi yi fi fi . xi fi . yi fi . xi fi . yi fi . xi . yi
  3 2 4 12 8 36 16 24
  4 5 6 24 30 96 150 120
  5 5 12 60 60 300 300 300
  6 6 4 24 24 144 144 144
  6 7 5 30 35 180 245 210
  7 6 4 28 24 196 144 168
  7 7 2 14 14 98 98 98
  8 9 1 8 9 64 81 72
  9 10 2 20 20 200 200 200
    40 220 224 1314 1378 1336

17
18
Ejemplo:

Las notas obtenidas por 10 alumnos en Matemáticas y en Música son:

Matemáticas 6 4 8 5 3,5 7 5 10 5 4
Música 6,5 4,5 7 5 4 8 7 10 6 5

•  Calcula la covarianza y el coeficiente de correlación.


•  ¿Existe correlación entre las dos variables?
•  ¿Cuál será la nota esperada en Música para un alumno que hubiese obtenido un 8,3
en Matemáticas?

a) Covarianza = 3,075. Coeficiente de correlación r = 0,92.

b) Existe una correlación positiva fuerte.

c) Recta de regresión: y = 1,6 + 0,817 x  La nota esperada en Música = 8, 38

Ejemplo:

Cinco niñas de 2, 3, 5, 7 y 8 años de edad pesan respectivamente 14, 20, 30, 42


y 44 Kg . Halla la ecuación de la recta de regresión de la edad sobre el peso. ¿Cuál sería
el peso aproximado de una niña de 6 años?

Ecuación de la recta de regresión: x = 0,192 y - 0,76

Peso aproximado de una niña de 6 años: 35,2 kg

BIBLIOGRAFÍA

19
 Monks Joseph G. Administración de operaciones, serie Schaum., 1ª edición,
México D.F.,

 Mc. Graw Hill., p.p. 170–174.

 Vommi : MJ ¿Qué es un monografía? [citada 13 08 2005] dirección:


http://www.mografias.com/trabajos7/beren/beren.shtml)

 Torino H . Resumen del libro de Estadísticas de Berenson y Levine [citada 15 08


2005] dirección: http:// www.mografias.com/trabajos13 /beren/beren.shtml)

 El Rincón del Vago, SL C Toro 76,2º Salamanca (España) [18 08 2005] dirección:
http:// htlm.rincondelvago.com/estadistica/html)

 El Rincón Del Vago, SL C Toro 76,2º Salamanca (España) [16 08 2005] dirección:
http://htlm.rincondelvago.com/estadistica/html)

 Ortega Calvom, Cayuela Domínguez A, Regresión Logística No condicionada y


tamaño de muestra: una revisión bibliografica. Revista Española de salud
Publica [serie en internet] 2002 Marzo [citada 16 08 05] Vol 70Nº2 [12 paginas]
dirección http://www.scielospphp?piol=s1135-
5727200200020000&scrip[=sciarte

 Galdos Calculo y Estadística III Edición Unica. Grupo La Republica. Lima


Perú;2005.

 Cannavos G. Probabilidad y Estadística Aplicación y métodos. Ed. en español Mc


GRAW- HILL/INTERAMERICANA DE MEXICO.1995.

20

También podría gustarte