Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuestionamiento Correlacion PDF
Cuestionamiento Correlacion PDF
ESTADSTICA DESCRIPTIVA
E INFERENCIAL I
Colaboradores:
Asesora Pedaggica:
Irma Cruz Santilln
Revisin de Contenido
Armando Martnez Cruz
Diseo Editorial
Leonel Bello Cuevas
Javier Daro Cruz Ortiz
2
NDICE
PROPSITO 5
INTRODUCCIN 7
CUESTIONAMIENTO GUA 9
CORRELACIN LINEAL 11
Concepto de Correlacin 11
Diagramas de Dispersin 13
COEFICIENTE DE CORRELACIN 22
REGRESIN LINEAL 29
RECAPITULACIN 45
ACTIVIDADES DE CONSOLIDACIN 46
AUTOEVALUACIN 48
ACTIVIDADES DE GENERALIZACIN 49
BIBLIOGRAFA CONSULTADA 50
3
4
PROPSITO
En los fascculos anteriores de esta asignatura, has aprendido a utilizar eficazmente los
mtodos ms usuales para organizar, analizar y cuantificar los datos aportados por
observaciones estadsticas, todo ello dentro del contexto de la estadstica descriptiva.
De esa manera, tienes ya un panorama general de los elementos bsicos de esta rama
importante de la estadstica paramtrica.
Cabe dentro del propsito de este fascculo, el que comprendas la diferencia entre los
objetivos que se buscan con el anlisis la correlacin lineal y los del anlisis de
regresin.
5
6
INTRODUCCIN
7
8
CUESTIONAMIENTO GUA
Podrs ayudar al Profr. Gmez a solucionar este problema? Existe alguna relacin
entre los promedios de nivel medio superior y de nivel superior?
Quizs al principio no tengas la menor idea de cmo ayudarlo, pero conforme estudies
este fascculo, irs adquiriendo los conocimientos necesarios para llegar a la respuesta
y, as poder resolverlo por ti mismo.
9
10
CORRELACIN LINEAL
CONCEPTO DE CORRELACIN
En las diferentes reas del conocimiento existen problemas que requieren el anlisis de
ms de una variable, como por ejemplo; un socilogo puede estar interesado en saber
qu clase de relacin existe entre la tasa de delincuencia juvenil que hay en la
comunidad y el grado de hacinamiento de los hogares que all se encuentran; un
profesor puede estar interesado en conocer de qu manera se puede predecir el
rendimiento en lgebra de un estudiante con base en el puntaje obtenido en una prueba
de aptitud en dicha asignatura; un psiclogo desea saber si existe alguna relacin entre
el concepto que tiene un alumno de s mismo y su promedio en el estudio; un agrnomo
desea conocer si existe relacin entre la cantidad de lluvia cada y el rendimiento de
ciertos productos agrcolas, es decir, si es afectado desfavorablemente tanto por la
excesiva lluvia (humedad), como por la excesiva sequa del suelo.
Como te habrs dado cuenta, estas relaciones y muchas otras se pueden investigar por
medio del anlisis de correlacin y/o regresin, simples o lineales, si la relacin est
limitada a dos variables (si fueran ms de dos variables, este anlisis de correlacin y
regresin sera mltiple). En esta seccin del fascculo hablaremos de la correlacin
lineal cuyo objetivo principal es medir la intensidad de una relacin lineal entre dos
variables; la correlacin lineal sirven para medir la relacin entre dos variables.
La siguiente tabla muestra las cantidades vendidas (y) por 15 vendedores de una
compaa en un periodo dado. La tabla tambin muestra el nmero de periodos (x) de
experiencia que cada vendedor tiene.
11
Tabla:
VENDEDOR NMERO DE VENTAS
PERIODOS (x) (y)
1 3 2
2 4 3
3 4 4
4 5 3
5 5 4
6 6 3
7 6 4
8 7 4
9 7 5
10 7 6
11 8 5
12 9 6
13 9 7
14 10 7
15 10 8
Mostraremos la relacin entre estas dos variables, grficamente, para que te des
cuenta de cmo estn relacionadas estas variables. Ms adelante, introduciremos el
coeficiente de Pearson, y una frmula para calcularlo, que nos indicar el grado de
relacin de estas variables.
7
6
5
4
3
2
1
X
1 2 3 4 5 6 7 8 9 10
Grfica No. 1
12
Este diagrama sugiere que a medida que los valores X aumentan, tambin los valores
Y aumentan. Adems, aparece que los puntos se agrupan a lo largo de una lnea recta.
Por lo mismo decimos que hay una relacin lineal entre los variables X y Y.
Correlacin Positiva. Ocurre cuando al crecer (o decrecer) una de las variables, la otra
tambin crece (o decrece). Por ejemplo: a medida que se eleva el nivel de vida de una
poblacin, tiende a aumentar el consumo de artculos que no son de primera
necesidad.
Correlacin Negativa. Ocurre cuando al crecer alguna de las variables, la otra decrece
o viceversa. Por ejemplo: a medida que se amplan los sistemas de salubridad y
medicina preventiva, decrece el ndice de mortalidad de las enfermedades infecto-
contagiosas.
En el ejemplo anterior (las ventas) tenemos una correlacin positiva. Estas dos
correlaciones y otras ms, se pueden mostrar utilizando los Diagramas de Dispersin,
de los que nos ocuparemos enseguida.
DIAGRAMAS DE DISPERSIN
a) Cuando los puntos se van localizando en los ejes coordenados de manera que
veas que si los valores de la variable X aumentan y los valores de la variable Y
tambin aumentan, entonces existe una Correlacin Lineal Positiva. Un ejemplo
as ocurre al correlacionar las edades del marido y de la mujer en las parejas
conyugales. En este caso a mayor edad del marido, mayor edad de la mujer.
13
Y Edad de la Mujer
X
Edad del Marido
Grfica No. 2
Como vemos en el diagrama de dispersin anterior, conforme la edad del marido (X)
aumenta, aumenta la edad de la mujer (Y), por lo que tendremos una correlacin lineal
positiva.
b) Si los puntos se localizan en los ejes coordenados y observas que los valores de la
variable X aumentan mientras que los valores de la variable Y decrecen, entonces
existe una Correlacin lineal negativa. Un ejemplo as ocurre al correlacionar el
nmero de accidentes de trabajo acaecidos en un periodo de tiempo, con el
nmero de dispositivos de seguridad operantes en las plantas de una industria. En
este caso a mayor nmero de dispositivos de seguridad, menor nmero de
accidentes de trabajo.
Y Nmero de Accidentes
X
Nmero de Diapositivos de Seguridad
Grfica No. 3
14
c) Cuando los puntos se localizan en el eje de coordenadas y observes que su
relacin no es lineal, es decir, aunque su patrn de dispersin est definido, estas
variables presentan una relacin no lineal. Por ejemplo: al correlacionar la cantidad
de lluvia caida y el rendimiento de ciertos productos agrcolas, que es afectado
desfavorablemente tanto por la excesiva sequa, como por la humedad excesiva del
suelo, se tiene una correlacin que se denomina Correlacin Curvilnea.
Y m3 por hectrea
Correlacin
Curvilnea
X
Precipitacin Pluvial (mm)
Grfica No. 4
X
Estatura de los fundadores
Grfica No. 5
15
Los diagramas de dispersin que acabas de ver te muestran las diferentes relaciones
entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos
sealar que si tanto los valores de X como los valores de Y tienden a seguir un patrn
recto, entonces existe una correlacin lineal.
Considera el nmero de visitas como la variable (X) y el monto de los pedidos como la
variable (Y), construye el diagrama de dispersin correspondiente e infiere si existe
algn tipo de correlacin.
Solucin: La tabla de valores nos proporciona los pares para localizarlos en los ejes,
como se muestra en la siguiente grfica. Verifica estas localizaciones.
16
Y Pedidos ($)
18
16
14
12
10
2
110 130 150 170 190 210 230 250 270 290 310
100 120 140 160 180 200 220 240 260 280 300 320
X
Nmero de visitas
Grfica No. 6
El diagrama de dispersin indica que existe una correlacin lineal positiva, sabes por
qu?
Aos de
Uso (X) 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Nmero de
Exusuarios (Y) 8 6 9 4 6 5 3 2 4 3
17
Solucin:
Y nmero de exusuarios
12
10
X
1 2 3 4 5 6
Ao de uso
Grfica No. 7
La tabla del ejemplo te facilit la localizacin de los puntos en los ejes y confirmaste
que existe una correlacin lineal negativa. A estas alturas te puedes dar cuenta de la
facilidad con que se construye este tipo de diagramas y se reconoce el tipo de
correlacin que existe entre las variables.
18
Mes Publicidad (X) Ventas (Y)
(miles de N$) (miles de N$)
Enero 200 350
Febrero 250 300
Marzo 300 630
Abril 250 840
Mayo 330 930
Junio 180 1060
Julio 150 1280
Agosto 350 850
Septiembre 240 700
Octubre 250 1160
Noviembre 230 910
Diciembre 170 1500
Puntaje de
satisfaccin (Y) 58 54 67 64 66 73 70 85 74 85
Puntaje de
aptitud (X) 50 55 60 65 70 75 80 85 90 95
Puntaje de la
Oveja (Y) 68 63 70 66 81 74 82 76 81 92 85
Paso de la
Madre (X) 60 64 68 72 76 80 84 88 92 96 100
19
3) La siguiente tabla muestra el nmero de horas por semana que estudiaron diez
universitarios y su promedio de calificaciones acumulativas.
Promedio de
Calificaciones (Y) 2.1 2.7 2.6 2.5 3.5 3.0 3.5 3.7 2.9 4.0
Horas de
Estudio (X) 5 6 7 8 9 10 11 12 13 14
Tiempo gastado
en aprender (X) 30 30 40 40 50 50 60 60 60 70 70
5) La siguiente tabla muestra los resultados de una prueba para medir el nivel de
seguridad en s mismo y de otra prueba para medir el nivel de madurez social de
15 estudiantes de preparatoria.
Puntaje de seguri-
5 10 15 15 20 20 25 25 25 32 40 37 45 35 50
dad en s mismo
(Y)
Puntaje de madu-
5 5 8 20 15 25 20 35 30 30 30 35 35 40 40
rez social (X)
20
Se sugiere para la recopilacin de un conjunto de datos, se emplee tcnicas que uno
mismo utilice.
21
COEFICIENTE DE CORRELACIN
Ahora que has aprendido a construir los diagramas de dispersin y a identificar cundo
hay correlacin (positiva y negativa), y cundo no hay, podemos empezar a estudiar
cmo se calcula el Coeficiente de Correlacin de Pearson.
N N N
N (XY)
X Y
i=1 i=1 i=1
r=
N N
2 N N
2
N
X 2
X
N
Y 2
Y
i=1 i=1 i=1 i=1
Por medio de ejemplos, veremos cmo se utiliza esta frmula, para que puedas hacer
interpretaciones de este valor.
Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de
10 escuelas para nios superdotados. La razn alumno/maestro es (X) y los
estudiantes que se salen antes de completar el curso es (Y).
X 20 18 16 15 14 12 12 10 8 5
Y 12 16 10 14 12 10 9 8 7 2
22
(1) (2) (3) (4) (5)
X Y X2 Y2 XY
20 12 400 144 240
18 16 324 256 288
16 10 256 100 160
15 14 225 196 210
14 12 196 144 168
12 10 144 100 120
12 9 144 81 108
10 8 100 64 80
8 7 64 49 56
5 2 25 4 10
De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones
originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y en la
columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma con el
producto de cada X por cada Y, finalmente se suman los valores de las cinco columnas
y se sustituyen en la frmula que ya conoces, obteniendo el siguiente resultado.
N N N
N (XY)
X
Y
i=1 i=1 i=1
r=
N N
2 N N
2
N
X 2
X
N
Y 2
Y
i=1 i=1 i=1 i=1
1400
r=
2594400
1400
r= = 0.869180
1610.7141
23
Ahora interpretaremos este valor. Para ello es necesario conocer las siguientes
caractersticas del coeficiente de correlacin lineal.
Cuando no existe relacin entre las dos variables, o sea cuando al variar la primera,
las variaciones de la segunda no reflejan dependencia o conexin alguna con las
variaciones de la primera, el coeficiente de correlacin lineal es cero.
Lo anterior significa que, entre 0 y +1 cabe toda una gama de correlaciones positivas,
que sern tanto ms directamente proporcionales, cuanto ms se acerquen a +1.
Similarmente entre 1 y 0 cabe toda una gama de correlaciones negativas, que sern
tanto ms inversamente proporcionales, cuanto ms se acerquen a 1. Los
coeficientes de correlacin, cuanto ms cerca de cero, indican menor correlacin.
Con todas estas caractersticas, podemos interpretar el resultado que calculamos del
coeficiente r de Pearson. Como r = 0.869180 podemos concluir que la correlacin es
fuerte y positiva.
Con base a las caractersticas del coeficiente de correlacin lineal (r) de Pearson, se
muestra a continuacin una tabla que indica cundo una correlacin lineal es dbil,
fuerte, positiva o negativa.
Tabla Significado de
Como puedes observar, lo nico tedioso es la tabla, pero sta concentra los resultados
para obtenerlos con cierta facilidad. Te invito a que resuelvas el siguiente ejemplo sin
ver los resultados, salvo te aparezcan dudas, intntalo!
24
Ejemplo: Retomemos los valores utilizados del ejemplo de las visitas realizadas y los
pedidos hechos por diez vendedores de un Departamento de Ventas, lo recuerdas?,
te mostrar la tabla de valores que utilizamos; calcula el coeficiente r de Pearson.
XY X2 Y2
3283.00 60025 179.56
1771.60 29584 106.09
4394.10 84681 228.01
855.60 15376 47.61
1394.30 36481 53.29
3095.60 47524 201.64
525.20 10201 27.04
3056.20 67081 139.24
4390.10 94249 204.49
781.00 20164 30.25
Solucin: Recuerda que para facilitar este clculo, se puede elaborar una tabla para
mostrar los totales, la cual est a continuacin de la tabla de datos, como observas.
25
10 (23546.6) 213200
r= = 0. 9
[10 (465366 ) 4202500 ] [10 (1217.22) 10816]
a) Todo el grupo.
26
7) En dos tests, diez alumnos obtuvieron las siguientes puntuaciones:
54 203
53 196
51 202
50 186
48 204
47 184
47 196
46 182
45 170
45 178
44 181
44 175
44 168
43 174
40 162
38 158
37 170
36 144
34 141
27
Calcula el coeficiente de correlacin r de Pearson e interprtalo.
9) La siguiente tabla muestra los valores obtenidos en asistencia a juntas tanto para
hombres como para mujeres.
Asistencia a juntas
10 8
10 7
9 7
9 6
8 5
7 6
7 5
7 4
6 4
6 3
5 4
5 3
4 4
4 3
3 2
10) Los siguientes pares de valores representan las dimensiones en cms. de las hojas
del rbol del fresno:
Si se conoce la anchura (X) y la longitud (Y) de las hojas, habr alguna relacin
entre estas dos variables?, y si la hay, sta es fuerte o dbil? Realiza los clculos
adecuados para que contestes estas preguntas.
28
REGRESIN LINEAL
Ahora que has analizado el grado de relacin que existe entre dos variables
estadsticas (datos bivariados), a travs del clculo del coeficiente de correlacin de
Pearson, es importante dar un contexto adecuado al tema de Regresin Lineal, con el
objeto de ubicar correctamente algunos de los conceptos que se utilizarn en el
proceso de prediccin estadstica. Es probable que hayas escuchado una expresin
tan popular como para muestra basta un botn, que ilustra muy bien lo que sucede en
la inferencia estadstica. El proceso inferencial consiste en obtener informacin acerca
de una Poblacin de objetos cuantitativos (datos), a partir de informacin contenido en
una parte de esta poblacin llamada Muestra. Cabe preguntarnos por qu no utilizar
todos los datos de una Poblacin? Pongamos por ejemplo que un especialista desea
informacin acerca de las dimensiones de las alas de la mariposa Monarca que
anualmente hace una emigracin desde Canad hasta Mxico. Ser posible estudiar
todas y cada una de las mariposas monarcas que llegan cada ao a nuestro pas?
Desde luego que no, pues ello implica un enorme gasto de recursos humanos y
materiales entre otros, cosa que hara prcticamente imposible el estudio. Para llevar
adelante su investigacin el especialista tomara una muestra de la poblacin, medira y
analizara estadsticamente los datos que le interesan y apoyndose en un modelo
matemtico adecuado tratara de deducir las caractersticas esenciales de toda la
poblacin de mariposas. Este modo de proceder del especialista lo realizamos todos
cotidianamente, aunque no de manera tan rigurosa. Por ejemplo, una ama de casa en
el supermercado quiere comprar naranjas y sabe por experiencia que no siempre las
ms grandes son las ms jugosas, escoge unas cuantas para observar su peso,
consistencia, madurez y si es posible prueba una de ellas, slo despus de hacer estas
operaciones toma una decisin. Al hacerlo no fue necesario que probara todas las
naranjas que haba en el aparador o en la bodega o en la huerta del productor que
provee al supermercado, slo le bast una muestra.
Qu es la regresin lineal?
29
Estas y otras preguntas tratarn de ser contestadas en los siguientes prrafos, a fin de
que puedas usar el modelo estadstico de Regresin Lineal para hacer deducciones o
predicciones estadsticas. Las respuestas a cada una de ellas si bien no sern
definitivas s sern vlidas para nuestro anlisis, mismo que deber ser ampliado y
profundizado en estudios posteriores.
Tabla
El conjunto de datos que incluye la tabulacin, los llevaremos al plano cartesiano para
obtener la grfica siguiente:
Y
35
30
25
20
15
10
X
2 4 6 8 10 12 14
Grfica No. 8
30
Los valores de las variables X y Y forman parejas ordenadas (x,y) susceptibles de ser
graficadas en el plano cartesiano. Al exhibir grficamente los datos de la tabla No. 1
obtenemos el Diagrama de Dispersin. De la tabulacin se puede considerar que al
haber pares ordenados (x,y), tericamente puede existir una relacin Funcional entre
las variables X a la que llamaremos variable independiente y Y a la que llamaremos
variable dependiente suponiendo que el problema es saber cmo vara Y en funcin
de X? Para hacer esto ms claro, te pedimos que apoyndote en la tabulacin y en la
grfica escribas en el siguiente cuadro cunto esperaras que vendiera un aspirante
con tres aos de experiencia?, cunto si tiene siete u ocho aos en ventas?
Como te habrs dado cuenta, lo que hiciste para contestar las preguntas anteriores fue
apoyarte en la observacin de datos conocidos y en tu experiencia, es decir, has hecho
una estimacin emprica a partir de cierta informacin estadstica. Esta forma de
proceder ha sido la base del desarrollo de la estadstica moderna, pues de esa manera,
los procesos prospectivos o de planeacin a futuro tienen una fundamentacin terica
basada en observaciones hechas con anterioridad. Volveremos a este ejemplo para
proponer un mtodo general de anlisis, que nos permita hacer predicciones
estadsticas consistentes. Pero ahora te pedimos que analices el siguiente caso donde
encontrars nuevas interrogantes.
Una Empresa de publicidad, ha sido contratada para llevar a cabo una campaa para
disminuir el consumo de bebidas alcohlicas entre la juventud. Los planificadores de la
empresa estiman que el consumo disminuir si incrementan el nmero de anuncios
televisivos con el eslogoan sin alcohol la vida es ms placentera. Para verificar esta
hiptesis toman una muestra de diez personas al azar y hacen una encuesta que arroja
los siguientes resultados:
Tabla No. 9
31
Construye el diagrama de dispersin correspondiente a los valores tabulares tomando a
x (variable independiente) como el nmero de anuncios de T.V. y a y (variable
dependiente) como el nmero de copas ingeridas por persona y compralo con el que a
continuacin te mostramos.
Y Copas ingeridas
X Anuncios en T.V.
Grfica No. 10
Por el texto del problema, nos percatamos de que los planificadores de esta Empresa
desean analizar tericamente, la variacin entre el consumo de alcohol y el nmero de
anuncios vistos por el pblico, tomando como variable independiente o de entrada este
nmero de anuncios (X) y como variable dependiente o de salida el nmero de copas
de bebida ingeridas en una fiesta (Y). Ilustramos esto mediante el siguiente esquema:
Esquema No. 1
__________________________________________________________________
__________________________________________________________________
32
3. Tericamente es posible alcanzar el objetivo de eliminar absolutamente el
consumo de alcohol entre la juventud que ha visto el anuncio publicitario? Explica.
__________________________________________________________________
__________________________________________________________________
33
1. BIOLOGA. El crecimiento de una cierta especie de alga marina al aplicarle
cierta dosis de lquido protenico.
Y (cm)
X (ml)
Grfica No. 11
Y ($)
X (aos)
Grfica No. 12
34
3. PSICOLOGA. La cantidad de fechas memorizadas-recordadas por un sujeto y el
nmero de das transcurridos.
Y (por fechas)
X (das)
Grfica No. 13
Y (latidos)
X (edad)
Grfica No. 14
35
f(x) = a + bx es lineal.
Si se trata del modelo lineal, entonces la grfica es una recta a la que llamaremos:
Recta de ajuste o Recta de regresin. En todo caso, los puntos registrados en el
diagrama de dispersin sugieren el tipo de funcin de regresin que se debe utilizar.
Ver las siguientes figuras:
Y Y
Recta de ajuste
Recta de ajuste
X X
Desde luego que encontrar la expresin de esta funcin, no siempre es sencillo, por lo
que, se propone el modelo de la ecuacin lineal:
y = a + bx
Es tiempo de contestar las preguntas bsicas, cmo encontrar las rectas de ajuste
para un problema en particular?, qu criterio se debe utilizar para asegurar la recta de
mejor ajuste?
36
Ejemplo No. 3
X Y
0 2
1 4
2 3
3 6
4 5
5 7
6 9
7 8
Tabla
10 (6,9)
8 (5,7)
(3,6) (7,8)
6
(1,4)
4 (4,5)
(0,2) (2,3)
2
X
1 2 3 4 5 6 7
Grfica No. 17
37
Esto se ilustra a continuacin.
+1
-1
0.7
Grfica No. 18
Puede disminuirse la suma de las distancias que hay entre los puntos y la recta de
ajuste? Explica. ________________________________________________________
______________________________________________________________________
Cabe mencionar, que la recta trazada puede no ser la de mejor ajuste, entonces cmo
encontrar la de mejor ajuste? Analicemos qu pasa si las distancias (y - y ) son tan
pequeas como sea posible, es decir, que estas distancias estn cerca de cero.
Cmo vara el cuadrado de la diferencia cuando sta tiende a cero? Observa los
siguientes ensayos hipotticos.
Si ( y y ) = 0.25 entonces ( y y )2 = (0.25)2 = 0.0625
Si ( y y ) = 0.12 entonces ( y y )2 = (0.12)2 = 0.0144
Si ( y y ) = 0.6 entonces ( y y )2 = (0.06)2 = 0.0036
Como te habrs dado cuenta, cuando las diferencias ( y y ) son cada vez ms
cercanas a cero, el valor del cuadrado de la diferencia tambin tiende a cero. Esto es
muy importante, ya que si esta diferencia al cuadrado la asociamos a un cierto valor de
ERROR en la prediccin entonces decimos que la Curva de mejor ajuste es aquella
en donde la suma de los errores cuadrticos es mnima. Es decir:
38
Si al valor ( yi y i )2 lo llamamos ERROR (el error es la diferencia al cuadrado entre un
valor tabular (yi) y su respectiva prediccin (y) tabular ( yi ) y su respectiva prediccin
( y ) entonces la curva de regresin ptima ser la que cumpla con un:
donde: di = ( yi y i )2
Los resultados anteriores nos inducen a pensar por un lado, que existe una recta que
minimiza las distancias que hay entre sta y los puntos del diagrama de dispersin y
por otro, que la diferencia entre los puntos registrados y la recta nos ofrece una medida
de la bondad de la recta de regresin como instrumento de prediccin estadstica. En
otras palabras, si la diferencia ( y y ) entre la recta y cada uno de los puntos de la
tabulacin es mnima entonces se tendr un mejor modelo de prediccin. Para
determinar este prrafo, diremos que, a cada valor de la tabulacin le corresponder un
valor de prediccin obtenido por la ecuacin de regresin:
y = a + bx (1)
y1 y1 y1 y 1 ( y1 y 1 )2
Y2 y2 y2 y 2 ( y2 y 2 )2
Y3 y3 y3 y 3 ( y3 y 3 )2
Diferencia al cuadrado
yn yn yn y n ( yn y n )2
n 2 2 2 2
D= y i y i = y 1 y 1 + y 2 y 2 + . . . + y n y n
i=1
(2)
39
Si sustituimos la ecuacin de prediccin y = a + bx (1) en la ecuacin de error (2)
tenemos:
n 2 n
D= y i y i =
i=1
[y
i=1
i (a + bx i )]
(y )
n
2
= i a bx i (3)
i =1
Como te dars cuenta, los valores xi y yi son valores incluidos en la tabulacin, por lo
tanto, el error mnimo (D) slo depende de los valores que tomen los parmetros a y b
que determinan la recta de regresin o prediccin. Esto nos conduce a una
conclusin sorprendente, pues el problema de calcular la recta de regresin o
prediccin se reduce a calcular los valores de a y b para los cuales el valor del error (D)
es mnimo.
Hasta aqu, hemos preparado el terreno para desarrollar el mtodo general para
encontrar la Recta de regresin, al que llamaremos Mtodo de Mnimos Cuadrados.
Retomaremos la tabulacin del ejemplo No. 1, para observar cmo se calcula la recta
de regresin, a la que tambin llamaremos: Recta de mnimos Cuadrados. En este
clculo utilizaremos los valores cuadrticos x2, y2 y xy, as como tambin las
sumatorias correspondientes xi , yi y xi2 que ya habas utilizado para el clculo del
coeficiente de correlacin (r).
X Y X2 Y2 XY
2 12 4 144 24
4 18 16 324 72
5 25 25 625 125
3 23 9 529 69
4 27 16 729 108
6 19 36 361 114
10 32 100 1024 320
12 26 144 676 312
46 182 350 4412 1144
40
Nmero de parejas ordenadas n = 8
Promedio de X = x =
x
n
Promedio de Y = y =
y
n
y = a + bx (1)
b=
(1/ n) xy xy
(Pendiente de la recta) (2)
(1/ n) n 2 (x)2
Si suponemos que el punto ( x , y ) satisface la ecuacin de regresin y = a + bx
entonces:
y =a+b x
SOLUCIN.
x=
n = 46 = 5.75 y=
y = 182 = 22.75
n 8 n 8
41
Sustituyendo los valores anteriores y los de la tabulacin en la ecuacin de la pendiente
(2) tenemos:
y = 16.2 + 1.14x RECTA DE MNIMOS CUADRADOS
n ( xy ) ( x )( y )
b= (4)
n x ( x )
2 2
yp = y + b ( x x ) (5)
yp = 22.75 + 1.1403(x-5.75)
yp = 16.192 + 1.1403x
42
Ventas estimadas para un vendedor con tres aos de experiencia.
y = 16.2 + 1.14(3) = 19.62 (miles de N$)
y = 16.2 + 1.14(11) = 28.74 (miles de N$)
30 Recta de mnimos
cuadrados
(11,28.74)
25
(2,19.62)
20
15
10
X
2 4 6 8 10 12 14
Grfica No. 19
y = 16.2 + 1.14 x
43
al sustituir x obtenemos:
y = 16.2 + 1.14 x
30
25
22.75 (5.75,2275)
20
(X, Y )
15
10
Grfica No. 20
Una vez que has desarrollado estos conceptos, te recomendamos que calcules las
ecuaciones de regresin de los ejemplos 2 y 3 de este tema con el fin de que
practiques el desarrollo del mtodo de mnimos cuadrados.
44
RECAPITULACIN
REGRESIN ESTADSTICA
PAREJAS ORDENADAS
TABULACIN
GRFICA DE DISPERSIN
RECTA DE REGRESIN
O PREDICCIN
MTODOS DE MNIMOS
CUADRADOS
n ( xy) ( x )( y )
b=
n x ( x )
2
y = a + bx 2
a= y +b(x x )
yP = x + b ( x - x )
GRFICA
45
ACTIVIDADES DE CONSOLIDACIN
Para reafirmar los conocimientos que adquiriste sobre los temas de Correlacin y
Regresin Lineales al estudiar este fascculo, te sugerimos realizar las siguientes
actividades:
1. Los siguientes datos muestran el nmero de horas (x) dedicadas a estudiar para un
examen y la calificacin (y) obtenida en dicha prueba. Observa en el diagrama de
dispersin si existe alguna correlacin lineal y en caso de que as sea, calcula el
coeficiente de correlacin de Pearson (r).
x (horas-estudio) 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y (calificacin) 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
2. Se realiz un estudio para investigar la relacin que existe entre el peso (x) en
libras (lb), la presin sangunea (y), de adultos varones cuyas edades oscilan entre
19 y 30 aos. Se obtuvieron los siguientes resultados.
x(lb) 173 178 145 146 157 175 173 137 199 131 152 172 163 170 135 159
y(lb/pul2) 76 76 74 70 80 68 90 70 96 80 90 72 76 80 68 72
Puntaje de auto-
5 6 6 7 8 8 8 9 9 9 10 10 11 12
concepto (y)
Puntaje iniciativa
5 6 8 7 9 11 12 11 12 14 14 16 15 17
personal (x)
4. De acuerdo con lo que has desarrollado en este fascculo, contesta las preguntas
que se encuentran al inicio del tema de regresin y comntalas con tu profesor o
asesor.
46
No. de aos de servicio (X) No. de empleados que
Renunciaron (Y)
16 14
9 15
13 16
10 14
15 17
10 10
11 15
12 12
El modelo bivariante, pginas 339-347 del libro Estadstica con aplicaciones a las
Ciencias Sociales y a la educacin por W.W. Daniel, de la bibliografa.
47
AUTOEVALUACIN
SOLUCIONES:
1) El diagrama de dispersin lo dejamos para que los compares con tus compaeros y
cambies impresiones. El clculo de r redondeado a tres cifras, da como resultado
0.741.
Para el tema de Regresin Lineal, se sugiere elaborar un ensayo acerca de los puntos
esenciales del tema, de manera que el profesor o asesor observe el manejo de stos.
48
ACTIVIDADES DE GENERALIZACIN
5. Comprueba que la recta y = a + bx puede expresarse como Y = y + b(X - x ).
Te sugerimos encuentres la recta de regresin de los ejemplos desarrollados
durante el fascculo, con esta relacin).
49
BIBLIOGRAFA CONSULTADA
50