Está en la página 1de 42

ESTADISTICA

CONCEPTOS BASICOS
INDIVIDUO. Persona, animal, objeto, institucin.
CARACTERISTICA. Es una cualidad o atributo de un individuo.
- Elementos de una Caracterstica
Nombre. Viene a ser la cualidad de inters.
Definicin Conceptual. Fija con precisin el significado de la caracterstica.
Definicin Operacional. Es el proceso por el cual nmeros o smbolos son
asignados a la cualidad o atributo.(medicin)
Notacin. Viene a ser la representacin simblica de la caracterstica. Se utiliza
las ltimas letras del alfabeto en mayscula.
MEDIDA. Proporciona una indicacin cuantitativa. (Dato)
Ejemplo 1.
INDIVIDUO. Alumno Juan Pablo, lleva el curso de Estadstica I, en el Periodo
Acadmico 2012-I, de la EAPIS, grupo 2.
CARACTERISTICA
Sea una caracterstica propia de Juan Pablo: Nmero de Hermanos.
Elementos de la caracterstica.
Nombre: Nmero de hermanos.
Definicin Conceptual: Se considera a los hermanos de padre y madre, los de
solo madre y los de slo padre. El alumno no debe incluirse.
Definicin Operacional: Para obtener la medida deber utilizarse el conteo.
Notacin: X
MEDIDA. 5 hermanos.
VARIABLE
Definicin. Es la caracterstica, cualidad o atributo que vara de un individuo a otro.
Para ver esta variacin deben considerarse mnimo 2 individuos.
Ejemplo 2. Consideraremos 2 individuos y la caracterstica del ejemplo 1.
Individuo
Alumno
Carlos
Pedro

Caracterstica
Nmero de hermanos
4
2

INFORMACION ESTADISTICA. Magnitud o cantidad que se obtiene a partir de las


medidas o datos. Ejemplo. El total de hermanos de los 2 alumnos es 6.
CLASIFICACION DE LAS VARIABLES.
Las variables se clasifican de acuerdo a:
1. la Escala de medida.
2. la relacin entre las variables

Lic. Mara A. Zacaras Daz

Pgina 1

1. De acuerdo a la escala de medicin usada, las variables pueden ser: Categricas o


Cuantitativas.
1.1. Variables Categricas
Si la variable ha sido medida con la escala nominal u ordinal.
1.2. Variable Cuantitativa.
Si la variable ha sido medida con una escala de intervalos o de razn.
Las variables cuantitativas a su vez se clasifican en:
1.2.1. Variable Discreta.
Una variable es discreta, si el conjunto de valores que puede tomar es
finito o infinito numerable. Ejemplo: el nmero de hermanos del
ingresante 2003. Los valores que puede tomar esta variable solo pueden
ser los del conjunto {0, 1, 2, , k}
1.2.2. Variable Continua.
Una variable es continua, si sus valores pueden ser cualesquiera de los
elementos de un intervalo. Ejemplo: La estatura de cada uno de los
ingresantes del 2003. Los valores que puede tomar esta variable esta en
el intervalo ( 0, 200 ) centmetros.
2. De acuerdo a su relacin entre ellas, pueden clasificarse en Independientes y
Dependientes.
2.1. Variables Independientes, si sus valores influyen en otra u otras variables.
2.2. Variables Dependientes, si sus valores dependen de los valores que tome una
variable independiente. Ejm.
Ingreso personal: variable dependiente.
Grado de instruccin: Variable independiente.
FORMULACION DE UN PROBLEMA.
CASOS
1. Bolivia es un Pas que tiene grandes cantidades de Gas Natural. Buen porcentaje
de la poblacin Boliviana vive en situacin de pobreza, por lo que el Presidente
Boliviano y el equipo que lo acompaa consideran que una forma de mejorar la
calidad de vida de los bolivianos es exportando el gas. Para hacer esta
exportacin deben instalarse tubos que transporten el gas hacia el mar ya sea por
Per o Chile. Como consecuencia de una guerra que sostuvieron aos atrs
Bolivia y Chile, Bolivia perdi su salida al mar, por ello muchos bolivianos
tienen un gran resentimiento contra Chile, por lo que no quieren que la salida al
mar sea por Chile. Entre los muchos criterios que deber tomar en cuenta el
Presidente Boliviano, est la opinin de los bolivianos es decir, saber cuntos
son los bolivianos que estn a favor de Chile y cuntos estn a favor de Per
para ello llevar a cabo un referndum en este ao 2004. A partir de estos
resultados podr decidir donde se instalaran los tubos.
2. Los alumnos del curso de Estadstica I, de la EAP de Economa del periodo acadmico
2001 II, como parte del curso debieron presentar un trabajo que consista en
obtener informacin a travs de una encuesta. Un grupo de ellos observ, que,
muchos de sus compaeros tenan dificultades econmicas, que no les permita cubrir
los gastos propios de la vida universitaria, mientras que otros no tenan dificultades,
Lic. Mara A. Zacaras Daz

Pgina 2

por ello es que trataron de saber si el ingreso con que contaban la mayora de los
alumnos del curso de Estadstica I, les permita cubrir sus gastos. Dependiendo de la
informacin que obtuvieran solicitaran el apoyo de la unidad de Bienestar de su
Facultad.

Los casos 1 y 2 dados arriba vienen a ser un problema el cual ha sido formulado y a esta
ACCION se le llama FORMULACION DE UN PROBLEMA.
Toda buena formulacin responde a las siguientes preguntas:
a. Quin es la persona que desea obtener informacin?
b. Qu es lo que desea saber?
La respuesta a esta pregunta viene a ser la informacin que se busca. Tambin se
llama objetivo.
Esta informacin se obtiene a partir de los datos o medidas de una o ms

variables.
c. Cul o cules son las variables que permitirn obtener la informacin que se
busca?
d. En quien se va a medir la variable?
Es en el individuo, en quien se medir la variable(s), las medidas que se
obtengan, permitir obtener la informacin que se esta buscando.
e. En quines va a medir la variable(s)?
Es el conjunto de individuos delimitados por el tiempo y el espacio.
Cuando se considera a todos los individuos para obtener las medidas o datos
que permitirn obtener la informacin buscada se dice que se esta considerando
a la poblacin total.
Cuando se considera una parte de los individuos, se dice que se esta
considerando una muestra.
f. De donde?
Viene a ser el rea geogrfica donde se encuentran los individuos.
g. De cuando?
Se refiere al periodo de tiempo que se empleara para obtener la informacin
buscada.
h. Para qu?
Se refiere al uso que se le dar a la informacin obtenida.
i. Cmo va obtener la informacin que busca?
Se refiere al mtodo que se va a emplear para obtener la informacin buscada.

Veamos si los casos 1 y 2 estn bien formulados:


Caso Nro. 1.
a. Quin desea obtener informacin?
El Presidente Boliviano.
b. Qu informacin desea obtener?
Desea saber cuantos bolivianos estn a favor de que la salida al mar sea por
Per y cuantos a travs de Chile.
c. Qu variable permitir obtener esa informacin?
Preferencia de pas.
d. En quin se va a medir la variable?
En el ciudadano Boliviano.
Lic. Mara A. Zacaras Daz

Pgina 3

e. En quienes se va medir la variable?


En todos los ciudadanos Bolivianos del ao 2004
f. De donde?
Del pas Bolivia.
g. De cuando?
Desde marzo a julio del 2004.
h. Para que?
Para que tome la decisin respecto al pas por donde deber transportarse el
gas.
c. Cmo va obtener la informacin que busca?
A travs de una Encuesta y mtodos estadsticos.
Caso Nro. 2.
c. Quin desea obtener informacin?
Un grupo de alumnos del Curso de Estadstica I de la EAPE.
d. Qu informacin desea obtener?
Desea saber si la MAYORA de los alumnos del curso de Estadstica I, sus
ingresos cubre sus gastos
d. Qu variables permitir obtener esa informacin?
Ingreso semanal (I)
Gasto semanal (G)
d. En quin se va a medir la variable?
En el alumno del curso de Estadstica I.
e. En quienes se va medir la variable?
En todos los alumnos del curso de Estadstica I
f. De dnde?
De la EAPE y la FCE de la UNMSM.
g. De cundo?
Del periodo acadmico 2001 - II
h. Para qu?
Solicitar el apoyo de la Unidad de Bienestar de la FCE
e. Cmo va obtener la informacin que busca?
A travs de una Encuesta y mtodos estadsticos..
DIFERENCIAS ENTRE LOS PROBLEMAS O CASOS 1 Y 2.
En el CASO1 para obtener la informacin buscada se requiere de los datos de
una sola variable
En el CASO 2 para obtener informacin buscada se requiere de los datos de 2
variables
SEMEJANZAS DE LOS PROBLEMAS O CASOS 1 Y 2.
Para obtener la informacin buscada, tanto para el caso 1 y caso 2, se necesita de un
GRUPO DE INDIVIDUOS, a partir de esto, podemos decir, que un problema es un
PROBLEMA ESTADSTICO cuando para obtener la informacin se requiere de un
grupo de individuos que estn agrupados por una o ms cualidades comunes.
NOTA.
Lic. Mara A. Zacaras Daz

Pgina 4

Es conveniente que definamos algunos de los trminos importantes.

Dato.
Es la medida que se obtiene al medir la variable en el individuo. Por lo tanto medida es
equivalente a dato.
A partir de esta definicin podemos decir que las medidas de un problema estadstico
vienen a ser datos estadsticos
MARCO MUESTRAL.
Es la relacin de todos los individuos de la poblacin. Ejemplo en el caso 1 el marco
muestral esta constituido por la RELACIN DE Bolivianos que cumplen las
condiciones para opinar.
UNIDAD ESTADSTICA.
Es el elemento bsico en funcin de la cul est definida la poblacin y en funcin de la
cul se recoge la informacin. Puede ser una persona, un objeto, una institucin, etc.
Ejemplo en el caso 1 la unidad estadstica es el ciudadano Boliviano.
INFORMANTE
Es la persona que proporciona la medida o el dato. Ejemplo en el caso 1, el informante
es el ciudadano Boliviano.

METODOS PARA OBTENER LA INFORMACIN BUSCADA.


Generalmente se usa usan:
1. Encuesta.
2. Experiment.
3. Registro Administrativo
ENCUESTA.
FASES DE UNA ENCUESTA.
1. Planeamiento.
2. Recoleccin.
3. Procesamiento de datos.
1. FASE DE PLANEAMIENTO.
Esta fase involucra una serie de operaciones, pudiendo ser pocas o muchas depende de la
envergadura del problema. Estas operaciones permiten contar con todo lo necesario para
obtener los datos.
2. FASE DE RECOLECCIN DE DATOS.

Lic. Mara A. Zacaras Daz

Pgina 5

Se aplica lo establecido en la fase de planeamiento para obtener la informacin, es decir


contar con el personal que va a captar los datos, los cuestionarios y si la captacin de los
datos va a ser mediante un autoempadronamiento o entrevista.

3. FASE DE PROCESAMIENTO DE DATOS.


Operaciones.
a. Crtica
b. Almacenamiento de datos.
c. Mtodos para procesar datos

a. Crtica
Generalmente cuando un cuestionario involucra muchas preguntas, puede
ocurrir que hayan preguntas sin respuesta, o con respuesta ilegible, o con
respuesta inconsistente, es en esta operacin que se trata de salvar en tanto sea
posible estas ocurrencias.

b. Almacenamiento de datos.
Los datos de los cuestionarios se almacenan en una tabla como la siguiente:
MATRIZ TRIPARTITA
Unidad
Variable 1 Variable 2
.................. Variable K
Estadstica
1
2
.
.
.
N o n
METODOS PARA PROCESAR LOS DATOS DE CADA UNA DE LAS
VARIABLES QUE SE ENCUENTRAN EN UNA MATRIZ TRIPARTITA
En una matriz tripartita se puede encontrar variables categricas y/o cuantitativas.
Cada una de ellas independientemente del tipo de variable que sea, tiene asociada un
conjunto de datos o medidas y cmo lo que se desea es resumir este conjunto de datos,
los mtodos que se utilizarn son:
1. Tablas de frecuencia para una variable, dos o ms variables.
2. Medidas Resumen o indicadores de Tendencia Central, Dispersin, Asimetra y
Apuntamiento.
TABLA DE FRECUENCIA UNIDIMENSIONAL
Si bien es importante tener en cuenta el nombre de la variable, sin embargo, en adelante
usaremos su notacin. As:
Sea la variable X, cuyo conjunto de datos lo denotaremos: x1 , x2 ,............, xn o N en este
conjunto de datos buscamos los datos diferentes, a estos datos diferentes los
llamaremos valores diferentes y los denotaremos por X 1 , X2 , ................, Xm , luego
contaremos cuantas veces se repite cada dato diferente y a este resultado le llamaremos

Lic. Mara A. Zacaras Daz

Pgina 6

frecuencia y lo denotaremos, por f1, f2, .............. , fm , con este procedimiento hemos
arribado a una tabla como la siguiente:
Xi

fi

X1
X2
.
.
.
Xm

f1
f2
.
.
.
fm

Esta tabla es llamada TABLA DE FRECUENCIAS.


TIPO DE FRECUENCIAS.
1. Frecuencia absoluta
Indica el nmero de veces que se repite cada dato diferente.
Se denota por: fi , i = 1, 2, 3, ... , m.
Ejemplo:
f2: nos indica el nmero de veces que se repite el dato diferente X 2.
Propiedades.
fi 0
1.
m

2.

f
i 1

2.

n( N )

Frecuencia relativa
La frecuencia relativa est definida como el cociente de la frecuencia absoluta entre
el total de datos. Este total de datos puede ser total de datos poblacionales que se
denota por N o total de datos muestrales que se denota por n. Esta frecuencia se
denota por hi, luego:
hi = fi / N i = 1, 2,.......N

h i = fi / n

i = 1,2,......... n

Propiedades.
1. 0 hi 1
2.
3.

4.

h
i 1

Frecuencia absoluta acumulada.


Se denota por F i .
Esta definida como: Fi = f1 + f2 + ... + fi
Propiedades.
1. F1 F2 .......Fm
2. Fm = Total de datos.

i = 1,2, ... , m

Frecuencia relativa acumulada.


Se denota se denota por H i .

Lic. Mara A. Zacaras Daz

Pgina 7

Esta definida como: Hi = h1 + h2 + ...


Propiedades.

+ hi

i = 1, 2, ....

, m.

1. H1 H 2 ..........H m
2. Hm = 1
TABLA DE FRECUENCIAS CON DOS VARIABLES
Construccin.
1. Se obtienen las clases de cada una de las variables, as:
Variable R
Clase 1
Clase 2
.
.
.
Clase m

Variable S
Clase 1
Clase 2
.
.
.
Clase p

2. Las clases de una de las variables se dispone de modo vertical y la de otra de modo

horizontal, estos ordenamientos da lugar a la siguiente tabla:

Tabla Nro. 1
Variable
R
Clase 1
Clase 2
.
.
Clase m

Variable
Clase 1

Clase 2

S
.

Clase p

3. Luego se determina el nmero de datos que cae en cada celdilla.

Estas tablas pueden involucrar dos variables cuantitativas o dos categricas o una
categrica y la otra cuantitativa.
Presentemos la tabla bidimensional antes dada de la siguiente manera:
Tabla Nro.2
Ri
Lic. Mara A. Zacaras Daz

SJ

fi.
Pgina 8

S1
R1
f11
R2
f21
.
.
.
.
.
.
Rm
fm1
f. j
f.1
Nota. Ri , i 1, 2,..., m

S2
f12
f22

Sp
f1 p
f2 p

f1 .
f2 .

fm2
.
.
.
fm p
fm .
f.2
.
.
.
f. p
n
S j , j 1, 2,..., p son los valores diferentes de R y S respectivamente

En esta tabla:
fi j : Es el nmero de datos que toman los valores R i y S j
p

fi . : Es el nmero de datos que toma el valor R i , donde f i fij


j 1

f. j : Es el nmero de datos que toma el valor S j , donde f j f ij


j 1

Tipos de frecuencia.
1. Absoluta bidimensional. Notacin fij
Indica la cantidad de datos que hay en la celdilla, ij.
2. Relativa Bidimensional. Notacin hij
Indica el porcentaje de datos que hay en la celdilla ij
3. Absoluta acumulada bidimensional. Notacin. Fij
Indica la cantidad de datos que se han acumulado hasta la celdilla ij.
4. Relativa acumulada bidimensional. Notacin Hij
Indica el porcentaje de datos que se han acumulado hasta la celdilla ij.
TABLAS MARGINALES.
Si consideramos la primera y ltima columna de la tabla Nro. 2 obtenemos la siguiente
tabla:
Ri

fi.

R1
f1 .
R2
f2 .
.
.
.
Rm
fm .
Y esta es la tabla de frecuencias unidimensional correspondiente a la variable R.
As mismo, si solo consideramos la primera y ultima fila, obtenemos la siguiente tabla:
Sj
f. j

S1
f.1

S2
f.2

.
.

.
.

.
.

Sp
f. p

Y esta es la tabla de frecuencias unidimensional correspondiente a la variable S.


Lic. Mara A. Zacaras Daz

Pgina 9

De lo mostrado podemos concluir que a partir de la tabla bidimensional se obtienen las


tablas unidimensionales correspondientes a cada una de las variables y a estas se les
llama tablas marginales.
Observacin
Una tabla de frecuencias unidimensional muestra el comportamiento de la
variable, esto es equivalente a decir que la tabla muestra la clasificacin de
los individuos de acuerdo a los valores de la variable, tambin podemos
decir que muestra la distribucin de los datos de acuerdo a los valores de la
variable.
Una tabla frecuencias bidimensional muestra la relacin entre dos
variables.
TABLAS CONDICIONALES.
Si consideramos la primera y segunda columna de la tabla Nro. 2 obtenemos la
siguiente tabla:
Ri

S1

R1
R2
.
.
.
Rm

f11
f21
.
.
.
fm1
f.1
f . 1 indica el total de datos que toman el valor S 1 y esta tabla nos muestra cmo ese
total de datos se distribuye de acuerdo a los valores de la variable R, a esta tabla se le
llama tabla condicional. Haciendo uso de las notaciones anteriores esta tabla podemos
presentarla de la siguiente manera:
Ri

f i S1

R1
R2

f1
f2

fm

f .1
Y en general para cualquier valor de S, la tabla condicional es:
Ri

R1
R2

f1
f2

fm

R
Lic. Mara A. Zacaras Daz

fi

Pgina 10

f j
J = 1, 2 .... p.
Por lo tanto existen tantas tablas condicionales como valores tenga la variable S, en este
caso tenemos p tablas condicionales.
De la misma manera procedemos para la otra variable, es decir para cada conjunto de
datos que toma el valor R i , i = 1,2,...m se obtiene la distribucin de este conjunto de
datos de acuerdo a los valores de la variable S. En este caso tenemos m tablas
condicionales y en general a partir de la tabla bidimensional se obtienen m + p tablas
condicionales.
USO DE LAS TABLAS CONDICIONALES.
Si las tablas condicionales se expresan en trminos de la frecuencia relativa y estas
se comparan, y las variables involucradas son categricas entonces estas tablas nos
permite decir si existe o no relacin entre las variables consideradas
Ejemplo.
Los siguientes datos corresponden a las variables, X: Ao de ingreso y Z: Ciclo o
semestre acadmico en que se encuentra el alumno, de un grupo de alumnos de la FISI
de la UNMSM, que en el Periodo Acadmico 2008-I llevaban el curso de Estadstica I.

Lic. Mara A. Zacaras Daz

U.E.

2007

2007

2007

1999

2006

2005

2007

2005

2005

10

2005

11

2007

12

2003

13

2007

14

2007

15

2007

16

2007

17

2007

18

2005

19

2007

2
Pgina 11

20

2007

21

2007

Qu se podra decir respecto al avance acadmico de este grupo de alumnos?


Rspta.
Para conocer el avance acadmico de este grupo de alumnos se tendra que construir una
tabla de doble entrada o bidimensional, es decir:
1. Hallamos las clases de cada una de estas variables.
X: Ao de ingreso.
Sus clases o datos diferentes son, Xi: 1999, 2003, 2005, 2006 y 2007.
Z: Semestre en que se encuentra.
Sus clases o datos diferentes son, Zi: 2, 3, 5.
2. Las clases de una de las variables ubicamos a modo de columna y la otra
a modo de fila, lo que genera el cuadro siguiente:
Zj

Xi

1999
2003
2005
2006
2007

3. Se determina la cantidad de datos que cae en cada celdilla.


Zj

Xi
1999

1
3

2003
2005

2006

2007

13

Interpretacin.
f51 = 13 alumnos. Nos indica que 13 alumnos ingresantes del ao 2007 se encuentran
cursando el segundo ciclo de su plan de estudios.
Considerando toda la tabla podemos concluir, que todos los alumnos de ese grupo
acadmicamente estn atrasados, unos en mayor medida que otros.
Tambin se puede decir que el 62% de los alumnos que llevan el curso son ingresantes
del 2007 y que tienen el atraso de un ciclo.
Tablas Marginales.
Si se aade una columna de totales, asimismo una fila de totales considerando:
SOLO la primera y ltima columna obtenemos la distribucin de los datos de la
variable X.
SOLO la primera y ltima fila obtenemos la distribucin de los datos de la
variable Z

Lic. Mara A. Zacaras Daz

Pgina 12

Zj

Xi

1999

fi .

2003

f.

2005

2006

2007

13
16

1
3

1
1
5
1
13
21

Tablas condicionales.
Si, a partir de la tabla bidimensional:
Zj

Xi

1999

1
3

2003
2005

2006

2007

13

Consideramos, la primera y segunda columna, es decir.

Xi

Z1
2

1999

2003
2005

2006

2007

13

Total

16

Esta es una tabla condicional, que muestra la distribucin de los datos de la variable X,
condicionada al primer valor de la variable Z, es decir, qu de los 16 alumnos que se
encuentran en el segundo ciclo, se ve como se distribuyen de acuerdo a su ao de
ingreso.
La presentacin adecuada de la tabla anterior, que es una tabla unidimensional, es:
Xi

fx/ z = 2

1999

2003
2005

Lic. Mara A. Zacaras Daz

2006

2007

13
Pgina 13

Total

16

Del mismo modo podemos hallar tablas condicionales, que muestran la distribucin de
los datos de la variable Z, dado o condicionado a un valor de X.
Ejemplo.
Considerando, las clases de la variable Z y la tercera fila de la tabla bidimensional,
obtenemos:
X3

Zj

2005

2
3
5

3
1

La forma correcta de presentar esta tabla es:


Zj

fZ / X = 2005

2
3
5

3
1

REPRESENTACIN GRFICA
Cuando se desea presentar grficamente los datos correspondientes a dos variables, se
debe tomar en cuenta la forma de presentacin de los datos, es decir, si:
1. Estn tabulados.
2. No estn tabulados. (en su forma original).
Considerando estas presentaciones, tenemos:
1. Generalmente se construye la grfica cuando los datos corresponden a variables
categricas.
2. Se construye la grfica cuando los datos corresponden a variables cuantitativas.

Representacin grfica para dos variables categricas.


Grfica de barras Segmentadas.
Esta grfica es similar a la grfica de barras simples, con excepcin de que cada barra
ha sido segmentada en sus partes componentes.
Construccin.

Lic. Mara A. Zacaras Daz

Pgina 14

Es similar a la de barras simples, slo que se debe identificar claramente las


componentes dentro de cada categora; esto puede lograrse utilizando diferentes colores
o sombreados para cada categora.
Usos.
Esta grfica se usa para hacer:
Comparaciones de la magnitud relativa de las componentes dentro de cada
categora de una de las variables.
De los totales entre las categoras de la otra variable.
Limitaciones.
No es conveniente utilizar esta grfica cuando la categora de un de las variables
contiene ms de 3 componentes.
No permite una fcil comparacin de las componentes entre modalidades.
Ejemplo.
En los estudiantes de un saln de la Escuela Los Nios Felices se midi las variables:
Desempeo Escolar: Deficiente
Regular
Bueno
Excelente
Estado Nutricional:

1
2
3
4

Deficiente 1
2
Bueno

Estudiantes Desempeo Estado


Estudiantes Desempeo Estado
Escolar
Nutricional
Escolar
Nutricional
1
1
1
16
2
1
2
2
1
17
2
2
3
2
2
18
1
1
4
1
1
19
1
2
5
1
1
20
2
1
6
1
1
21
3
2
7
2
1
22
3
2
8
2
1
23
3
1
9
1
1
24
1
1
10
3
2
25
2
1
11
2
2
26
2
2
12
1
1
27
3
2
13
3
2
28
4
2
14
1
2
29
1
1
15
3
1
30
1
2

Lic. Mara A. Zacaras Daz

Pgina 15

a. Construya la tabla de frecuencias bidimensional y la grfica asociada a ella e


interprete sus resultados.
b. Utilice la tabla de frecuencias adecuada que le ayuda a confirmar la relacin
entre las variables.
c. Obtenga las 2 distribuciones de frecuencia marginales e interprtelas.
d. En qu difieren sus resultados de las preguntas b y c?
Solucin.
a

yi
1
2
3
4

xj
1
9
6
2
0

2
3
4
5
1

Interpretacin
La tabla nos muestra que cuando el estado nutricional es deficiente hay una mayor
cantidad de alumnos, 9, con desempeo escolar malo, por otro lado, cuando el estado
nutricional es bueno hay una mayor cantidad de alumnos, 5, con desempeo escolar
bueno.
La grafica nos muestra qu, dentro del grupo de alumnos con desempeo escolar
deficiente hay una mayor cantidad de alumnos que tienen estado nutricional deficiente y
dentro del grupo de los alumnos con desempeo escolar bueno hay una mayor cantidad
de alumnos con estado nutricional bueno.
En conclusin tanto la tabla como la grfica nos dice que para este grupo de alumnos
existe relacin entre su desempeo escolar y su estado nutricional
b.

yi
1
2
3
4
total

xj
1
52.94
35.29
11.76
0
100

Lic. Mara A. Zacaras Daz

2
23.08
30.77
38.46
7.69
100

Pgina 16

La tabla nos muestra la distribucin porcentual de los alumnos, de acuerdo a su


desempeo escolar, pero de todos aquellos que tienen estado nutricional deficiente, por
un lado, y por otro, de todos aquellos que tienen estado nutricional bueno. Al comparar
estas distribuciones unidimensionales condicionales, vemos que sus comportamientos
son diferentes en consecuencia decimos que las variables son dependientes.
Las grficas nos muestran las distribuciones condicionales indicadas lneas arriba.
c. A partir de la tabla bidimensional obtendremos las marginales.
xj

yi

1
9
6
2
0

2
3
4
5
1

f i.
12
10
7
1

17

13

30

1
2
3
4
f.

Las marginales son las siguientes:

Distribucin de los datos de Y

yi
1
2
3
4
Total

Distribucin de los datos de X

f i.

xj

f.

12
10
7
1
30

1
2
Total

17
13
30

Muestra que la mayora de los alumnos


tiene un desempeo escolar en tre
malo y regular.

Lic. Mara A. Zacaras Daz

Muestra que la ms del 50% de los


alumnos tiene un estado de nutricin
deficiente.

Pgina 17

e. En la pregunta b nos muestra la distribucin de los alumnos de acuerdo a su


desempeo escolar pero condicionado a su estado nutricional, en cambio la
pregunta c nos muestra la distribucin de los alumnos de acuerdo a su
desempeo escolar y la distribucin de los alumnos de acuerdo a su estado
nutricional.

Representacin grfica para dos variables Cuantitativas.


Si el nmero de datos no es demasiado grande se pueden graficar los datos a travs de
puntos en el sistema cartesiano, lo cual permite un mejor anlisis visual que puede
servir de base para posteriormente hacer un mayor anlisis efectuando algunos clculos,
a esta grfica se le llama:
Nube de puntos o Diagrama de puntos.
Ejemplo.
Consideremos las siguientes variables:
Y: Nmero de veces que llega tarde.
X: Hora que llega al saln de clase.
xi

yi

08:20

08:20

08:15

08:10

08:30

08:10

08:10

08:15

08:15

08:15
08:10

2
1
4
2
1
3

08:15
08:30
08:35
08:20

Lic. Mara A. Zacaras Daz

Pgina 18

Tablas finales o Cuadros Estadsticos


Las tablas y grficas elaboradas hasta esta parte, son llamadas tablas y grficas
intermedias ya qu las que son incluidas en un informe final son las tablas y grficas
finales o Cuadros estadsticos.
Partes Principales de una Cuadro Estadstico.

El nmero de partes puede variar pero generalmente son las siguientes:


Nmero de tabla
Ttulo
Nota de encabezado
Cuerpo
Nota de pie
Fuente de datos
Numero de tabla
Titulo
Nota de encabezado
VARIABLE
R
Clase 1
Clase 1
Clase 2
.
.
.
Clase m
Total

Clase 2

VARIABLE
.
.

Total
.

Clase p

Nota de pie.
Fuente de datos.
Lic. Mara A. Zacaras Daz

Pgina 19

Anlisis de asociacin Simple no Lineal


Modelo de regresin Polinomio de segundo grado
Una de las relaciones no lineales ms comunes es la relacin polinomial curvilnea, en
la cual Y aumenta o disminuye a una tasa cambiante para los diversos valores de X.
Este modelo de una relacin polinomial entre X e Y se puede expresar como sigue:
Donde:
= ordenada al origen
= efecto lineal sobre Y
= efecto curvilinio sobre Y
= error aleatorio en Y para la observacin i.

Contando con los datos de una muestra, la ecuacin de regresin es:


=
De la ecuacin anterior los coeficientes de regresin
estimadores de los parmetros

se pueden usar como

Esta ecuacin requiere la determinacin de los coeficientes b 0, b1 y b2 es decir conocer


el valor que toma cada uno de ellos, para ello utilizamos el mtodo de mnimos
cuadrados.
El mtodo de mnimos cuadrados produce los estimadores para mtricos b0 , b1 y b2 en
tal forma que

i 1

i 1

ei2 yi $y i

yi b0 b1 xi b2 xi2

i 1

es un valor mnimo.
El mtodo de mnimos cuadrados nos conduce a un sistema de 3 ecuaciones
cuya solucin proporciona el valor de b 0 , b1 y b2
Procedimiento para obtener los estimadores b0 , b1 y b2

b0


i 1

yi b0 b1 xi b x
2 2
2 i

n
yi b0 b1 xi b22 xi2
b1 i 1

2 yi b0 b1 xi b2 xi2 xi 0

i 1

y nb
i 0

b1 xi b2 xi2
i 0

i 1

y x b x b x

i 0

b2

2 yi b0 b1 xi b2 xi2 0
n

i 0

i i

yi b0 b1 xi b22 xi2

i 1

i 0

i 0

2
i

b2 xi3

II

i0

2 yi b0 b1 xi b2 xi2 xi2 0
i 1

i 0

i 0

i 0

i 0

yi xi2 b0 xi2 b1 xi3 b2 xi4


Lic. Mara A. Zacaras Daz

III
Pgina 20

Ecuacin de regresin muestral centrada


La ecuacin de regresin muestral se puede expresar de otra forma, asi:

=
A esta ecuacin se le llama ecuacin de regresin muestral centrada, pues se est
expresando en trminos de sus desviaciones respecto a la media de la variable
independiente X.
Centrar una ecuacin de regresin se puede hacer tanto por motivos numricos como
estadsticos.
Por motivos numricos: reduce los valores de x esto da lugar a que los clculos sean
ms sencillos.
Motivos estadsticos:

a. La varianza de la variable explicatoria, X, puede resultar muy grande


porque x y x2 tienen correlacin positiva.
b. Puesto x y x2 tienen fundamentalmente la misma informacin, con
frecuencia resulta difcil determinar si el trmino x es realmente
significativo desde el punto de vista estadstico.
c. Tambin es posible que la pendiente del trmino x tenga un signo
opuesto a la tendencia sealada por el diagrama de dispersin.

Para evitar estos problemas algunos investigadores recomiendan centrar la variable X.

Las ecuaciones de regresin centrada y no centrada son equivalentes.


Proporcionan los mismos valores para
y
y explican la misma cantidad
de variacin total. La diferencia entre las dos ecuaciones de regresin ocurre
en los trminos de intercepcin (
) y el efecto lineal
(

Ejemplo.
Suponga que el departamento de mercadotecnia de una cadena de supermercados desea
estudiar la relacin del precio del paquete de rasudadoras y la cantidad de paquetes
vendidos. Se seleccion una muestra de 15 tiendas con el mismo movimiento de
pblico y ubicacin del producto. Los datos se dan en la siguiente tabla.
11 11 11 11 11
Precios
79 79 79 79 79 99 99 99 99 99 9 9 9 9 9
Paquetes
de
rasurador 14 15 16 16 17
10 10 11 12
10 10
as
2 1 3 8 6 91 0 7 5 6 77 86 95 0 6
Grfica de Dispersin

Lic. Mara A. Zacaras Daz

Pgina 21

De acuerdo al comportamiento de los datos postulamos una ecuacin de regresin que


es un polinomio de segundo grado, es decir: =
Sin embargo, por lo ya indicado respecto a los inconvenientes estadsticos de utilizar la
variable independiente tal cual, centraremos la variable X respecto a su media. Lo
anterior implica hacer un cambio en la variable X, asi:
La media de X es:
Paquetes
Precios
de
Precios(centa centrados rasurador
vos de $)
(D)
as
di = ( xi )
xi
yi
79
-20
142
79
-20
151
79
-20
163
79
-20
168
79
-20
176
99
0
91
99
0
100
99
0
107
99
0
115
99
0
126
119
20
77
119
20
86
119
20
95
119
20
100
119
20
106
En adelante trabajaremos con los datos de la variable X centrada, que la estamos
denotando con D. El diagrama de dispersin es:

Lic. Mara A. Zacaras Daz

Pgina 22

La ecuacin de regresin centrada es:


=

Clculos necesarios para hallar el valor de b0 , b1 y b2


Paquetes
Precios de
Tiend centrad rasurado
as
os
ras
di = ( xi
Nro.
- )
yi
diyi
yi di2
1
-20
142
-2840
56800
2
-20
151
-3020
60400
3
-20
163
-3260
65200
4
-20
168
-3360
67200
5
-20
176
-3520
70400
6
0
91
0
0
7
0
100
0
0
8
0
107
0
0
9
0
115
0
0
10
0
126
0
0
11
20
77
1540
30800
12
20
86
1720
34400
13
20
95
1900
38000
14
20
100
2000
40000
15
20
106
2120
42400
Total
0
1803
-6720
505600

di2
400
400
400
400
400
0
0
0
0
0
400
400
400
400
400
4000

di3
-8000
-8000
-8000
-8000
-8000
0
0
0
0
0
8000
8000
8000
8000
8000
0

di4
160000
160000
160000
160000
160000
0
0
0
0
0
160000
160000
160000
160000
160000
1600000

Ecuaciones normales:
1803 =
15 b0 +
0 b1 +
4000 b2
I

-6720 =
0 b0 + 4000 b1 +
0 b2
II
505600 = 4000 b0 +
0 b1 + 1600000 b2
III
La solucin de este sistema de ecuaciones nos lleva a obtener los valores de los
coeficientes de regresin muestral, siendo estos:
b0 = 107.8 b1 = -1.68 b2 = 0.0465
Luego
= 107.8
Lic. Mara A. Zacaras Daz

Pgina 23

Interpretacin de los coeficientes de regresin.


Para interpretar b1 y b2 se observa la curva ajustada en el diagrama de dispersin,
vemos que las ventas disminuyen con el aumento de precios; sin embargo, tambin se
observa que estas disminuciones en el nivel de ventas se estabilizan o disminuyen con el
aumento en el precio. Esto se puede observar mediante la prediccin de venta de
paquetes con precios, 79, 99,119. Asi:
=
Si el precio, x = 79 resulta:
=

= 160

Si el precio, x = 99 resulta:
=

= 107.8

Si el precio, x = 119 resulta:


=

= 92.8

Por lo tanto se espera que una tienda que venda el paquete de rasuradoras a 79 centavos,
venda 52.2 paquetes ms, que una tienda que vende el paquete de rasuradoras a 99
centavos, asimismo una tienda que vende el paquete de rasuradoras a 99 centavos
vender 15 paquetes ms que una tienda que vende a 119 centavos.
Prueba de significacin del modelo curvilneo.
Una vez ajustado el modelo curvilneo a los datos se puede determinar si hay alguna
relacin curvilnea significativa entre las variables consideradas, para ello utilizaremos
la prueba F
1. H 0:
=
0 no existe relacin entre X e Y
H 1:

0 ( al menos un coeficiente de la regresin no es igual a cero)

2. Sea el nivel de significacin


3. Estadstica para la prueba,

4. Se determina el valor crtico a partir de la distribucin F, es decir:

se halla

Lic. Mara A. Zacaras Daz

Pgina 24

5. Decisin, si

, se rechaza H0.

Ejemplo.
Considerando el ejemplo anterior. Se elabora el cuadro del ANOVA.
Clculos previos.
Precios Paquetes
de
centrad rasuradora
os
s
di
-20

142

140.47

ei
1.53

-20

151

140.47

10.53

-20

163

140.47

22.53

-20

168

140.47

27.53

-20
0
0
0
0
0
20

176
91
100
107
115
126
77

140.47
107.8
107.8
107.8
107.8
107.8
75.13

35.53
-16.8
-7.8
-0.8
7.2
18.2
1.87

20

86

75.13

10.87

20

95

75.13

19.87

20

100

75.13

24.87

20

106

75.13

30.87

Media Y

120.2

Total

Cuadro ANOVA
Fuente
Suma
de
de
Grados
variaci cuadrad de
n
os
libertad
Regresi
n
12442.8
2
Residual 1987.6
Total
14430.4

12
14

ei 2
2.3409
110.880
9
507.600
9
757.900
9
1262.38
09
282.24
60.84
0.64
51.84
331.24
3.4969
118.156
9
394.816
9
618.516
9
952.956
9
5455.84
9

21.8

475.24

30.8

948.64

42.8

1831.84

47.8

2284.84

55.8
-29.2
-20.2
-13.2
-5.2
5.8
-43.2

3113.64
852.64
408.04
174.24
27.04
33.64
1866.24

-34.2

1169.64

-25.2

635.04

-20.2

408.04

-14.2

201.64
14430.4

Cuadrad
os
medios
6221.4
165.633
3

Prueba F
Lic. Mara A. Zacaras Daz

Pgina 25

1. H 0:
H 1:

0 no existe relacin entre X e Y


0 ( al menos un coeficiente de la regresin no es igual a cero)

2. Sea el nivel de significacin = 0.05


3. Estadstica para la prueba,

4. El valor crtico a partir de la distribucin F, es decir:

5. Decisin, si

= 3.885,

, se rechaza H0. Existe una relacin no lineal entre

estas variables, que es un polinomio de segundo grado.

Anlisis de Asociacin Mltiple Lineal.


Regresin Mltiple lineal
En la prctica, podemos ver fcilmente que suele haber ms de un factor o variable que
afecta a cierto resultado, por ejemplo, la produccin de un bien es una funcin de las
variables de insumo, tales como: mano de obra, tierra, capital, etc. La demanda de un
bien depende de su precio, ingreso de los consumidores, gastos en publicidad y precios
de otros productos estrechamente relacionados., en consecuencia, el anlisis de
regresin mltiple es muy til y de uso frecuente para problemas econmicos y
comerciales.
Las relaciones entre variables pueden ser lineales o no lineales, en este caso trataremos,
de las relaciones lineales entre 3 variables, siendo una dependiente y dos
independientes. Los aspectos tericos de este caso se pueden generalizar a casos con
ms de 2 variables independientes, asimismo para casos donde la relacin entre la
variable dependiente y las independientes sea no lineal.
Modelo de regresin Trivariable Lineal.
Si una variable dependiente Y est relacionada linealmente con dos variables
independientes, X2 y X3 su relacin funcional puede describirse por el siguiente
modelo de regresin:
(1)
Lic. Mara A. Zacaras Daz

Pgina 26

Donde el subndice i representa la i-esima observacin y el segundo subndice identifica


la variable en cuestin.
En general, el modelo de regresin mltiple lineal definido en (1) es
especificado por el siguiente conjunto de supuestos:
1. Las variables independientes no son aleatorias.
2. Pueden existir relaciones significativas de dependencia lineal entre
dos cualesquiera de las variables independientes, pero su correlacin
no debe ser perfecta.
3. Los errores,
, tienen idnticas distribuciones que son normales con
4. La varianza de Y es constante e idntica a la varianza de
=

, es decir

( El subndice 1 . 23 designa Y dadas X 2 y X3 )

5. Los errores son independientes.


6. El nmero de observaciones de la muestra debes superar al nmero
de coeficientes de regresin que han de estimarse.
Estimacin de los coeficientes de regresin.
Dada una muestra simple al azar extrada de una poblacin trivariable,
constituida por las ternas (
, el modelo trivariable lineal de la
muestra puede escribirse:

(2)
Y la ecuacin de regresin de la muestra de Y sobre X2 y X3 como:
(3)
De las expresiones ( 1 ) y ( 2 ) vemos, que b i son los estimadores de
sea un estimador mnimo cuadrtico de

. Para que b i

, b i debe ser determinado de tal modo que:

Quede reducida al mnimo. El procedimiento de derivacin nos conduce al siguiente


sistema de ecuaciones:
(I)
( II )
( III )
La solucin de este sistema de ecuaciones permite hallar el estimador de

, asimismo

reemplazando los valores de las sumatorias se obtiene el valor de los b i .


Forma alternativa de hallar el valor de los b i .
Dividiendo cada trmino de ( I) entre n, tenemos
Luego, expresando (II) y (III) como desviaciones respecto a la media
m1 2
Lic. Mara A. Zacaras Daz

m2 2

m2 3
Pgina 27

m1 3

m2 3

m3

La solucin de estas ecuaciones en trminos de m, conducen a las


siguientes expresiones que nos permite hallar el valor de b 2 y b3:

Ejemplo.
Los siguientes datos corresponden a caractersticas de los prestatarios de
una casa de prstamos:

UE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Ingreso del
prestatario
x2

Ahorro
mensual
del
prestatario
X3

18
13
7
9
3
15
8
14
11
5
17
16
12
14
13
15
20
23
25
18
17
17
21
18
18
27
22
10
4
10

6
3
2
3
1
3
2
4
2
1
4
5
2
3
4
4
5
3
6
3
4
2
4
3
3
5
3
2
1
2

Cantidad
de
dinero
prestado
Y

29
20
9
12
6
29
10
22
11
8
30
30
18
27
23
22
19
25
29
17
14
14
20
14
17
30
30
6
6
7

Donde las unidades de las variables son cientos de soles.


Lic. Mara A. Zacaras Daz

Pgina 28

A partir de estos datos se han obtenido las siguientes medidas resumen:

A partir de estos clculos tenemos que:


b1 = 1.2129979
b2 = 0.55415793
b3 = 2.88190077
Luego
Interpretacin.
b1: Cuando el ingreso del prestatario es 0 soles y el ahorro es cero soles, en
promedio se le presta 1.21 soles, naturalmente esta interpretacin no tiene
sentido.
b2: Cuando el ingreso del prestatario se incrementa en S/. 100, la cantidad
del dinero prestado se incrementa en promedio en S/. 55.41
b3: Cuando el ahorro mensual del prestatario se incrementa en 100 soles, la
cantidad del dinero prestado se incrementa en promedio en S/. 288.19,
manteniendo constante la otra variable.

Inferencias sobre los coeficientes de regresin.


Se debe probar que existe una relacin lineal entre las variables, para ello,
llevamos a cabo la siguiente prueba de hiptesis:

Prueba F sobre
1. H 0:
H 1:

y
0 no existe relacin significativa entre las variables

0 existe al menos un

diferente de cero es decir existe una relacin lineal

entre las variables


2. Sea el nivel de significacin
3. Estadstica para la prueba,

Lic. Mara A. Zacaras Daz

Pgina 29

Clculos necesarios.

UE

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Ingreso
del
prestatari
o

Ahorro
mensual
del
prestatario

18
13
7
9
3
15
8
14
11
5
17
16
12
14
13
15
20
23
25
18
17
17
21
18
18
27
22
10
4
10

6
3
2
3
1
3
2
4
2
1
4
5
2
3
4
4
5
3
6
3
4
2
4
3
3
5
3
2
1
2

Lic. Mara A. Zacaras Daz

Cantidad
de dinero
prestado
Y

29
20
9
12
6
29
10
22
11
8
30
30
18
27
23
22
19
25
29
17
14
14
20
14
17
30
30
6
6
7

ei2

28.48
17.0633
10.8562
14.8465
5.7575
18.1717
11.4104
20.4994
13.073
6.8659
22.162
24.4897
13.6272
17.6175
19.9452
21.0536
26.7065
22.6053
32.3594
19.8343
22.162
16.3982
24.3788
19.8343
19.8343
30.5859
22.0511
12.5188
6.3117
12.5188

0.52
2.9367
-1.8562
-2.8465
0.2425
10.8283
-1.4104
1.5006
-2.073
1.1341
7.838
5.5103
4.3728
9.3825
3.0548
0.9464
-7.7065
2.3947
-3.3594
-2.8343
-8.162
-2.3982
-4.3788
-5.8343
-2.8343
-0.5859
7.9489
-6.5188
-0.3117
-5.5188

0.2704
8.62420689
3.44547844
8.10256225
0.05880625
117.252081
1.98922816
2.25180036
4.297329
1.28618281
61.434244
30.3634061
19.1213798
88.0313063
9.33180304
0.89567296
59.3901423
5.73458809
11.2855684
8.03325649
66.618244
5.75136324
19.1738894
34.0390565
8.03325649
0.34327881
63.1850112
42.4947534
0.09715689
30.4571534

110.93812
2.34922038
89.6294537
41.8257537
155.433154
110.93812
71.694887
12.480087
55.7603204
109.56402
133.003554
133.003554
0.21835371
72.8072537
20.5455204
12.480087
0.28378705
42.676387
110.93812
2.15292038
19.9566204
19.9566204
2.34922038
19.9566204
2.15292038
133.003554
133.003554
155.433154
155.433154
131.498587
Pgina 30

Media 14.666667 3.16666667 18.46667

Fuente
Suma de
de
cuadrado
variacin s
711.39260
Regresin 6
1350.0740
Residual
7
2061.4666
Total
8

711.392606 2061.46668

Grados
de
libertad

Cuadrados
medios
(varianza)

675.037036

27

26.3478743

29

4. Se determina el valor crtico a partir de la distribucin F, es decir:

y se halla
5. Decisin, si

= 25.62
, se rechaza H0, es decir, las

variables tienen una significativa relacin lineal, con un riesgo de equivocacin del 5 %
Para determinar las contribuciones individuales de cada variable sobre Y se
harn las pruebas de hiptesis sobre el parmetro correspondiente, para lo
cual se necesita conocer la desviacin estndar de cada estimador, cuyas
frmulas para obtenerlas son las siguientes:

Prueba de hiptesis para


1. H 0:
H 1:

=0
0

2. Sea el nivel de significacin


3. La estadstica a utilizar es:

Lic. Mara A. Zacaras Daz

Pgina 31

SCE = 711.2936
CME = SCE/ n 3 = 26.3478743

Grficamente el comportamiento probabilstico de t ' es:

'

4. Decisin: Como tcal , es mayor que el valor crtico,

, entonces se rechaza H 0:

= 0, es

decir existe una relacin lineal significativa entre el ingreso y el monto de prstamo del prestatario.

Anlisis de Asociacin entre variables


El principal problema al analizar datos de dos a ms variables, es descubrir y medir la
asociacin o covariacin entre ellas es decir, determinar cmo varan juntas las
variables.
El estudio de la asociacin entre dos o ms variables cuantitativas se hace a travs de:
a. El Anlisis de Regresin, que trata de establecer la naturaleza de la
relacin entre variables, es decir encontrar la ecuacin matemtica
que describa esa relacin, de modo que proporcione un mecanismo
de prediccin o pronstico.
b. El Anlisis de Correlacin, que permite determinar el grado de
relacin entre las variables.

En el anlisis de asociacin puede distinguirse, tomando en cuenta:


a. El Nmero de variables: Simple y Mltiple.
b. La forma de la relacin entre variables: Lineal y No lineal

Lic. Mara A. Zacaras Daz

Pgina 32

ANALISIS DE REGRESIN
Modelo de Regresin Lineal Simple
En el modelo de regresin lineal simple, una variable Y dependiente oexplicada, se
relaciona con una variable X independiente, o explicativa por la siguiente expresin:
yi 0 1 xi ui

0 y 1 son los parmetros de regresin desconocidos


Donde
llamados coeficientes de regresin poblacionales, dado que en las variables
X, Y se tendra que medir en todos los elementos de la poblacin. ui ,
representa el error aleatorio en Y para cada observacin i que ocurra. Este
trmino se incluye porque el modelo estadstico es slo una aproximacin
de la relacin exacta entre las dos variables.
La relacin de dependencia lineal indicada consta de 2 partes: la parte
sistemtica identificada por: 0 1 xi uY X y la parte estocstica o aleatoria
identificada por ui , donde ui surge debido a fuerzas casuales o por la
exclusin de otras variables explicativas.
Ejemplo.
Una pequea ciudad est constituida por 57 viviendas. En cada una de las
viviendas se ha observado las variables, Nmero de personas que la habitan
(x) y Nmero de dormitorios que posee (y). El diagrama de dispersin para
los datos de las variables es:

La curva trazada constituye la parte sistemtica del modelo y viene a


ser la recta de regresin es decir: 0 1 xi uY X
ESTIMACIN DE LOS PARMETROS DE REGRESIN
En la parte anterior se present la hiptesis de un modelo estadstico
pararepresentar la relacin entre dos variables en una poblacin.
Supongamos que de esta poblacin se ha extrado una muestra
simple al azar, en la que el investigador ha determinado previamente
el valor de X, obteniendo luego los datos (x i,yi) para i = 1, 2, .., n;
Lic. Mara A. Zacaras Daz

Pgina 33

entonces el modelo de regresin lineal para la muestra puede darse


como:
yi b0 b1 xi ei (1)
Y la ecuacin de regresin de la muestra de Y sobre X es

$
y i b0 b1 xi (2)

En estas dos ecuaciones, yi es el valor observado de la variable Y, $


y i es el valor
calculado o estimado de la variable Y apartir de (2). De (1) y (2) tenemos que
ei son los residuales o estimaciones de ui y cumple con
ei yi $
y i , donde

e 0
i i

En la ecuacin (2) los coeficientes de regresin b 0 y b1 se pueden usar como


estimadores de los parmetros 0 y 1 , asimismo: b0representa el valor promedio de
Y cuando X es igual a cero y b1representa el cambio promedio en Y por un cambio
unitario en X.
Esta ecuacin (2) requiere la determinacin de los coeficientes b0 y b1, es decir conocer
el valor que toma cada uno de ellos, para ello utilizamos el mtodo de mnimos
cuadrados.
El mtodo de mnimos cuadrados produce estimadores para mtricos b0 y b1 en tal
forma que
n

i 1

i 1

ei2 yi $y i

yi b0 b1 xi

i 1

es un mnimo.
Procedimiento para obtener los estimadores b0 y b1.

b0


i 1

yi b0 b1 xi

2 yi b0 b1 xi 0

i 1

i 1

y nb
i 0

2 yi b0 b1 xi xi 0

n
yi b0 b1 xi
b1 i 1

b1 xi
i 0

i 0

i0

i 0

yi xi b0 xi b1 xi2

II

I y II constituyen un sistema de ecuaciones, llamadas ecuaciones normales, la solucin de ellas permite


hallar los valores de b0 y b1.

PASOS PARA ENCONTRAR LA ECUACION DE REGRESION:


1.- Se cuenta con un conjunto de individuos y los datos de 2 variables medidas en estos
individuos.
2.- Se construye el diagrama de dispersin llamado tambin la grfica de nube de
puntos. (Para ver si existe relacin entre las variables)

Lic. Mara A. Zacaras Daz

Pgina 34

3.- Siguiendo el comportamiento de los puntos se traza una curva, luego se postula la o
las ecuaciones que podran describir dicha curva.

donde $
y i y x b0 b1 xi media de Y condicionado al valor de xi.
4.- Se halla los valores de los coeficientes de regresin a travs del mtodo de mnimos
cuadrados.
Ejemplo
De las 57 viviendas de la pequea ciudad, se seleccion una muestra aleatoria de 12
viviendas, en estas se observ las variables: Nmero de personas que la habitan(X) y el
nmero de dormitorios que posee(Y). Los datos se muestran en la siguiente tabla:
Vivienda

12

19

22

26

30

31

38

40

50

54

xi

yi

Cul es la relacin funcional entre estas variables?


1.

2.

Diagrama de dispersin.

Trazar la curva siguiendo el comportamiento de los puntos.

Lic. Mara A. Zacaras Daz

Pgina 35

y i b0 b1 xi
La ecuacin que describe esta curva es: $
3. Se obtiene el valor de los coeficientes b

y b , para lo cual se utiliza

las ecuaciones normales:


n

i 0

i 0

yi nb0 b1 xi
n

y
i 0

i 0

i 0

xi b0 xi b1 xi2

I
II

Clculos necesarios
Vivienda
7
9
12
19
22
26
30
31
38
40
50
54
Total

xi
2
2
3
4
4
5
5
5
6
6
7
7
56

yi
2
3
2
3
3
3
4
4
4
5
5
6
44

xi2
4
4
9
16
16
25
25
25
36
36
49
49
294

xi yi
4
6
6
12
12
15
20
20
24
30
35
42
226

Reemplazando los totales en I y II, tenemos:


44 = 12 b0 + 56 b1
226 = 56 b0 + 294 b1
La solucin de este sistema de ecuaciones, proporciona, b0 = 0.714286 b1 = 0.632653,
luego la ecuacin de regresin muestral es: $
y i = 0.714286 + 0.632653 xi
Interpretacin de los coeficientes.
b0: Cuando no habita ninguna persona en la vivienda, el nmero promedio de
habitaciones es de 0.71. Vemos que no tiene sentido la interpretacin de este
coeficiente.
b1: Si se incrementa el nmero de personas en la vivienda en una, en promedio el
nmero de habitaciones se incrementa 0.63.
Error estndar del Estimador
As como no se puede esperar que los datos de una variable coincidan con el valor de la
media, del mismo modo no se puede esperar que todos los puntos de los datos caigan
Lic. Mara A. Zacaras Daz

Pgina 36

exactamente sobre la lnea de regresin. La lnea de regresin sirve como un dispositivo


aproximado de estimacin o pronstico de un valor de Y dado un valor determinado de
X. Por lo tanto se necesita de un indicador que mida la variabilidad de los valores reales
de Y respecto de los valores estimados de Y. La Medida de variacin o dispersin en
torno a la lnea de regresin se conoce como error estndar del estimador
Este indicador se denota y calcula a partir de la siguiente expresin:

Clculo del error estndar para el ejemplo


Vivienda
7
9
12
19
22
26
30
31
38
40
50
54

ei2

xi
2
2
3
4
4
5
5
5
6
6
7
7

2
3
2
3
3
3
4
4
4
5
5
6

2,061225
2,061225
2,775511
3,489797
3,489797
4,204083
4,204083
4,204083
4,918369
4,918369
5,632655
5,632655

-0,061
0,939
-0,776
-0,490
-0,490
-1,204
-0,204
-0,204
-0,918
0,082
-0,633
0,367

0,003749
0,881299
0,601417
0,239901
0,239901
1,449816
0,041650
0,041650
0,843402
0,006664
0,400252
0,134942
4,884642

Luego SYX2 = 4.884642/10 = 0.488 SYX = 0.6989


Este indicador muestra el grado de ajuste de la curva postulada, es decir, cuan cerca de
ella estn los puntos, por lo tanto cuanto ms pequeo el valor de S YX los puntos estn
ms cerca.

ANALISIS DE CORRELACION
El indicador SYX como medida de aproximacin del ajuste de la recta a los datos, no
tiene un significado exacto, por lo que es necesario contar con un indicador que muestre
el grado de ajuste es decir, el grado de representatividad de los datos a travs de la curva
de regresin postulada y el valor que tome este indicador pueda interpretarse fcilmente.
El indicador que cumple los requisitos anteriores es el coeficiente de determinacin.
Coeficiente de Determinacin
La obtencin de este indicador es a travs del anlisis de varianza, descomponiendo la
Varianza de Y, en porciones significativas y distintas.
Obtencin.

=0

Lic. Mara A. Zacaras Daz

Pgina 37

Varianza de Y

Variacin de Y
No explicada por X

Variacin de Y
explicada por X

Dividiendo la igualdad anterior entre la varianza de Y, tenemos:

De la expresin anterior tenemos, que el coeficiente de determinacin muestral, se


denota por r2 y viene a ser el cociente de la varianza explicada entre la varianza total de
Y, es decir:

r2 =

= 1 -

Dividiendo la igualdad anterior entre n, se obtiene:


r2 =

r2 =

= 1 -

= 1 -

r2 toma valores en el intervalo


Interpretacin: indica porcentualmente, que tanto de la variacin de la variable Y es
explicado o debido a X.

Distribucin muestral b1

Ejemplo.
El siguiente diagrama de dispersin, muestra la relacin, entre el Nmero de
personas que habitan y el nmero de dormitorios que posee una vivienda.
Las viviendas consideradas son las de una pequea ciudad constituida por
57 viviendas.

Lic. Mara A. Zacaras Daz

Pgina 38

= 0.709

+ 0.394

De esta poblacin constituida por 57 viviendas, se seleccionaron 26 muestras de tamao


12, sin reposicin. Para cada una de las muestras, a partir de los datos de las variables
consideradas se obtuvo la ecuacin regresin muestral lineal, cuyos coeficientes de
regresin son :
Muestra
1
2
3
4

b1

0,048
0,180
9
0,253
0,253

12

0,338
8
0,524
3
0,566
0,581
4
0,596
3
0,635
4
0,672
8
0,683
5

13

0,7027

5
6
7
8
9
10
11

Muestra

Lic. Mara A. Zacaras Daz

14
15
16
17
18
19
20
21

b1

0,714
3
0,738
5
0,738
5
0,751
7
0,755
6
0,779
6
0,795
0,796

0,805
6
22
0,828
4
23
24
25
26

0,882
0,904
0,94

Pgina 39

A partir de estos diferentes valores que toma b1, se construy la siguiente tabla de
frecuencias:

b1 i - 1

b1 i'

fi

0.048

0.236

0.236

0.424

0.424

b1 i - 1

b 1 i'

hi

0.048

0.236

7,6

0.236

0.424

11,5

0.612

0.424

0.612

15,38

0.612

0.8

12

0.612

0.8

46,15

0.8

0.988

0.8

0.988

19,23

Interpretacin.
De las 26 ecuaciones de regresin muestrales, en el 46. 15 % de ellas, el coeficiente
regresin b1 toma un valor entre 0.612 y 0.8, es decir es ms probable que b 1 tome un
valor entre 0.612 y 0.8.
Cmo es poco prctico e irreal obtener cierto nmero muestras y observar el
comportamiento de b1, lo que si podemos obtener a partir, de todo lo anterior, es que b 1
es una variable aleatoria, y su comportamiento probabilstico puede ser descrito por una
Distribucin normal, si el tamao de la muestra es superior a 30, o una distribucin t
si el tamao de muestra es menor o igual a 30.
Cmo los coeficientes de regresin poblacionales no se conocen, es decir los parmetros
y
, para poder decir, con cierto nivel de seguridad, que la relacin poblacional es
lineal, se tiene que hacer una Dcima de hiptesis respecto al parmetro
seguimos los siguientes pasos:
1. H 0:
=0
H 1:

, para ello

2. Sea el nivel de significacin


3. La estadstica a utilizar es:
Lic. Mara A. Zacaras Daz

Pgina 40

=
Donde:

k viene a ser el nmero de parmetros de la ecuacin de regresin

Grficamente el comportamiento probabilstico de t ' es :

'

4. Decisin: Cuando el valor de esta estadstica, que denotaremos por, tcal , es mayor que el valor crtico,

t' / 2 , dado por la tabla entonces se rechaza H :

=0

Ejemplo. Considerando la muestra seleccionada.

Clculos necesarios.
Vivienda

xi

-2,6667

7,111

-2,6667

7,111

12

-1,6667

2,778

19

-0,6667

0,444

22

-0,6667

0,444

26

0,3333

0,111

30

0,3333

0,111

31

0,3333

0,111

38

1,3333

1,778

40

1,3333

1,778

50

2,3333

5,444

54

2,3333

5,444

4,667

Lic. Mara A. Zacaras Daz

32,667

Pgina 41

= 0.01494

= 0.1222

= 5.1762
= 2.2281

Prueba de Hiptesis
1. H 0:
H 1:

= 0 No existe relacin lineal


0

Existen relacin lineal entre las variables consideradas

2. Sea el nivel de significacin = 0.05


3. La estadstica a utilizar es:

=
Grficamente el comportamiento probabilstico de t ' es :

Decisin:

= 5.1762 y el valor dado por la tabla

= 2.2281

'
Como tcal
es mayor que el valor crtico, t' / 2 dado por la tabla, entonces se rechaza H 0:

= 0, es decir, podemos concluir, que la relacin entre las variables es lineal, con un
riesgo de equivocacin del 5 %.

Lic. Mara A. Zacaras Daz

Pgina 42