Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Est Inf Aplicada
Est Inf Aplicada
Serie:
Textos de la Maestra en Educacin.
2
Dedicatoria
Para Sandra Natalia (Mara Estela)
Para Ernesto Alonso (Violeta Alicia)
3
CONTENIDO
Prefacio
Agradecimientos
5
Captulo 5. Anlisis de regresin lineal mltiple
5.1. Introduccin 116
5.2. Modelo de regresin lineal simple 117
5.3. Grfico o diagrama de dispersin 118
5.4. Modelo de regresin lineal simple poblacional 119
5.5. Estimacin de los parmetros del modelo de regresin lineal simple 120
5.6. Evaluacin del ajuste global del modelo 122
5.7. Adecuacin del modelo: Anlisis de residuos 125
5.8. Modelo de regresin lineal mltiple 131
5.9. Prueba de la significancia de la regresin 134
5.10. Correlacin lineal simple 141
Ejercicios propuestos 143
Anexo
Uso de Excel en el clculo de los valores de algunas variables aleatorias 000
6
PREFACIO
Los clculos que se presentan para aplicar las herramientas de la inferencia estadstica son
para que los lectores entiendan sus cmo y porqu y, asimismo, la interpretacin de los
resultados obtenidos. Dejamos bien en claro que en ningn momento se pretende adiestrar a
lo lectores en clculos, sino en que aprendan los conocimientos tericos estadsticos de la
inferencia (saber), apliquen las herramientas estadsticas (saber hacer) y desarrollen una
actitud positiva hacia la estadstica. Esto es, que la estadstica no solamente es clculo, o el
simple uso de las frmulas o expresiones que aparecen en ste y en diversos libros de
estadstica, sino razonamiento crtico basado en evidencias objetivas que se obtienen de la
poblacin bajo estudio (ser).
Una vez que el lector haya asimilado los conocimientos estadsticos, y sus aplicaciones, que
brindamos en el presente libro, estar en la capacidad de usar software estadstico, que es un
instrumento comparable a una calculadora. El aprendizaje de estadstica usando software
estadstico no debe reducirse, sin embargo, a manipulaciones mecnicas, pues ste sirve como
apoyo del profesor para mostrar, en forma precisa y rpida, los grficos y clculos
estadsticos.
VIOLETA ALICIA NOLBERTO SIFUENTES
MARA ESTELA PONCE ARUNERI
7
AGRADECIMIENTOS
Al Dr. Elas Meja Mejia, Director de la Unidad de Post Grado de la Facultad de Educacin
de la Universidad Nacional Mayor de San Marcos, por brindarnos la oportunidad de entregar
al mundo acadmico el presente libro, en particular a los maestristas de la mencionada
facultad, que lo usaran como gua para el aprendizaje del Curso de Estadstica Inferencial, en
el plan de estudios vigente. Tambin por considerarnos como docentes de tan prestigiada
unidad de post grado.
A nuestros alumnos, por la paciencia e inters en aprender estadstica, por sus comentarios y
sugerencias para con nuestro desempeo docente.
A todos los lectores docentes, alumnos, empresarios, en general todos aquellos que tomaran
decisiones basadas en evidencias objetivas, en concordancia con el mundo en que vivimos,
caracterizado por el constante aprendizaje y el manejo adecuado de la informacin, en
particular de la informacin estadstica.
Asimismo a los que nos hagan llegar sus comentarios, observaciones y dudas respecto a lo
tratado en el presente libro, los mismos que contribuirn con la enseanza y la difusin de la
estadstica.
Finalmente a nuestras familias, por el apoyo, comprensin y aliento, para con el desarrollo del
presente libro.
8
CAPTULO 1
1.1. INTRODUCCIN
Es el acto de valorar una realidad que forma parte de un proceso cuyos momentos
previos son la fijacin de las caractersticas de la realidad a valorar y de la recogida de
informacin sobre la misma, y cuyas etapas posteriores son la informacin y/o toma de
decisiones en funcin del juicio de valor emitido.
9
Por tanto, si el educador desea evaluar el rendimiento escolar, es necesario conocer las
caractersticas de esta realidad escolar, llamada estadsticamente, poblacin. Si est en
condiciones de recolectar los datos de toda la poblacin se denomina censo, es decir datos de
todos y cada uno de los escolares para lograr los objetivos propuestos, o por el contrario, si
toma o selecciona un grupo de escolares, se denomina una muestra representativa (muestra
probabilstica o aleatoria) de escolares, y a travs de la muestra intentar conocer la realidad
de la poblacin escolar.
Cuando se trabaja con una muestra probabilstica y queremos conocer a la poblacin, a partir
de los datos muestrales, empleamos los mtodos que ofrece la Estadstica Inferencial, que en
el presente libro nos ocupar varios captulos.
Este libro es a nivel bsico, tratando de ser lo ms amigable posible, tomando en cuenta que
nos dirigimos a profesionales no estadsticos, en particular de la Educacin.
La ciencia formada por un conjunto de teoras y tcnicas cuantitativas, que tienen por
objeto la organizacin, presentacin, descripcin, resumen y comparacin de conjunto
de datos numricos, obtenidos de poblaciones en su conjunto de individuos o
fenmenos o bien de muestras que representan las poblaciones estudiadas, asi como el
estudio de su variacin, propiedades, relaciones, comportamiento probabilstico de
10
dichos datos y la estimacin inferencia o generalizacin de los resultados obtenidos de
muestras, respecto a las poblaciones que aqullas representan. La Estadstica en la
investigacin cientfica, dada la necesidad de manejar y tratar en ellas grandes
cantidades, progresivamente crecientes, de datos.
Montgmery, Douglas (1985), define a la Estadstica como: El arte de tomar decisiones acerca
de un proceso o una poblacin con base en un anlisis de la informacin contenida en una
muestra tomada de la poblacin.
Todos estos problemas no pueden ser resueltos por iniciativas subjetivas, por pareceres o
lluvia de ideas; sino en base a informacin valida y confiable, esto es, tener informacin lo
ms prximo a la realidad bajo estudio. Indudablemente esto se logra empleando la ciencia
llamada Estadstica.
Para resolver estos problemas se debe seguir de manera organizada, sistemtica y planificada,
es decir debemos realizar Investigacin Cientfica.
Es una forma especial de buscar el conocimiento, presenta toda una serie de caractersticas
que la diferencian de otras formas de abordar la realidad, como son el conocimiento emprico
espontneo y el razonamiento especulativo. A continuaciones se presentan algunas
definiciones:
12
2. Una investigacin es un aporte importante para el descubrimiento de principios
generales por su naturaleza inferencial.
4. Es lgica y objetiva.
En relacin a las funciones que realiza la ciencia, los objetivos fundamentales de una
Investigacin Cientfica son:
13
Como funcin prctica y utilitaria, la ciencia transforma la realidad en correspondencia con
las necesidades y demandas de la sociedad, a fin de lograr un bienestar, mejorar la calidad de
vida.
En este caso, los mtodos estadsticos cumplen funciones cognoscitivas importantes como
herramienta de investigacin cientfica, por tanto el proceso de investigacin cientfica
encuentra su fundamento metodolgico en la concepcin cientfica general de la realidad
objetiva. Pero cmo conocer la realidad?
Para sintetizar, estos dos paradigmas, se presenta la siguiente tabla, disponible en:
www.fisterra.com/mbe/investiga/cuanti_cuali/cuanti_cuali.asp (22.03.08).
14
Tabla N 1.1
Ventajas y desventajas entre mtodos cualitativos y cuantitativos
Propensin a "comunicarse con" los Propensin a "servirse de" los sujetos del
sujetos del estudio. estudio.
Se limita a preguntar. Se limita a responder.
Podemos afirmar que como todo mtodo cientfico, se debe reconocer sus ventajas y
desventajas, lo importante es determinar el momento adecuado para aplicarlo en el desarrollo
de la investigacin cientfica.
15
para solucionar problemas de una investigacin cientfica, sta debe reunir ciertas
caractersticas.
En otros casos ser necesario emplear ambos paradigmas, como por ejemplo cuando se trata
de evaluar la Calidad de la Educacin, en particular la Educacin Superior, no es suficiente
uno de ellos se deben emplear ambas. La realidad es muy compleja, multifactorial, dinmica,
por lo tanto, ambos paradigmas se complementan, no son excluyentes.
Una vez establecido el objeto de estudio en base a los conocimientos tericos, se inicia la
etapa de Diseo Metodolgico (Diseo), donde se define el proceso de recoleccin de datos,
delimitando las unidades bajo estudio y las variables a medirse, que permitan contestar las
preguntas formuladas, en el proyecto de investigacin cientfica. Es indudable que, la
Estadstica es una poderosa herramienta para planificar y desarrollar el Diseo Metodolgico.
Los datos obtenidos, de la realidad investigada, se analizan aplicando los mtodos y tcnicas
estadsticas para contrastar sus posibles divergencias con las consecuencias que se deducen de
las hiptesis. Por tanto nos preguntamos:
Cmo se llevar a cabo el estudio para investigar sobre diferentes problemas y aristas
del trabajo educativo, para el logro de sus objetivos y/o verificacin de sus hiptesis?
Cmo se realizar la investigacin, a fin de maximizar la validez y confiabilidad de la
informacin y reducir errores en los resultados?
Las respuestas que ustedes proporcionen dejan notar la relacin que existe entre Estadstica e
Investigacin Cientfica.
16
1.6. CLASIFICACIN DE LA ESTADSTICA
Rama de la Estadstica que trata sobre la descripcin y anlisis estadstico de una poblacin,
que resumen y presenta datos obtenidos de la poblacin o de una muestra, mediante mtodos
adecuados.
Tiene como objetivo, caracterizar los datos, de manera grfica o analtica, para resaltar las
propiedades de los elementos bajo estudio.
Tiene como objetivo, generalizar las propiedades de la poblacin bajo estudio, basado en los
resultados de una muestra representativa de la poblacin.
17
En cuanto a la Probabilidad, Juez Martel, Pedro y Diez Vegas, Francisco Javier (1997),
manifiestan que: Hoy en da la Probabilidad y la Estadstica, ntimamente unidas en s,
desempean un papel fundamental en prcticamente todos los campos del saber, tanto en las
ciencias naturales como en las ciencias humanas, papel que va cobrando cada vez mayor
importancia.
RECUERDE
Ningn mtodo estadstico puede corregir los defectos por una inadecuada seleccin
del problema que se investiga, o por una mala recoleccin de datos. Una investigacin
que empieza mal, con seguridad termina mal.
CON DATOS DE MALA CALIDAD, NO SER POSIBLE DAR RESPUESTA
ADECUADA A UN PROBLEMA CIENTFICO
Nosotros recordamos al estudiante que los mtodos estadsticos son las herramientas ms
peligrosas en manos de gente inexperta. Pocas materias tiene una aplicacin tan amplia;
Ninguna requiere tal cuidado en su aplicacin.
18
CAPTULO 2
ESTADSTICA INFERENCIAL
2.1. INTRODUCCIN
Ejemplo 2.1
Se realiza un estudio para comparar tres mtodos para ensear tcnicas de comprensin
lectora en ingls a escolares de segundo grado de Educacin Bsica Secundaria, como son:
19
Las preguntas por resolver son:
2. Para el prximo ao el mtodo identificado como el mejor, dar buenos resultados, para
el alumno Javier Hernndez Len, quin realizar el segundo grado de Educacin Bsica
Secundaria?
Los casos de incertidumbre y toma de decisiones son resueltos por la Estadstica Inferencial,
por supuesto apoyado por la probabilidad.
20
2.2. POBLACIN
X 1 , X 2 , X 3 , ..., X N
Ejemplo 2.2
X 1 , X 2 , X 3 , ..., X 300
21
financieros, metodolgicos u otros no ser posible entonces se debe trabajar con una muestra
extrada de la poblacin bajo estudio.
2.3. MUESTRA
Sierra Bravo (1991) anota que: Una muestra en general, es toda parte representativa de la
poblacin, cuyas caractersticas debe reproducir en pequeo lo ms exactamente posible.
Para que sea representativa se debe seleccionar empleando el muestreo, tpico importante de
la Estadstica, con la finalidad de que los resultados de esta muestra sean validos para la
poblacin de la que sea obtenido la muestra. Esta generalizacin se realiza empleando la
estadstica inferencial.
Ejemplo 2.3
determinarse con precisin si se revisa cada una de las calificaciones de los 300 alumnos. Para
tener una idea del valor de x se extrae una muestra aleatoria de tamao n = 6 de la
poblacin. Entonces:
Puesto que la seleccin de los alumnos, en este caso es seis, es aleatoria o al azar:
X1, X 2 , X 3 , X 4 , X 5 , X 6
Constituye variables aleatorias. Se admite que son independientes y cada una con la misma
distribucin que la variable aleatoria X. En un sentido matemtico el trmino muestra
aleatoria, se refiere, no a seis alumnos seleccionados para este estudio sino a las seis variables
aleatorias X 1 , X 2 , X 3 , X 4 , X 5 , X 6 asociadas con los alumnos.
nmeros son los valores observados de las variables X 1 , X 2 , X 3 , ..., X n respectivamente, para
23
Ejemplo 2.4
Para el caso del ejemplo 2.3, una vez identificados los seis alumnos, podemos determinar los
valores numricos de las seis variables aleatorias X 1 , X 2 , X 3 , X 4 , X 5 , X 6 . Supongamos que el
que obtienen los alumnos seleccionados en tercera, cuarta, quinta y sexta seleccin.
Ahora estamos utilizando el termino muestra aleatoria no para referirnos a los alumnos
seleccionados o a las variables aleatorias asociados con ellos sino a los seis valores numricos
x1 , x2 , x3 , x4 , x5 , x6 que toman respectivamente cada una de las seis variables aleatorias.
2.6. PARMETRO
Sierra Bravo (1991) indica que parmetro deriva del vocablo griego parmetreo que significa
medir una cosa con otra:
24
En estadstica se refiere a los valores o medidas que caracterizan una poblacin como
por ejemplo la media y la desviacin tpica de una poblacin () Son cantidades
indeterminadas constantes o fijas respecto a una condicin o situacin que caracteriza
a un fenmeno en un momento dado que ocurre en una poblacin.
Se suele representar a un parmetro mediante letras griegas, por ejemplo la media poblacional
se representa mediante x y se lee como media poblacional de la variable aleatoria X, la
variable aleatoria X.
En trminos prcticos un parmetro es un valor que resulta al emplear los valores que se
obtiene de una poblacin.
Ejemplo 2.5
Si al obtener las calificaciones de los 300 alumnos que conforman la poblacin, estos se
promedia, entonces x = 14.78 es el parmetro correspondiente. Para su clculo se ha
X i
x = i =1
(2.1)
N
Si de estos 300 alumnos 198 son mujeres, entonces la proporcin poblacional de mujeres
representada por x = 0.66 (66%). Para su clculo se ha empleado la siguiente expresin,
X i
x = i =1
(2.2)
N
25
Pero ahora la variable aleatoria se define como:
1 si alumna
Xi =
0 si alumno
2.7. ESTADSTICO
Los estadsticos son variables aleatorias por que estn sujetos a la fluctuacin de la muestra en
relacin al valor poblacional que se asume es constante.
Ejemplo 2.6
Continuando con el ejemplo 2.4, al seleccionar una muestra aleatoria de tamao seis, una vez
identificados los seis alumnos, obtienen las siguientes calificaciones x1 = 13, x2 = 10, x3 =
13, x4 = 14, x5 = 11, x6 = 10 la media obtenida de los seis alumnos es de 11,83, llamada
x i
x= i =1
(2.3)
n
El numerador de la expresin (2.3) es la suma de los seis valores, que da 71, que dividido por
6, resulta x = 11,83, es decir en promedio los alumnos han obtenido 11,83 de calificacin en
la prueba de educacin ambiental.
26
La varianza de esta muestra aleatoria es 2,4722 y se representa mediante S 2 , cuya expresin
es:
(x x )
n
2
i
S = 2 i =1
(2.4)
n
Para su clculo, disponemos de la tabla, 2.1, en la que mostramos paso a paso el uso de la
expresin (2.4) sabiendo que x = 11,83:
Tabla 2.1
Clculos para obtener el valor de la varianza (ejemplo 2.6)
Unidad xi (x x )
i (x x )
i
2
1 13 1,17 1,3689
2 10 -1,83 3,3489
3 13 1,17 1,3689
4 14 2,17 4,7089
5 11 -0,83 0,6889
6 10 -1,83 3,3489
Total 71 0,02* 14,8334
Tericamente:
(x )
n
i x =0
i =1
El numerador de la expresin (2.4) es la suma del cuadrado de las seis desviaciones de cada
valor que toma la variable, respecto a su media aritmtica, que es igual a 14,8334, que
dividido por 6 es justamente 2,4722.
27
La raz cuadrada, positiva, de la varianza se llama desviacin estndar o desviacin tpica,
esto es:
S = + S2 (2.5)
Ejemplo 2.7
28
Tabla 2.2
Resultados de posibles muestras de tamao 2
Tabla 2.3
Distribucin muestral de la media muestral
29
2.8.1. MEDIA MUESTRAL
La expresin (2.3), nos indica cmo se obtiene una media muestral. Veamos sus propiedades:
()
1. E x =
()
2. V x = 2 / n
4. Sea X 1 , X 2 , X 3 , ..., X n una muestra aleatoria de tamao n, de una distribucin con media
x
(2.6)
/ n
( )
1. E s 2 = 2
Consideremos una poblacin en la que existe una proporcin de elementos que tienen el
atributo A (o pertenecen a la categora A ).
nA
p= (2.8)
n
31
PROPIEDADES DE LA PROPORCIN MUESTRAL
1. E ( p ) =
2. V ( p ) = (1 ) / n
La desviacin estndar o error estndar de la proporcin muestral, se denota como p y
es igual a (1 ) / n
Ejemplo 2.8
32
Tabla 2.4
Muestra aleatoria de 15 docentes de la Institucin Educativa Martn Adn (Lima)
Con esta informacin vamos a mostrar la diferencia entre desviacin estndar y error
estndar.
33
MEDIA MUESTRAL
La edad en aos cumplidos tiene distribucin con media poblacional, = 38,5 aos y
Usando la expresin 2.3 se obtiene x = 40,73 aos, y al usar la expresin 2.7 se obtiene s 2 =
33,21 aos2.
En cambio el error estndar del estadstico media muestral, empleando la propiedad 3, es:
5,48 5,48
x = = = = 1,42 aos
n 15 3,87
PROPORCIN MUESTRAL
Para la segunda variable, interesa que el docente encuestado indique que la profesin de
investigador es una profesin atractiva para docentes jvenes ( A ). La muestra aleatoria es
igual a 15 docentes (n = 15) .
En esta poblacin se asume que la proporcin poblacional de docentes que consideran que la
profesin de investigador es una profesin atractiva para docentes jvenes es igual a 0,71
( = 0,71) .
9
p= = 0,6 (60%)
15
34
Esto es, el 60% de docentes encuestados afirman que la profesin de investigador es una
profesin atractiva para docentes jvenes.
2.9. ESTIMACIN
Estimacin proviene del latn estimatio y significa estimacin, precio y valor que se da
a una cosa. En estadstica es la operacin que mediante la inferencia un parmetro,
utilizando datos incompletos procedentes de una muestra, se trata de determinar el
valor del parmetro. Pero los valores de la muestra estn sujetos al error muestral esto
es a las fluctuaciones de la muestra.
1. Estimacin puntual.
puede obtener el valor numrico del estadstico . A tal nmero se le denomina una
estimacin puntual de . Ntese que hay una diferencia entre los trminos estimador y
estimacin.
Ejemplo 2.9
investigador educativo debe ser bien remunerado (Y ) , para distinguir entre estimador y
estimacin:
x i
= x = 40,73 aos
x= i =1
n
X
n
(x x)
1
s =
2 2
n 1 2 = s 2 = 33,21 aos2
2
i
i =1
36
nA
p=
Y n = p = 0,7333 (73,33%)
PRUEBA DE HIPTESIS
Proceso mediante el cual, a partir de los valores de una muestra aleatoria se decide si se
rechaza o no el supuesto que plantea el investigador para el parmetro o parmetros de la
poblacin o poblaciones bajo estudio, pero con cierta probabilidad de error (riesgo) por tomar
una decisin.
Ejemplo 2.10
Explicar cul rama de la Inferencia Estadstica emplear, para lograr cada objetivo.
Solucin
37
Poblacin. Se trata de dos poblaciones bajo estudio:
1: Nios de 8 aos de edad, que asisten a Instituciones Educativas Estatales.
2: Nios de 8 aos de edad, que asisten a Instituciones Educativas Privadas.
Para lograr el objetivo 1. Se debe emplear la estimacin debido a que se requiere tener un
valor aproximado de 1 y 2 empleando muestras aleatorias que se han obtenido de manera
independiente de cada tipo de institucin educativa.
Para el logro del objetivo 2. Se desea verificar que los promedios poblacionales 1 y 2 son
En este caso se parte del supuesto que no existe diferencias entre el nivel promedio
poblacional del puntaje de la prueba de comprensin lectora para nios que asisten a IE
38
Estatales y Privados. Por tanto se empleara la prueba de hiptesis estadstica, mediante el cual
se somete a prueba 1 - 2 = 0.
ESTADSTICA PARAMTRICA
Segn Sierra Bravo (1991) es parte de la estadstica que exige determinados requisitos para
emplear en la inferencia estadstica generalmente requiere para su uso el supuesto de
normalidad es decir que las muestras aleatorias se extraen de poblaciones que estn
normalmente distribuidas o aproximadamente.
Ejemplo 2.11
En este caso se debe elegir una muestra aleatoria de la poblacin conformada por nios de
esta poblacin, es decir, nios de 10 aos de edad con secuelas neurolgicas derivadas de
hiperbilirubenia al nacer.
sencillo.
Para estudiar a este parmetro se requiere evaluar a la muestra aleatoria de esta poblacin
antes de la capacitacin especial y despus de la capacitacin especial, es decir los parmetros
para este esquema, sujetos a estudio estadstico son:
39
1 : Tiempo promedio poblacional, en minutos, requerido para resolver un problema sencillo
antes de la capacitacin.
ESTADSTICA NO PARAMTRICA
Y que son excelentes cuando los tamaos muestrales son pequeos ( n 10 ), asimismo estos
mtodos se basan en el anlisis de los rangos de los datos que en las propias observaciones.
40
Ejemplo 2.12
EJERCICIOS PROPUESTOS
RESUMEN
1
MANZO RODRGUEZ, Lidia, RIVERA MICHELENA, Natacha y RODRGUEZ OROZCO, Alain:
Competencias docentes en los profesores de medicina de la Universidad Michoacana de San Nicols
de Hidalgo. Revista Cubana Educativa de Medicina Superior, Abril-Junio, 2006, Vol. 20, N 2.
41
A partir de este resumen:
RESUMEN
El objetivo de esta investigacin fue identificar la percepcin que tienen los estudiantes
universitarios respecto a sus habilidades de investigacin, para lo cual se utiliz un
instrumento llamado Autoevaluacin de habilidades de investigacin (Rivera, Torres,
Garca Gil de Muoz, Salgado, Arango, Caa y Valentn, 2005). Participaron 119 estudiantes
de los cuales 73.7 % fueron mujeres y 26.3 % hombres, entre ellos, el 88.2 % se encontraba
realizando estudios de licenciatura y el 11.8 % de posgrado. Se cont con representantes de
cuatro reas de conocimiento: Ciencia y tecnologa, Ciencias humanas, Ciencias econmico
administrativas, y Educacin. La confiabilidad del instrumento aplicado fue alta (Alfa de
Cronbach = 9557). Se encontr que la mayora de los estudiantes asignan calificaciones altas
a sus habilidades de investigacin y que por lo general los hombres y las mujeres evalan sus
habilidades de investigacin de manera semejante; cuando aparecen diferencias significativas,
2
Mara Elena RIVERA HEREDIA merivera@bolivar.usb.mx y Claudia Karina TORRES
VILLASEOR ambiental@bolivar.usb.mx (Universidad Simn Bolvar).
www.usb.edu.mx/investigacion/cif/proyectos/proyecto3/habilidades.doc
42
son los hombres quienes se asignan puntajes ms altos. Se discuten las diferencias entre los
resultados arrojados por este cuestionario con los de otras estrategias de evaluacin.
En base a este resumen, plantear como sera la aplicacin de la inferencia estadstica bajo el
enfoque de:
43
CAPTULO 3
ESTIMACIN DE PARAMTROS
3.1. INTRODUCCIN
Los estimadores son variables aleatorias, veamos un ejemplo cuando se estima la varianza de
una poblacin en base a una nuestra aleatoria difcilmente se puede esperar que el valor de la
varianza que obtenemos, a partir de los valores de la muestra aleatoria extrada, sea
exactamente igual al valor de la varianza poblacional 2 ; pero debemos esperar que ambos,
la varianza muestral y la varianza poblacional, estn lo ms cerca posible; Esto es el valor del
estadstico y el parmetro tomen valores muy similares.
s2 2
No se tiene la certeza que los estimadores tengan el valor del parmetro, por ello debemos
considera sus propiedades.
3.2.1. INSESGAMIENTO
No hay estimadores perfectos que siempre nos van a dar los valores exactos del parmetro
pero es razonable que un estimador debe hacerlo al menos en el promedio, esto es su valor
44
esperado debe ser igual al parmetro que se supone estima. Es este caso se dice que es
estimador es insesgado.
()
Formalmente un estadstico es un estimador insesgado del parmetro , cuando E =
Ejemplo 3.1
( )
E s2 = 2
Si tenemos que escoger uno entre varios estimadores insesgados de un parmetro dado, se
suele tomar aquel cuya distribucin muestral tenga la varianza ms pequea, por tanto el
estimador seleccionado de varianza ms pequea es eficiente.
Ejemplo 3.2
( )
Sean 1 y 2 , estimadores insesgados de , si sus varianzas respectivas son V (1 ) yV 2 ,
( ) ( )
tal que V 1 < V 2 , entonces 1 es un estimador eficiente, porque el estimador 1 tiene
3.2.3. CONSISTENCIA
45
estadstica es un estimador consistente del parmetro si y solo si para cada c>0, se
cumple que:
lim P(
n
< c =1)
3.2.4. SUFICIENCIA
Ejemplo 3.3
La media muestral es un estimador suficiente porque para su clculo se utiliza todos los datos
de la muestra. Recuerde el clculo:
x i
x= i =1
3.2.5. ROBUSTEZ
46
Ejemplo 3.4
Consideremos los datos de la variable edad en aos cumplidos, del ejemplo 2.8, a fin de
calcular la mediana, para ello previamente ordenamos los datos de manera ascendente.
Orden 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Edad 30 34 35 36 36 38 39 42 43 44 44 46 47 48 49
Recuerde que x = 40,73 aos, con respecto a la mediana esta subestimada, esto se debe a la
presencia de edades extremas bajas.
Slo por cuestiones didcticas, vamos a asumir que la edad 49 no es tal, sino es 68, veamos
que ocurre con los valores de la media aritmtica y la mediana, observe ahora los datos
ordenados de manera ascendente son:
Orden 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Edad 30 34 35 36 36 38 39 42 43 44 44 46 47 48 68
Ahora la x = 42 aos y est afectada por el valor extremo alto 58, la media se sobreestima,
pero la mediana no cambia, por que el valor extremo alto no le afecta, ya que para el clculo
de la mediana solo interesa el valor de la variable que est en el lugar o posicin central. Por
tanto la mediana es una estadstica que tiene la propiedad de robustez, por que su valor no se
afecta por valores extremos.
47
3.3. ESTIMACIN DE PARMETROS MEDIANTE INTERVALOS DE
CONFIANZA
P[LI LS ] = 1 (3.1)
Este valor (1-) se conoce como nivel de confianza. El nivel de confianza se fija de antemano
y su valor debe ser grande. A menudo se usa como valores de como 0.10, 0.05, 0.01, de
esta manera los niveles de confianza son 0.90, 0.95 y 0.99, respectivamente. A diferencia del
estimador puntual que solo plantea un nico valor, el intervalo de confianza brinda un
conjunto de posibles valores, respaldado por la probabilidad de que contenga el valor del
parmetro.
48
La siguiente teora est basada en el libro de Freund, E. John, et al (2000) y brindamos las
aplicaciones paso a paso a fin que se entienda el uso, el clculo y la interpretacin del
intervalo de confianza.
Las estimaciones mediante intervalos los haremos empleando los datos recolectados de la
muestra aleatoria, que mediante los mtodos de la Estadstica Inferencial, se podr realizar
conclusiones de la poblacin, es decir, los resultados de la muestra se generalizan para la
poblacin, con cierta probabilidad de confianza.
La ventaja de estimar aun parmetro mediante intervalo de confianza es que, para su clculo
se considera la variabilidad del estimador puntual, llamado error estndar, del cual hemos
tratado en la seccin 2.8.
49
RECUERDE
Un intervalo de confianza o estimacin mediante intervalo de confianza es un conjunto
de valores que probablemente contiene al valor del parmetro (expresin 3.1)
RECUERDE
Si los datos no se han recolectado adecuadamente, sin el debido cuidado, pueden
resultar intiles, aunque se el tamao de la muestra sea grande.
Si x es la media de una muestra aleatoria de tamao n obtenida de una poblacin normal con
varianza poblacional 2 conocida, entonces:
x z / 2 , x + z / 2 (3.1)
n n
50
En este caso la distribucin de probabilidad normal es el soporte para realizar la inferencia,
mediante la estimacin por intervalo de confianza.
Lmite inferior : x z / 2
n
Lmite superior : x + z / 2
n
Ambos lmites dependen de la probabilidad de confianza que elija el investigador y del error
estndar de la media muestral, ver seccin 2.8.1.
Los valores de los lmites contienen al estimador puntual x , al valor de este estimador para
obtener los lmites inferior y superior se disminuye y adiciona z / 2 respectivamente.
n
La amplitud o rango del intervalo de confianza es: 2 z / 2 , esto significa que los posibles
n
valores del parmetro , de una poblacin normal, basado en una muestra aleatoria de
51
Grfico N 3.1
Particin de la distribucin normal estandarizada para obtener
un intervalo de confianza para
N (0,1)
Esta y el resto de cuantilas que se requieren para el clculo de los intervalos de confianza, los
obtenemos mediante el software Excel. En el apndice se muestra la forma de obtenerlos.
Ejemplo 3.5
17 13 14 15 13 17 13 8 12 16 15 10 11 13 15 9
52
Solucin
Para estimar empleamos la expresin 3.1, los valores de la abscisa normal estandariza se
presenta en el siguiente grfico.
2,73
Lmite inferior: x z / 2 = 13,2 1,96 = 13,2 1,34 = 11,86
n 16
2,73
Lmite superior: x + z / 2 = 13,2 + 1,96 = 13,2 + 1,34 = 14,54
n 16
53
Por tanto se espera con un 95 % de probabilidad de confianza, que la calificacin promedio
para todos los alumnos que estn matriculados en el curso Estadstica Aplicada a la Educacin
y que asisten regularmente, tome valores entre 11,86 y 14,54.
Si x es la media de una muestra aleatoria de tamao n obtenida de una poblacin normal con
varianza poblacional 2 desconocida, entonces:
s s
x t / 2 , x + t / 2 (3.2)
n n
s
Lmite inferior: x t / 2
n
s
Lmite superior: x + t / 2
n
Ambos lmites dependen de la probabilidad de confianza que elija el investigador y del error
estndar de la media muestral, pero cuando la varianza poblacional, 2 , se desconoce, por
tanto se usa como estimador de 2 a la cuasivarianza, seccin 2.8.2:
(x )
n
1 2
s2 = x
n 1
i
i =1
54
Los valores de los lmites contienen al estimador puntual x , al valor de este estimador para
s
obtener los lmites inferior y superior se disminuye y adiciona t / 2 respectivamente.
n
Grfico N 3.2
Particin de la distribucin t-Student para obtener
un intervalo de confianza para
t ( n 1)
t / 2 t / 2
El valor t / 2 es la cuantila (abscisa) de la distribucin t-Student con n-1 grados de libertad, tal
que la probabilidad hacia la derecha es / 2 .
Ejemplo 3.6
Como parte de la evaluacin de la calidad del aprendizaje en escolares del segundo grado de
primaria de Instituciones Educativas estatales, el equipo evaluador ha elegido al azar a 20
nios de esta poblacin. Se les aplico una prueba de aritmtica que consta de 30 problemas
para este nivel, los autores de la prueba indican los escolares de este grado escolar debe
emplear en promedio 40 minutos, para resolver estos problemas.
55
El equipo evaluador desea estimar el tiempo promedio que emplean todos los nios de este
nivel de estudios para resolver esta prueba, si se sabe que el tiempo tiene distribucin normal.
50 48 48 55 40 52 57 55 47 46
43 49 51 50 53 48 50 46 43 45
Solucin
t ( 19 )
- 2,093 2,093
56
Los lmites del intervalo de confianza son:
s 4,36
Lmite inferior: x t / 2 = 48,8 2,093 = 48,8 2,04 = 46,76
n 20
s 4,36
Lmite superior: x + t / 2 = 48,8 + 2,093 = 48,8 + 2,04 = 50,84
n 20
Por tanto, se espera con un 95% de probabilidad de confianza que el tiempo promedio
poblacional empleado para resolver los 30 problemas, est comprendido entre 46,76 y 50,84
minutos. La estimacin intervlica indica que esta poblacin est fuera de control, por que la
norma indica que el tiempo promedio poblacional empleado es de 40 minutos, valor que no
pertenece al intervalo de confianza obtenido.
(n 1) s 2 (n 1) s 2
2 , (3.3)
1 / 2 2 / 2
(n 1) s 2
Lmite superior:
2 / 2
Ambos lmites dependen de la probabilidad de confianza que elija el investigador y del error
estndar estimado de la varianza muestral s 2 .
57
Los valores de los lmites contienen al estimador puntual. En el siguiente grfico, se muestra
la particin de la distribucin Chi-cuadrado para obtener un intervalo de confianza al (1 )
100%, para 2 .
Grfico N 3.3
Particin de la distribucin Chi cuadrado para obtener
un intervalo de confianza para 2
Ejemplo 3.7
Solucin
8,91 32,85
(n 1) s 2 19(19,01)
Lmite superior: = = 40,54
/ 2
2
8,91
Por tanto se espera con un 95% de probabilidad de confianza, que la varianza poblacional del
tiempo empleado para resolver los 30 problemas, est comprendido entre 10,99 y 40,54
minutos2.
p (1 p ) p (1 p )
p z / 2 , p + z / 2 (3.4)
n n
p(1 p)
Lmite inferior: p z / 2
n
p(1 p)
Lmite superior: p + z / 2
n
Ambos lmites dependen de la probabilidad de confianza que elija el investigador y del error
estndar estimado de la proporcin muestral.
Los valores de los lmites contienen al estimador puntual p , al valor de este estimador para
Grfico N 3.4
Particin de la distribucin normal estandarizada
para obtener un intervalo de confianza para
N (0,1)
60
El valor z / 2 es la cuantila de la abscisa normal estandarizada tal que la probabilidad hacia la
derecha es / 2 .
Ejemplo 3.8
Se solicita que estime la proporcin de alumnos de esta Facultad con actitud positiva hacia la
autoevaluacin de la calidad educativa.
Solucin
Esta variable aleatoria tiene distribucin binomial con parmetros n grande (n = 364) y :
Proporcin poblacional de alumnos de la Facultad de Ciencias Matemticas, con actitud
positiva hacia la autoevaluacin de la calidad educativa.
61
Los valores requeridos, para el clculo del intervalo de confianza correspondiente son:
247
p= = 0,6786, z / 2 = 1,645.
364
p(1 p)
Lmite inferior: p z / 2 =
n
0,6786(1 0,6786)
0,6786 1,645 = 0,6786 0,0245 = 0,6541
364
p(1 p)
Lmite superior: p + z / 2 =
n
0,6786(1 0,6786)
0,6786 1,645 = 0,6786 + 0,0245 = 0,7031
364
Por tanto se espera que con un 90% de probabilidad de confianza, que la proporcin de
alumnos de esta Facultad con actitud positiva hacia la autoevaluacin de la calidad educativa
est comprendida entre 0,6541 (65,41%) y 0,7031 (70,31%).
62
3.5. INTERVALO DE CONFIANZA PARA ESTIMAR DIFERENCIA DE MEDIAS
POBLACIONALES, 1 2 , DE POBLACIONES NORMALES
Cuando en una investigacin deseamos comparar a dos grupos o poblaciones, empleando los
valores de una variable aleatoria, estamos realizando anlisis de diferencias.
Estas poblaciones pueden ser independientes o relacionadas, por tanto las muestras aleatorias
que servirn para realizar inferencias mediante intervalos de confianza tambin estn en ese
sentido, veamos.
Proponemos el siguiente caso, el coordinador del curso Ciencia y Ambiente a fin de mejorar
el rendimiento de sus alumnos dispone de dos mtodos de enseanza:
1. Resolucin de problemas.
2. Discusin de casos.
El coordinador desea saber con cul mtodo los alumnos, de la Institucin educativa donde
trabaja, obtienen mejor rendimiento; entonces realiza el estudio entre alumnos del tercer grado
de secundaria de dos secciones. A una seccin le asigna aleatoriamente el mtodo resolucin
de problemas y a la otra seccin, el mtodo discusin de casos.
Es obvio que cada mtodo de enseanza se desarrolla independientemente uno del otro. A
este tipo de diseo se le llama de muestras independientes y la comparacin se realiza en base
al rendimiento de los dos grupos.
El rendimiento de los alumnos se mide mediante una prueba diseada por el coordinador, que
debe ser vlida y confiable.
63
3.5.1.1.CUANDO LAS VARIANZAS POBLACIONALES 12 Y 22 SON
DESCONOCIDAS PERO 12 = 22
(x 1 )
x 2 t / 2 S p
1 1
+
n1 n2
(3.5)
1 2 .
Donde:
S p2 =
(n1 1)s12 + (n2 1)s 22 (3.6)
n1 + n 2 2
Esto es la distribucin de probabilidad t-Student es el soporte para obtener los lmites y son:
Lmite inferior: (x 1 )
x 2 t / 2 S p
1 1
+
n1 n2
Lmite superior: (x 1 )
x 2 + t / 2 S p
1 1
+
n1 n2
64
Ejemplo 3.9
Empleando las TICs no solo requiere los conocimientos mnimos sobre el hardware y el
software a emplearse, sino buscar informacin relevante para la enseanza, crear materiales,
digitales o multimedia para la docencia y la investigacin del curso que se imparte.
Solucin
X: Calificacin de la prueba que mide el nivel de conocimientos sobre Historia del Per. Esta
variable aleatoria tiene distribucin normal con parmetros:
65
Grupo control
1 : Calificacin promedio poblacional del grupo control.
12 : Varianza poblacional de la calificacin del grupo control.
Grupo experimental
2 : Calificacin promedio poblacional del grupo que ha usado el software PER.
22 : Varianza poblacional de la calificacin del grupo que ha usado el software PER.
S p2 =
(n1 1)s12 + (n2 1)s 22
n1 + n 2 2
S p2 =
(n1 1)s12 + (n2 1)s22 =
(19)2,99 + 19(2,38) 102,03
= = 2,69
n1 + n2 2 38 38
S p = 2,69 = 1,64
Para calcular los lmites se requiere, el valor de t 0, 025 = 2,024 con 38 grados de libertad, y
1 1 1 1
+ = + = 0,32 .
n1 n2 20 20
66
Calculamos los lmites:
Lmite inferior:
(x 1 )
x 2 t / 2 S p
1 1
+
n1 n2
= (11,45 15,1) (2,024 )(1,64 )(0,032) = 3,76
Lmite superior:
(x 1 )
x 2 + t / 2 S p
1 1
+
n1 n2
= (11,45 15,1) + (2,024 )(1,64 )(0,032) = 3,54
DESCONOCIDAS, PERO 12 22
(x 1 )
x 2 t / 2
s12 s 22
+
n1 n 2
(3.7)
Donde:
67
El nmero de grados de libertad, para la abcisa t / 2 de la distribucin t-Student, de acuerdo a
Smith-Satterthwaite es:
2
s12 s 22
+
= n1 n2
2 2 (3.8)
s12 s 22
n1 + n2
n1 1 n2 1
Lmite inferior: (x )
1 x 2 t / 2
s12 s22
+
n1 n2
Lmite superior: (x )
1 x 2 + t / 2
s12 s22
+
n1 n2
Ejemplo 3.9
Para evaluar el desempeo docente entre profesores de idioma ingls, que ensean a alumnos
del tercer grado de secundaria, se compara la produccin de textos entre alumnos de profesor
de lengua nativa castellana (PLNC) y profesor de lengua nativa inglesa (PLNI).
Se evala mediante una prueba adecuada cuyo escala es de 0-10 puntos, para muestras
aleatorias independientes de alumnos de cada una de dos secciones con profesores de lengua
nativa castellana e inglesa; asimismo el puntaje tiene distribucin normal con varianzas
desconocidas y diferentes. Los puntajes obtenidos son:
68
9 5 7 5 4 6 4 5
PLNC
4 7 5 5 5 6 6 8
7 7 5 6 6 6 8 8 5 5
PLNI
5 5 4 7 7 8 6 8 5 4
SOLUCIN
Grupo PLNC
1 : Puntaje promedio de la produccin de textos en idioma ingls con PLNC.
12 : Varianza poblacional del puntaje de la produccin de textos en idioma ingls del grupo
con PLNC.
Grupo PLNI
2 : Puntaje promedio de la produccin de textos en idioma ingls con PLNI.
22 : Varianza poblacional del puntaje de la produccin de textos en idioma ingls del grupo
con PLNI.
69
Los tamaos de muestras n1 = 16 y n2 = 20, reemplazando adecuadamente se tiene que:
Para calcular los lmites se requiere, el valor de t 0, 05 pero previamente se debe calcular los
2
s12 s 22 2,10 1,78
2
+ 16 + 20
= n1 n2
= =
[0,22]
2
=
0,0484
= 32,27
2 2
s1 2 2
s2 2,10
2
1,78
2
[0,131] + [0,089] 0,0011 + 0,0004
2 2
16 20
+
n1 + n2 15 19
n1 1 n2 1 15 19
Lmite inferior:
(x 1 )
x 2 t / 2
s12 s22
+
n1 n2
= (5,69 6,1) (1,694)
2,10 1,78
16
+
20
= 0,41 0,79 = 1,2
Lmite superior:
(x 1 )
x 2 + t / 2
s12 s 22
+
n1 n2
= (5,69 6,1) + (1,694)
2,10 1,78
16
+
20
= 0,41 + 0,79 = 0,38
Por tanto se espera con un 90% de probabilidad de confianza, que la diferencia del puntaje
promedio poblacional de produccin de textos entre los alumnos cuyo profesor de ingls es de
lengua nativa castellana y de profesor de lengua inglesa, est comprendida entre -1,2 y 0,38.
70
3.5.2. USANDO MUESTRAS RELACIONADAS
Proponemos el siguiente caso, el profesor del curso Ciencia y Ambiente observa que sus
alumnos tienen bajo rendimiento, por tanto decide cambiar de mtodo de enseanza y elige
mtodo de resolucin de problemas debido a que ha ledo en revistas de investigacin
educativa que ha dado buenos resultados, esto es, incrementa el rendimiento de los alumnos
del mencionado curso.
A fin de comprobarlo que se elige al azar una muestra de alumnos del tercer grado de
secundaria, para realizar el ensayo con una muestra aleatoria de alumnos, pero antes de
aplicar el presente mtodo mide el rendimiento del sus alumnos, y tambin los vuelve a medir
al final del curso empleando el mtodo alternativo para la enseanza del presente curso.
Es obvio que a cada alumno que participa en el ensayo, se mide su rendimiento en el presente
curso en dos momentos o bajo dos condiciones distintas antes y despus de emplear el mtodo
alternativo. El rendimiento de los alumnos se mide mediante una prueba diseada que debe
ser vlida y confiable.
En este caso la muestra es relacionada porque son dos mediciones del rendimiento que se
obtiene de cada alumno en dos situaciones distintas. A las muestras relacionadas, tambin se
les llama apareadas.
71
Donde:
n
d i
d= i =1
(3.10)
n
(d )
n
2
i d
S d2 = i =1
(3.11)
n 1
tal que la probabilidad hacia la derecha es / 2 . Igualmente emplear el grfico 3.2 para
obtener la particin de la distribucin t-Student, pero considerando los grados de libertad
correspondientes.
Ejemplo 3.10
La gestin del director de una institucin educativa, es uno de los factores que afecta la
calidad de la educacin superior. Con la finalidad de mejorar la gestin se dispone de un
programa basado en talleres que permiten mejorar el liderazgo, se dispone de 15 directores a
quines se les aplica una prueba antes y despus de la capacitacin, que mide el estilo de
liderazgo. Se trata de una prueba cuya escala es de 10 a 50, a mayor puntaje, el liderazgo es
ptimo.
72
Los puntajes obtenidos, al aplicar la prueba, son:
Sujeto 1 2 3 4 5 6 7 8 9
Antes 13 16 10 17 13 13 15 17 12
Despus 19 10 17 22 23 32 42 30 10
Sujeto 10 11 12 13 14 15 16 17
Antes 18 12 14 14 12 15 19 20
Despus 28 28 26 32 32 31 33 42
Solucin
Para usar la expresin 3.9, se requiere trabajar en base a las diferencias muestrales, para tal
efecto disponemos de la siguiente tabla:
1 13 19 -6
2 16 10 6
3 10 17 -7
4 17 22 -5
5 13 23 -10
6 13 32 -19
7 15 42 -27
8 17 30 -13
9 12 10 2
10 18 28 -10
11 12 28 -16
12 14 26 -12
13 14 32 -18
14 12 32 -20
73
15 15 31 -16
16 19 33 -14
17 20 42 -22
Total -207
Clculo de la media de las diferencias muestrales, usando la expresin 3.11, requiere calcular
la media de las diferencias muestrales:
d i
207
d= i =1
= = 12,18
n 17
(d ) (d
n n
12,18)
2
d
2
i i
11234
S d2 = i =1
= i =1
= = 702,1
n 1 16 16
Usando nivel de confianza 0,95 (95 %), el valor t0, 025 = 2,12 con n 1 = 16 grados de
libertad.
Lmite inferior:
sd 26,5
d t / 2 = 12,18 ( 2.129) = 12,18 ( 2,12)(5,93) = 12.18 12,57 = 24,75
n 20
Lmite superior:
sd 26,5
d t / 2 = 12,18 ( 2.129) = 12,18 + ( 2,12)(5,93) = 12.18 + 12,57 = 0,39
n 20
74
Por tanto se espera con un 95% de probabilidad de confianza, que la diferencia del puntaje
promedio poblacional antes de la capacitacin y despus de la capacitacin, est comprendida
entre -24,75 y 0,39. Como podemos notar, el lmite inferior es negativo y el superior es
positivo, el intervalo contiene al valor cero; esto significa que hay posibilidad que 1 2 =
0, por tanto, se recomienda revisar o mejorar la capacitacin, a fin que ambos lmites sean
negativos.
12
Es un intervalo de confianza del (1 )100% de probabilidad de confianza para estimar 2 .
2
Los valores de los lmites contienen a los estimadores puntuales de 12 y 22 que son s12 y s22
respectivamente.
75
Grfico N 3.5
Particin de la distribucin F-Fisher para obtener un intervalo de confianza
F( n1 1, n2 1)
F / 2 F1 / 2
s12 / s22
Lmite superior:
F / 2
Ejemplo 3.11
76
Solucin
X: Calificacin de la prueba que mide el nivel de conocimientos sobre Historia del Per. Esta
variable aleatoria tiene distribucin normal con parmetros, que se describen en el desarrollo
del ejemplo 3.9.
12
Para estimar , empleamos la expresin 3.12, las estadsticas que obtienen de cada muestra
22
son:
F(19,19 )
0,396 2,526
p1 (1 p1 ) p2 (1 p2 )
( p1 p2 ) z / 2 + (3.13)
n1 n2
p1 (1 p1 ) p2 (1 p2 )
Lmite inferior: ( p1 p2 ) z / 2 +
n1 n2
p1 (1 p1 ) p2 (1 p2 )
Lmite superior: ( p1 p2 ) + z / 2 +
n1 n2
78
Ambos lmites dependen de la probabilidad de confianza que elija el investigador y del error
estndar estimado de la diferencia de proporciones poblacionales. En este caso la particin de
la distribucin normal estandarizada es como la del grfico 3.4.
Ejemplo 3.12
Entre varias preguntas que comprende el cuestionario aplicado, una de ellas es: Los datos
que recolecta su universidad garantiza la validez de las evaluaciones?
Universidad Tamao de S No
Muestra
Estatal 1650 496 1154
Privada 0970 361 609
Solucin
Universidad estatal
1 : Proporcin poblacional de docentes que laboran en Universidades Estatales y que
responden que los datos recolectados por su Universidad no garantiza la validez de las
evaluaciones.
n1 = 1650
Universidad privada
2 : Proporcin poblacional de docentes que laboran en Universidades Privadas y que
responden que los datos recolectados por su Universidad no garantiza la validez de las
evaluaciones.
n2 = 970
80
Lmite inferior:
p1 (1 p1 ) p 2 (1 p 2 ) 0,6963(0,3037) 0,6278(0,3722) 0,2115 0,2337
+ = + = + = 0,00013 + 0,00024
n1 n2 1650 970 1650 970
= 0,00037 = 0,0192
Lmite inferior:
p1 (1 p1 ) p2 (1 p2 )
( p1 p2 ) z / 2 + = 0,0685 1,645(0,0192) = 0,0685 0,0316 = 0,0369
n1 n2
Lmite superior:
p1 (1 p1 ) p 2 (1 p 2 )
( p1 p2 ) + z / 2 + = 0,0685 + 1,645(0,0192) = 0,0685 + 0,0316 = 0,1001
n1 n2
Como observamos los lmites son valores positivos y no cubre el valor cero, por tanto la
proporcin poblacional de docentes que laboran en Universidades Estatales y que responden
que los datos recolectados por su Universidad no garantiza la validez de las evaluaciones es
mayor que de los docentes de Universidades Privadas.
EJERCICIOS PROPUESTOS
1. Se emplea un mtodo que consiste en usar un manual auto instructivo acompaado del
video correspondiente, para aplicar un programa de capacitacin industrial. Las
calificaciones (0 - 100) obtenidas al final de la capacitacin, al aplicar una prueba
adecuada a una muestra aleatoria de alumnos son:
71 75 68 59 70 66 78 79 68 73
55 63 72 56 72 66 60 58 62 70
81
las calificaciones. Emplear 90% y 95% de probabilidad de confianza, compare los
resultados.
10 14 11 12 9 5 17 18 10 12 16 12 11
8 11 9 10 13 11 9 13 11 8 10 14
10,4 9,7 11,3 12,7 10,7 10,3 9,5 12,9 8,7 12,9 10,3 11 12
12,7 8 9,2 11,6 10,4 12 11,7 10,9 11,2 8,4 11,9 10,5 8,2
10,2 9,9 9,4 10,6 11 10,7 10,1 9 11,6 10,7 9,4 10 11,4
8,9 11,2 11,7 10,5 10 8 11,3 9,7 10,6 10,4 9,1
82
Considerando que el contenido de benceno se distribuye como normal de probabilidad,
obtenga e interprete el intervalo de confianza para el contenido promedio poblacional de
benceno y su respectiva varianza poblacional.
X1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 1 0
X2 1 0 1 0 1 1 0 0 0 1 0 1 0 0 0 0 0
X1 0 0 1 0 0 0 1 0 1 1 0 0 1 1 1 0 1
X2 0 1 1 0 1 0 0 0 0 0 0 1 0 0 0 1 0
X1 1 0 0 0 1 1 0 0 0 0 1 1 0 0 1 0 1
X2 1 0 0 0 0 0 1 0 0 1 0 1 1 0 0 1 1
X1 0 0 1 0 0 1 0 0 0
X2 0 0 0 1 0 0 1 0 1
X1: Cuenta con por lo menos un personal con formacin en bibliotecologa universitaria.
0: No 1: S
X2: La biblioteca cuenta con Plan Estratgico para su funcionamiento.
0: No 1: S
6.1. Proporcin poblacional de bibliotecas que cuentan con por lo menos un personal con
formacin en bibliotecologa universitaria.
83
6.2. Proporcin poblacional de bibliotecas que cuenta con Plan Estratgico para su
funcionamiento.
7. Se aplica una prueba a los docentes de instituciones educativas de gestin estatal del
nivel secundaria y primaria para evaluar la gestin de la alta direccin de la UGEL
correspondiente. La prueba tiene puntajes comprendidos entre 10 - 30, a mayor
puntaje indica que los docentes consideran que le servicio es eficiente y adems los
puntajes de esta prueba tiene distribucin normal de probabilidad con varianza
poblacional igual a 100 para cada nivel. Se han obtenido las siguientes estadsticas:
84
Mediante la estimacin mediante intervalo de confianza para la diferencia de
proporciones poblacionales de alumnos que estn de acuerdo en que se implemente
este idioma, entre las dos EAP; es posible que no existan diferencias de proporciones
poblacionales Por qu?
60 47 56 66 70 50 61 66 70 50
Masculino 47 57 62 58 61 51 67 48 59 68
63 49 71 68 59 52 64 53 65 59
38 23 28 42 29 30 50 38 36 47
Femenino 33 35 51 35 31 37 22 38 31 40
41 28 42 46 31 47 48 30 50 35
85
rea Muestra Aleatoria S
Ingenieras
328 261
Ciencias
Bsicas 500 385
86
14 13 18
15 18 23
16 14 18
17 14 21
18 18 26
19 21 28
20 17 23
21 15 21
22 21 27
23 12 17
24 14 18
25 21 21
26 20 26
27 26 28
La gestin del director de una Institucin Educativa es un factor clave para lograr la
calidad educativa. Preocupados por esta situacin un equipo multidisciplinarios elabora
una capacitacin especial, para formar directores con suficiente capacidad de gestin. Para
validarlo emplea una muestra aleatoria de 34 directores de Instituciones Educativas de
gestin estatal, estos docentes son evaluados antes y al final de la capacitacin sobre
diversos aspectos de la gestin. A mayor puntaje obtenido indica mayor capacidad de
gestin para con la direccin de la Institucin Educativa. Los resultados son:
Director 1 2 3 4 5 6 7 8 9 10 11 12
Antes 20 19 16 23 23 18 23 21 26 27 21 21
Despus 26 23 20 31 28 22 28 23 27 32 28 24
Director 13 14 15 16 17 18 19 20 21 22 23 24
Antes 17 16 21 17 17 21 24 20 18 24 15 17
Despus 21 22 25 21 25 30 32 25 23 29 21 22
87
Director 25 26 27 28 29 30 31 32 33 34
Antes 24 20 18 23 21 26 27 21 21 17
Despus 30 27 25 30 23 27 32 26 24 23
88
CAPTULO 4
Introduccin
En una investigacin no solo se requiere estimar un parmetro, sino que el investigador puede
proponer hipotticamente un valor o valores para el parmetro; valor basado en su propia
experiencia profesional o segn oriente el marco terico, de la investigacin. Por tanto, es
necesario decidir si se considera ese supuesto o se rechaza, obviamente se efecta en base a
datos obtenidos de una muestra aleatoria, y empleando la prueba de hiptesis estadsticas o
llamado tambin contraste de hiptesis estadstica, o simplemente prueba de hiptesis.
Para verificar las hiptesis estadsticas se deben realizar pruebas estadsticas especficas, si
tiene como requisito, que la distribucin de probabilidad sea conocida empleamos este
captulo, sino se debe usar las pruebas de hiptesis estadsticas paramtricas.
EN RESUMEN
Una prueba de hiptesis es el proceso mediante el cual, a partir de los valores de
una muestra aleatoria extrada de una poblacin bajo estudio, se decide si mantiene
el supuesto que plantea el investigador para el parmetro, o se rechaza; con cierta
probabilidad de error (riesgo) por tomar una decisin.
89
Grfico N 5.1
Proceso de la prueba de hiptesis estadstica
POBLACIN MUESTREO
MUESTRA ALEATORIA
Para la poblacin se plantea un supuesto para el parmetro, de sta se extrae una muestra
aleatoria, los datos recolectados de ella se usan para generalizarlo en toda la poblacin,
mediante el proceso de la prueba de hiptesis.
Conceptos bsicos
Es una conjetura o supuesto que el investigador plantea para el parmetro, que puede o no ser
verdadera, relativa a una o ms poblaciones. Las hiptesis estadsticas pueden ser simples o
compuestas, tambin nulas o alternativas.
Ejemplo 4.1
Se sabe que el tiempo promedio requerido para resolver un problema sencillo en nios de 10
aos de edad con secuelas neurolgicas es igual a 4.23 minutos, suponiendo que se especifica
el tamao de la muestra (una muestra de nios de esta poblacin) y que la distribucin
poblacional (el tiempo requerido para resolver el problema) es normal, entonces la hiptesis:
= 4.23 es una hiptesis simple.
Pero si hubiese conjeturado que el tiempo promedio requerido para resolver un problema
sencillo en nios de 10 aos de edad con secuelas neurolgicas es mayor de 4.23 minutos, se
trata de una hiptesis compuesta porque no asigna un valor especifico al parmetro , esto
Supuesto que indica que el valor del parmetro, es constante, que no ha sufrido cambios, es
nula. Equivalentemente que la poblacin permanece constante, la hiptesis nula se plantea
generalmente con la intencin de rechazarla. Se representa mediante H 0 .
91
Ejemplo 4.2
Como parte de la evaluacin de la calidad del aprendizaje en escolares del segundo grado de
primaria de instituciones educativas estatales, el equipo evaluador ha elegido al azar a 20
nios de esta poblacin. Se les aplico una prueba de aritmtica que consta de 30 problemas
sencillos, y se obtiene en promedio 51,5 minutos. Los autores de la prueba indican que el nio
de este grado escolar debe emplear en promedio para resolverla 40 minutos y con varianza
poblacional igual a 576 (minutos)2.
Solucin
minutos.
Bajo la hiptesis nula se est indicando que la media poblacional no ha sufrido cambios, se
mantiene como 40 minutos, pero en la hiptesis alternativa se indica el cambio, en el sentido
que la media poblacional es mayor 40 minutos, pero basado en los problemas de aprendizaje
que los alumnos evidencian.
Equivalentemente:
H 0 : = 40
H 1 : > 40
92
4.2.5.2 Prueba de una hiptesis estadstica
Cuando la hiptesis alternativa indica cambio en una sola direccin, (> <), con respecto a la
hiptesis nula, se dice que la prueba de hiptesis es unilateral. Pero cuando la hiptesis
alternativa no indica direccin determinada para el cambio se dice que la prueba es bilateral.
Ejemplo 4.3
H 0 : = 40
H 1 : > 40
Por definicin en la hiptesis nula se indica que no hay diferencia, por tanto la media
poblacional es 40 minutos.
La hiptesis alternativa indica la diferencia en una sola direccin, mayor de 40, basado en lo
que evidencian los escolares.
93
Ejemplo 4.4
H 1 : 12 22
Por definicin en la hiptesis nula se indica que no hay diferencia, por tanto la diferencia de
varianzas poblacionales es cero (nula), no hay variacin o cambios respecto a al varianza
entre los dos grupos poblacionales.
La hiptesis alternativa indica diferencias, porque no hay una propuesta que oriente la
direccin de esa diferencia.
Los errores que podemos cometer cuando realizamos una prueba de hiptesis, se muestran en
la siguiente tabla:
Tabla 4.1
Decisin basada en la prueba estadstica y el estado real
del valor supuesto para el parmetro
H 0 es verdadera H 0 es falsa
94
Estos errores deben ser cuantificados, pero en en terminos de probabilidad de riesgo, por que
estamos ante la incertidumbre. Por tanto la probabilidad de cometer Error de tipo I y Error de
tipo II, respectivamente son las siguientes probabilidades condicionales:
Pero una buena prueba estadstica es aquella en donde tanto como son pequeas, porque
permitir tomar una decisin correcta, con menor riesgo para equivocarse.
Tabla 4.2
Decisin basada en la prueba estadstica y el estado real
del valor supuesto del parmetro, trminos de probabilidad
H 0 es verdadera H 0 es falsa
Rechazar H 0 1-
No rechazar H 0 1-
Al observar la tabla 4.2 se deduce que el rechazo de una hiptesis nula verdadera conduce a
cometer Error de tipo I o , mientra que el norechazo de una hiptesisi nula falsa conduce a
cometer Error de tipo II o .
El error est bajo control del investigador y se elige o establece antes de realizar la prueba
de hiptesis, es el nivel de significancia para la prueba de hiptesis, entonces como se puede
controlar , tambin 1- est controlada.
95
En el captulo anterior hemos visto que 1- es el nivel de confianza, o probabilidad de que el
intervalo de confianza contenga al valor del parmetro.
Pero el error , es complicado, porque vara con , esto es, el tamao de muestra, la prueba
estadstica concreta que se utiliza, el diseo elegido y la magnitud del efecto, influyen en
estos errores.
Cuando se rechaza la hiptesis nula, se dice que hay significancia estadstica, pero cuando no
se rechaza la hiptesis nula significa que no existe suficiente informacin como para
rechazarla, es errado afirmar que se acepta la hiptesis nula. No se puede aceptar algo que no
sabemos que sea verdadero o falso.
Que una prueba sea estadsticamente significativa, es decir, rechazar la hiptesis nula no
asegura que la hiptesis alternativa sea cierta ante la evidencia de datos muestrales, sino que
los datos muestrales discrepan con el supuesto bajo la hiptesis nula.
Recuerde que la muestra es aleatoria, los estadsticos tambin lo son y por puesto que la
estadstica que se usan para someter a prueba hiptesis estadsticas.
Por tanto se recomienda a los lectores no ser mecanicistas y estar dependiendo del valor ,
porque lo estadsticamente significativo no siempre es relevante para la investigacin. Pero si
96
el investigador le da relevancia a la investigacin, esto es, emplea los mejores recursos
terico-metodolgicos y por tanto obtiene datos de calidad, en resumen sigue adecuadamente
el mtodo cientfico.
Ahora se usan los softwares estadsticos como SPSS, MINITAB, SAS, entre otros y es
preocupante ver como se usa de manera indiscriminada, sin sustento, se cree que es solo
poner los datos y ver el resultado si es o no estadsticamente significativo. No hay que
contentarse con que sea estadsticamente significativo sino que sea relevante la investigacin.
Para rechazar o no la hiptesis nula se toma una muestra aleatoria de la poblacin bajo estudio
y los resultados contenida en ella se usa en expresiones llamadas estadsticos o estadsticas de
prueba e indican el grado de discrepancia entre la hiptesis nula y los datos muestrales que
estn resumidos en las estadsticas.
Ejemplo 4.5
Asumiendo, para el ejemplo 4.2, que el tiempo para resolver 30 problemas sencillos se
distribuye como normal de probabilidad y con varianza poblacional igual a 4,47 (minutos)2, la
estadstica para someter a prueba las hiptesis:
H 0 : = 40
H 1 : > 40
x 0
Es: Z= ~ N (0,1)
/ n
97
Pero analicemos la estadstica:
x 0
Z=
/ n
La media muestral x , es el valor que se obtiene en base a los datos de la muestra s 51,5
minutos.
Siendo 0 =40 minutos, que es el valor asumido, para la media poblacional, bajo la hiptesis
nula.
, es el error estndar de la media muestral, ver seccin 2.8.1, cuyo valor es:
n
24 24
= = = 5,37
n 20 4,47
Podemos afirmar que la estadstica para la prueba de hiptesis es una medida de contraste
entre la informacin muestral y lo que se asume o conjetura para el parmetro, bajo la
hiptesis nula.
Al conjunto de valores de la estadstica de prueba para los que la hiptesis nula se rechaza se
llama regin de rechazo o regin crtica.
98
Ejemplo 4.6
Continuando con el desarrollo del ejemplo 4.5, la regin crtica o de rechazo, se establece
tomando en cuenta que la prueba de hiptesis unilateral, con desigualdad mayor que (>)
entonces la regin de rechazo va en ese sentido; una regin de rechazo unilateral, porque
mientras mayor sea el valor de la estadstica Z, la evidencia muestral no estar a favor del
supuesto sino se le rechazar.
Si elegimos =0,05, entonces z / 2 =1,645 (valor crtico), por tanto la regin de rechazo,
indica que si el valor de la estadstica Z >1,645 se rechaza la hiptesis nula; en caso contrario
no se rechaza.
En el ejemplo 4.5, se calculo el valor de la estadstica: Z= 2,14, este valor es mayor de 1,645,
por tanto se rechaza la hiptesis nula, al 5% de nivel de significacin, esto es, ante la
evidencia de la muestra, se puede asumir que el promedio poblacional para desarrollar la
presente prueba se ha incrementado, por tanto el investigador debe tomar la decisin ms
adecuada para que el promedio para esta poblacional no sea mayor de la norma (40 minutos).
Es la probabilidad, que mide el riesgo que tiene el investigador cuando al obtener un cierto
valor de la estadstica, se rechaza la hiptesis nula. (SPSS le llama Sig).
99
4.3. Etapas para realizar una prueba de hiptesis
La prueba de hiptesis brinda las herramientas estadsticas para someter a prueba las hiptesis
estadsticas y tambin modelos tericos, para ambos casos es conveniente seguir la siguiente
secuencia, ya sea cuando se realizan los clculos de forma manual o auxilindose de un
software estadstico.
100
4.4. Prueba de para de una poblacin normal
Se aconseja que el lector A este nivel de estudio es importante que se tenga bien en cuenta los
conceptos y la aplicacin tanto de la estadstica descriptiva como de la estimacin mediante
intervalos; as como plantear adecuadamente las hiptesis nula y alternativa.
La prueba de hiptesis es paramtrica por que se aplica solo para muestras aleatorias que
provienen de poblaciones con distribuciones de probabilidad conocida, que generalmente es la
distribucin de probabilidad normal.
Iniciamos las pruebas de hiptesis para el parmetro la media poblacional, , bajo dos
aspectos cuando se conoce la varianza poblacional y cuando es desconocida.
Sea x1 , x2 ,......., xn una muestra aleatoria de tamao n obtenida de una poblacin normal
Se emplea la estadstica:
x 0
Z= ~ N (0,1) (4.1)
/ n
101
I. Cuya regin de rechazo de tamao est dada por:
N (0,1)
0 z
Rechazar H 0 si el valor de la estadstica Z > z , en caso contrario no se rechaza H0 .
N (0,1)
z 0
N (0,1)
/2 /2
z / 2 0 z / 2
102
Obs. Cuando la muestra es grande de una poblacin que no sea normal, pero tiene varianza
finita, se usa el TLC, para usar esta prueba an cuando no se conozca la varianza poblacional,
se aproxima su valor con la varianza muestral. Ver seccin 2.8.1 (pg. 18)
Ejemplo 4.7
21 16 16 19 13 15 19 14 19 20 16 19 20 16 19 13 16
12 14 15 13 16 12 15 16 16 17 15 14 16 16 18 17 19
18 19 17 18 16 19
El equipo evaluador considera que por diversos factores que la duracin promedio de los
estudios se ha incrementado. La muestra aleatoria apoya este supuesto? Asumir que la
muestra tiene comportamiento normal de probabilidad.
Solucin
X ~ N ( , 64)
103
La prueba de hiptesis es:
1. H 0 : = 14
H 1 : > 14
2. = 0,05
3. Estadstica para la prueba es (4.1), por que para el caso se conoce la varianza poblacional y
adems la variable aleatoria bajo estudio tiene distribucin normal de probabilidad.
= 0,05
0 1,645
104
4.4.2 Cuando 2 no se conoce
Sea x1 , x2 ,......., xn una muestra aleatoria de tamao n obtenida de una poblacin normal
Se emplea la estadstica:
x 0
T= ~ t (n 1) (4.2)
s/ n
t (n 1)
0
t
Rechazar H 0 , si el valor de la estadstica T > t , en caso contrario no se rechaza H0 .
t ( n 1)
t 0
105
Rechazar H 0 , si el valor de la estadstica T < t , en caso contrario no se rechaza H0 .
t (n 1)
/2 /2
t / 2 0
t / 2
Rechazar H 0 , si el valor de la estadstica T < t / 2 T > t / 2 en caso contrario no se
rechaza H 0
Obs. Esta prueba es recomendable cuando el tamao de la muestra es pequeo.
Ejemplo 4.8
2475 2685 3125 3004 3325 3692 3325 1875 2895 3125 2725
3325 3625 3325 2925 2625 3125 2925 3325 3625
Verificar si lo manifestado por los egresados tiene sustento, considerando los resultados que
da la muestra aleatoria. Las remuneraciones tienen distribucin normal de probabilidad.
106
Solucin
X ~ N ( , 2 )
1. H 0 : = 2800
H 1 : > 2800
2. = 0,05
3. Estadstica para la prueba es (4.2), por que para el caso no se conoce la varianza poblacional y
adems la variable aleatoria bajo estudio tiene distribucin normal de probabilidad.
t (19 )
= 0,05
0 1,729
rechazarla.
valores:
107
3053,80 2800 253,80 253,80
T= = = = 2,59
438,67 / 20 438,67 / 4,47 98,09
Sea x1 , x2 ,......., xn una muestra aleatoria de tamao n obtenida de una poblacin normal
Se emplea la estadstica:
X2 =
(n 1)s 2 ~ (2n 1) (4.3)
2
0
(2n 1)
0
2
108
Rechazar H 0 , si el valor de la estadstica X 2 > 2 , en caso contrario no se rechaza H0 .
(2n 1)
0
12
/2 (2n 1)
/2
0
12 2
Rechazar H 0 , si el valor de la estadstica X 2 < 12 , en caso contrario no se rechaza H0 .
Ejemplo 4.9
Considere el caso del ejemplo 2, para verificar si la varianza poblacional puede ser a lo sumo
190000 (soles)2.
109
Solucin
X ~ N ( , 2 )
1. H 0 : 2 190000
H 1 : 2 > 190000
2. = 0,05
3. Estadstica para la prueba es (4.3), por que la variable aleatoria bajo estudio tiene distribucin
normal de probabilidad.
(220 )
= 0,05
0 30,144
rechaza H 0 .
110
5. Clculo de la estadstica T (expresin (4.3))
s 2 = 192433,75 soles2 y n= 20, reemplazando en (4.3), estos valores:
(19)192433,75 3656241,25
X2 = = = 19,24
190000 190000
Se emplea la estadstica:
p 0
Z= ~ N (0,1) (4.4)
0 (1 0 )
n
0 z
111
Rechazar H 0 , si el valor de la estadstica Z > z , en caso contrario no se rechaza H 0 .
N (0,1)
z 0
N (0,1)
/2 /2
z / 2 0
z / 2
rechaza H 0 .
Ejemplo 4.10
112
poblacin est de acuerdo con asistir a la capacitacin, se ejecutar la misma. Es posible
realizar la capacitacin?
Solucin
No
1. H 0 : 0,5
H 1 : < 0,5
2. = 0,05
3. Estadstica para la prueba es (4.4), por que para el caso el tamao de muestra es grande y se
somete a prueba a un parmetro de la poblacin binomial.
113
4. La regin de rechazo, de tamao = 0,05 , es:
N (0,1)
= 0,05
-1,645 0
rechazarla.
254
p= = 0,3719 (Proporcin muestral de docentes que van a participar en la mencionada
683
capacitacin) y 0 = 0,5 , reemplazando en (4.4), estos valores:
Este tipo de pruebas es muy til cuando se desea realizar anlisis de diferencias entre dos
grupos poblacionales, que pueden ser independientes o relacionadas.
114
Independientes, se refiere a que se elige la muestra aleatoria y se miden las variables
independientemente, esto es, en cada grupo poblacional por separado.
Relacionadas, se refiere a que los mismos elementos o unidades estadsticas muestrales, se les
mide la misma variable en dos condiciones distintas.
Sea x1 , x2 ,......., xn1 una muestra aleatoria de tamao n1 obtenida de una poblacin
Se emplea la estadstica:
Z=
(x 1 )
x 2 0
~ N (0,1) (4.5)
12 22
+
n1 n2
N (0,1)
0 z
115
Rechazar H 0 , si el valor de la estadstica Z > z , en caso contrario no se rechaza H 0 .
N (0,1)
z 0
N (0,1)
/2 /2
z / 2 0 z / 2
rechaza H 0 .
Obs. Cuando la muestra es grande de una poblacin que no sea normal, pero tiene varianza
finita, se usa el TLC, para usar esta prueba an cuando no se conozca la varianza poblacional,
se aproxima su valor con la varianza muestral, para cada poblacin.
116
Ejemplo 4.11
Se aplica una prueba a los docentes de instituciones educativas de gestin estatal del nivel
secundaria y primaria para evaluar la gestin de la alta direccin de la UGEL correspondiente.
La prueba tiene puntajes comprendidos entre 10 -30, a mayor puntaje indica que los docentes
consideran que le servicio es eficiente y adems los puntajes de esta prueba tiene distribucin
normal de probabilidad con varianza poblacional igual a 100 para cada nivel. Se ha obtenido
las siguientes estadsticas:
Los docentes de ambos niveles evalan de igual forma, en promedio, la gestin de la alta
direccin de la UGEL correspondiente? En cada poblacin los puntajes tienen distribucin
normal de probabilidad.
Solucin
117
2: Docentes del nivel secundaria de instituciones educativas estatales.
1. H 0 : 1 2 = 0
H 1 : 1 2 0
2. = 0,05
3. Estadstica para la prueba es (4.5), por que para el caso se conocen las varianzas poblacionales
y adems la variable aleatoria bajo estudio tiene distribucin normal de probabilidad.
N (0,1)
/2 /2
1,96 0 1,96
rechaza H 0 .
x 2 = 20,03 , n2 = 60 y 22 = 100
118
6. El valor de la estadstica Z = 0,83 no es mayor de -1,96, por tanto al 5% de nivel de
significacin no se rechaza la hiptesis nula, esto es, ante la evidencia de las muestras
aleatorias, los docentes de ambos niveles evalan de igual forma en promedio la gestin de la
alta direccin de la UGEL.
En este caso, hay que distinguir si las varianzas poblacionales son iguales o diferentes, para
ambos casos la distribucin de probabilidad soporte es la t-Student.
Para verificar si son iguales s no las varianzas poblacionales, se usa una prueba estadstica,
que ms adelante se tratar.
Sea x1 , x2 ,......., xn1 una muestra aleatoria de tamao n1 obtenida de una poblacin normal
Se emplea la estadstica:
T =
(x 1 )
x2 0
~ t (n ) (4.6)
1 1
Sp +
n1 n 2
119
Siendo n = n1 + n2 2 , los grados de libertad de la distribucin de probabilidad t-Student; y la
varianza combinada:
S p2 =
(n1 1)s12 + (n2 1)s 22
n1 + n 2 2
t (n )
0
t
t (n )
t 0
t (n 1)
/2 /2
t / 2 0
t / 2
120
Rechazar H 0 , si el valor de la estadstica T < t / 2 T > t / 2 en caso contrario no se rechaza
H0 .
Obs. Esta prueba es recomendable cuando los tamaos de muestra son pequeos.
Ejemplo 4.12
Conociendo los efectos que produce el Plomo (Pb) en sangre, en el desarrollo psicomotor de
los nios, se consider necesario profundizar la evaluacin de ciertos parmetros de este tipo
de desarrollo (coordinacin visomanual y aprendizaje de la escritura), en los nios que viven
en distritos de extrema pobreza y que cerca de sus viviendas existen depsitos de metales con
alto contenido de plomo.
Las autoridades de salud indican que el nivel de plomo en sangre permisible es menos de 10
mg/dL. Se elige una muestra aleatoria de nios de edades entre 6 y 8 aos, que estudian y
viven cerca a estos depsitos, y se aplica el Test de Berry para medir los parmetros del
desarrollo psicomotor mencionados. En base a la siguiente informacin verificar que Los
nios que tienen niveles de plomo no permisible (mayor o igual a 10 mg/dL) tienen en
promedio el desarrollo psicomotor menor que los que tienen niveles permisibles de plomo en
base a la siguiente informacin:
Los puntajes de este test tienen distribucin normal de probabilidad, en cada grupo y con
varianzas poblacionales desconocidas e iguales,
Solucin
121
Se trata de dos poblaciones:
Adems 12 = 22
1. H 0 : 1 2 = 0
H 1 : 1 2 < 0
2. = 0,05
3. Estadstica para la prueba es (4.6), por que para el caso no se conocen las varianzas
poblacionales y son iguales. Adems la variable aleatoria bajo estudio tiene distribucin
normal de probabilidad.
t (53)
= 0,05
1,674 0
x1 = 7,59 , n1 = 24 y s12 = 1
x 2 = 10,73 , n2 = 31 y s 22 = 1,613
122
0 = 0 , previamente se calcula la varianza combinada:
S p2 =
(23) 1 + (30 ) 1,613 = 23 + 48,39 = 71,39 = 1,35
53 53 53
S p = 1,35 = 1,16
Sea x1 , x2 ,......., xn1 una muestra aleatoria de tamao n1 obtenida de una poblacin normal
123
Se emplea la estadstica:
T=
(x 1 )
x 2 0
~ t( )
2 2 (4.7)
s s
1
+ 2
n1 n2
2
s12 s 22
+
= n1 n2
2 2
s12 s 22
n1 + n2
n1 1 n2 1
t ( )
0
t
Rechazar H 0 si el valor de la estadstica T > t , en caso contrario no se rechaza H0 .
t( )
t 0
124
Rechazar H 0 , si el valor de la estadstica T < t , en caso contrario no se rechaza H0 .
t ( )
/2 /2
t / 2 0
t / 2
rechaza H 0 .
Obs. Esta prueba es recomendable cuando los tamaos de muestra son pequeos.
Ejemplo 4.13
Se realiza un estudio para mejorar el aprendizaje del curso de matemticas en nios del primer
grado de educacin secundaria de colegios estatales, basada en una muestra aleatoria de 40
nios, de esta poblacin que tienen caractersticas similares tanto acadmicas como
psicolgicas. La mitad nios se les enseo matemticas de manera tradicional (pizarra, tiza y
materiales didcticos elaborados por el profesor) y a la otra mitad se le enseo matemticas
empleando computadora adems de lo que tradicionalmente se emplea. Los resultados
muestrales de los promedios del rendimiento en este curso, a mitad del ao escolar, son:
Enseanza tradicional y
uso de computadora 16,50 1,19
125
Los promedios tienen distribucin normal de probabilidad, en cada grupo y con varianzas
poblacionales desconocidas y diferentes. El responsable del estudio considera que ensear
matemticas de manera tradicional y usando computadora mejora el rendimiento de estos
alumnos.
Solucin
Adems 12 22
1. H 0 : 1 2 = 0
H 1 : 1 2 < 0
2. = 0,05
3. Estadstica para la prueba es (4.6), por que para el caso no se conocen las varianzas
poblacionales y son iguales. Adems la variable aleatoria bajo estudio tiene distribucin
normal de probabilidad.
4. La regin de rechazo, de tamao = 0,05 , pero previamente se debe calcular los grados de
libertad empleando la expresin (3.8):
126
2 2
s12 s 22 2,132 1,19 2 4,54 1, 42
2
+ +
n1 n2
20 20
20 + 20
= 2 2
= 2 2
= 2 2
s12 s 22 2,132 1,19 2 4,54 1,42
20 20
n1 + n2 20 + 20 +
n1 1 n2 1 19 19 19 19
2
5,96
=
20
=
[0,298]
2
=
0,089 0,089
= = 29,67
[0,227] + [0,071] 0,052 + 0,005 0,057 0,003
2 2
19 19 19 19 19
El mximo entero de 29,67 es 29 ; por tanto los grados de libertad son 29. Por tanto la regin
de rechazo es:
t (53)
= 0,05
1,699 0
x 2 = 11,35 , n2 = 20 y s 22 = 1,42
Las medias pueden ser comparas bajo el supuesto que las diferencias muestrales tiene
distribucin de probabilidad normal. Para someter apruebas las hiptesis estadsticas, tal que
la hiptesis nula considerada es 1 2 = D :
Se emplea la estadstica:
d
T= ~ t (n 1) (4.8)
Sd / n
0
t
128
II. Cuya regin de rechazo de tamao est dada por:
t (n 1)
t 0
/2 /2
t / 2 0 t / 2
rechaza H 0 .
Ejemplo 4.14
129
escolares de ambos sexos. Antes de la intervencin educativa y tres meses despus se midi
esta intervencin empleando una prueba vlida y confiable. Dando los siguientes resultados:
Alumno 1 2 3 4 5 6 7 8 9 10
Antes 21 12 11 18 20 15 20 18 23 16
Despus 27 17 16 23 24 21 24 19 23 19
Alumno 11 12 13 14 15 16 17 18 19 20
Antes 18 18 14 20 17 14 14 18 21 17
Despus 24 20 19 27 22 18 21 26 28 23
Solucin
130
Diferencia
muestra
1. H 0 : D = 0
H1 : D < 0
2. = 0,05
131
3. Estadstica para la prueba es (4.7), por que se trata de muestra apareada o relacionada.
Adems las diferencias muestrales bajo estudio tiene distribucin normal de probabilidad.
t (19 )
= 0,05
1,729 0
d i
96
d= i =1
= = 4,8
n 20
(d ) (d
n 20
( 4,8) )
2
d
2
i i
81,2
S d2 = i =1
= i =1
= = 4,27
n 1 19 19
s d = 4,27 = 2,07
132
6. El valor de la estadstica T = 10,435 y es menor de -1,729, por tanto al 5% de nivel de
significacin se rechaza la hiptesis nula, esto es, ante la evidencia de la muestra aleatoria, la
intervencin educativa mejora el nivel de conocimientos promedio poblacional sobre
educacin sexual en esta poblacin, en su primera etapa.
Sea x1 , x2 ,......., xn1 una muestra aleatoria de tamao n1 obtenida de una poblacin
normal con parmetros 1 y 12 y sea x1 , x2 ,......., xn2 una muestra aleatoria de tamao
n 2 obtenida de una poblacin normal con parmetros 2 y 22 , para someter a prueba las
hiptesis:
Se emplea la estadstica:
s12
F = 2 ~ F( n1 1,n2 1) (4.9)
s2
I. Cuya regin de rechazo de tamao est dada por:
F(n1 1,n2 1)
F
Rechazar H 0 , si el valor de la estadstica F > F , en caso contrario no se rechaza H 0 .
133
II. Cuya regin de rechazo de tamao est dada por:
F(n1 1,n2 1)
F1
Rechazar H 0 , si el valor de la estadstica F < F1 , en caso contrario no se rechaza H0 .
/2 F(n1 1, n2 1)
/2
F1 / 2 F / 2
Rechazar H 0 , si el valor de la estadstica F < F1 / 2 F > F / 2 , en caso contrario no
se rechaza H 0 .
Ejemplo 4.15
Considere los datos del ejemplo 4.13, para verificar si se puede considerar que las varianzas
poblaciones, de los grupos poblaciones bajo estudio, son diferentes.
134
Solucin
Verificando que 12 22
1. H 0 : 12 = 22
H 1 : 12 22
2. = 0,05
3. Estadstica para la prueba es (4.9), por que la variable aleatoria bajo estudio tiene distribucin
normal de probabilidad.
F(19,19 )
/2 /2
0,396 1,369
135
Rechazar H 0 , si el valor de la estadstica F < 0,396 F > 1,369 , en caso contrario no se
rechaza H 0 .
Sea x1 , x2 ,......., xn1 una muestra aleatoria de tamao n1 obtenida de una poblacin
binomial con parmetro 1 ; y sea normal x1 , x2 ,......., xn2 una muestra aleatoria de
n 2 suficientemente grandes.
136
Se emplea la estadstica:
p1 p 2
Z= ~ N (0,1) (4.10)
1 1
p (1 p ) +
n1 n2
N (0,1)
0 z
N (0,1)
z 0
137
III. Cuya regin de rechazo de tamao est dada por:
N (0,1)
/2 /2
z / 2 0
z / 2
rechaza H 0 .
Ejemplo 4.16
Se realiza un estudio para mejorarla enseanza del curso estadstica inferencial en alumnos de
pregrado, del tercer ciclo de estudios, para tal efecto se realiza un estudio basal en muestras
aleatorias de alumnos de este ciclo de estudios de las EAP de Gentica y Biotecnologa y de
la EAP Sociologa, al final del curso y se les pide que interpreten la estimacin de la media
poblacional mediante intervalo de confianza, entre otras preguntas. Los resultados son:
Interpretacin
EAP Muestra
correcta
Gentica y Biotecnologa 060 46
Sociologa 070 50
Total 130 96
138
Solucin
46
n1 =60 y p1 = = 0,7667 (proporcin muestral obtenida con la muestra de la poblacin 1).
60
50
n2 =70 y p2 = = 0,7143 (proporcin muestral obtenida con la muestra de la poblacin 2).
70
139
La prueba de hiptesis es:
7. H 0 : 1 2 = 0
H1 : 1 2 0
8. = 0,05
N (0,1)
/ 2 = 0,025 / 2 = 0,025
1,96 0 1,96
rechaza H 0 .
96
p= = 0,7385 y 1 p = 0,2615 , reemplazando en (4.10), los valores obtenidos:
130
140
12. El valor de la estadstica Z = 0,6761 , no es mayor de 1,96; por tanto al 5% de nivel de
significacin se rechaza la hiptesis nula, esto es, ante la evidencia de las muestras aleatorias,
hay razones para asumir que el porcentaje poblacional de alumnos que interpretan
correctamente un intervalo de confianza para la media poblacional son iguales para las dos
escuelas profesionales.
APLICACIONES
4.1 Una reportera de la revista PENTIUM elige una muestra aleatoria de 30 lectores docentes
universitarios y les pregunta:
Hace cuantos aos compr su primera computadora para realizar tareas acadmicas en su
hogar? Las respuestas son:
6 4 10 8 3 11 2 7 4 9
11 4 6 7 3 8 5 9 4 7
7 8 4 7 11 9 3 10 3 2
9 3 8 7 6 7 5 5 4 7
4.2 En una capacitacin sobre manejo de Internet para gestin del conocimiento, dirigida a
docentes de ciencias sociales del nivel superior; se aplic una prueba de entrada y se pregunta
a los 276 asistentes: Sabe que es URL?, 53 dicen que s. Se presume que en esta poblacin
el 30% de docentes si saben lo que es URL Podemos considerar tal presuncin?
141
4.3 En la autoevaluacin de una facultad se aplica un cuestionario que mide la satisfaccin de los
docentes de los departamentos acadmicos, respecto a la gestin y funcionamiento de la
facultad, que se refiere a las facilidades que tiene para su desarrollo profesional, al
reconocimiento de su trabajo, participacin en la toma de decisiones, entre otros. El
cuestionario tiene una escala de 20 a 80, a mayor puntaje indica alta satisfaccin de los
docentes encuestados. Los datos segn sexo del docente son:
60 47 56 66 70 50 61 66 70 50
Masculino 47 57 62 58 61 51 67 48 59 68
63 49 71 68 59 52 64 53 65 59
38 23 28 42 29 30 50 38 36 47
Femenino 33 35 51 35 31 37 22 38 31 40
41 28 42 46 31 47 48 30 50 35
2) Verificar si en promedio las docentes de esta facultad muestran menor satisfaccin sobre la
gestin y funcionamiento de la misma, respecto a los docentes.
4.4 En los previos a un examen los alumnos padecen de alto nivel de estrs, estudios
especializados reportan que en la Facultad de Ciencias Matemticas un 60% de alumnos
padecen de estrs. Se cree que este porcentaje poblacional ha decrecido ltimamente por que
se cuenta con asesora especializada desde el semestre anterior. Para verificar este supuesto se
elige una muestra aleatoria de 417 alumnos, de esta poblacin, a dos das del examen y se
encuentra que 159 tienen alto nivel de estrs. La asesora especializada es efectiva?
142
Ciclo de Si estn de
Muestra
Estudios acuerdo
Tercero 280 56
Noveno 159 56
Total 439 112
Se considera que los alumnos del ltimo ao son ms tolerantes por tanto la proporcin
poblacional de stos alumnos que estn de acuerdo que una autoridad favorezca a sus amigos
docentes para su ratificacin y/o promocin docente, es mayor que en la poblacin de los
alumnos del tercer ciclo de estudios. Es significativo este supuesto?
4.6 Estudiosos de las ciencias sociales indican que el origen socio-econmico y socio-educativo
de las personas opera como un factor importante en la determinacin de sus posibilidades y de
sus logros; motivo por el cual se desea saber si los alumnos del nivel primaria que provienen
de hogares con alto clima educativo en el hogar (padres con ms de 13 aos de estudios) tiene
mayor rendimiento acadmico que los alumnos que provienen de hogares con bajo clima
educativo en el hogar (padres de 0 a 6 aos de estudios). Los resultados al aplicar una prueba
de comprensin lectora a muestras de alumnos son:
56 45 35 46 45 35 56 25 35 47
Clima
62 53 66 54 47 55 43 35 26 35
educativo
33 26 46 56 20 34 56 43 52 36
bajo
49 24 56 43 52 36 49 24
Clima 57 60 61 66 57 70 63 57 42 54
educativo 64 55 68 56 70 59 53 60 59 49
alto 58 51 59 47
1) Verificar si la varianza del puntaje de la prueba de comprensin lectora del grupo de clima
educativo bajo es diferente del grupo de clima educativo alto.
143
2) El promedio del puntaje de la prueba de comprensin lectora del grupo de clima educativo
bajo es menor que del grupo de clima educativo alto?
4.7 La conciencia ambiental en los ciudadanos es un problema no solo para municipios, tcnicos
y polticos sino tambin para las autoridades educativas, en particular para los de al educacin
superior. En tal sentido, sea ha diseado una capacitacin que permite una formacin con
conciencia ambiental crtica en estudiantes universitarios, para verificar si produce cambios
positivos se elige al azar a una muestra aleatoria de 26 estudiantes de este nivel. A esta
muestra se evala empleando una prueba confiable y vlida antes de iniciarse la capacitacin
y cuando concluye sobre conciencia ambiental crtica. Las diferencias de los puntajes
obtenidos (antes- despus) son:
-6 -5 -5 -5 -3 -3 -4 -7 -8 -9 0 -5
-7 -5 -6 -3 -5 -5 -7 -4 -8 -7 -4 -4
-7 -7 -4 -7
4.8 En un estudio sobre el nivel de conocimientos que tiene el profesor de nivel primaria recin
graduado de los recursos de la TIC, para el aprendizaje de sus alumnos. Se aplico un
cuestionario (0 - 20) para tal fin a una muestra de 25 docentes de esta poblacin, siendo los
resultados:
10 14 11 12 9 5 17 18 10 12 16 12 11
8 11 9 10 13 11 9 13 11 8 10 14
144
1) Cuando la varianza poblacional se conoce y es igual a 46.
4.10 Se est planificando implementar la enseanza del idioma chino mandarn en la Facultad de
Ciencias Empresariales de una Universidad estatal, los resultados basados en muestras
aleatorias son:
4.11 La gestin del director de una Institucin Educativa es un factor clave para lograr la calidad
educativa. Preocupados por esta situacin un equipo multidisciplinarios elabora una
capacitacin especial, para formar directores con suficiente capacidad de gestin. Para
validarlo emplea una muestra aleatoria de 34 directores de Instituciones Educativas de gestin
estatal, estos docentes son evaluados antes y al final de la capacitacin sobre diversos
aspectos de la gestin. A mayor puntaje obtenido indica mayor capacidad de gestin para con
la direccin de la Institucin Educativa. Los resultados son:
Director 1 2 3 4 5 6 7 8 9 10 11 12
Antes 20 19 16 23 23 18 23 21 26 27 21 21
Despus 26 23 20 31 28 22 28 23 27 32 28 24
Director 13 14 15 16 17 18 19 20 21 22 23 24
Antes 17 16 21 17 17 21 24 20 18 24 15 17
Despus 21 22 25 21 25 30 32 25 23 29 21 22
Director 25 26 27 28 29 30 31 32 33 34
145
Antes 24 20 18 23 21 26 27 21 21 17
Despus 30 27 25 30 23 27 32 26 24 23
146
CAPTULO 5
5.1 Introduccin
X Y UNIDAD ESTADSTICA
Ingresos Egresos Hogar de Lima Metropolitana
Peso Edad Alumno de nivel inicial en VES
Ingresos generados Gastos Institucin Educativa de SJL
Puntaje en prueba de Puntaje en prueba de Alumno de nivel secundaria en Ate
habilidad matemtica habilidad verbal
La naturaleza e intensidad de las relaciones entre variables pueden ser examinadas por medio
del anlisis de regresin y correlacin, dos tcnicas estadsticas relacionadas pero que sirven
para propsitos diferentes.
En este captulo analizaremos conjuntamente dos variables cuantitativas, una de ellas llamada
variable dependiente o de respuesta (y) cuyo comportamiento se debe o se explica por otra
variable llamada independiente (x), a sta ltima se le denomina tambin variable explicativa
o variable regresora.
Pero en muchas situaciones no es suficiente una variable regresora para explicar la variable de
respuesta, por el contrario se necesita ms de una variable; por ejemplo para explicar las
calificaciones obtenidas por los estudiantes de las maestras en Educacin en su primer
semestre:
147
Horas dedicadas a estudiar
los cursos.
Calificaciones promedio ob- Calificaciones
tenidas en el pregrado. en la Maestra
Frecuencia con que asiste a
la biblioteca.
Presentaremos en primer lugar el modelo de regresin lineal simple para estudiar la naturaleza
de la relacin entre una variable regresora (x) y una variable de respuesta (y); para luego
presentar el modelo de regresin lineal mltiple cuando el comportamiento de una variable de
respuesta (y) es explicado por un conjunto de variables regresoras (x1, x2, x3,.xp)
Para obtener un modelo que permita explicar los puntajes en estrategias metodolgicas (y)
obtenidas por las Promotoras Educativas Comunitarias a partir de los puntajes en estilos de
aprendizaje(x), se selecciona una muestra de 39 PEC (Promotoras Educativas Comunitarias)
que atienden a nios y nias de 3 a 5 aos, en las regiones de extrema pobreza, la que
proporcion los siguientes resultados:
N y X N Y X N y x N y x
1 19 4 11 16 5 21 25 3 31 15 5
2 28 6 12 26 6 22 20 2 32 16 6
3 25 6 13 15 2 23 33 6 33 17 4
4 28 6 14 12 4 24 35 8 34 1 1
5 23 6 15 27 4 25 22 6 35 10 3
6 27 6 16 13 7 26 37 8 36 20 7
7 23 5 17 11 4 27 29 6 37 7 4
8 25 4 18 18 4 28 25 5 38 4 2
9 15 4 19 26 5 29 13 3 39 4 1
10 20 4 20 14 3 30 15 4
148
Como se observa para cada PEC se ha registrado el valor de x y el valor de y de manera
conjunta, por ejemplo la observacin 8 se lee como:
Grfico 5.1
40
PUNTAJE DE ESTRATEGIAS METODOLGICAS
30
20 yi = 3,423 + 3,494xi
10
1 2 3 4 5 6 7 8
En el grfico de dispersin de las variables, observamos que la relacin es como sigue: cuanto
mayor es el puntaje de estilos de aprendizaje, mayor es el puntaje en estrategias
metodolgicas.
Lo que significa que para analizar los datos y determinar si el puntaje de estilos de
aprendizaje es significativo para explicar la naturaleza de los puntajes en estrategias
metodolgicas utilizaremos el analisis de regresin lineal simple.
149
Pero cuando se desea explicar la naturaleza de la variable puntajes que se obtiene en la prueba
para evaluar las estrategias metodolgicas empleadas por las PEC en relacin a ms de una
variable independiente o regresora, el analisis de datos se hace mediante el anlisis de
regresion lineal mltiple.
Es de gran utilidad en el estudio de la relacin entre dos variables, los puntos graficados nos
mostrarn la naturaleza y la fuerza de la relacin entre dichas variables:
Es de gran utilidad en el estudio de la relacin entre dos variables, los puntos graficados nos
mostrarn la naturaleza y la fuerza de la relacin entre dichas variables:
Grfico 5.2
** *
** * * * * * * *****
** * * * * * * *** * * * ** *
* * * ** * * * * * ** * * * * * **
* * * ***** * * * * * * * * * * * * * *
** * * ** * * * * * * * * ** *
* * * * * * * * * * ** *
(a) Relacin lineal creciente (b) Relacin lineal decreciente (c) No existe relacin lineal
En el grfico (a), las variables (x, y) se incrementan mostrando una tendencia lineal; en el
grfico (b) las variables muestran una relacin inversa y lineal, al incrementarse los valores de
x disminuyen los valores de y; y en el caso (c) no se observa ninguna relacin entre las
variables.
150
5.4. Modelo de regresin lineal simple poblacional
y = 0 + 1x + (5.1)
Donde:
Supuestos:
El modelo de regresin lineal simple ajustado, se obtiene en base a los datos de una muestra:
y = 0 + 1x
(5.2)
Donde:
Para estimar los parmetros del modelo se utiliza el Mtodo de los mnimos cuadrados, que
es un procedimiento que permite encontrar los estimadores de los parmetros del modelo, que
minimiza la suma de los cuadrados de las desviaciones entre los valores de la variable de
respuesta (valores de la muestra) y los valores estimados de la variable de respuesta(obtenidos
en la ecuacin estimada de regresin):
n 2
mn SCE = mn ( yi y i )
i =1
Donde:
Grfico 5.3
152
Utilizando el clculo diferencial se puede demostrar que los valores que minimizan la
expresin (5.3), se pueden obtener a partir de las siguientes ecuaciones:
SC E n n
0
= 0
i =1
y i = n 0 + 1 i =1
xi
0 , 1
SCE n n n
1
=0 xi yi = 0 xi + 1 xi2
i =1 i =1 i =1
(5.5)
0 , 1
o = y 1 x
n n n
n xi y i - xi y i
1 = i=1 i=1 i=1
2
n
n
n x - xi
i
2
i=1 i=1
Ejemplo 5.1: Para obtener un modelo que permita explicar los puntajes en estrategias
metodolgicas (y) obtenidas por las Promotoras Educativas Comunitarias a partir de los
puntajes en estilos de aprendizaje, se obtuvieron los siguientes resultados:
759 179
o = 3, 494 = 3, 423
39 39
153
El modelo ajustado de regresin lineal simple para este caso es:
yi = 3, 423+ 3, 494xi
Como los valores de la variable puntajes de estilo de aprendizaje, estn cerca al origen (ver
Grfico 5.1), el valor 3,423 es el puntaje promedio de las estrategias metodolgicas de las
PEC.
La Tabla 5.1 muestra los clculos previos para obtener las estimaciones de los parmetros del
modelo.
Realizado el ajuste, queremos determinar Qu tan bien se ajusta el modelo a los datos? Una
medida de evaluacin del ajuste global del modelo es el coeficiente de determinacin.
5.6.1 Coeficiente de determinacin R2. Es una medida que se utiliza para evaluar la
bondad del ajuste del modelo de regresin lineal simple.
Luego de realizar el ajuste del modelo, se tiene para una observacin lo siguiente:
154
Grfico 5.4
y
y = 0 + 1 x
(*)
y
(***)
(**)
yi y = yi y + yi yi
2
( )
2 2
( ) ( )
n n n
yi y = y y
+ yi yi
i=1 i=1 i i=1
SCR
Pero adems: R2 =
SCT
155
Si la expresin (5.7) se divide entre SCT y reemplazamos la expresin (5.8) en (5.7) se tiene:
( y y )
2
i
2 SCE i =1
R = 1 = 1 n
( y y)
SCT 2
i
i =1
S:
R2 1 el modelo representa adecuadamente a los datos, es decir casi todas las variaciones de
la variable de respuesta son explicadas por el modelo de regresin estimado.
Ejemplo 5.2
Calcular e interpretar el coeficiente de determinacin para los datos del ejemplo 5.1
2 1330,08618
R =1 = 0, 5145
2739,6924
Significa que el 51.45% de las variaciones de los puntajes obtenidos por las PEC en
estrategias metodolgicas es explicado por los puntajes de estilos de aprendizaje.
La tabla 5.1 muestra los clculos realizados para obtener el valor del coeficiente de
determinacin.
156
Ejemplo 5.3
En muchos casos resulta conveniente utilizar un modelo de regresin lineal simple sin
ordenada en el origen, es decir:
y = 1x
Donde:
xy i i
1 = i =1
n
x i =1
i
2
3887
1 = = 4,148
937
y = 4,148x
( y y )
2
i
2 i =1
R = 1 n
y
i =1
2
i
157
Utilizando los clculos de la Tabla 5.2 se tiene que:
2 1386,830
R = 1 = 0, 9208
17511
Es decir, que el 92,08% de las variaciones de los puntajes obtenidos por las PEC en
estrategias metodolgicas es explicado por los puntajes de estilos de aprendizaje.
En este caso el modelo de regresin lineal simple sin ordenada en el origen, es el que mejor se
ajusta a los datos de las PEC.
Para probar la significancia del modelo de regresin lineal simple, se tiene la siguiente
hiptesis:
Ho: 1 =0
H1 : 1 0
158
Ejemplo 5.4
Para los datos del ejemplo anterior, la tabla de anlisis de varianza, proporciona los siguientes
resultados:
Para un nivel de significancia del 5% se tiene que F 0.05;1,37 = 4,11 por lo tanto se rechaza la
hiptesis nula, y concluimos que el modelo de regresin lineal es apropiado para explicar los
puntajes de estrategias metodolgicas a partir de los puntajes de estilos de aprendizaje.
El anlisis de los residuos permite validar algunos de los supuestos del modelo de regresin
lineal como son: linealidad, varianza constante, independencia, normalidad, etc.; es un
mtodo efectivo para detectar deficiencias en el modelo, utilizando diversos tipos de grficos.
Los residuos adems permiten detectar observaciones que pueden considerarse como
discordantes.
159
Grfico 5.5
15,00000
10,00000
0,00000
-5,00000
linealidad y si existen posibles
observaciones discordantes.
-10,00000
16
-15,00000
yi_ajustado
Grfico 5.6
15,00000
10,00000
5,00000
Grfico de los residuos y las
variables regresoras, permite
ei
0,00000
detectar si existe o no linealidad
-5,00000 en las variables regresoras.
-10,00000
16
-15,00000
1 2 3 4 5 6 7 8
Los grficos muestran que la PEC nmero 16, ubicada en la esquina inferior del lado
derecho, puede ser considerada como una observacin discordante.
160
Grfico 5.7
15
10
Grfico de probabilidad
Expected Normal Value
-15
-15 -10 -5 0 5 10 15
Observed Value
El grfico muestra que los residuos del modelo se pueden considerar como aproximadamente
simtricos, pero con la presencia de un dato discordante la PEC nmero 16.
En las siguientes pginas, se muestran las tablas con los resultados utilizados para los
ejemplos de esta seccin.
Tabla 5.1
162
TOTAL 759 179 3887 937 1330,08618 2739,6924
Tabla 5.2
N y x x*y x2 e=(y - ) (y - )2 y2
163
N y x x*y x2 e=(y - ) (y - )2 y2
Ejercicios propuestos
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
X 2 3 1 4 5 0 5 3 1 4 2 0 4 3 5 3 1 4 2 3 5
Y 12 10 9 10 13 9 14 13 8 11 9 11 15 9 11 12 10 12 12 11 12
5.2.Los tericos monetaristas sostienen que el Producto Nacional Bruto (billones de dlares)
est fundamentalmente determinado por la oferta monetaria (billones de dlares).
N PNB OFERTA
MONETARIA
1 1127,0 237,5
2 1156,7 2423
3 1181,4 247,4 a) Trace el diagrama de dispersin de los datos.
4 1219,4 252,9 Interprete.
165
5.3 La esperanza de vida femenina parece ser el factor principal en la mortalidad infantil en los
pases de Latinoamrica, el informe proporcionado por la OMS en 1990, muestra lo siguiente:
Mortali- Esperanza
Pas dad de vida
infantil femenina
Bolivia 75,0 64
Brasil 66,0 67
Colombia 28,0 75
a) Trace el diagrama de dispersin de los datos.
Cuba 10,2 78 Interprete.
Chile 14,6 78
b) Obtenga el modelo estimado para estos
Ecuador 39,0 73 datos?
El Salvador 41,0 69
c) Interprete los parmetros estimados.
Guatemala 57,0 67
d) Qu porcentaje de la variabilidad de la
Hait 109,0 47 mortalidad infantil es explicada por la
Honduras 45,0 70 esperanza de vida femenina?
Mxico 35,0 77 e) El modelo de regresin obtenido en (b) es
Nicaragua 52,5 67 apropiado para las variables bajo estudio?
Justifique su respuesta.
Panam 16,5 78
Paraguay 25,2 75 f) Si la esperanza de vida femenina fuera de 80
en un pas latinoamericano Cunto ser la
Per 54,0 67 mortalidad infantil?
Rep. 51,5 70
Dominicana
Uruguay 17,0 77
Venezuela 28,0 76
166