Está en la página 1de 100

~1~

ESTADISTICA APLICADA A LA
INVESTIGACION

40

30
Porcentaje

20

10

0
Bajo Intermedio Alto

Hábito de estudio

Dr. CLETO DE LA TORRE DUEÑAS

cleto.delatorre@unsaac.edu.pe
2020
~2~

CAPITULO I
INTRODUCCION A INVESTIGACION CIENTIFICA

1.1 INVESTIGACIÓN CIENTÍFICA

La investigación científica, se puede entender como un conjunto de actividades que


realizamos para obtener conocimientos nuevos, sobre problemas nuevos que
afectan la realidad, pero que sean nuevos, respecto a la ciencia, es decir, respecto
al conjunto de conocimientos ya provisionalmente establecidos y sistematizados por
la humanidad, conocimientos nuevos que, como aportes, se sumarán a la Ciencia.
¿Qué es investigar?
Investigar viene del latín investigare.
 Es la forma más adecuada de aproximarse al conocimiento de la verdad
mediante verdades parciales.
 Desarrollar actividades con el objetivo de registrar, indagar o descubrir la
verdad.
 En términos generales, es agregar algo nuevo a los conocimientos humanos.
 Es un proceso que, mediante la aplicación del método científico, procura
obtener información relevante y fidedigna. De entender, verificar, corregir o
aplicar el conocimiento

1.2 EL PROCESO DE INVESTIGACIÓN

INTERROGANTES PARA EL PROCESO: DISEÑO


¿Qué estudiar? Selección del tema.
Cuál es la situación actual? Planteamiento del problema
¿Cuáles son las preguntas de Formulación del problema
investigación que deben ser
respondidas?
~3~

¿Qué propósitos tiene la Objetivos.


investigación que se plantea?
¿Cuáles son los motivos para hacer Justificación.
el estudio propuesto?
¿Quiénes han investigado Marco Histórico
anteriormente sobre el tema
planteado?
¿Qué hay escrito al respecto? Marco Teórico.
¿Qué se pretender probar? Hipótesis.
¿Cómo se va a realizar la Metodología.
investigación?
¿Cuánto tiempo se requiere para el Programación
estudio propuesto?
¿Qué recursos se necesitan? Presupuesto.
¿A que fuentes escritas se va a Bibliografía.
referir el investigador?

INTERROGANTES PARA EL PROCESO: DESARROLLO


¿Qué tipo de información se Identificación de información.
necesita para cumplir los objetivos,
responder la pregunta (s) de
investigación y verificar las
hipótesis?
¿Dónde encuentro la información? Definición de fuentes de
información.
Si utilizo fuentes primarias, ¿a Determinación de la muestra
cuántas personas debo requerir
para obtener información?
¿De qué forma puedo obtener la Técnicas de recolección:
información? Observación, encuesta, etc.
~4~

¿Cómo organizar la información Tabulación, procesamiento y


obtenida? ordenamiento de la
información.
¿Cómo se utiliza la información Elaboración y análisis de la
procesada y ordenada? información.
¿Cómo se puede presentar el Presentación de los resultados de
informe de los resultados del la investigación.
análisis?

1.3 PROBLEMA DE INVESTIGACIÓN


Es un hecho, fenómeno o situación que incita a la reflexión o al estudio y es
importante puesto que permite conocer la situación que se va a estudiar mostrando
sus principales rasgos.

CRITERIOS BASICOS PARA IDENTIFICAR PROBLEMAS.


 De manera general se considera que hay un problema cuando lo que
DEBERÍA SER, difiere de lo que ES.
 El DEBERÍA SER, es el marco referencial, el patrón comparativo, el ideal, el
modelo, el paradigma.
 Lo que ES, representa la realidad, es la práctica.
 DEBERÍA SER diferente a ES, entonces existe Problema

PROBLEMA DE INVESTIGACION.
Para la presentación del POI, es necesario considerar cuatro momentos: el
diagnóstico, el pronóstico, el control del pronóstico y la formulación de la pregunta
o preguntas o la redacción de un texto a manera de pregunta.
 El diagnóstico es la descripción de los síntomas o problemas.
 El pronóstico es la serie consecuencias de los problemas.
 El control del pronóstico es la serie de acciones para superar las
consecuencias de los problemas.
 Formulación del problema
~5~

Aspectos a integrar en la conceptualización y en la definición de un problema


de investigación.
• Pensar en: Elementos del enunciado:
• Qué se investigará? Variable/s
• Quiénes participarán Sujetos a estudiar
• Qué estrategia se seguirá? Diseño
• Dónde se realizará? Ámbito de estudio
• Cuándo se realizará? Período de Tiempo.

1.4 ELEMENTOS DE DEL TITULO DE UN PROBLEMA

Especificidad Situación Unidad de Espacio Tiempo


problemática estudio

 Situación problemática

Responde a la pregunta ¿Qué investigar?


Por ejemplo: Rendimiento académico, gestión educativa, desempeño
profesional,..
 La especificidad

Es el aspecto o los aspectos concretos que se quiere investigar acerca del


hecho o situación problemática.
Por ejemplo: causas, consecuencias, características, importancia, influencia,
tendencia, modalidades, incidencia, prevalencia, implicancias, estructura,
función, nivel, relación, evolución, etc.
 Unidades de estudio.
Son aquella en las se ponen de manifiesto los hechos o situaciones
problemáticas y constituyen, desde el punto de vista estadístico, la población
o muestra a la que se refiere la investigación. Son: Personas, grupos
sociales, seres, acontecimientos, instituciones, objetos, procesos.
~6~

 Espacio
Esta referido al lugar en el que ocurre el hecho o situación problemática.
Puede ser geográfico o administrativo. ¿Dónde?; Perú, Ciudad del Cusco,
Zona Franca, Aceros Arequipa, etc.
 Tiempo
Está referido al momento en que ocurre el hecho o situación problemática.
¿Cuándo?

1.5 FORMULACION DE OBJETIVOS


Son los propósitos o fines que se pretenden lograr al realizar la investigación.
 Los objetivos son de dos tipos:
El objetivo general (singular). Es un enunciado proposicional integral y un
Logro terminal a alcanzar en la investigación.
Los objetivos específicos (plural). Los Objetivos Específicos, Son enunciados
desagregados del objetivo general orientados al logro de propósitos
concretos y están en relación a lo que aspira alcanzar con el estudio.
 Los objetivos deben ser verificables
 Al definir los objetivos, debemos pensar inmediatamente en la manera de
verificar si éstos se han cumplido o no (pensar en métodos o herramientas
para ello)
 Lo anterior nos permitirá ir dibujando el perfil metodológico de nuestra
investigación
 Los objetivos se convierten así en la carta de navegación de la investigación
a realizar
 Los objetivos deben ser precisos y no muy ambiciosos: deben ser acordes
con los recursos disponibles (tiempo) y ello delimitará el nivel de detalle
esperable.
 Estar expresados en verbos en infinitivo (determinar, analizar, identificar,
evaluar, diagnosticar, conocer, explicar, refutar, comprobar, etc.)

Elementos a tomar en cuenta para redactar un objetivo


~7~

Sujeto Elemento de estudio.

Contenido Expresa el cambio requerido

Acción Conjunto de actividades que se desarrollan.

Ejemplo 1: Reforzar la capacidad de gestión en los centros de educación inicial del


país para la atención de los dominios del aprendizaje de los niños de 4 y 5 años de
edad.
Acción : Reforzar la capacidad de gestión en los centros de
educación inicial del país.
Contenido: La atención de los dominios del aprendizaje.
Sujeto : Niños de 4 a 5 años de edad

1.6 JUSTIFICACION Y DELIMITACION DE LA INVESTIGACIÓN


Criterios de justificación.
• Originalidad
• Relevancia
• Interés
• Factibilidad

Criterios para delimitar


• Espacial - Geográfica
• Cronológica

1.7 MARCO TEORICO


En el marco teórico se integra con las teorías, enfoque teóricos, estudios y
antecedentes en general que se refieran al problema de investigación.
Para elaborar el marco teórico es necesario detectar, obtener y consultar la literatura
y otros documentos pertinentes para el problema de investigación, así como
extraer y recopilar de ellos la información de interés.
 La revisión de la literatura puede iniciarse manualmente o acudiendo
a un banco de datos al que se tenga acceso por computadora.
~8~

 La construcción del marco teórico depende de lo que encontremos en


la revisión de la literatura:
➢ Marco Teórico: Fundamentación teórica dentro de la cual se enmarca la
investigación
➢ Marco Conceptual: Definición de conceptos relevantes utilizados en el
estudio
➢ Marco Normativo: Normas, leyes referentes al estudio

¿Qué funciones cumple el marco teórico?


➢ Sirve de guía al Investigador
➢ Provee un marco para la interpretación de resultados
➢ Prevenir errores.
➢ Orientar el estudio,
➢ Ampliar el horizonte del estudio y guiar al investigador,
➢ Delimitar el área de investigación,
➢ Establecer los antecedentes del problema,
➢ Fundamentar el contenido del problema,
➢ Facilitar la formulación de las hipótesis,
➢ Implicar nuevas líneas y áreas de investigación,
➢ Proveer un marco de referencia para interpretar los resultados de
estudio.

1.8 HIPOTESIS DE INVESTIGACION

• Afirmaciones o suposiciones que hace el investigador respecto al problema


de investigación.
• Es una suposición que permite establecer relaciones entre hechos. El valor
de una hipótesis reside en su capacidad de establecer esas relaciones
entre los hechos y de esa manera, explicarnos por qué se produce el
fenómeno de estudio.

¿Qué Funciones cumple?


~9~

 Direccionar el problema objeto de investigación


 Identificar variables objeto de análisis
 Orientar el uso de métodos y técnicas de obtención de información

Elementos estructurales de la hipótesis


1. Las unidades de análisis, que puedan ser los individuos, grupos,
viviendas, instituciones, etc.
2. Variables, las características o propiedades cualitativas o cuantitativas
que presentan las unidades de análisis.
3. Los elementos lógicos, son los que relacionan las unidades de análisis
con las variables y estas entre sí.

Requisitos para estructurar las hipótesis


 Las hipótesis deben referirse sólo a un ámbito determinado de la
realidad social. Las hipótesis en las ciencias sociales sólo pueden
someterse a prueba en un universo y contexto bien definidos.
 Los conceptos de las hipótesis deben ser claros y precisos. En las
hipótesis, los conceptos son las variables y las unidades de análisis.
 Los conceptos de las hipótesis deben contar con realidades o
referencias empíricas observables (verificables).
 El planteamiento de las hipótesis deben prever las técnicas para
probarlas. Se deben formular hipótesis que están relacionadas con
técnicas disponibles para su verificación.

ELEMENTOS ESTRUCTURALES DE LA HIPÓTESIS

• Las unidades de análisis:, que pueden ser individuos, familias, grupos,


instituciones y otros.
• Las Variables: Independiente y dependiente.
• Los elementos lógicos, que relacionan las unidades de análisis con
las variables y a estas entre sí.
~ 10 ~

1.9 ENFOQUE DE INVESTIGACION


ENFOQUE CUANTITATIVO CUALITATIVO

Características -Estadístico -No estadístico


-Basado en lo experimental -Basado en ambientes
-Datos por causa – efecto naturales
-Datos por los significados

Proceso -Usa réplica -No usa réplica


-Secuencial -No secuencial
-Deductivo -Inductivo
-Objetivo -Subjetivo
-Probatorio -Recurrente

Bondades -Control sobre los fenómenos -Contextualiza el fenómeno


-Predictivo -Interpretativo
-Preciso -Amplio

1.10 ALCANCES DE INVESTIGACIÓN.


ALCANCE EXPLORATORIA
Problemas poco estudiados o nuevos innovadores
ALCANCE DESCRIPTIVA
Orientada al descubrimiento de las propiedades particulares del hecho o situación
problemática y también a la determinación de la frecuencia con que ocurre el hecho
o situación problemática.
Responde a las preguntas ¿Cómo son? ¿Cuántos son? ¿Dónde están? Se
refiere a las características cualidades internas y externas, propiedades y rasgos de
la población de estudio

Pregunta ¿Cuál es grado de .....? ¿Qué nivel…?


~ 11 ~

Ejemplo 2:

Nivel de conocimiento de las estrategias cognitivas por los profesores, de la


población de la ciudad de Cusco, 2011.
ALCANCE EXPLICATIVA
• Orientada al descubrimiento de las causas o consecuencias o
condicionantes de la situación problemática
• Está dirigida a responder a las causas de los eventos físicos o sociales y su
interés se centra en explicar por qué y en qué condiciones ocurre un
fenómeno, o por qué dos o más variables se relacionan.
• ¿Por qué? La finalidad es determinar por qué un hecho o fenómeno de la
realidad tiene tales y cuales características.
Problema Pregunta ¿En qué medida.....? ¿Cómo influye..?
Ejemplo 3:
Principales causas de la deserción escolar en la región andina del Perú, 2010.

ALCANCE CORRELACIONAL
Orientada a descubrir la correlacion o correspondencia entre los valores de dos
hechos o situaciones problemáticas.
Ejemplo 4:
Correlación entre hábitos de estudio y aprendizaje en los estudiantes de la
Universidad de Nacional San Antonio Abad del Cusco, 2011.

1.10 DISEÑOS DE INVESTIGACION.


 Conjunto de estrategias procedimentales y metodológicas definidas y
elaboradas para el desarrollo del proceso de investigación.
 El diseño de investigación puede ser pensado como la estructura de la
Investigación.
~ 12 ~

Pre experimentos Tienen grado de


control mínimo
Cuasi experimentos Implican grupos
DISEÑO DE EXPERIMENTALES intactos
INVESTIGACIÓN (Que Administran Experimentos • Manipulación
estímulos “puros” intencional de
Cuyo propósito es: O tratamientos) variables
• Responder (independientes)
preguntas de • Medición de
investigación variables
• Cumplir objetivos (dependientes)
del estudio • Control y validez
• Someter • Dos o más grupos
hipótesis a prueba de comparación
• Participantes
asignados al azar
En una misma TRANSECCIONALES • Exploratorios
investigación O TRANSVERSALES • Descriptivos
pueden incluirse (Recolección de datos • Correlacionales-
dos o más NO en un único momento) causales
diseños de EXPERIMENTALES • Diseños de
distintos tipos
LONGITUDINALES tendencia
(diseños múltiples)
O EVOLUTIVOS (trend )
• Diseños de
(Analizar cambios a análisis
través del tiempo) evolutivo de grupos
(cohort)
• Diseños panel
~ 13 ~

CAPITULO II
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

2.1 INTRODUCCION
La Estadística es la ciencia que se ocupa de los métodos y procedimientos de
colección, clasificación, organización, análisis, síntesis e interpretación de datos;
siendo su característica que la distingue, la de hacer generalizaciones o inferencias
en base a una muestra.
~ 14 ~

En términos generales la estadística aborda dos tipos de problemas:


• Resumir, describir y explorar datos.
• Utilizar datos de una muestra para inferir la naturaleza del conjunto del
cual se selecciono la muestra.

DIVISION DE LA ESTADISTICA
La estadística se divide en dos partes íntimamente relacionadas:
Estadística Descriptiva: Esta es la parte de la estadística que se dedica a la
organización, síntesis y descripción de conjuntos de datos.
Esta es importante, ya que antes de que la mente humana pueda interpretar
(hacer inferencias) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara,
simplificada o reducida.
Estadística Inferencial: Esta rama de la estadística trata el problema de inferir
la naturaleza de un conjunto de datos a partir de una muestra de dichos datos.

CONCEPTOS BASICOS
Población. Es cualquier conjunto de datos, objetivo de nuestro interés, sobre
los cuales interesa observar una o más características. Esta puede ser finita o
infinita. El tamaño de la población es el número de individuos que esta tiene.
Muestra. Una muestra es un conjunto de individuos de la población que refleja
las características de ésta lo mejor posible. Si las características quedan bien
reflejadas, se dice que la muestra es representativa. El tamaño de una muestra
es el número de individuos que tiene, lo denotamos por n.
Unidad de estudio. Es cada elemento que va a ser estudiado, normalmente
se trate de individuos, pero no tiene por qué ser así.
Data. Es cualquier medida resultado de haber observado una variable en una
unidad de alguna población.
Parámetro. Es una propiedad descriptiva de una población. Ejemplo media y
varianza poblacional
Estadístico. Es una propiedad descriptiva de una muestra. Ejemplo media y
varianza muestral.
~ 15 ~

La presentación de datos a través de tablas estadísticas es una actividad


importante dentro de los sistemas de información, estas se fortalecen
significativamente cuando se la acompañan con gráficos descriptivos ilustrativos.
En el contexto de los sistemas de información, en más de una oportunidad se
encontrara que un buen grafico resume y expresa mucho más que párrafos
completos de comentarios e interpretaciones literales.
Resumir los datos es un procedimiento útil para conseguirlo y puede hacerse
mediante tablas, gráficos o valores numéricos. A lo largo de este tema veremos las
principales técnicas numéricas y gráficas que nos permiten describir una
característica de interés observada en una población, poniendo en relieve sus
rasgos más importantes.

2.2 TABLA DE FRECUENCIAS.


Un primer resumen de la información contenida en un conjunto de datos
observado se obtiene al organiza los datos, en una tabla de frecuencias. En
ésta se recogen los distintos valores (números o categorías) que toma la
variable junto con sus correspondientes frecuencias de aparición.

TABLA DE FRECUENCIAS PARA VARIABLES CUALITATIVAS


Si en una muestra de n elementos, se observa k categorías diferentes C 1,
C2,…, Ck de una variable cualitativa X.
Para resumir la información, previamente definimos algunos conceptos:

La frecuencia absoluta de un valor Ci es el número de veces que dicho valor


aparece en la muestra. Se representa por fi y cumple
k

f
i =1
i = f 1 + f 2 + ...... + fk = n
~ 16 ~

La frecuencia relativa de un valor Ci es el cociente de la frecuencia absoluta


(fi) entre el tamaño de la muestra (n), se representa por hi
k

h =1
f
hi = i , se cumple
i
n i =1

La frecuencia absoluta acumulada del valor i-ésimo es la suma de las


frecuencias absolutas hasta dicho valor, se denota por F i

Fi = f 1 + f 2 + ...... + fi

La frecuencia relativa acumulada del valor i-ésimo es la suma de las


frecuencias relativas hasta dicho valor, se denota por F i

Hi = h1 + h2 + ...... + hi ,

Fi
Hi =
n
La tabla de frecuencias tiene la siguiente estructura:

Categoría de X fi hi pi Fi Hi
C1 f1 h1 p1 F1 H1
C2 f2 h2 pi F2 H2
…. … … … … …
Ck fk hk pk Fk=n Hk=1
Total n 1.00 100

GRAFICAS PARA VARIABLES CUALITATIVAS.


Las representaciones gráficas prácticamente están orientadas de acuerdo con
las necesidades del investigador o estadístico, de todas formas se tienen
~ 17 ~

algunas normas de trabajo y representación, que tienen por objeto facilitar la


lectura de los datos e información que se maneja estadísticamente.
La calidad de un gráfico estadístico consiste en comunicar ideas complejas
con precisión, claridad y eficiencia, de tal manera que:
• Induzca a pensar en el contenido más que en la apariencia
• No distorsione la información proporcionada por los datos
• Presente mucha información (números) en poco espacio
• Favorezca la comparación de diferentes grupos de datos o de relaciones
entre los mismos (por ejemplo una secuencia temporal)

La finalidad de los gráficos estadísticos es:


– Organizar los datos.
– Observar patrones.
– Observar agrupamientos.
– Observar relaciones.
– Comparar distribuciones.
– Visualizar rápidamente la distribución de los datos.
– Visualizar, obtener y comparar medidas estadísticas.

La tabla de frecuencias para variables cualitativas, se puede representar


utilizando los siguientes gráficos.

➢ Diagrama de barras o rectangulos


Es la representación gráfica usual para variables cualitativas.
Para el caso de variables cualitativas se construye dibujando sobre la
categoría correspondiente un rectángulo con altura igual a la frecuencia
(absoluta o relativa). También es válido para variables cuantitativas discretas,
considerando en el eje de abscisas los valores de la variable en orden
creciente en lugar de las categorías, sobre cada valor levantamos una barra
de altura igual a la frecuencia (absoluta o relativa).
~ 18 ~

Este grafico es recomendable, cuando la variable de estudio tiene muchas


categorías.

➢ Diagrama de Pareto.
Se ordenan las categorías de mayor a menor importancia y se dibujan los
rectángulos correspondientes.
Este grafico se recomienda para jerarquizar los factores considerados en el
estudio.

➢ Diagrama de sectores.
Es el más usual en variables cualitativas. Se representan mediante círculos.
A cada valor de la variable se le asocia el sector circular proporcional a su
frecuencia.
Para hallar el ángulo usamos la siguiente proporción: al tener una
circunferencia 360º, el cociente entre la frecuencia absoluta (o relativa) total y
la frecuencia absoluta (o relativa) que queramos representar será igual al
cociente entre los 360º de la circunferencia y el ángulo a determinar, así:

n 360º 1 360º
= =
fi  hi 

Donde  es el ángulo a determinar.


Este grafico es recomendable, cuando la variable tiene pocas categorías.

➢ Pictogramas.
Expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. La escala de los dibujos debe ser tal que el área
de cada uno de ellos sea proporcional a la frecuencia de la modalidad que
representa.
~ 19 ~

2.3 TABLA DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS


DISCRETAS
Una vez obtenida una muestra de cualquier población y observados los valores
que toma la variable en los individuos de la muestra, estos valores se suelen
ordenar. Si la variable es cuantitativa la ordenación será de menor a mayor.
Dada una variable X, consideramos una muestra de tamaño n que toma k
valores distintos, x1, . . . , xk (x1 < x2 < . . . < xk).
La organización es en forma similar al caso cualitativo.

Valores de X fi hi pi Fi Hi
x1 f1 h1 p1 F1 H1
x2 f2 h2 pi F2 H2
…. … … … … …
xk fk hk pk Fk=n Hk=1
Total n 1.00 100

La grafica para representar esta información es Bastones.


Existe otros gráficos, tales como:
➢ Diagrama de cajas(box-plot)
Presentación visual que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, el
alejamiento de la simetría, y la identificación de valores extremos (puntos
~ 20 ~

atípicos), es decir, de valores que se alejan de una manera poco usual del
resto de los datos. Presenta los tres cuartiles, (y los valores mínimos y
máximos) alineados sobre una caja vertical u horizontalmente. El
procedimiento Para el diagrama de cajas y bigotes es:

1. Dibujar un segmento con extremos en los valores menor y mayor que


aparecen en la muestra paralelo a uno de los ejes.
2. Dibujamos una caja con extremos en el primer y tercer cuartil y marcamos
en ella la mediana.
3. Se hallan los límites interiores (Q1 – 1.5 IQR y Q3 + 1.5 IQR) y los límites
exteriores (Q1 – 3 IQR y Q3 + 3 IQR).
Donde Qi : Cuartiles que seran desarrollados más adelante.
4. Se unen, con unos segmentos (bigotes), Q1 y Q3 con los valores
adyacentes de la muestra.
5. Por último se indican los valores atípicos

➢ Tallos y Hojas (stem & leaf)


Procedimiento semigráfico para el que se preparan los datos resumiéndolos
en dos o tres cifras (expresándolos en las unidades adecuadas). A
continuación se disponen en una tabla de dos columnas del siguiente modo:

1. Si los datos son de dos dígitos, a la izquierda (en el tallo) aparece la cifra
de las decenas, a la derecha separada por una línea aparecen las hojas y
se escriben ordenadas y todas seguidas.
2. Si hay tres dígitos el tallo está formado por los dos primeros. Las hojas
son las unidades.

2.4. TABLA DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS


CONTINUAS
A veces se hace necesario trabajar con datos agrupados. Definimos entonces
como clase a cada uno de los intervalos en que se agrupan los datos. Las
~ 21 ~

frecuencias harán ahora referencia al número de datos que hay en cada


intervalo.
Para construir distribución de frecuencias por intervalos, se tiene los
siguientes pasos:
➢ Elegir un número de intervalos de clase (K)

Puede utilizar la regla de Sturges, k = 1 + 3.3log(n)


Donde k: Número de intervalos.
n: Número de datos.
➢ Determinar el rango.

R = xmax − xmin
➢ Determinar la amplitud de las clases.

A= R/k

➢ Determinación de los intervalos Ii :


I1 =  xmin , xmin + A =  LI1 , LS1 

I 2 =  xmin + A, xmin + 2 A =  LI 2 , LS 2 

I k =  xmin + (k − 1) A, xmin + kA =  LI k , LS k 

➢ Determinación de las marcas de clase.

LI i + LSi
mi =
2
Donde LI : Limite inferior

LS : Limite superior.

➢ Realizar la clasificación y el conteo de datos en cada clase construida.


~ 22 ~

Ii mi fi hi hi pi Fi Hi

I1 m1 f1 h1 h1 p1 F1 H1
I2 m2 f2 h2 h2 pi F2 H2
…. … … … … … … …
Ik mk fk hk hk pk Fk=n Hk=1
Total n 1.00 1.00 100

Cuando las variables son continuas, utilizamos como diagramas diferenciales


los histogramas y los polígonos de frecuencias.

➢ Histograma de frecuencias
Un histograma es la representación más frecuente con datos agrupados, se
construye a partir de la tabla estadística, representando sobre cada intervalo,
un rectángulo que tiene a este segmento como base. El criterio para calcular
la altura de cada rectángulo es el de mantener la proporcionalidad entre las
frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.

➢ Polígono de frecuencias
El polígono se construye fácilmente si tenemos representado previamente el
histograma, ya que consiste en unir mediante líneas rectas los puntos del
histograma que corresponden a las marcas de clase. Para representar el
polígono de frecuencias en el primer y último intervalo, suponemos que
adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia
nula, y se unen por una línea recta los puntos del histograma que
corresponden a sus marcas de clase.

➢ Curva de frecuencias.
Resulta de suavizar el polígono de frecuencias, en sus puntos angulosos.

➢ Ojivas
~ 23 ~

Es una poligonal construida uniendo los puntos cuyas abscisas son los límites
superiores de clases y las ordenadas son las frecuencias absolutas
acumuladas

Resumen de gráficos.
Variable Tipo Gráfico
Cualitativa Nominal Sectores circulares,
Ordinal barras, pictogramas,
pareto.
Cuantitativa Discreta Bastones, barras, box
plots, tallos y hojas
Continua Histogramas, polígonos
de frecuencia, Ojivas,
Grafico de cajas, Box-
plots, tallos y hojas.

EJERCICIOS DESARROLLADOS

1. En una encuesta de opinión, respecto a las preferencias del método de


enseñanza: Clásico(A), Nuevo enfoque (B), Ambos métodos(C), 30
docentes dieron las siguientes respuestas:
A, B, B, B, C, B, B, B, A, A, B, B, C, A, B, C, B, A, A, B, B, B, C, C, B, B, C, C,
C, B
Construir la distribución de frecuencias y represente la información mediante
un grafico.
Solución.

Método fi hi pi
~ 24 ~

Clásico 20
6 0.2
Nuevo Enfoque 53.33
16 0.5333
Ambos métodos 26.67
8 0.2667
Total n=30 1.00 100.00

Barchart for Metodo

16

12
frequency

0
Ambos metodos Clasico Nuevo enfoque

Pie Chart of C1
Category
Ambos metodos
Clasico
Nuevo enfoque

{[}
{\}
{]}
{^}
{_}
{`}
~ 25 ~

2. En un estudio realizado de los hábitos estudio de los estudiantes de I.E de


la ciudad de Cusco, se obtuvo los siguientes resultados que se muestra en
el cuadro siguiente.

Hábito de estudio Frec uenc ia Porcentaje


Bajo 96 38,4
Intermedio 83 33,2
Alto 71 28,4
Total 250 100,0

Representa la información mediante dos gráficos adecuados.

40

30
Porcentaje

20

10

0
Bajo Intermedio Alto

Hábito de estudio

3. El Director de una institución educativa desea analizar el número de


tardanzas presentadas por los estudiantes. Para ello, se toma una muestra
aleatoria de 50 estudiantes obtenido los siguientes datos de tardanzas:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
En base a la información:
a) ¿Cuál es la población objeto de estudio?
b) ¿Qué variable estamos estudiando?
~ 26 ~

c) ¿Qué tipo de variable es?


d) Construir la tabla de frecuencias?
Solución:
a) La población objeto de estudio es el total de estudiantes de la I.E.
b) La variable (x) que estamos estudiando es el número de tardanzas
c) El tipo de variable es discreta ya que el número de tardanzas solo puede
tomar determinados valores enteros
d) Para construir la tabla de frecuencias tenemos que analizar el número de
tardanzas de los estudiantes. Podemos ver que el número de tardanzas,
toma los valores existentes entre 0 y 6 hijos:
Xi fi Fi hi Hi
0 2 2 0.04 0.04
1 4 6 0.08 0.12
2 21 27 0.42 0.54
3 15 42 0.30 0.84
4 6 48 0.12 0.96
5 1 49 0.02 0.98
6 1 50 0.024 1
n = 50 1

4. En la UGEL de la región Cusco, se realizo un estudio sobre el conocimiento


de estrategias cognitivas. Los resultados se muestran a continuación.

Conocimiento

Frecuencia Porcentaje
Deficiente 26 63.4
Regular 8 19.5
Bueno 7 17.1
Total 41 100.0

Represente la información mediante un grafico.


~ 27 ~

Solución:

60,0%
Porcentaje

40,0%

20,0%

0,0%
Deficiente Regular Bueno

Conocimiento

5. Por encargo del nutricionista, se debe dar la siguiente cantidad de calorías


a un grupo de 50 estudiantes de una institución educativa.

3255 2123 3525 2123 3453


1895 2740 4525 3215 2593
2155 3255 2460 1985 3530
2456 3772 4220 2971 4685
1525 3847 3005 2224 2646
4450 2793 1965 2327 4525
4243 4124 4595 2643 3797
3024 3214 4509 3727 4134
4244 4955 3925 2220 2335
1255 4675 4580 3437 2702

a) Organice la información en una tabla de frecuencias.


b) Represente la información utilizando: Histograma de frecuencias
porcentuales acumuladas y Ojiva.
c) Trace el histograma y polígono de frecuencias porcentuales.
~ 28 ~

Solución.
a) Construiremos la tabla de frecuencias.

❖ Número de clases.
Usando la relación de sturges se tiene:

k = 1 + 3.3log(n) = 1 + 3.3log(50) = 6,6  7

❖ Determinar la amplitud de los intervalos

R = xmax − xmin = 4955 −1255 = 3700

❖ Determinar el tamaño del intervalo de clases (A),


R 3700
A= = = 528,57
k 7

Clase Intervalo mi fi hi pi Pi
1 [1255,0 - 1783,57 ) 1519,29 1 0,0400 4% 4%

2 [1783,57 - 2312,14 ) 2047,86 8 0,1600 16% 20%

3 [2312,14 - 2840,71 ) 2576,43 10 0,2000 20% 40%

4 [2840,71 - 3369,29 ) 3105,0 7 0,1400 14% 54%

5 [3369,29 - 3897,86) 3633,57 8 0,1600 16% 70%

6 [3897,86 - 4426,43) 4162,14 6 0,1200 12% 82%

7 [4426,43 - 4955 ) 4690,71 9 0,1800 18% 1OO%

Total 50 1 100%
~ 29 ~

b) La grafica muestra el histograma de frecuencias porcentuales acumuladas


Histograma
y la ojiva
Frecuencia Porcentual Acumulada
100

80
Ojiva
60
Histograma

40

20

0
0 1 2 3 4 5
(X 1000,0)
Calorias

Histograma

20

Polígono de
Frecuencia Porcentual

c)16En el grafico se muestra, el polígono de frecuencias.


frecuencias

12

0
0 1 2 3 4 5
(X 1000,0)
Calorias
~ 30 ~

CAPITULO III
MEDIDAS DESCRIPTIVAS DE UNA DISTRIBUCIÓN DE DATOS.

3.1 INTRODUCCION.
Las técnicas estudiadas anteriormente permiten una descripción visual de la
distribución de una variable. En muchos casos, el resumen puede hacerse
eficazmente de una forma más sencilla y precisa, utilizando valores numéricos
que den idea de la ubicación o del centro de los datos (medidas de posición).
Usando cantidades que informen de la concentración de las observaciones
alrededor de dicho centro (medidas de dispersión) y mediante números que
reflejen la forma (asimetría y apuntamiento) de la distribución (medidas de
forma). La conjunción de técnicas numéricas y gráficas permite una buena
descripción de la variable.
Podemos distinguir 4 aspectos o características principales que pueden
resumirse en una distribución. (Ver cuadro siguiente)
Media
Centralización Mediana Nos dan un centro de la
Moda distribución de frecuencias
Percentiles
Posición Cuartiles Son valores de la distribución
Deciles que dividen en partes iguales
Medidas Varianza Las medidas de dispersión
descriptivas Dispersión Desviación típica cuantifican la separación, la
Coeficiente de variación dispersión, la variabilidad de los
Rango valores de la distribución
Recorrido Intercuartilico respecto al valor central
Coeficiente de Asimetría

Forma Coeficiente de Comparan la forma que tiene


Apuntamiento o Curtosis la representación gráfica
~ 31 ~

3.2 MEDIDAS DE TENDENCIA CENTRAL


Los promedios o medidas de tendencia central son valores representativos de
un conjunto de datos. Pretenden resumir todos los datos en un único valor.
Las medidas de tendencia central son fundamentales ya que permiten localizar
cuantitativamente la zona central o de mayor acumulación de información de
un conjunto de datos correspondientes a una variable, obtenidos de una
muestra seleccionada de una población específica o de un conjunto de
resultados del espacio muestral de un experimento aleatorio.

Definimos tres medidas de tendencia central más importantes: media, mediana


y moda.

Media ( x )

Media para datos sin agrupar:

Dado un conjunto de observaciones x1, . . . , xn, la media se representa

mediante x, se obtiene mediante:

x + x + ..... + xn x i
x= 1 2 = i =1

n n
Media para datos agrupados

Consideremos el caso en que tenemos una distribución de frecuencia para


variables cuantitativas discretas, en este caso la media es:

f1 x1 + f 2 x2 + ..... + f k xk k
x= =  xi hi
n i =1
~ 32 ~

Si los datos están agrupados por intervalos, para hallar la media tomamos la
marca de las clases,

f1m1 + f 2 m2 + ..... + f k mk k
x= =  hi mi
n i =1

La media se mide en las mismas unidades que la variable, y tiene el


inconveniente de verse muy afectada por la presencia de datos que sean
extremadamente grandes o pequeños (datos atípicos).

Mediana (Me)
Se calcula para variables cuantitativas; es el valor de la serie de datos que se
sitúa justamente en el centro de la muestra una vez se ha ordenado ésta,
corresponde a un 50% de valores son inferiores y otro 50% son superiores.

Mediana para datos sin agrupar


La mediana es el valor del dato central y depende del tamaño de la muestra.

Me = x n +1  , para n impar
 
 2 

x n  + x n 
   +1
Me = 2 2 
, Si n es par.
2

Mediana para datos agrupados


Cuando trabajamos con variables agrupadas por intervalos es imposible
determinar con precisión los valores que toman los datos, ya que esa
información se ha perdido en privilegio del agrupamiento intervalo. Por lo tanto,
en este caso, debemos buscar otro método para determinar el valor de la
mediana.
~ 33 ~

n 
 − F i −1   0.5 − H i −1 
Me = LI +  2  A = LI +  A
 f i   hi 
 
La mediana sólo tiene en cuenta la posición de los valores en la muestra y por
lo tanto tiene mejor comportamiento que la media cuando hay observaciones
anómalas.

Moda (Mo)
Es el valor con mayor frecuencia. Si hay más de una moda, la variable se dice
multimodal y puede calcularse para cualquier tipo de variable (Cuantitativas o
cualitativas).
Si los datos están agrupados hablamos de clase modal y será aquella para la
que la frecuencia absoluta sea mayor.

 1   fi − fi −1 
Mo = LI +   A = LI +   A

 1 +  2  ( f −
 i i −1f ) + ( f i − f )
i +1 

Donde:

1 = fi − fi −1
 2 = f i − f i +1

Unimodal Bimodal Multimodal


~ 34 ~

¿Cómo elegir entre las medidas de tendencia central?- En general, la media


es la medida de tendencia central más útil y más empleada. El uso de la media
es el más apropiado cuando y la distribución de los datos es unimodal y
aproximadamente simétrica. Cuando valores extremos distorsionan la
distribución de los datos, el uso de la mediana es más apropiado pues se ve
menos afectada, pero en la práctica esta medida de tendencia central no se
utiliza demasiado. Si se trata de una variable ordinal, o sólo necesitas una
descripción rápida y aproximada de la tendencia central, puedes utilizar la
moda, que también es útil cuando la distribución está distorsionada por valores
extremos o la distribución es bimodal.

3.3 CLASES DE DISTRIBUCIONES


Distribución Simétrica: Se presenta si todas las observaciones están
concentradas en un solo valor de la variable, en este caso la media, mediana y
moda coincidirían en el mismo.

x = Me = Mo

Distribución asimétrica sesgada a la izquierda


Supongamos ahora que las observaciones de la parte izquierda se alejan del
valor central más que las observaciones de la parte derecha, generando una
distribución asimétrica hacia la izquierda; en este caso como la media es la
suma de los valores de las observaciones dividido por la cantidad total de
observaciones, su valor se correrá a la izquierda también y por el mismo motivo,
la media será menor que la mediana y ambas menor que la moda, es decir:

x  Me  Mo

Distribución asimétrica sesgada a la derecha.


~ 35 ~

En este caso la media, es mayor que la mediana y que la moda.

Mo  Me  x

3.4 MEDIDAS DE POSICIÓN.


Cuartiles
Dividen la muestra, ordenada de menor a mayor, en 4 partes iguales, y se
denotan por Qi , i=1,2,3

 i.n 
 4 − Fk −1 
Qi = LI i +  A
 fk 
 
- Q1, primer cuartil, al menos el 25% de los datos son menores o iguales que
él y al menos el 75% de los datos son mayores o iguales que él.
- Q2, segundo cuartil, es la mediana, Q2 = Me.
- Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que
él y al menos el 25% de los datos son mayores o iguales que él.

Percentiles
Dividen la muestra ordenada en 100 partes iguales.
~ 36 ~

 i.n 
 100 − Fk −1 
Pi = LI i +  A
 f k 
 

El i-ésimo percentil, Pi ( 1  i  99 ) es un valor tal que al menos el i% de los


datos son menores o iguales que él y al menos el (100-i) % de los datos son
mayores o iguales que él.

A partir de las definiciones de los cuartiles y percentiles, es claro que Q 1 =


P25, Q2 = P50 =Me y que Q3 = P75.

Deciles
Dividen el conjunto de datos en 10 partes iguales y se denota con D i , i=1,…9

 i.n 
 10 − Fk −1 
Di = LI i +  A
 fk 
 

3.5 MEDIDAS DE DISPERSIÓN


Mientras los estadísticos de tendencia central nos indican los valores alrededor
de los cuales se sitúan un grupo de observaciones, los estadísticos de
variabilidad o dispersión muestran si los valores de las observaciones están
próximos entre sí o están muy separados. Dos conjuntos de datos pueden
tener la misma localización central y no obstante, ser muy distintos si uno se
halla más disperso que el otro.
La dispersión es el grado en que los datos numéricos tienden a extenderse
alrededor de un valor medio. La dispersión de la distribución suministra
información complementaria que permite juzgar la confiabilidad de nuestra
~ 37 ~

medida de tendencia central. Si los datos están ampliamente dispersos, la


localización central será menos representativa de los datos en su conjunto de
lo que sería en el caso de datos que se acumulasen más alrededor de la
media. Además, si no conviene tener una amplia dispersión de valores
respecto al centro o si esa dispersión implica un riesgo inaceptable,
deberemos ser capaces de reconocerlo y no escoger las distribuciones que
presentan la máxima dispersión.
Las medidas más importantes son: Varianza, desviación típica, coeficiente de
variación muestral, rango y rango semiintercuartilico. Las mismas que se
desarrolla a continuación:

Varianza.
Sólo tienen sentido para variables cuantitativas y se define:
n n

( x − x ) x
2 2
i i
S2 = i =1
= i =1
− x2 , Para datos no tabulados.
n n
n n

( x − x ) fx
2 2
i fi i i
S2 = i =1
= i =1
− x2 , Para datos tabulados de
n n
variable
discreta
n n

(m − x ) fm
2 2
i fi i i
S2 = i =1
= i =1
− x2, Para datos tabulados por
n n
intervalos,
para variables continuas.

Observaciones sobre la varianza:


~ 38 ~

✓ Las unidades de la varianza son los cuadrados de las unidades de los datos
y en muchas ocasiones no son fáciles de interpretar.
✓ Puede sufrir un cambio desproporcionado por la existencia de valores
extremos en el conjunto.
✓ Si la muestra es pequeño, se recomienda utilizar en el denominador de la
ecuación de la varianza n-1 en reemplazo de n.

Desviación típica (S)


Es la raíz cuadrada positiva de la varianza

s = s2
La desviación típica poblacional suele denotarse por .

Observaciones sobre la desviación típica:


✓ Nos permite determinar con mayor grado de precisión dónde se sitúan los
valores de una distribución de frecuencia en relación con la media.
✓ Las unidades de la desviación típica se expresan en las mismas unidades de
los datos.
✓ Puede sufrir un cambio desproporcionado por la existencia de valores
extremos en el conjunto.

Variables tipificadas
Los distintos conjuntos de datos están asociados por lo general a diferentes
medias, ya sea porque son de naturaleza diferente (escalas de medidas
diferentes). Con el propósito de reducir los datos a un mismo punto de
referencia y a una escala común, se realiza entre ellos una transformación
llamada tipificación.
Se conoce por tipificación de una variable “x” a efectuar el cambio de origen y
de escala de la variable:
~ 39 ~

x−x
z= para muestras
s
x-
z= para población

Esta nueva variable (z), carece de unidades de medida y permite comparar
dos o más cantidades que en un principio no son comparables porque aluden
a conceptos diferentes. También es aplicable a casos en que se quieran
comparar individuos semejantes de poblaciones diferentes.

Ejemplo 1: Un estudiante obtuvo 84 puntos en el examen final de


matemáticas, en el que la nota media fue 76, y la desviación típica 10. En el
examen final de física obtuvo 90 puntos, siendo la media 82 y la desviación
típica 16. ¿En qué examen sobresalió más?.

Examen de matemática Examen de física

x = 76 x = 82
s = 10 s = 16
x = 84 x = 90
84 − 76 90 − 82
z= = 0,8 z= = 0,5
10 16

Sobresalió más en matemáticas.

Coeficiente de variación Muestral de Pearson


Las medidas de dispersión anteriores dependen de las unidades de medida,
el coeficiente de variación es, en cambio, una medida de dispersión relativa y
adimensional.

S
CV = *100%
|X|
~ 40 ~

CV es apropiado en poblaciones donde los datos son positivos.


Si 0<CV<15%, los datos provienen de una población homogénea
Si CV>15%, los datos provienen de una población heterogénea.

El coeficiente de variación es útil, en razón de su carácter adimensional, para


comparar muestras con medias desiguales, donde las unidades de medida de
las observaciones son diferentes. También para decidir cual muestra es más
homogénea o menos variable

Recorrido o rango
Es la diferencia entre el mayor y menor valor de una muestra.

R = x( max ) − x( min )

Rango semiintercuartílico y amplitud intercuartil


El rango semiintercuartílico es la mitad de la diferencia entre el tercer y
primer cuartil, Q = (Q3 – Q1)/2.
La amplitud intercuartil es el doble del valor anterior,
2Q = IQR = (Q3 – Q1).

¿Cómo elegir entre las medidas de dispersión?- La medida de dispersión


más útil es la desviación típica. Sólo debes usar el rango cuando dispones
de pocas medidas o cuando todo lo que necesitas conocer es la dispersión
general de las medidas. Utiliza el coeficiente de variación cuando quieras
tener una idea de la variabilidad relativa de dos o más variables cuyas medias
son muy diferentes en magnitud. Esto se ve facilitado por su carácter
adimensional, es decir, no depende de las unidades en que se mida la media
~ 41 ~

3.6 MEDIDAS DE FORMA


Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda
y Hacen referencia a la forma de la distribución, simétrica, asimetría a la
derecha o a la izquierda. En general la mejor manera de verlo es por la
representación gráfica, pero si no la tenemos existen coeficientes que nos
indican la forma de la distribución. Los más utilizados son:

Coeficiente de asimetría de Pearson,


El coeficiente de asimetría de una variable mide el grado de asimetría de la
distribución de sus datos en torno a su media, es adimensional y se define
como sigue:

x − Mo
Ap =
S
Este coeficiente puede ser:

✓ Ap = 0 , entonces la media igual que la moda, distribución simétrica

✓ Ap  0 , entonces la media mayor que la moda, asimetría a la derecha


positiva

✓ Ap  0 , entonces la media menor que la moda, asimetría a la izquierda


negativa.

Curtosis
El Coeficiente de Curtosis mide el grado de concentración que presentan los
valores alrededor de la zona central de la distribución.

La curtosis hace referencia al mayor o menor apuntamiento que tiene una


distribución de frecuencias respecto a una distribución Normal, por lo tanto
sólo se estudia en comparación con la campana de Gauss, se determina
mediante:
~ 42 ~

P75 − P25
K= − 0.5
P90 − P10
Se definen 3 tipos de distribuciones según su grado de curtosis:

✓ K = 0 , la curva es igual que la normal, se llama Mesocúrtica


✓ K  0 , la curva es más puntiaguda que la normal se llama Leptocúrtica
✓ K  0 , la curva es más aplastada que la normal, se llama Platicúrtica

EJERCICIOS DESARROLLADOS

1. La siguiente tabla muestra los coeficientes de inteligencia de 480 niños.

C.I 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126

fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2

Calcule:
a) El C.I. medio de los niños.
b) Su desviación típica.
c) Si una madre afirma que exactamente la mitad de los niños del colegio tienen
un C.I. superior al de su hijo, ¿qué C.I. tiene el niño?
~ 43 ~

d) Supongamos que se quieren hacer estudios sobre el proceso de aprendizaje


de los niños con mayor C.I., pero que el psicólogo solo puede atender al 15%
de los niños del centro. ¿Qué C.I. deberá tener un niño como mínimo para
ser considerado dentro de ese grupo de elegidos?
e) Se van a preparar unas clases de apoyo, para un 25% de los niños del centro,
precisamente para aquellos que tengan menor C.I. ¿Hasta que niños de qué
C.I. deberemos considerar en estas clases?
Solución:
La variable de estudio es el cociente intelectual (X)
xi fi fixi fixi2 Fi Hi
70 4 280 19600 4 0.0083
74 9 666 49284 13 0.0271
78 16 1248 97344 29 0.0604
82 28 2296 188272 57 0.1188
86 45 3870 332820 102 0.2125
90 66 5940 534600 168 0.35
94 85 7990 751060 253 0.5271
98 72 7056 691488 325 0.6771
102 54 5508 561816 379 0.7896
106 38 4028 426968 417 0.8688
110 27 2970 326700 444 0.925
114 18 2052 233928 462 0.9625
118 11 1298 153164 473 0.9854
122 5 610 74420 478 0.9958
126 2 252 31752 480 1
1470 n=480 46064 4473216

a) Media

f 1x1 + f 2 x2 + ..... + fkxk 46064


x= = = 95.96
n 480
~ 44 ~

b) Varianza y desviación.
n n

( x − x ) fx
2 2
i fi i i
4473216
S2 = = − x2 = − ( 95.96 ) = 110.88
i =1 i =1 2

n n 480
s = 110.88 = 10.52
c) Mediana.
n=480 ( Par)

x n  + x n x 480  + x 480
 

 +1   

+1 x( 240) + x( 241) 94 + 94
Me = 2  2 
=  2   2 
= = = 94
2 2 2 2
d) Percentil 85

P85 = 106
e) Percentil 25

P25 = 90

2. Un centro educativo particular requiere los servicios de un Profesor. De los


expedientes presentados, se han seleccionado 2 candidatos: A y B, los
cuales reúnen los requisitos mínimos requeridos. Para decidir cual de los 2
se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada
uno de ellos.

Los resultados se dan a continuación:


Candidato Prueba
1 2 3 4 5 6 7
A 57 55 54 52 62 55 59
B 80 40 62 72 46 80 40

a) Halle e interprete la media, mediana y moda de los dos candidatos.


~ 45 ~

b) Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente


su respuesta.

Solución:
XA XB XA2 xB2
57 80 3249 6400
55 40 3025 1600
54 62 2916 3844
52 72 2704 5184
62 46 3844 2116
55 80 3025 6400
59 40 3481 1600
394 420 22244 27144

a) Estadísticos de A.
n

x1 + x 2 + ..... + xn x i
394
xA = = i =1
= = 56.28
n n 7
MeA = x n +1 
 
, para n impar n=7
 2 

MeA = x n +1  = x 7 +1  = x( 4) = 55
   
 2   2 

MoA = 55

Estadísticos de B.
~ 46 ~

x1 + x 2 + ..... + xn x i
420
xB = = i =1
= = 60
n n 7
MeB = x n +1 
  , para n impar n=7
 2 

MeB = x n +1  = x 7 +1  = x( 4) = 62
   
 2   2 

MoB1 = 40
MoB 2 = 80

b) Calcular la varianza
n n

( x − x ) x
2 2
i i
22244
S =
2
A
i =1
= i =1
− xA2 = − (56.28)2 = 10.27
n n 7
S 10.27
CVA = = = 0.057
| X A | 56.28
n n

( x − x ) x
2 2

− ( 602 ) = 277.7
i i
27144
S B2 = i =1
= i =1
− xB2 =
n n 7
S 277.7
CVB = = = 0.277
| XB | 60

La información se ilustra en el grafico siguiente.


~ 47 ~

Boxplot of Puntaje vs Postulante

80

70
Puntaje

60

50

40

A B
Postulante

3. En un examen de matemáticas los 30 alumnos de una clase han obtenido las


puntuaciones recogidas en la siguiente tabla:

Calificaciones Alumnos
[0, 1> 2
[1, 2> 2
[2, 3> 3
[3, 4> 6
[4, 5> 7
[5, 6> 1
[6, 7> 1
[7, 8> 1
[8, 9> 1
~ 48 ~

a) Halla la media, varianza, la desviación típica y coeficiente de variación.


b) Mediana
c) Moda.

Solución:
I fi mi mifi mi2fi Fi
[0, 1> 2 0.5 1 0.5 2
[1, 2> 2 1.5 3 4.5 4
[2, 3> 3 2.5 7.5 18.75 7
[3, 4> 6 3.5 21 73.5 13
[4, 5> 7 4.5 31.5 141.75 20
[5, 6> 1 5.5 5.5 30.25 21
[6, 7> 1 6.5 6.5 42.25 22
[7, 8> 1 7.5 7.5 56.25 23
8, 9 1 8.5 8.5 72.25 24
Total 24 40.5 92 440

a) Media, varianza, desviación y coeficiente de variación.


Media.

fm i i
92
x= = = 3.83
n 24
Varianza.

m 2
f
i i
440
S2 = − x2 = − ( 3.83) = 3.66
n 24
Desviación.

s = 3.66 = 1.91
~ 49 ~

Coeficiente de Variación.
S 1.91
CV = = = 0.498
| X | 3.83

Mediana

 12 − 7 
Me = 3 +   *1 = 3.833
 6 
Moda

 1 
Mo = Li +  A

 1 +  2 

1 = 7 − 6 = 1
2 = 7 − 1 = 6
 1 
Mo = 4 +   *1 = 4.14
 1+ 6 
4. En una institución educativa, se ha medido el nivel de depresión que
presentan los adolescentes en una escala de 0- 20, obteniendo los
siguientes resultado.
Nivel de Nro de
depresión adolescentes.
[ 0-5 > 10
[ 5-10 > 15
[ 10-13 > 25
[13-18 > 8
[ 18-20  2

a) Calcule la media, varianza y la desviación.


b) Determine la mediana y la moda
~ 50 ~

c) Determine e interprete Q1, Q3, P10 y P90


d) Coeficiente de curtosis y de asimetría.
Solución:
I fi. Fi mi mifi mi2fi
[ 0-5 > 10 10 2.5 25 62.5
[ 5-10 > 15 25 7.5 112.5 843.75
[ 10-13 > 25 50 11.5 287.5 3306.25
[13-18 > 8 58 15.5 124 1922
[ 18-20  2 60 19 38 722
60 56 587 6856.5

a) Media y varianza
Media.

fm i i
587
x= = = 9.78
n 60

Varianza.

m 2
f
− ( 9.782 ) = 18.63
i i
6856.5
S =
2
− x2 =
n 60

Desviación.

s = 18.63 = 4.31

b) Mediana y moda
Mediana
~ 51 ~

n 
 − F k −1 
Me = Li +  2 A
 f K 
 
n 60
Determinamos = = 30
2 2
n 
2 − F k −1 
 30 − 25 
Me = Li +   A = 10 +   3 = 10.6
 f K   25 
 

Moda

 1 
Mo = Li +  A

 1 +  2 

1 = 25 −15 = 10
 2 = 25 − 8 = 17

 1   10 
Mo = Li +   A = 10 +   3 = 11.11
 1 +  2   10 + 17 

c) Determine e interprete Q1, Q3, P10 y P90


❖ Para obtener los cuarteles se tiene la relación.
~ 52 ~

 i.n 
 − F k −1 
Qi = Li +  4 A
 fK 
 
Cuartil 1

 1.n 
 4 − F k −1   15 − 10 
Q1 = Li +   A = 5+  5 = 6.67
 fK   15 
 
El 25% de los adolescentes presentan niveles de depresión menores a
6.67

Cuartil 3

 3.n 
 4 − F k −1   45 − 25 
Q3 = Li +   A = 10 +   3 = 12.4
 f K   25 
 
El nivel de depresión máximo del 75% de los adolescentes es de 12.4.

❖ Para obtener los percentiles se tiene la relación.

 i.n 
 100 − F k −1 
Pi = Li +  A
 fK 
 
Percentil 10
~ 53 ~

 10.n 
 − F 
k −1
 6−0
P10 = Li +  100  A = 0 +  5 = 3
 f K   10 
 
El 10% de los adolescentes tienen niveles de depresión entre 0 a 3

Percentil 90

 90.n 
 − F 
k −1
 54 − 50 
P90 = Li +  100  A = 13 +   5 = 15.5
 fK   8 
 

d) Coeficiente de Asimetría.

x − M o 9.78 − 11.11
Ap = = = -0.308
s 4.31

Puesto que Ap < 0 ➔ la distribución es asimétrica negativa o a izquierdas


(desplazada hacia la izquierda).

Coeficiente de curtosis de fisher.

Q3 − Q1 12.4 − 6.67
K= − 0.5 = − 0.5 = -0.0416
P90 − P10 15.5 − 3

Si k 0 , entonces la distribución es platicúrtica.


~ 54 ~

CAPITULO IV
INTRODUCCION AL MUESTREO

4.1 INTRODUCCION.
El objetivo de la estadística es hacer inferencias acerca de una población con
base a la información contenida en una muestra. Este mismo objetivo motiva
el estudio del problema de muestreo.
En lo referente al muestreo, la inferencia consiste en la estimación de un
parámetro de población, tal como una media, proporción con un margen de
error de estimación (precisión).
Para un buen entendimiento del problema de muestreo, introduciremos
enseguida, ciertos aspectos técnicos de muestreo.

4.2 DEFINICION DE TÉRMINOS, REVISIÓN DE CONCEPTOS.


Población (UNIVERSO): Es una colección finita o infinita de individuos o
elementos, con una característica de interés para el estudio.
Una tarea importante para el investigador es definir cuidadosa y
completamente la población antes de recolectar la muestra. La definición
debe contener una descripción de los elementos que serán incluidos y una
especificación de las mediciones que se van a considerar, ya que estas dos
componentes están interrelacionadas.

Muestra: Es un subconjunto representativo de la población. Una muestra


puede ser probabilística (aleatoria) o no probabilística.

Unidad de Muestreo: Es una colección de uno o más elementos de la


población. Las unidades de muestreo cubren toda la población. Una unidad
de muestreo debe ser claramente definida, identificable y observable.

Unidad de Análisis: Es la que suministra la información estadística


requerida.
~ 55 ~

Marco de Muestreo: Se presenta en forma de lista o mapa de las unidades


de muestreo que conforman la población. Forma el material básico para la
selección de la muestra.
El marco muestral debe contener todas las unidades de muestreo que
conforman la población bajo estudio, y debe excluir unidades de cualquier
otra población.

Parámetro: Es un valor numérico de la población usualmente desconocido


que representa cierta característica de la población.

Estadístico: Es una función real de la muestra aleatoria, usado para estimar

un parámetro. Un parámetro se denota con  y el estimador se denota con

ˆ .
Error de Muestreo: Este error se debe a que una muestra no produce
información completa sobre una población. Puede ser controlado por un
diseño cuidadoso de la muestra y es estimado en gran parte por el factor E.
Por esta razón, algunos autores denominan al factor E, error de muestreo.
4.3 ENCUESTA.
La función de la encuesta es la medición del comportamiento, actitudes o
características del encuestado, que es un individuo de la población en estudio
seleccionado para la muestra.

Diseño de la encuesta
Pasos a seguir, para diseñar una encuesta:
 Definir los objetivos
 Determinar el marco
 Diseñar el procedimiento de muestreo
 Diseñar el cuestionario
 Diseñar y realizar el trabajo de campo
~ 56 ~

 Codificar, depurar y analizar las respuestas


 Redactar el informe

Diseño de la muestra
El diseño de la muestra incluye:
❖ La elección del procedimiento de muestreo
❖ La determinación del tamaño de la muestra
Existen varios procedimientos de muestreo, entre las principales se tiene
muestreo: aleatorio simple, estratificado y sistemático.

4.4 MUESTREO ALEATORIO SIMPLE

Definición. Si una muestra de tamaño n, es seleccionado de una población


de tamaño N de tal manera que cada muestra posible tiene la misma
probabilidad de ser seleccionada, el procedimiento de muestreo se llama
Muestreo Aleatorio Simple (M. A. S.)
El M. A. S. puede ser de 2 formas, sin reposición (muestreo irrestricto
aleatorio) y con reposición.

Procedimiento de selección.
El procedimiento de selección de una Muestra Aleatoria Simple (M.A.S.)
consiste en:
i) Enumerar las unidades de la población, desde 1 hasta N.
ii) Usando la tabla de números aleatorios seleccionar la primera unidad
para la muestra.
iii) Continuar la selección excluyendo las unidades repetidas (si es sin
reposición) o incluyendo las unidades repetidas (si es con reposición)

hasta completar el tamaño de muestra n.

Tamaño de la muestra
~ 57 ~

Una parte fundamental para realizar un estudio estadístico de cualquier tipo


es obtener unos resultados confiables y que puedan ser aplicables. Como ya
se comentó anteriormente, resulta casi imposible o impráctico llevar a cabo
algunos estudios sobre toda una población, por lo que la solución es llevar a
cabo el estudio basándose en un subconjunto de ésta denominada muestra.
Sin embargo, para que los estudios tengan la validez y confiabilidad buscada
es necesario que tal subconjunto de datos, o muestra, posea algunas
características específicas que permitan, al final, generalizar los resultados
hacia la población en total. Esas características tienen que ver principalmente
con el tamaño de la muestra y con la manera de obtenerla.

Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
- El nivel de confianza con el cual se quiere generalizar los datos desde la
muestra hacia la población total.
- El error que se pretende aceptar al momento de hacer la estimación.
- La varianza

Tamaño de muestra para estimar la media poblacional.

Si se desea estimar la media poblacional , con precisión  fijada por el

investigador, el tamaño de muestra necesario es dado por:

Z (12 − / 2) * N 2
n=
Z (12 − / 2) * 2 + ( N − 1) (  )
2 Población finita.

Z (12 − / 2) * 2
n=
( )
2 , Población infinita.

Donde

2 Es la varianza poblacional
~ 58 ~

En la practica el valor de  2 estimado por S2 a partir de una encuesta


anterior o de una muestra piloto

Tamaño de la muestra para estimar la proporción poblacional.

De manera simular, la fórmula del tamaño de muestra n para la estimación de

la proporción poblacional, p con un error máximo de estimación de  y un

nivel de confianza del 100(1 - )%, esta dado por:

Z (12 − / 2) * N * p(1 − p)
n=
Z (12 − / 2) * p(1 − p) + ( N − 1) (  )
2 , Población finita.

Si N → :

Z (12 − / 2) * p(1 − p)
n=
( )
2 , Población infinita.

En este caso el valor de  esta entre 0 y 1, el valor de p es desconocido, por


lo que debe ser estimado preliminarmente a partir de una encuesta anterior, o

de una muestra piloto. En última instancia el valor de p se puede sustituir por


0.5 y se obtendrá un tamaño de muestra mayor que el requerido.

Recomendaciones para el uso del M. A. S.


El M. A. S. esta orientada a encuestas de pequeña escala y raras veces a
encuestas de gran escala, debido a que otros diseños proporcionan mayor o
igual precisión a menor costo.
En las encuestas por muestreo a gran escala, el M. A. S. es usado
como parte de un diseño de muestreo mucho más complejo.
~ 59 ~

El M. A. S. es muy eficiente cuando la población es homogénea.

4.5 MUESTREO ESTRATIFICADO.


Una muestra estratificada es obtenida mediante la separación de los
elementos de la población en grupos heterogéneos disjuntos, llamados
estratos y la selección posterior de una muestra aleatoria simple en cada
estrato.

Consideremos una población de tamaño N, la cual es dividida en k estratos


(sub poblaciones) de tamaños Ni, i=1,2…., k, tal que

N = N1 + N2 + ... + Nk

N1 N2 … NK

El tamaño de muestra se estima mediante:


k
Z 2
(1− / 2) *  N i2 pi (1 − pi ) / wi
n= i =1
k
 N +Z
2 2 2
(1− / 2) *  N i pi (1 − pi ) ,
i =1

wi : Es el peso asignados al estrato i

El tamaño de muestra necesario de cada estrato, se puede obtener por


afijación proporcional al tamaño de cada estrato, es decir:
~ 60 ~

N 
ni = n *  i  = n * wi , i = 1,..., k
N 

Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada

uno de los estratos, ni, los elige quien hace el muestreo, Así en un estrato
dado, se tiende a tomar una muestra más grande cuando:
- El estrato es más grande;
- El estrato posee mayor variabilidad interna (varianza).
4.6 MUESTREO SISTEMATICO
Definición.- Una muestra obtenida al seleccionar aleatoriamente un elemento

de los primeros k elementos en el marco y después cada k-ésimo elemento,

se denomina muestra sistemática de intervalo de selección k.


Una muestre sistemática simple se obtiene cuando el intervalo de selección k
es exactamente un número entero.
El procedimiento de selección de una muestra sistemática simple consiste:
i) Las unidades del marco deben ser ordenados en magnitud de acuerdo
con algún esquema de ordenación (población ordenada) es base al orden
se establece la numeración desde 1 hasta N

N
ii) Determinar el intervalo de selección k= (k exactamente un número
n
entero)

iii) Seleccionar un número aleatorio entre 1 y k (arranque aleatorio) sea “a”


el arranque aleatorio elegido, entonces los elementos de la muestra
sistemática, son los que ocupan las posiciones en el marco:

a, k+a, 2k+a, 3k+a,......(n-1)k+a


iv) El tamaño de muestra, para el muestreo sistemático es el mismo que el
M.A.S
EJERCICIOS DESARROLLADOS
~ 61 ~

1. Por encargo del Ministerio de educación, un grupo de especialistas debe


realizar un estudio, para determinar el nivel de analfabetismo en una ciudad.
La estimación debe presentar un nivel de confianza del 95% y un margen de
error de 5%, suponiendo que la población es de 25000 ¿Cual es el tamaño de
muestra mínimo para este estudio?

Solución:

Consideremos que no se tiene ningún estudio de este tipo, por tanto p = 0.5
, del problema:

N = 25000,  = 0.05, z(1− / 2) = 1.96


2
Z (1− / 2) * NP (1 − P )
n=
Z (1− / 2) * P (1 − P ) + ( N − 1) ( )
2 2

n=
(1.96 ) *25000*0.5(1 − 0.5)
2

= 378.361  379
(1.96 ) *0.5(1 − 0.5) + (25000 −1) ( 0.05)
2 2

Se debe utilizar como mínimo 379 personas para el estudio.

2. Un funcionario del sector de educación, desea estimar el porcentaje de


profesores que presentan problemas de comprensión de lectura, con un nivel
de confianza del 95% y un margen de error del 5%. Suponiendo que en estudio
realizado hace 10 años, el porcentaje estimado de profesores con problemas
de comprensión de lectura fue de 15% ¿Cual debe ser el tamaño de muestra
para este estudio?

Solución:
~ 62 ~

La población materia de estudio, no es finita, por tanto la relación para estimar


el tamaño de muestra es:

Z (12 − / 2) * P (1 − P )
n=
( )
2

Del problema se tiene los siguientes datos

P = 0.15,  = 0.05, z(1− / 2) = 1.96


1.962 *0.15(1 − 0.15)
n= = 195.92  196
( 0.05)
2

3. Un investigador, desea hacer una estimación del egreso medio que tienen los
padres de familia de una I.E, con 99% de confianza, suponiendo que el
máximo error permitido es de 1 sol, además de una muestra piloto se obtuvo
una varianza de 25. También se sabe que la institución educativa tiene 2500
padres de familia. ¿Que tamaño de muestra necesitara para tal estudio?

Solución

N = 2500,  = 1,

 2 = 25, Z (1− / 2) = 2.58

Z (12 − / 2) * N 2
n=
Z (12 − / 2) *  2 + ( N − 1) (  )
2

2.582 * 2500* 25
n= = 156.08  157
2.58 * 25 + (2500 − 1) (1)
2 2
~ 63 ~

Se debe utilizar como mínimo 157 padres de familia para el estudio.

4. Un grupo de especialistas en educación, planifican realizar un estudio sobre el


efecto del programa de capacitación un tres regiones del Perú. Suponiendo,
cuyo tamaño poblacional se muestra en el cuadro siguiente:
Región Tamaño de población.
A 2000
B 1200
C 5000
Total 8200
Considere que el tamaño de muestra es 245, calcule el tamaño de muestra
para cada región, necesario para este estudio.

Solución:
En este ejemplo, las regiones forman los estratos:

Región Ni wi
A 2000 =2000/8200=0.24
B 1200 =1200/8200=0.15
C 5000 =5000/8200=0.61
Total N=8200 1
n=245.
Usando la relación:

N 
ni = n *  i  = n * wi , i = 1,..., k ,
N  Se determina el tamaño de

muestra para cada region.

N 
nA = n *  A  = n * wA = 245 * 0.24 = 59.76  60
 N 
~ 64 ~

N 
nB = n *  B  = n * wB = 245 * 0.15 = 35.85  36
 N 
N 
nC = n *  C  = n * wC = 245 * 0.61 = 149.39  149
 N 

CAPITULO V
INTERVALOS DE CONFIANZA Y PRUEBAS DE HIPOTESIS

5.1 INFERENCIA ESTADÍSTICA.


La Inferencia estadística es aquella rama de la estadística mediante la cual se
trata de sacar conclusiones de una población en estudio, a partir de la
información que proporciona una muestra representativa de la misma.
~ 65 ~

Cuando se busca información acerca de una población, pero solo disponemos


de datos sobre una muestra, se necesitan algunos medios para utilizar los
datos de la muestra y sacar conclusiones acerca de la población. Los
conceptos y técnicas que satisfacen esta necesidad constituyen lo que se
conoce con el nombre de Inferencia Estadística.

  PUNTUAL
 ESTIMACIÓN 
  POR INTERVALOS

INFERENCIA ESTADÍSTICA 

 PRUEBAS DE HIPÓTESIS


5.2 INTERVALOS DE CONFIANZA.


Cuando tratamos la estimación puntual, uno de los problemas que se
plantearon es que el valor de la estimación es solo uno de los valores del
estimador, obtenido al extraer una muestra concreta, de forma que si
extraemos dos muestras distintas, las estimaciones serán distintas.
Al hacer cualquier estimación se está cometiendo un error, y seria deseable
proporcionar una medida de la precisión de la estimación del parámetro.
En este tema vamos a introducir el concepto de intervalo de confianza como
un intervalo cuyos extremos son variables que dependen de la muestra, y en
el cual se confía que esté el valor de parámetro. El intervalo se obtendrá a
partir de un estadístico generalmente relacionado con un estimador puntual,
cuya distribución no depende del parámetro desconocido, y una medida de la
validez del intervalo es el nivel de confianza, que indica la proporción de
intervalos de todos los que se podrían construir a partir de muestras distintas,
que realmente contienen al parámetro.
La importancia del intervalo de confianza para la estimación está en el hecho
de que el intervalo contiene información sobre el estimador puntual (valor
central del intervalo) y sobre el posible error en la estimación a través de la
~ 66 ~

dispersión y de la distribución muestral del estimador. Una estimación será


tanto más precisa cuanto menor sea la amplitud del intervalo de confianza, es
decir, cuanto menor sea el error de estimación.

Definición
Un intervalo de confianza (IC) al 100(1 - )% para un parámetro poblacional

 de una v.a. X es un intervalo con estadísticas L1 y L2 en los extremos (IC

=  L1, L2) tal que P(L1    L2 ) = 1 −  .

Intervalo de confianza para la media

➢ El IC al 100(1 - )% para , cuando 2 es conocida, se obtiene

usando como pivote a

X −
Z= N (0, 1)
/ n y vienen dado por

 
X − z1−    X + z1−
2 n 2 n

1−

/2 /2

−Z(1−/2) Z(1−/2)
Donde:
~ 67 ~

x : Estimador

z1−  : Factor de confiabilidad


2


: Error típico del estimador
n
En términos generales un intervalo de confianza se puede expresar como
(ESTIMADOR)  (FACTOR (
DE CONFIABILIDAD )  ERROR TÍPICO DEL ESTIMADOR )

➢ El IC al 100(1 - )% para , cuando 2 es desconocida se obtiene


usando como pivote a

X −
T= t (n -1)
S/ n
y vienen dado por :

S S
X − t(1− ,n−1)    X + t(1− ,n−1) ,
2 n 2 n

1−

/2 /2

−t(1−/2) t(1−/2)
~ 68 ~

Donde:

t(1− ,n −1) denota al valor de la distribución t de Student con n – 1 grados de


2

libertad y la varianza muestral esta dado por :

 ( xi − x )
2

S2 = i =1

n −1

Intervalo de confianza para la varianza

El IC al 100(1 - )% para 2, se obtiene usando como pivote a

( n − 1) S 2  (2n −1)
2 y vienen dado por :

( n − 1) S 2   2 ( n − 1) S 2
 (12 − ,n−1)  (2 ,n−1)
2 2
~ 69 ~

1−

/2 /2
2(/2) 2(1−/2)

Donde  (2 ,n −1) y  (1


2
−  , n −1) denotan los valores en la distribución
2 2
chi-cuadrado con n – 1 grados de libertad y la varianza muestral dado por:

 ( xi − x )
2

S = i =1
2

n −1

Intervalo de confianza para la razón de dos varianzas

- )% para  1 /  2 , se obtiene usando como pivote a


2 2
El IC al 100(1

S12 /  12
F= 2 2 F ( n1 − 1, n2 − 1)
S2 /  2
y vienen dado por
~ 70 ~

2 2 2
S1 1 S1
2
f( / 2, n −1, n −1)  2
 2
f(1− / 2, n −1, n −1)
S2 2 1 2 S2 2 1

Donde
f ( / 2, n2 −1, n1 −1) y
f (1− / 2,n2 −1, n1 −1) denotan a los valores

2 2
en la distribución F. S1 y S 2 y son las varianzas de dos muestras aleatorias

independientes de tamaños n1 y n2

Intervalo de confianza para la diferencia entre dos medias.

El IC al 100(1 - )% para 1 − 2 , cuando  12 y  22 es conocida se

obtiene usando como pivote a

X 1 − X 2 − ( 1 − 2 )
z=
 12  22
+
n1 n2

y vienen dado por:

12  22 12  22
( X1 − X 2 ) − z(1− / 2) * +  1 − 2  ( X1 − X 2 ) + z(1− / 2) * +
n1 n2 n1 n2
Intervalo de confianza para la proporción

El IC al 100(1 - )% para p, se obtiene usando como pivote a

p− p
Z = N (0, 1)
p (1− p )
n
~ 71 ~

y vienen dado por:

p (1− p ) p (1− p )
p − z1−  n  p  p + z1−  n
2 2

Intervalo de confianza para la diferencia entre dos proporciones

El IC al 100(1 - )% para p1 − p2 , se obtiene usando como pivote a

( p1 − p2 ) − ( p − p )
Z= 1 2
N (0, 1)
p1 (1− p1 ) p2 (1− p2 )
n1 + n2

y vienen dado por:

p1 (1− p1 ) p2 (1− p2 )
( p1 − p2 ) − z  *
(1− ) n1 + n2  ( p1 − p2 )  ( p1 − p2 )
2
p1 (1− p1 ) p2 (1− p2 )
+ z(1− ) * n1 + n2
2

5.3 RESUMEN DE INTERVALO DE CONFIANZA.


En el cuadro siguiente se presenta el resumen de las relaciones para los
intervalos de confianza de los principales parámetros.

Intervalos de confianza de: Limite inferior Limite Superior


~ 72 ~

La Media  
X − z(1− ) X + z(1− )
-Si se asume 2 conocido 2 n 2 n

-Nota: Si la población no es
S S
normal pero n  30 X − z(1− ) X + z(1− )
2 n 2 n

La Media
S S
Si se asume que 2 es X − t(1−  , n −1) X + t(1−  , n −1) ,
2 2
n n
desconocido

La diferencias de Medias
 12  22  12  22
 12 y  22 Conocidos
( X1 − X 2 ) − z(1− / 2) * + ( X1 − X 2 ) + z(1− / 2) * +
n1 n2 n1 n2

S12 S22
--Nota: Si las poblaciones no ( X1 − X 2 ) − z(1− / 2) * +
son normales pero n1  30 y n1 n2 S12 S22
( X1 − X 2 ) + z(1− / 2) * +
n2  30
n1 n2

La diferencia de Medias
1 1 1 1
Asumiendo que:  12 =  22 y
( X 1 − X 2 ) − t0 * S p + ( X 1 − X 2 ) + t0 * S p +
n1 n2 n1 n2
desconocidos

( n1 −1) S12 + ( n2 −1) S22 to = t(1− / 2,n1 + n 2 -2)


Sp = n1 + n2 − 2

La diferencia de Medias
~ 73 ~

Asumiendo que: 2 2 2 2
S1 S2 S1 S2
 12   22 y desconocidos ( X1 − X 2 ) − t(1− / 2,v ) * + ( X1 − X 2 ) + t(1− / 2,v ) * +
n1 n2 n1 n2

S2 S2
( n1 + n1 )2
v = 2
1
( S1 / n1 ) 2
1
( S 22 / n2 )2
n1−1
+ n −1
2

La varianza
( n − 1) S 2 ( n − 1) S 2
12− ( n − 1)  2 ( n − 1)
2 2

La razón de varianzas. 2
S1 S12
f ( /2,n f
2 (1− /2,n −1, n −1)
2 −1,n1−1)
2
S2 S2 2 1

La proporción
p (1− p ) p (1− p )
p − z(1−  ) n
p + z(1−  ) n
2 2

La diferencia de
p1 (1− p1 ) p2 (1− p2 ) p1 (1− p1 ) p2 (1− p2 )
proporciones. ( p1 − p2 ) − z(1− ) * n1 + n2 ( p1 − p2 ) + z(1− ) * n1 + n2
2 2
~ 74 ~

EJERCICIOS DESARROLLADOS

1.- En una muestra de 250 padres de familia de una I.E rural, se obtuvo un ingreso
medio anual de 5900 soles y una desviación típica de 94 soles. Obtener un
intervalo de confianza al 95% para el ingreso medio poblacional.

Solución:

n = 250, X = 5900,
 = 94, z(1−  ) = 1.96
2

Reemplazando en la relación

 
X − z(1− )    X + z(1− )
2 n 2 n

1−

/2 /2

−Z(1−/2) Z(1−/2)
94 94
5900 − 1.96    5900 + 1.96
250 250

5888.34    5911.65
El 95% de los padres de familia tienen ingresos anuales que fluctúan entre
5888.34 y 5911.65 soles.
~ 75 ~

2. En un estudio sobre las razones que dan los alumnos suspendidos en el


colegio, un investigador entrevisto a 200 estudiantes suspendidos, de los
cuales 140 dijeron que lo habían hecho por dificultades económicas en su
familia. Construir un intervalo de confianza del 95% para la proporción.

Solución:

p=
140
= 0.7 , z(1− ) = 1.96 , n=200
200 2

p (1− p ) p (1− p )
p − z(1−  ) n  p  p + z(1−  ) n
2 2

0.7(1− 0.7) 0.7(1− 0.7)


0.7 − 1.96 200  p  0.7 + 1.96 200

3. Dos muestras de docentes 250 de la provincia A, 200 de la provincia B,


indicaron que usan dinámica grupal (75 Provincia A y 80 de la Provincia B).
Utilizando un intervalo de confianza del 95% ¿ Se puede aceptar que es igual
la proporción de uso de dinámica grupal en ambas provincias?

Solución:
Provincia A

75
p1 = = 0.3 , n1 = 250
250
Provincia B

80
p2 = = 0.4 , n1 = 200
200

z1− = 1.96
2
~ 76 ~

p1 (1− p1 ) p2 (1− p2 )
( p1 − p2 ) − z(1−  ) * n1 + n2  ( p1 − p2 )
2

p1 (1− p1 ) p2 (1− p2 )
 ( p1 − p2 ) + z(1−  ) * n1 + n2
2

0.3(1−0.3) 0.4(1−0.4 )
(0.3 − 0.4) − 1.96 * 250 + 200  ( p1 − p2 )  (0.3 − 0.4)
0.3(1−0.3) 0.4(1−0.4 )
+ 1.96 * 250 + 200

-0.18  ( p1 − p2 )  -0.011
El intervalo contiene solo valores negativos, entonces.

( p1 − p2 )  0  p1  p2

4. El director de un colegio quiere comparar el rendimiento académico, entre


dos secciones del quinto grado. Para ello recopilo una muestra de 50 notas
de la sección A y 40 de la sección B, resultando las medias de 13 y 15
respectivamente y las desviaciones estándar respectivamente son 3 y 4.
Utilizando un intervalo de confianza del 95% para la diferencia de medias
¿Podemos concluir que la media de los rendimientos de la Sección B es
mayor que la de A?

Solución:
Terapia A

x1 = 13, 1 = 3, n1 = 50

Terapia B

x2 = 15,  2 = 4, n2 = 40
~ 77 ~

z(1−  ) = 1.96
2

1 2 1 2
2 2 2 2
( X1 − X 2 ) − z(1− / 2) * +  1 − 2  ( X1 − X 2 ) + z(1− / 2) * +
n1 n2 n1 n2

9 16 9 16
(13 − 15) − 1.96* +  1 − 2  (13 − 15) + 1.96* +
50 40 50 40
−3.49  1 − 2  −0.50

Como 1 − 2  0 , entonces 1   2 .
Se concluye que la seccion B presenta mejores resultados que la seccion
A.

5. Un psicólogo desea calcular el tiempo medio de respuesta de unos jóvenes a


un determinado sonido, para ello selecciona una m.a.s. de 25 universitarios para
participar en el experimento. El tiempo medio de respuesta para la muestra es
de 160 milisegundos con una desviación típica de 5 milisegundos. Suponiendo
que el tiempo de respuesta de todos los individuos está normalmente
distribuido. Construya el Intervalo de confianza del 99%.

Solución:
X : Tiempo de respuesta
X N (  , 2 ) 2 desconocida

1 −  = 0,99  t0 = 2,7969
n = 25 , x = 160 , s = 5
s s
x − t0     x + t0 
n n
~ 78 ~

5 5
160 − 2,7969     160 + 2,7969 
25 25

157,2031    162,7969

El psicólogo puede afirmar con un 99% de confiabilidad, que el tiempo medio


verdadero de respuesta para todos los individuos similares a los que se emplean
en el experimento, está aproximadamente entre 157 y 163 milisegundos.
5.4 PRUEBAS DE HIPOTESIS
En muchas situaciones el investigador tiene alguna idea o conjetura sobre el
comportamiento de una o más variables en la población.
El diseño de la investigación debe permitir probar la veracidad de sus ideas
sobre la población en estudio, en base a los datos de la muestra.
La idea o conjetura es una hipótesis y el procedimiento de toma de decisión
sobre la hipótesis se conoce como prueba de hipótesis.
Una hipótesis estadística es una conjetura sobre el comportamiento
probabilística de una población.

Si la hipótesis estadística identifica por completo la distribución, recibe el


nombre de “hipótesis simple”, y si no la especifica recibe el nombre de
“hipótesis compuesta”.
El contraste de hipótesis tiene por finalidad decidir si una conjetura puede
considerarse cierta, o debe rechazarse, basándonos en la información
suministrada por una muestra.

Hipótesis nula (denotada como H0). Esta hipótesis nula es la que se somete
a comprobación, y es la que se acepta o rechaza, como la conclusión final de
un contraste.

Hipótesis alternativa (denotada como Ha). Se denomina hipótesis


alternativa aquella hipótesis contra la cual queremos contrastar la hipótesis
~ 79 ~

nula. Esta hipótesis puede ser simple o compuesta. Podemos cometer dos
tipos de error: rechazar la hipótesis nula siendo ésta cierta (error de tipo I) y
aceptar la hipótesis nula cuando esta es falsa (error de tipo II).

Aceptar Ho Rechazar Ho

Ho verdadera Decisión correcta Error Tipo I


Ho falsa Error Tipo II Decisión correcta

La decisión de rechazar, o no, la hipótesis nula la tomamos a partir de la


información proporcionada por la muestra (estadístico de prueba). Realizamos
una partición del espacio muestral en dos regiones, la región crítica en la que
se rechaza la hipótesis nula (tiene probabilidad  si H 0 es cierta) y la región

de aceptación, en la que se acepta la hipótesis nula.

Antes de definir los pasos de una prueba de hipótesis se define algunos


conceptos básicos.

1. Nivel de significación del contraste es la probabilidad de cometer un error


del tipo I, es decir, de rechazar la hipótesis nula siendo cierta, y se

acostumbra a denotar por 

2. El contraste de hipótesis, es pues, un mecanismo mediante el cual se


rechaza la hipótesis nula cuando existan diferencias significativas entre los
valores muestrales y los valores teóricos, y se acepta en caso contrario.
Estas variables se medirán mediante una variable denominada estadígrafo
de contraste, que sigue una distribución determinada conocida, y que para
cada muestra tomará un valor particular.

3. La región crítica es el conjunto de valores del estadístico de contraste que


nos induce a rechazar la hipótesis nula
~ 80 ~

PASOS DE UNA PRUEBA DE HIPOTESIS.


Los pasos que son convenientes seguir para realizar la prueba de hipótesis
son:

1. Formulación de hipótesis.
Los supuestos planteados en la investigación nos llevan a formular
hipótesis estadísticas, las mimas que presentan las siguientes formas.

H 0 :  =  0 vs H a :    0
H 0 :  =  0 vs H a :    0
H 0 :  =  0 vs H a :    0
2. Elegir el nivel de significación,  .
3. Estadístico de prueba
4. Determinar la región crítica. La forma de la región crítica depende de la
hipótesis alterna.

Para Ha :    0

1−

/2 /2

−Z(1−/2) Z(1−/2)
R.R. H0 R.A. H0 R.R. H0
~ 81 ~

Para Ha :    0

1−


Z(1−)
R.A. H0 R.R. H0

Para Ha :    0

1−


Z(1−)
R.R. H0 R.A. H0
~ 82 ~

La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0


cuando el estadístico de prueba toma un valor comprendido en la zona
sombreada y se acepta Ho cuando el valor del estadístico de prueba cae en la
región de aceptación, región no sombreada.

5. Conclusión. Determinar las conclusiones estadísticas del contraste


(aceptar o rechazar Ho).

A continuación se presentan las pruebas de hipótesis en forma de resumen.


PRUEBAS DE HIPOTESIS EN POBLACIONES NORMALES.

Pruebas de Hipótesis. Estadístico de Rechazar H0, si:


Hipótesis Nula Hipótesis Prueba
Alternativa

X − 0 Z c  z(1− )
Prueba de Medias
Ha:   0
H0:  = 0 vs: Zc = / n
2
Ha:  > 0
si  conocido
2
Ha:  < 0 Zc  z(1− )
X − 0
- Si la población no Zc =
es normal pero n  s/ n Z c  − z(1− )
30

Prueba de Medias
Ha:   0 X − 0 Tc  t(1− ,n −1)
H0:  = 0 vs
Ha:  > 0
Tc = S/ n
2
Si se asume que :
Ha:  < 0 Tc  t(1− ,n −1)
2
es desconocido
Tc  −t(1− ,n −1)
~ 83 ~

Ha: 1  2 X1 − X 2 Z c  z(1− )
Prueba de
diferencias de
Ha: 1 > 2
Zc = 12  22
2
Medias +
Ha: 1 < 2 Zc 
n1 n2
H0: 1 = 2 vs: z(1− )
X1 − X 2
Asumiendo
Zc = s12 s22 Z c  − z(1− )
 12 y  22 +
n1 n2

Conocidos
--Si las poblaciones
no son normales
pero n1  30 y n2 
30

Prueba de
Ha: 1  2 X1 − X 2 Tc  t(1− ,n + n
diferencia de
Ha: 1 > 2
Tc =S 1+1
2 1 2
− 2)

Medias p n1 n2
Ha: 1 < 2
H0: 1 = 2 vs
Tc  t(1− ,n + n
Asumiendo que: 1 2 − 2)
( n1 −1) S12 +( n2 −1) S22
 12 =  22 y Sp = n1 + n2 − 2
Tc  −t(1− ,n + n
Desconocidos 1 2 − 2)

X1 − X 2 Tc  t(1−  ,v )
Prueba de
Ha: 1  2
diferencia de Tc = S12 S22
2
Ha: 1 > 2 +n
Medias n1 2
Ha: 1 < 2
H0: 1 = 2 vs
Tc  t(1− ,v )
Asumiendo que:
~ 84 ~

 12   22 y S12 S12 2
(n +n ) Tc  −t(1− ,v )
desconocidos v= 2
1
( S1 / n1 ) 2
1
( S22 / n2 )2
n1−1
+ n2 −1

 c2   (2 ,n−1)
Prueba de
Ha:  2   02 ó
varianzas ( n −1) S 2
 c2 =
2
Ha:  2   02
H0: 2 =  02 vs  02
 c2   (12 − ,n−1)
Ha:  2   02 2

 c2   (12 − ,n−1)
 c2   (2 ,n−1)

Prueba de razón de
Ha:  12   22 2 Fc  F( ,nmax −1,n ó
varianzas. Fc = Smax
2
Smin
2 min −1)
Ha:  12   22 Fc  F(1− ,nmax −1,n
2 min −1)
H0:  12 =  22 vs Ha:  12   22
Fc  F(1− ,nmax −1,n
min −1)

Fc  F( , nmax −1, n


min −1)

p − p0
Z c  z(1−  )
Prueba de
H a: p  p 0
proporciones Zc = p (1− p ) / n
H a: p > p 0 2

H0: p =p0 Vs
H a: p < p 0 Z c  z(1− )

Z c  − z(1− )
~ 85 ~

p1 − p2
Z c  z(1−  )
Prueba de
diferencia de
H a: p 1  p 2 Zc = pc (1− pc ) pc (1− pc ) 2
Ha: p1 > p2 +
n1 n2
Z c  z(1− )
proporciones
H a: p 1 < p 2
n1 p1 + n2 p2
pc =
H0: p1 = p2 Vs n1 + n2 Z c  − z(1− )
~ 86 ~

EJERCICIOS DESARROLLADOS

1. Según el ministerio de educación el ingreso económico promedio de los


profesores que trabajan en instituciones educativas privadas es mayor que 355
dólares. Para contrastar esta hipótesis se analiza una muestra de 60 profesores
elegidos aleatoriamente. Resulto una media muestral de 580 dólares.
Suponiendo normalidad para las mediciones, proporcionan estos datos
suficiente evidencia estadística, al nivel de 95% de confianza, a favor de la
hipótesis planteada por el ministerio de educación. Use  = 180

Solución:
Formulación de hipótesis.
H0:  = 355
Ha:  > 355

Nivel de significancia,  = 5%

Estadística de prueba.

X − 0
Zc = / n

 = 180 , z(1− ) = 1.645 , n = 60, x1 = 580

Zc = 580 − 355
180 / 60
= 9.68

Región critica
~ 87 ~

=5%

Z0=1.645 Zc =9.68
Región Región
Aceptación Crítica

Conclusión.

Como Zc  Zo
Se rechaza la hipótesis nula.

2. Se tienen algunos indicios de que el programa de capacitación dirigida por el


ministerio de educación tiende a mejorar el nivel de solución de problemas
matemáticos de los profesores. Para estudiar esta hipótesis, se selecciono una
muestras de 9 profesores y se evaluó su nivel de solución de problemas
matemáticos antes y después de la capacitación, obteniendo las siguientes
calificaciones en una escala de 0- 100.

Antes 25 25 27 44 30 67 53 53 52
Después 27 29 37 56 46 82 57 80 61
Diferencia 2 4 10 12 16 15 4 27 9

Hay suficiente evidencia estadística al nivel de significación de 0,05 a favor de


la hipótesis de que el programa de capacitación presentan una mejora
significativa en la solución de problemas matemáticos.
~ 88 ~

Solución:
Formulación de hipótesis.

H0: d = 0

Ha: d  0

Nivel de significancía,  = 5%

Estadística de prueba.

X − 0
Tc = S/ n

s = 7.76 ,
t(1− / 2, n −1) = 2.262

n = 9, x1 = 11
11 − 0
Tc = = 4.25
7.76 / 9

Región critica

t0=–2.26 t0=2.26 tc=4.25


R.R. H0 R.A. H0 R.R. H0

Conclusión.
Se rechaza la hipótesis nula.
~ 89 ~

3. En un estudio sobre las preferencias de un grupo de profesores, sobre el uso


de dos tipos de estrategias cognitivas A y B para el proceso de enseñanza-
aprendizaje. De 600 especialistas encuestados, respondieron: 20% prefiere la
estrategia A, y 15 % la estrategia B. ¿Es posible concluir con 95% de confianza
que las preferencias de las estrategias A y B son similares?

Solución:
Formulación de hipótesis.

H0: p1 =p2
Ha: p1  p2
Nivel de significancia,  = 5%

Estadística de prueba.

p1 − p2
Zc = pc (1− pc ) pc (1− pc )
+
n1 n2
Tratamiento A.

p1 = 0.2 , n1 = 600
Tratamiento B.

p2 = 0.15 , n2 = 600

n1 p1 + n2 p2 600*0.2 + 600*0.15
pc = = = 0.175
n1 + n2 600 + 600
~ 90 ~

p1 − p2
Zc = pc (1− pc ) pc (1− pc )
= 0.20 −0.15
0.175(1−0.175) 0.175(1−0.175)
= 2.279
+ +
n1 n2 600 600
Región critica

=5%

Z0=1.96 Zc =2.279
Región Región
Aceptación Crítica

Conclusión.

Como Z c  Z o , se rechaza la hipótesis nula, por tanto p1  p2.


4. La prueba de resistencia física estándar en los alumnos, tiene una media
de 200 puntos y una desviación estándar de 50 puntos. El director de un
colegio sospecha que la resistencia física de los alumnos, esta por debajo
de los parámetros estándares, con tal motivo se sometieron a 100 alumnos
seleccionados al azar a dicha prueba obteniéndose una media de 180
puntos ¿Con 95% cual es su conclusión?
Solución
H0:  = 200
H1:  < 200
 = 50 , z1− = 1.645
n = 100, x1 = 180

Zc = 180 − 200
50 / 100
= −4
Como Z c  1.645
~ 91 ~

Se rechaza la hipótesis nula, por tanto la resistencia física de los alumnos del
mencionado colegio es menor que el parámetro estándar.
5. El ministerio de educación, esta implementado un nuevo método de
enseñanza, para analizar si este método es más adecuado que el método
tradicional, se ha experimentado en 14 alumnos, 7 para cada método,
registrándose las siguientes calificaciones.
Método Tradicional 11 13 09 12 10 9 13
Nuevo Método 14 13 16 17 11 12 15
¿En base a la información cual es su conclusión?
Solución.
H0: 1 = 2
H1: 1  2
Supongamos que las varianzas poblacionales son iguales, entonces el
estadístico de prueba es:
X1 − X 2
Tc = Sp 1 + 1  t (n1 + n2 -2)
n1 n2

De la información se tiene:
Método Tradicional
x1 = 11, s12 = 3, s1 = 1.73

Nuevo Método
x2 = 14, s22 = 4.67 , s2 = 2.16

( n1 −1) S12 + ( n2 −1) S22 ( 7 −1)*3+ ( 7 −1)*4.67


Sp = n1 + n2 − 2 = 7+7−2 = 2.11

X1 − X 2 11 − 14
Tc = = = −2.65
2.11* 7 + 7
Sp 1+ 1
n1 n2 1 1

T0 = t1−  ( n1 + n2 − 2 ) = t0.975 ( 7 + 7 − 2 ) = t0.975 (12 ) = 2.179


2

Como Tc  T0 , entonces se rechaza H0, por tanto el nuevo método con el

método tradicional producen distinto rendimiento.


~ 92 ~

CAPITULO VI
PRUEBA DE CHI-CUADRADO

Las pruebas de hipótesis desarrolladas anteriormente, están


basadas en el supuesto de que la muestra pertenezca a una
población con distribución conocida.
Aquí abordaremos dos problemas muy interesantes dentro de lo
que se conoce con el nombre de estadística no paramétrica. La
prueba de homogeneidad y la prueba de independencia.
La justificación de estos problemas es comparar las frecuencias
esperadas y las observadas.
6.1 PRUEBA DE INDEPENDENCIA
Esta prueba permite analizar si dos variables aleatorias son o no
independientes.

Dado una muestra aleatoria de tamaño n.. es extraída, y cada


observación de la muestra es clasificada de acuerdo a dos criterios
(variables X y Y). Usando el primer criterio cada observación es

clasificada en una de r filas y usando el segundo criterio en una de c


columnas. Los datos son arreglados en la siguiente tabla de contingencia r x

c:

Columna 1 Columna 2 ... Columna c Total

Fila 1 0 11 0 12 ... O ic ni.


Fila 2 0 21 0 22 ... 0 2c n2.

Fila r O r1 O r2 ... 0 rc n r.
Total n .1 n .2 ... n. c n..

En la tabla, o jj es el número de observaciones clasificadas en la fila i


~ 93 ~

columna j, n i. es el número total de observaciones en la fila i y n. j es

el número total de observaciones en la columna j.

Hipótesis:
Sea:

 ij la probabilidad de que una observación sea clasificada en la fila i


columna j,
 i. la probabilidad de que una observación sea clasificada en la fila i

y . j la probabilidad de que una observación sea clasificada en la

columna j. Entonces las hipótesis son:

Ho:
 ij =  i. . j para todo i = 1, ... r, j = 1, ... c.
Ha: Al menos una igualdad no se cumple.

Las hipótesis pueden expresarse, en forma equivalente de la siguiente


manera:

Ho: Las variables X y Y son independientes.


HI : Las variables X y Y no son independientes.
Estadístico de prueba:

r c (oij − eij ) ni . n. j
x =2
c  x 2 (r − 1)(c − 1) e =
donde ij
j =1 j =1 eij n..

Regla de decisión:
Se adopta la siguiente regla de decisión:
~ 94 ~

• Si  c2   (2r −1)( c −1) entonces se acepta la hipotes H 0

• Si  c2   (2r −1)( c −1) entonces se rechaza la hipotes H 0

Como puede observarse el procedimiento es muy similar al de la prueba


de homogeneidad, y a veces suelen confundirse.

EJERCICIOS DESARROLLADOS

1. En una investigación realizada sobre el efecto del clima organizacional en la


gestión educativa en las instituciones educativas de la ciudad del Cusco, se
obtuvo la siguiente información:
Gestión Educativa
Clima Mala Regular Buena Total
Organizacional
Buena 70 100 150 320
Mala 130 100 50 280
Total 200 200 200 600
¿Podemos concluir con 95% de confianza que el clima organizacional influye
en la gestión educativa ?

Solución:
H0: El clima organizacional no influye la gestión educativa.
Ha: El clima organizacional influye la gestión educativa..
~ 95 ~

320* 200 320* 200


e11 = = 106.67 , e12 = = 106.67 ,
600 600
320* 200 280*200
e13 = = 106.67 , e21 = = 93.33 ,
600 600
280*200 280* 200
e22 = = 93.33 , e23 = = 93.33
600 600
( 70 − 106.67 ) (100 − 106.67 ) (150 − 106.67 )
2 2 2

2 =
c + +
106.67 106.67 106.67
(130 − 93.33) (100 − 93.33) ( 50 − 93.33)
2 2 2

+ + +
93.33 93.33 93.33

 c2 = 65.625
De la tabla de chi-cuadrado ,  0 = 5.991
2

1−

o2=5.99 o2=65.625
R.A. H0 R.R. H0

Como  c2   02 , se rechaza la hipótesis nula, Acepta la Ha.

2. En un estudio realizado a 341 estudiantes que participaron en un programa


piloto para evaluar la influencia de la técnica de expertos como estrategia en la
comprensión lectora. Los resultados se presentan en la siguiente tabla:
~ 96 ~

Técnica de expertos Comprensión lectora


Total
Mala Regular Buena
Buena 15 25 40 80
Regular 30 100 43 173
Mala 43 27 18 88
Total 118 150 73 341
¿Existe alguna relación significativa entre la aplicación de la técnica de
expertos y el nivel de comprensión lectora? Use un nivel de confiabilidad de
99%

Solución:

Ho : No Existe relación entre la aplicación de la técnica de expertos y el nivel


de comprensión lectora.

Ha : Existe relación entre la aplicación de la técnica de expertos y el nivel de


comprensión lectora.

El nivel de significación es  = 1% = 0.01


El estadístico es:

( oij − eij )
2
r c
X c2 =  → X (2r −1)( c −1) gl
i =1 j =1 eij
Previamente calculamos los valores esperados.

ni.n. j
eij =
n..
~ 97 ~

n1.n.1 80*118 n2.n.1 173*118


e11 = = = 27.68 e21 = = = 59.87
n.. 341 n.. 341
n3.n.1 88*118 n1.n.2 80*150
e31 = = = 30.45 e12 = = = 35.19
n.. 341 n.. 341

n2.n.2 173*150 n n 88*150


e22 = = = 76.10 e32 = 3. .2 = = 38.71
n.. 341 n.. 341
n1.n.3 80*73 n n
e13 = = = 17.13 e23 = 2. .3 = 173*73 = 37.04
n.. 341 n.. 341
n3.n.3 88*73
e33 = = = 18.84
n.. 341

Reemplazando en el estadístico

( oij − eij )
2
r c
X c2 = 
i =1 j =1 eij

(15 − 27.68) + ( 25 − 35.19) (18 − 18.84)


2 2 2
= + .... + = 71.41
27.68 35.19 18.84

Como X c2 = 71.41 > X 02 = 3, 747 , por tanto se rechaza la hipótesis


nula y se acepta la hipótesis alterna, Existe relación entre la aplicación de la
técnica de expertos y el nivel de comprensión lectora
3. En el cuadro siguiente se muestra los resultados del hábito de estudio y
comprensión de lectura de 58 estudiantes.
~ 98 ~

Habito de estudio Comprensión de lectura Total


Dependiente Independiente
Mala 36 7 43
Buena 2 13 15
Total 38 20 58

a) Existe relación entre ambas variables, use un nivel de significancia


del 5%.
b) Determine el grado de asociación entre dichas variables.
c) Determine el grado de relación entre dichas variables.

Solución

a) Utilizando la prueba de chi-cuadrado, para tablas de 2x2.


Ho: La comprensión lectora y el hábito de estudios no están
relacionados.
Ha: La comprensión lectora y el hábito de estudios no están
relacionados.

( ad − bc ) (36 *13 − 7 * 2 )
2 2
.n * 58
2= c = = 24.39
r1 r2 c1 c2 43*15*38*20

De la tabla de la distribución x2 con (2-1)x(2-1) = 1 grado de libertad,

se tiene: x0 2 = 3.84
Como c 2  02 , se rechaza Ho, por lo tanto se concluye que la

comprensión lectora no depende el habito de estudios.

b) Para determinar el grado de asociación, utilizamos le coeficiente de


contingencia.
~ 99 ~

2 24.39
C= = = 0,544
n + 2 58 + 24.39

c) Para determinar el grado de correlación se utiliza el coeficiente 


2 24,39
= = = 0,648
n 58
Presentan una relación de 64,8% entre dichas variables.
~ 100 ~

MÉTODOS ESTADÍSTICOS DE ACUERDO AL TIPO DE VARIABLES y NIVEL DE


INVESTIGACION.
Tipo de Tipo de variable Alcance de investigación Método o Técnica Estadística.
Descripción
Tabla de Frecuencias,
• Cualitativa
proporciones, o porcentajes.
(Nominal y
Variables Representados por grafico de
Ordinal) DESCRIPTIVA
individuales barras, sectores o pictogramas.
Intervalo de confianza y prueba
• Escala de Likert
de hipótesis de la proporción.

Distribución de frecuencias por


intervalos.
-Medias, desviación , , varianza,
Variables Cuantitativa percentiles.
DESCRIPTIVA
individuales (Intervalo o razón) -Intervalo de confianza y prueba
de hipótesis de la media.
-Análisis factorial, análisis de
compontes principales.

Tablas de contingencia.
-Cálculo de riesgos.
-Pruebas de chi-cuadrado:
independencia
-Grafico de barras de doble
V. Ind: Cualitativa
entrada.
Asociación -Pruebas de Kendall, de
CORRELACIONAL
entre variables Spearman.
con V.Dep:
-Análisis de regreion
Cualitativa
Analisis de correlacion de
Pearson

V. Ind: : -Diseño experimental (ANOVA)


Asociación Cualitativa(factor) - Prueba t
EXPLICATIVA
entre variables con V.Dep: - comparación
Cuantitativa de medias.

También podría gustarte