Está en la página 1de 205

1.1.

LA ESTADISTICA
 La Estadística es mucho más que sólo números apilados y gráficas bonitas.
 Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de
todas las demás ciencias.
 La ausencia de ésta conllevaría a un caos generalizado, dejando a los
administradores y ejecutivos sin información vital a la hora de tomar decisiones en
tiempos de incertidumbre.
 La Estadística que conocemos hoy en día debe gran parte de su realización a los
trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las
probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.

1.2. DEFINICIÓN DE ESTADÍSTICA

La estadística, es la
ciencia que trata de la
recopilación, organización
presentación, análisis e
interpretación de datos
numéricos con el fin de
realizar una toma de
decisión más efectiva.

Porque la estadística va tomando más importancia en la investigación científica, en el


aspecto académico y en el desarrollo profesional.
- Porque sirve como herramienta de investigación objetiva y veraz,
- Porque a través de un conjunto de datos obtenidos adecuadamente, permite tomar
decisiones adecuadas y oportunas;

1
- Porque permite apreciar objetivamente las diferencias de algún fenómeno de
incertidumbre en el tiempo y en el espacio
1.3. UTILIDAD E IMPORTANCIA
- Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estudios de consumidores; análisis de resultados
en deportes; administradores de instituciones; en la educación; organismos políticos;
médicos; y por otras personas que intervienen en la toma de decisiones.
- Diagnostico de un problema cualquiera, ejemplos: Diagnostico de las enfermedades,
diagnostico del nivel de vida, del nivel socioeconómico, el nivel educativo, etc.
- Determinar prioridades en los programas de salud, educación, de las empresas privadas,
o de otros problemas de las comunidades o personales
- Establecer y analizar las relaciones entre las variables (causa efecto)
- Realizar pronósticos a través del tiempo
- Estimar valores poblacionales, tomando solo una muestra

NOTA: Sin embargo para que el uso de la estadística sea adecuado, es necesario trabajar
con muchos datos, porque el uso de pocos datos puede dar lugar a interpretaciones no
consistentes.

1.4. DIVISION DE LA ESTADISTICA


La Estadística se ha dividido en dos grandes ramas: la Estadística Descriptiva y la
Inferencial:
 La estadística Descriptiva: consiste sobre todo en la presentación de datos en
forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los
datos y está diseñada para resumir o describir un conjunto de datos, sin intentar
inferir nada que vaya más allá de los datos, como tales.

 La estadística Inferencial: Se deriva de muestras, de observaciones hechas sólo


acerca de una parte de un conjunto numeroso de elementos y esto implica que su

2
análisis requiere de generalizaciones que van más allá de los datos. Como
consecuencia, la característica más importante del reciente crecimiento de la
estadística ha sido un cambio en el énfasis de los métodos que describen a métodos
que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza
una población partiendo de una muestra tomada. Los problemas de la inferencia
estadística son: la estimación de parámetros y las pruebas de hipótesis

1.5. HISTORIA DE LA ESTADÍSTICA


Los comienzos de la estadística pueden ser hallados en el antiguo
Egipto, cuyos faraones lograron recopilar, hacia el año 3050 AC, recogió
datos relativos a la población y la riqueza del país con el objetivo de
preparar la construcción de las pirámides. En el mismo Egipto, Ramsés
II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.

3
En el antiguo Israel la Biblia da referencias, en el libro de los Números,
de los datos estadísticos obtenidos en dos recuentos de la población
hebrea. El rey David por otra parte, ordenó a Joab, general del ejército
hacer un censo de Israel con la finalidad de conocer el número de la
población.

Los griegos y los Chinos efectuaron censos periódicamente con


fines tributarios, sociales (división de tierras) y militares (cálculo de
recursos y hombres disponibles). La investigación histórica revela
que se realizaron 69 censos para calcular los impuestos, determinar
los derechos de voto y ponderar la potencia guerrera.

Pero fueron los romanos, maestros de la organización política,


quienes mejor supieron emplear los recursos de la estadística.
Cada cinco años realizaban un censo de la población y sus
funcionarios públicos tenían la obligación de anotar nacimientos,
defunciones y matrimonios, sin olvidar los recuentos periódicos del
ganado y de las riquezas contenidas en las tierras conquistadas.
Para el nacimiento de Cristo sucedía uno de estos
empadronamientos de la población bajo la autoridad del imperio.

Durante los mil años siguientes a la caída del imperio


Romano se realizaron muy pocas operaciones Estadísticas,
con la notable excepción de las relaciones de tierras
pertenecientes a la Iglesia, compiladas por Pipino el Breve en
el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se
realizaron en Francia algunos censos parciales de siervos.
En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran
Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de
Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.

4
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico,
Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes
operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales
y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los
datos económicos.

Para el año 1532 empezaron a registrarse en Inglaterra las


defunciones debido al temor que Enrique VII tenía por la
peste. Más o menos por la misma época, en Francia la ley
exigió a los clérigos registrar los bautismos, fallecimientos y
matrimonios. Durante un brote de peste que apareció a fines
de la década de 1500, el gobierno inglés comenzó a publicar
estadísticas semanales de los decesos. Esa costumbre
continuó muchos años, y en 1632 estos Bills of Mortality
(Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el
capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones
sobre el número de personas que morirían de varias enfermedades y sobre las proporciones
de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado
en su obra Natural and Political Observations Made upon the Bills of Mortality
(Observaciones Políticas y Naturales Hechas a partir de las Cuentas de Mortalidad), fue un
esfuerzo innovador en el análisis estadístico.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los
recursos nacionales, comprensiva de datos sobre organización política, instrucciones
sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas
de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la
teoría Estadística.

Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como
resultado de la especulación sobre si la población aumentaba, decrecía o permanecía
estática.

5
En los tiempos modernos tales métodos fueron resucitados por
algunos reyes que necesitaban conocer las riquezas
monetarias y el potencial humano de sus respectivos países. El
primer empleo de los datos estadísticos para fines ajenos a la
política tuvo lugar en 1691 y estuvo a cargo de Gaspar
Neumann, un profesor alemán que vivía en Breslau. Este
investigador se propuso destruir la antigua creencia popular de
que en los años terminados en siete moría más gente que en
los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad.
Después de revisar miles de partidas de defunción pudo demostrar que en tales años no
fallecían más personas que en los demás. Los procedimientos de Neumann fueron
conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre,
quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas
de mortalidad que hoy utilizan todas las compañías de seguros.

Durante el siglo XVII y principios del XVIII, matemáticos


como Bernoulli, Francis Maseres, Lagrange y Laplace
desarrollaron la teoría de probabilidades. No obstante
durante cierto tiempo, la teoría de las probabilidades limitó
su aplicación a los juegos de azar y hasta el siglo XVIII no
comenzó a aplicarse a los grandes problemas científicos.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en


1760 la palabra estadística, que extrajo del término italiano statista
(estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia
serían el aliado más eficaz del gobernante consciente. La raíz remota de
la palabra se halla, por otra parte, en el término latino status, que significa
estado o situación; Esta etimología aumenta el valor intrínseco de la
palabra, por cuanto la estadística revela el sentido cuantitativo de las más
variadas situaciones.

6
Jacques Quételect es quien aplica las Estadísticas a las ciencias
sociales. Este interpretó la teoría de la probabilidad para su uso en
las ciencias sociales y resolver la aplicación del principio de
promedios y de la variabilidad a los fenómenos sociales. Quételect
fue el primero en realizar la aplicación práctica de todo el método
Estadístico, entonces conocido, a las diversas ramas de la ciencia.

Entre 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales


para la teoría Estadística; la teoría de los errores de observación, aportada por
Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por
Laplace, Gauss y Legendre.

A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por
Correlación, que tenía por objeto medir la influencia relativa de los factores
sobre las variables. De aquí partió el desarrollo del coeficiente de correlación
creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J.
Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios
estudios sobre la medida de las relaciones.

Los progresos más recientes en el campo de la Estadística se


refieren al desarrollo del cálculo de probabilidades,
particularmente en la rama denominada indeterminismo o
relatividad, se ha demostrado que el determinismo fue
reconocido en la Física como resultado de las investigaciones
atómicas y que este principio se juzga aplicable tanto a las
ciencias sociales como a las físicas.

7
ETAPAS DE DESARROLLO DE LA ESTADÍSTICA
La historia de la estadística está resumida en tres grandes etapas o fases.

1.- Primera Fase: Los Censos:


Desde el momento en que se constituye una autoridad política, la idea de
inventariar de una forma más o menos regular la población y las riquezas
existentes en el territorio está ligada a la conciencia de soberanía y a los primeros
esfuerzos administrativos.

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política:


Las ideas mercantilistas extrañan una intensificación de este tipo de
investigación. Colbert multiplica las encuestas sobre artículos
manufacturados, el comercio y la población: los intendentes del Reino
envían a París sus memorias. Vauban, más conocido por sus
fortificaciones o su Dime Royale, que es la primera propuesta de un
impuesto sobre los ingresos, se señala como el verdadero precursor
de los sondeos. La escuela inglesa proporciona un nuevo progreso al superar la fase
puramente descriptiva. Sus tres principales representantes son Graunt, Petty (autor de la
famosa Aritmética Política) y Halley.
Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población,
desarrolla los estudios industriales, de las producciones y los cambios, haciéndose
sistemáticos durante las dos terceras partes del siglo XIX.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades:


El cálculo de probabilidades se incorpora rápidamente como un
instrumento de análisis extremadamente poderoso para el estudio de
los fenómenos económicos y sociales y en general para el estudio de
fenómenos “cuyas causas son demasiados complejas para
conocerlos totalmente y hacer posible su análisis”.

8
CRONOLOGIA DE LA ESTADISTICA

Época Contribuidor Contribución


Grecia
Filósofos Ideas sobre el análisis no cualitativo
antigua
Graunt, Petty Estudio de la estadística vital
Siglo XVII
Pascal, Berno Estudio probabilístico acerca del cambio del juego
D´Moire,
Siglo XVII Curva normal, regresión aplicada sobre estudios de astronomía
Laplace, Gauss
Astrónomo que primero aplicó el análisis estadístico a biología
Quetelet
humana.
Estudia la variación genética en humanos (usando regresión y
Galton
Siglo XIX correlación lineal)
Estudio de la selección natural usando correlación, formando
Pearsons primero departamentos académicos de estadística, Journal de
Biométrica, ayudados de el análisis de Chi Cuadrada
Estudio de procesos, alerta la comunidad estadística acerca de
Gossett
problemas con pequeñas muestras, presentando la prueba
(Student)
Siglo XX t´student
Evolución biológica presentada- presentación de ANOVA , resalta
Fisher
la importancia del diseño experimental.
Bioquímico estudió pesticidas, equivalente no parámetrico de
Wilcoxon
dos pruebas.
Economista que presentó el equivalente no parámetrico de
Kruskal Wallis
ANOVA
Psicólogo que presenta el equivalente no parámetrico del
Spearman
coeficiente de correlación
Estadista que presenta otro equivalente no parámetrico del
Kendall
Siglo XX coeficiente de correlación.
Estadista que presenta el procedimiento de la comparación
Tukey
múltiple.
Bioquímico que estudia los pesticidas, presenta un procedimiento
Dunnett
de comparación múltiple para grupos control.
Agrónomo que presenta una procedimiento de comparación
múltiple. Prueba muchas ventajas sobre cálculos a mano y en
Keuls
calculadora, estimula el fondo de la investigación mediante
nuevas técnicas

9
ETAPAS DEL TRABAJO ESTADISTICO
EN LA INVESTIGACION CIENTIFICA

La estadística se incluye en todas las etapas de investigación, desde el diseño hasta el


análisis final de la información. Podemos distinguir tres grandes etapas:
a) Diseño: Define de cómo se realizara la investigación, esta etapa es crucial, porque
un estudio bien diseñado o con datos incorrectamente recolectados puede no
responder a las preguntas de la investigación. Esta etapa incluye la población
objetivo, el tamaño de muestra, los mecanismos de selección de la muestra, los
tratamientos de los datos.
b) Descripción: Esta etapa ayuda a comprender la estructura de los datos para detectar
patrones de comportamientos. Una forma de resumir la información es mediante los
gráficos y las tablas, otra forma es mediante algunas medidas descriptivas.
c) Inferencia: Predicciones y toma de decisiones sobre las características de una
población en base a la información recogida en una muestra.

10
CONCEPTOS Y DEFINICIONES PREVIAS

1. POBLACIÓN - es el conjunto total de elementos (individuos, objetos o medidas) que


poseen algunas características comunes observables en un lugar (espacio) y en un
momento (tiempo) determinado. Cuando se vaya a llevar a cabo alguna investigación
debe de tenerse en cuenta algunas características esenciales al seleccionarse la
población bajo estudio. Entre éstas tenemos:
a. Homogeneidad - que todos los elementos de la población tengan las mismas
características según la variables de estudio. Por ejemplo, si se investiga la
drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir
claramente las edades que comprenden la adolescencia (12 y 21 años).
b. Tiempo - se refiere al período de tiempo donde se ubica la población de
interés.
c. Espacio - se refiere al lugar donde se ubica la población de interés. Un
estudio no puede ser muy abarcador y hay que limitarlo a un área o
comunidad en específico.
d. Tamaño de la población. Es sumamente importante porque ello determina o
afecta al tamaño de la muestra, además que la falta de recursos y tiempo
también nos limita la extensión de la población que se vaya a investigar. La
población puede ser Finita o Infinita.

2. MUESTRA - la muestra es un subconjunto de la población. La muestra para que


tenga valor, debe ser representativa, esto significa que la muestra debe contener
todos los tipos de elementos de la población (Si en la población hay altos, bajos,
gordos y flacos en la muestra también deben contener a todos estos tipos de
elementos) y adecuada, es decir debe ser lo suficientemente grande para contener la
cantidad necesaria de representación (cálculo del tamaño de la muestra). La muestra
puede ser probabilística o no probabilística

11
3. PARAMETRO: Es un valor que se obtiene a partir de los datos de una Población o
son los valores que se originas al analizar una población. Un parámetro es un
sumario descriptivo de alguna característica de una población (la media aritmética,
mediana, desviación estándar). Ejemplo: La tasa de desempleo se ha mantenido en
18%. Es un índice estadístico que va dirigido a describir a la población. Muchos de
estos índices se obtienen mediante registros oficiales de agencias del Gobierno.

4. ESTADISTICO O ESTADIGRAFO: Es un valor que se obtiene a partir de los datos de


una muestra o son los valores que se originan al analizar una muestra. Debe
entenderse que el parámetro y el estadígrafo son conceptos muy similares. Su
diferencia radica realmente en que el estadígrafo se calcula sobre una muestra y el
parámetro se calcula con relación a una población.

5. DATOS: Notación o son símbolos que describen condiciones, hechos, situaciones o


valores. Ejemplo: 18 años, 1.55 cm, Católica, Alto

6. UNIDAD MUESTRAL: Para seleccionar una muestra, primero se define la Unidad de


Análisis que puede ser un cliente, un votante, una organización, un libro contable, un
periódico, un hospital, un paciente, etc. Esta definición nos permite identificar “Quien
va ha ser medido”, “Quien nos va ha dar la información” y por lo tanto precisar
claramente el problema a investigar y los objetivos de la investigación.

12
7. VARIABLES: Es una característica observable que poseen
los elementos y que puede tomar diferentes valores.
Ejemplo: Edad, Talla, Tipo de religión

III. EJERCICIOS
En los ejemplos siguientes identifique los elementos indicados en el recuadro:

3.1. Un estudio de 250 pacientes admitidos en un hospital durante el año pasado reveló
que, en promedio, los pacientes viven a 22.5 kilómetros del hospital.
Población
Muestra
Unidad de Análisis
Variable de estudio

3.2. Un estudio de 300 hogares en un pueblo sureño revelo que 20 por ciento tiene al
menos un hijo en edad escolar.
Población
Muestra
Unidad de Análisis
Variable de estudio

3.3. Varias veces durante el día un ingeniero de control de calidad, en una fábrica textil,
selecciona diferentes muestras de metros cuadrados de telas, las examina y registra el
número de imperfecciones que encuentra.
Población
Muestra
Unidad de Análisis
Variable de estudio

13
3.4. Un investigador médico examina los efectos de un agente cancerígeno en las ratas.
Tres semanas después de inyectado el agente en una rata, el investigador realiza una
intervención quirúrgica para extraer y pesar los tumores.
Población
Muestra
Unidad de Análisis
Variable de estudio

3.5. Un gerente desea conocer si aquellos trabajadores que reciben 25 días de vacaciones
son más productivos durante el año, que los que reciben solo 15 días. El gerente
selecciona una muestra de 40 trabajadores y registra su rendimiento laboral.
Población
Muestra
Unidad de Análisis
Variable de estudio

3.6. De un establo se seleccionan 1000 vacas y se desea conocer el número promedio de


litros de leche que se obtienen por vaca y por día.
Población
Muestra
Unidad de Análisis
Variable de estudio

14
En los siguientes ejemplos identifique los parámetros y los estimadores:

3.7. En cierta universidad el decano de un colegio al hacer los preparativos para una
presentación de consejeros, necesita conocer el promedio del número de estudiantes
por clase. El decano descubre que:
En una muestra de 20 grupos, el número promedio de
estudiantes por grupo es de 77.
En un estudio acerca de toda la universidad, el
promedio por grupo resulta en 84.

3.8. Un aforador que está interesado en conocer el promedio de precipitación pluvial


durante el mes de septiembre, reporta:
El promedio de precipitación pluvial para septiembre de
1998 y septiembre de 1999.
El promedio de precipitación pluvial para todos los
septiembres, desde el principio de los registros
calculados hasta el presente año.

3.9. Un fisiólogo está interesado en el índice de latidos cardiacos por persona, después de
ciertas cantidades de ejercicio. Está interesado en lo siguiente:
El índice más elevado de latidos cardiacos de 100
personas después de ejercicios vigorosos.
El índice de latidos cardiacos promedio de todas las
personas, antes de realizar ejercicios.

15
IV. ACTIVIDADES DE AUTO EVALUACIÓN

Antes de continuar con los demás temas, es conveniente que te autoevalúes, desarrollando
las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada y
califica de acuerdo a la escala siguiente:
19 – 20 puntos Excelente
17 – 18,5 puntos Muy bueno
14 – 16,5 puntos Bueno
11 – 14,5 puntos Regular
Menos de 11 Malo

 Si tienes un calificativo menor a 14,5 puntos debes estudiar un poco más. Es


recomendable que revises las partes que has fallado.
 Si tiene un calificativo menor de 11 puntos, es recomendable revisar los temas en
estudio, haciendo énfasis en los temas que perciba alguna dificultad.

4.1. Define los siguientes términos: (4 ptos)


a) Estadística:…………………………………………………………………………………
………………………………………………………………………………..……

b) Población:…………………………………………………………………………………
…………………………………………………………………………………..……

c) Muestra:.……………………………………………………………………………………
………………………………………………………………………………..…

d) Dato:………………………………………………………………………………………
………………………………………………………………………………..……

16
4.2. La estadística que se ocupa de interpretar los resultados obtenidos con las técnicas
descriptivas, para tomar decisiones se denomina….......................................... (1Pto)
4.3. Es la característica medible o descrita mediante un valor o atributo de un elemento en
estudio………………………...………………………………………………… (1Pto)

4.4. Un objetivo general de la Estadística es estimar los parámetros de la población, usando


muestras estadísticas. (2 ptos)
a) Verdadero b) Falso Justifique su respuesta.

…………………………………………………………….…………………………………
……………………………………………………….………………………………………

4.5. La estadística descriptiva tiene como objetivo: (1Pto)


a) Probar la significación de los resultados
b) Ser herramienta indispensable en el muestreo
c) Descubrir las causas que originan el hecho
d) Lograr conclusiones más allá de las muestras
e) Efectuar comparaciones sin sacar conclusiones de tipo más general

4.6. Se debe responder verdadero si el enunciado es siempre válido. En caso contrario se


deberá sustituir la palabra subrayada por otra, con la cual el enunciado tenga validez:
(5 ptos)
a) Parámetro es el resultado al aplicar una medida a las características de las
unidades de una población.
b) El conteo de los empleados de una empresa de acuerdo a su cargo, es un
ejemplo de características cuantitativas.
c) La Estadística Descriptiva, es el “estudio” de una muestra a fin de hacer
estimaciones acerca de la población de la cual se tomó la muestra.
d) Una población infinita tiene un número ilimitado de elementos
e) Estimador es la medida estadística obtenida con los datos de la población.

17
4.7. En el año 2006, se realizó un muestreo de opinión para determinar si los profesores de
Lima prefieren como texto de consulta el libro de Propedéutica de Razonamiento
Matemático de la editorial Lumbreras con respecto a otro. Con este fin se entrevistaron
a 2000 profesores y entre ellos 1 500 prefirieron dicho texto. Responda lo siguiente: (4
ptos)
¿Cómo estuvo formada la muestra?
¿Cómo estuvo formada la población?
¿Cuál fue la variable de estudio?
¿Cuál fue valor estadístico?

VI. REFERENCIAS BIBLIOGRÁFICAS

6.1. WAYNE W. DANIEL. (2004) BIOESTADISTICA. Base para el análisis de las Ciencias de la
Salud. 4ta Edición. Editorial LIMUSA. México D.F.
6.2. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.
6.3. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edith. PHH
S. A. – México.
6.4. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edith. Prentice
Hall Hispanoamericana S.A.- México.
6.5. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la
Educación. Edit. Mc Graw-Hill – México.
6.6. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para Ingenieros – Edit.
Prentice Hall Hispanoamericana S.A. – México.
6.7. MOYA, Rufino, (1991). Estadística Descriptiva. Editorial San Marcos- Lima- Perú.
6.8. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era
edición – Edith. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.

Fuentes electrónicas:
http://www.eumed.net/cursecon/libreria/drm/index.htm

18
Sesión 2
 Variables y Escalas de Medición
 Recolección de datos

CAPACIDADES

1. Explica qué es una Variable.


2. Identifica y ejemplifica las clases de variables.
3. Reconoce la importancia de la recolección de datos reales en la investigación.
4. Describe en forma clara y precisa las técnicas más importantes a utilizar en el
proceso de recolección de datos.
5. Identifica las fuentes de la información.
6. Elabora cuestionarios básicos para recolectar datos.

ACTITUDES

1. Valora la importancia que tiene la clasificación de las Variables Estadísticas; según


las diferentes escalas de medición en la investigación científica.
2. Asume una actitud reflexiva para identificar las técnicas e instrumentos de
recolección de datos adecuados.
3. Valora la importancia que tienen las técnicas e instrumentos a utilizar en la de
recolección de datos como parte fundamental del proceso estadístico.
4. Asume una actitud reflexiva, crítica, creativa y participativa en la realización de las
actividades de aprendizaje.

CONTENIDO

Variables. Clasificación. Escalas de Medición.


Recolección de Datos. Técnicas e Instrumentos.

19
VARIABLES

DEFINICION: Las variables son atributos o características


observables y cuantificables que poseen los objetos.

Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas,
su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el
número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso,
niveles de inteligencia, actitudes, entre muchas otras.

Las variables constituyen la unidad básica de toda investigación. Generalmente cuando se


investiga un asunto o problema lo primero que se hace es definir y clarificar el problema y lo
que realmente se hace en esta fase es establecer la relación de causa y efectos entre dos o
más variables. Por ejemplo, supongamos que se vaya a investigar el problema de la
ansiedad como una condición que afecta al aprovechamiento académico de los estudiantes
en una determinada escuela entre niños de tercer grado. En este caso tenemos dos
variables principales: ansiedad y aprovechamiento académico. Niños de tercer grado es
otra variable que indica la población bajo estudio. Y si él (la) investigador(a) interesa saber si
hay o no diferencias significativas entre niñas y varones sobre el efecto de la ansiedad,
entonces añadiría otra variable en su investigación: el sexo.

Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según
la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes
clasificaciones:

20
CLASIFICACIÓN DE LAS VARIABLES

CLASIFIC. VARIABLES TIPOS EJEMPLOS


INDEPENDIENTES  La educación de las madres
POR SU Es la variable que se manipula con la intención de observar cambios en otra (Analfabeto, Primaria, secundaria,
RELACION DE variable (var. Dependiente) Superior, etc)
DEPENDENCIA DEPENDIENTES  La desnutrición (Alta, media, baja)
O CAUSAL Aquella en la que se observa cambios por efectos producidos por algún estimulo  El rendimiento de los hijos (aprobado,
(var. Independientes) desaprobado)

 Sexo, Nacionalidad, Nombres


VAR. CUALITATIVA
 Marcas de auto, Colores,
Indican una característica o cualidad de
 Grado de Satisfacción, puesto laboral,
un elemento, las operaciones
grado de instrucción, estado Civil,
aritméticas, no son significativas.
POR SU
NATURALEZA DISCRETA  edad,
VAR. CUANTITATIVA Solo adoptan ciertos valores y existe espacio  número de días
Cuando los datos que se estudia son entre ellos.  cantidad hijos
números y es posible operarlas CONTINUA  longitud,
aritméticamente Cuando adopta cualquier valor dentro de un  superficie, volumen,
rango especifico.  peso, tiempo, dinero

UNIDIMENSIONAL  La edad, El rendimiento


Cuando se estudia una sola variable o muchas, pero en forma independiente  La autoestima, El estado Civil
SEGÚN EL
BIDIMENSIONAL  Horas de estudio y el rendimiento
NUMERO DE
Cuando se estudia dos variables al mismo tiempo, para ver la relación entre  La autoestima y el rendimiento
VARIABLES  Salario y el tiempo de servicio en años
ellas
MULTIDIMENSIONAL  El Sexo, la edad, el salario y el
Cuando se estudia más de 2 variables al mismo tiempo. rendimiento

21
DEPARTAMENTO DE INVESTIGACIÓN
ESTADÍSTICA GENERAL

ESCALAS DE MEDICIÓN
Es una sucesión de medidas que permite organizar datos en orden jerárquico y mediante un
esquema específico para asignar números o símbolos con el objeto de designar
características de una variable (Ary, Jacobs, Razavieh, 1984). La taxonomía más conocida
sobre las escalas de medición las presenta Stevens (1951) quien las clasifica en nominales,
ordinales, de Intervalos y de razón. A continuación veamos los cuatro tipos de escalas de
medición.

Los elementos solo pueden ser DICOTOMICAS


clasificados en categorías pero no TRICOTOMICAS
a. Nominales se da un orden o jerarquía. MULTITOMICAS

• Existe un orden o jerarquía entre las categorías.


• Posee un atributo de orden (Desnutrición, El nivel
b. Ordinales de instrucción, Intensidad)

• Establece la distancia entre una medida y otra.


c. De Intervalo •

Carece de un cero absoluto.
Es posible cuantificar la diferencia entre dos valores.
• Generalmente tienen unidad de medida.

• Existe el 0 absoluto, es la ausencia de la variable medida.


• Esta escala permite todas las operaciones matemáticas.
d. De razón • La multiplicación y la división adquieren significación
• La diferencia entre dos valores es importante y definido.

ESCALAS NOMINALES
 Las escalas nominales son aquellas donde se clasifican a los elementos
en categorías cualitativamente distintas.
 Consiste simplemente en agrupar objetos en clases o asignar las
personas de acuerdo a alguna cualidad una vez que los objetos o
personas posean características comunes que lo hagan pertenecer a
una categoría.
 Se pueden utilizar números en las escalas nominales, pero estas solo
como etiquetas, nunca se utilizarán para llevar a cabo los
procedimientos matemáticos de suma, resta, multiplicación y división.
Por ejemplo, El DNI, la placa de los automóviles.
 Su función solamente está dada para efectos de identificación, no
podemos hacer alguna estimación de la magnitud de lo que
clasificamos.

- 22 -
ESCALAS ORDINALES
 Escala ordinal = Nominal + Orden
 Las escalas ordinales son las que clasifican a las personas, eventos u
objetos en una posición con relación a cierto atributo, pero sin indicar la
distancia que hay entre las posiciones.
 Cuando se asignan números es sólo para indicar el orden de las
posiciones de lo que se está clasificando. Por ejemplo, el cuadro de
meritos del curso de Estadística.
 En este nivel también se definen varias categorías, pero además de
mostrar un ordenamiento existe una relación de “mayor o menor que”
entre ellas.
 Las etiquetas, símbolos o números asignados si indican jerarquía,
aunque no es posible conocer la magnitud de la diferencia entre cada
una de las categorías
 Con las escalas ordinales tampoco se pueden llevar a cabo las
operaciones aritméticas de suma, resta, multiplicación y división. La
diferencia que puede haber entre unas personas u objetos en este tipo
de escala no necesariamente constituye unidades iguales o absolutas
que puedan utilizarse para determinar si el que tiene un segundo lugar
posee el doble valor que el que queda en cuarta posición. Por ejemplo,
en un evento atlético de una carrera que no haya sido cronometrada,
podemos saber quién llegó primero, segundo y tercer lugar, pero no
podemos saber con precisión la velocidad entre un corredor y otro. La
diferencia que hay entre el primero y el segundo no necesariamente es
igual a la que hubo entre el segundo y el tercero.

- 23 -
ESCALA DE INTERVALO
 Esta escala mide las variables de manera numérica
 Los números de esta escala permiten establecer distancias entre 2
individuos.
 Las operaciones aritméticas de suma o resta son perfectamente
realizables y significativas, no siendo la multiplicación o división (no
tienen significados)
 El cero es un valor que no indica ausencia de la característica (es decir
es relativo) y es colocado en algún lugar de la escala. Ejemplo: la
Temperatura, donde el cero no implica la ausencia de temperatura
 Ejemplo2: La escala de inteligencia posee un punto 0, pero nunca se va
a encontrar a un ser humano con cero de inteligencia.

ESCALA DE RAZON O COCIENTE


 El cero, indica la ausencia de la característica que se está midiendo
(cero absoluto)
 Las operaciones aritméticas de multiplicación y división adquieren
significado
 La diferencia entre 2 valores es significativa y de magnitud definida.
Ejemplo1: 0 ingreso de ventas, significa que no se ha producido ninguna
venta.
 Ejemplo2: un artículo que pesa 6 kg., tiene el doble de peso que otro de
3 kg.

- 24 -
CARACTERISTICAS, EJEMPLOS Y LIMITACIONES DE LAS
ESCALAS DE MEDICION

ESCALA CARACTERISTICAS USOS/EJEMPLOS LIMITACIONES


Denominaciones religiosas,
Se clasifican las No se pueden precisar
partidos políticos, nombres
Nominal personas, eventos u diferencias cuantitativas
de objetos, pinturas,
objetos en categorías entre las categorías.
movimientos literarios.
Orden de llegada de atletas Restringida para
Se clasifican u ordenan
en una carrera, Identificar diferencias
las
puntuaciones de una relativas, pero no precisa
Ordinal personas, objetos y
prueba, rangos militares, diferencias en cantidad
eventos en determinada
nivel de popularidad de absoluta entre personas
posición
estudiantes en una escuela. u objetos.
Escala que posee
unidades de igual Temperaturas (Celsius y Razones no tienen
magnitud. El punto cero Fahrenheit), fechas del sentido ya que el punto
Intervalo
de la escala es arbitrario calendario, escala de cero es establecido
y no refleja la ausencia inteligencia. convencionalmente
del atributo.
Ninguna, excepto que su
Escala que posee un uso se supedita
Distancia, peso, estatura,
punto cero absoluto e mayormente a medir
Razón tiempo requerido para
intervalos de igual cualidades físicas más
realizar una tarea escolar.
magnitud. que para la medición de
aspectos psicológicos.

- 25 -
PRUEBAS ESTADISTICAS ASOCIADAS A CADA UNA DE LAS ESCALAS DE
MEDICION
Los siguientes cuadros contienen las principales pruebas estadísticas. Estos cuadros solo
representan una guía o procedimiento estadístico en particular.

A. PRUEBAS ESTADÍSTICAS DESCRIPTIVAS MÁS FRECUENTES DE ACUERDO A LA


ESCALA DE MEDICIÓN DE LA VARIABLE DE ESTUDIO
TIPO DE ESCALA DE LA
MÉTODO O TÉCNICA ESTADISTICA
DESCRIPCION VARIABLE
- Frecuencias, proporciones o porcentajes
Cualitativa (nominal
representados por grafico de barras, pastel o
u ordinal)
Variables pictograma
individuales - Distribución de frecuencias en clases.
Cuantitativa - Frecuencias acumuladas
(Intervalo o razón) - Medidas de tendencia central, dispersión,
posición, curtosis.
- Tablas de contingencia
Cualitativa con
- Gráficos de barras
cualitativa
- Prueba de Kendall, de Cramer, de Spearman
- Tablas de clasificación categórica con
Asociación entre Cualitativa con
promedios y desviaciones o error estándar
variables cuantitativa
de cada entrada
- Grafico de puntos (dispersión)
Cuantitativa con
- Coeficiente de correlación de Pearson
cuantitativa
- Recta de regresión

- 26 -
B. PRUEBAS ESTADÍSTICA INFERENCIALES MÁS FRECUENTE DE ACUERDO A LA
ESCALA DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.

TIPO DE ESCALA DE LA
METODO O TECNICA ESTADISTICA
DESCRIPCION VARIABLE
- Prueba Z para una proporción poblacional.
- Prueba X2 para varias proporciones en
Nominales
Variables una sola población.
individuales - Intervalos de confianza para proporciones
- Prueba del signo o binomial para la
Ordinales mediana poblacional
- Intervalo de confianza para proporciones
Muestras grandes - Prueba t-student para un promedio
con distribución poblacional.
Asociación entre normal - Intervalo de confianza para el promedio
variables Muestras - Prueba del signo o binomial para la
pequeñas sin mediana poblacional.
distribución normal - Intervalo de confianza para el promedio

- 27 -
C. PRUEBAS ESTADÍSTICAS PARA ESTUDIOS COMPARATIVOS MAS FRECUENTES
DE ACUERDO A LAS ESCALAS DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.

TIPO DE ESCALA DE METODO O TECNICA ESTADISTICA


DESCRIPCION LA VARIABLE
- Prueba de Fisher
- Prueba X2
Independientes Nominal - Calculo del riesgo relativo
(sin control de - Modelos logísticos y logarítmicos lineales
factores de - Prueba U de Mann Whitney (dos poblaciones)
confusión) - Prueba de Kruskall Wallis (2 o más
Ordinal
poblaciones)
- Modelos logarítmicos lineales
- Prueba t-student (dos poblaciones)
- Análisis de varianza para la prueba F (más de
2 poblaciones) seguida de la prueba de
Independientes Razón
medias de Tukey, Dunkan, etc.
- Prueba de logrank para comparar sobreviva.
- Regresión múltiple
- Prueba de McNemar.
- Método de Mantel Haenzel
Nominal
- Prueba de X2 para cada bloque
Dependientes - Modelo logísticos y logarítmicos lineales.
- Prueba de Friedman
con bloques o
Ordinal - Prueba de Wilcoxon para rangos señalados
igualación de - Modelos logarítmicos lineales
atributos - Prueba “t” apareada
- Análisis de varianza para prueba F con 2
Razón
criterios de clasificación con prueba de Tukey
- Regresión múltiple

- 28 -
RECOLECCION DE DATOS

La recolección de datos proporciona la materia prima para el proceso estadístico. La


veracidad de los resultados depende de la calidad de los datos que se recolecten. A menudo
esta actividad de recolección es la que consume mayor tiempo y costo, por lo que es lógico
concluir que es muy importante planearla y ejecutarla adecuadamente.
La recolección de datos implica tres actividades:
o Seleccionar o desarrollar un instrumento de medición.
o Aplicar ese instrumento de medición
o Codificar las mediciones obtenidas para su análisis.

FUENTES DE INFORMACION
Una fuente de información es el lugar, la institución, la persona donde están
los datos que se necesitan para la investigación.

Los datos pueden reunirse a partir de fuentes de información existentes o pueden obtenerse
mediante encuestas y estudios experimentales diseñados para conseguir nuevos datos. Las
fuentes de información pueden ser:

Primarias Secundarias
Información que se obtiene Información elaborada a base de
directamente de la Unidad datos de las fuentes primarias
de observación

Fuentes de datos
internos. Reportes Financieros,
Informes, Análisis o
Reporte de operaciones,
aquellas que la empresa puede comparaciones sobre reportes
obtener y explorar por sus planificación, reportes
anteriores de la empresa
propios medios y recursos sin especiales, etc
necesidad de acudir a terceros

Fuentes de datos
externos Informes de Estudio de Análisis o informes basados en
mercado, estudio de los reportes del INEI, Ministerios
Información que están situadas
fuera de la empresa cuya posicionamiento, u otras entidades que genera
información puede obtenerse a Reportes del INEI información estadística
través de diferentes medios

- 29 -
TECNICAS E INSTRUMENTOS DE RECOLECCION
DE DATOS

ENCUESTA

ENCUESTA
OBSERVACIÓN

ENTREVISTA ANÁLISIS DOCUMENTAL

 Desde el inicio de la investigación se hace necesario decidir sobre el enfoque a


utilizar, lo que determina las características de todo el estudio.
 Un buen instrumento determina en gran medida la calidad de la información, siendo
esta la base para las etapas subsiguientes y para los resultados.
 La metodología utilizada en la recolección de datos debe definir el tipo de información
requerida (cuantitativa, cualitativa o ambas).
 Método: Representa la estrategia o camino a través del cual se establece la relación
entre el investigador y el consultado para la recolección de los datos, se citan la
observación y la encuesta.
 Técnica: conjunto de reglas y procedimientos que permiten al investigador establecer
la relación con el objeto o sujeto de la investigación.
 Instrumento: mecanismo que usa el investigador para recolectar y registrar la
información; formularios, pruebas, test, escalas de opinión, listas de chequeo.
 Las principales técnicas de recolección de datos son:

- 30 -
 La encuesta
 La entrevista
 La observación (no experimental y experimental)
 El Análisis documentario

1. LA OBSERVACION
Es el registro visual de lo que ocurre en una situación real, clasificado y consignando
los datos de acuerdo con algún esquema previsto y de acuerdo al problema que se
estudia.
VENTAJAS DESVENTAJAS
 Permite obtener datos cuantitativos y  Se requiere de mucha habilidad y
cualitativos. agudeza para “ver” los
 Se observan características y fenómenos estudiados.
condiciones de los individuos.  Demanda gran cantidad de
 También conductas, actividades, tiempo.
características o factores ambientales.  Tiene sesgos; el humano ve lo
 Puede ser utilizada en cualquier que quiere ver.
investigación y área del saber.  Al momento de la interpretación
 Es un método que no depende de pueden distorsionrse los hechos
terceros o de registros; con ello se e ir más allá de lo que vimos en
eliminan sesgos y ambigüedades. realidad.

PARA REDUCIR LOS PROBLEMAS SE UTILIZA


 Definir claramente los objetivos perseguidos.
 Determinar claramente la unidad de observación.
 Registrar las condiciones en que se asumirá la observación y las conductas

LOS ERRORES MAS COMUNES EN LA OBSERVACION


 Los fenómenos a observar no se dan de la misma manera en todos los sujetos
de observación.
 Cuando el observador tiene ideas prejuiciadas.
 Cuando el instrumento no es válido o es poco exacto o está mal definido.

- 31 -
TIPOS DE OBSERVACION

CLASES TIPOS CARACTERISTICAS

 El investigador se involucra total o


parcialmente con la actividad objeto de
investigación.
Observación
 La observación se hace desde el interior del
Participante
grupo.
Según el
 Pueden intervenir las emociones del
Nivel de
investigador.
participación
 El investigador no se involucra en la
Observación actividad objeto de estudio.
NO  Los datos pueden ser más objetivos.
Participante  Al no integrarse al grupo los datos pueden no
ser exactos, reales y veraces.
 Cuando el investigador se pone en contacto
Según la Observación
personalmente con el hecho o fenómeno que
forma de Directa
se quiere investigar
registrar la
Observación  A través de filmadoras u otro medios
conducta
Indirecta audiovisual
 El investigador utiliza lineamientos generales
parta observar y luego escoge lo que estima
Simple o No relevante a los efectos de la investigación
Según la
estructurada propuesta.
Planificación
 Fundamentalmente usada para estudios
de la
exploratorio
observación
Sistemática  El investigador dispone de un instrumento
o estructurado y estandarizado para medir las
Estructurada variables en estudio (lista de cotejos, etc).

- 32 -
2. LA ENTREVISTA
Es la comunicación interpersonal establecida entre el investigador y el sujeto de
estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el
problema propuesto.

VENTAJAS
 Es aplicable a toda persona, (incluyendo a con limitaciones física o
psicológica).
 Permite estudiar aspectos psicológicos o de otra índole donde se desee
profundizar en el tema.
 Permite obtener información más completa,
 A través de ella el investigador puede: Aclarar el propósito del estudio,
especificar claramente la información que necesita, aclarar preguntas y permite
usar triangulación.
Permite captar mejor el fenómeno estudiado ya que permite observar lenguaje
no verbal.

TIPO DE ENTREVISTAS

1. ENTREVISTA ESTRUCTURADA
 Se elabora un formulario estandarizado.
 Idénticas preguntas y en el mismo orden a todos los sujetos.
 Los sujetos eligen la respuesta de 2, 3 o pocas más alternativas.
 Los comentarios y explicaciones son los mismos para todos.
VENTAJAS DESVENTAJAS
 Respuestas cortas y precisas.  La información puede ser muy
 Información fácil de procesar. superficial.
 El entrevistador no requiere  Limitada la posibilidad de
gran entrenamiento. profundizar en un aspecto
 Información uniforme. determinado.
 Difícil obtener información
confidencial.

- 33 -
2. ENTREVISTA NO ESTRUCTURADA
 Es flexible y abierta, pero regida por los objetivos de la investigación.
 Las preguntas, su contenido, orden y formulación es controlado por el
investigador, el que puede adaptarlas dependiendo de las situaciones
y características de los sujetos en estudio.
 El entrevistado también cuenta con libertad para dar sus respuestas.
 Se utiliza un instrumento guía que contiene las orientaciones de los
temas a tratar.
 Muy útil para estudios exploratorios, descriptivos y cualitativos
VENTAJAS DESVENTAJAS
 Adaptable y aplicable  Requieren mucho tiempo.
a toda clase de  Muy costosos por el tiempo de las entrevistas.
sujetos en diversas  Limitado para personas con problemas de la
situaciones. palabra.
 Permite profundizar  Dificultad para tabular datos que han sido
en los temas de recopilados de distinta forma.
interés.  Se requiere crear confianza y comodidad
 Orienta posibles entre el entrevistado y el entrevistador.
hipótesis y variables  Se requiere habilidad técnica para obtener la
cuando se exploran información y mayor conocimiento respecto
áreas nuevas. del tema.
 Debido a que son entrevistas en profundidad
habitualmente se utilizan muestras pequeñas.

CONSIDERACIONES PARA LAS ENTREVISTAS


Para evitar el rechazo o atrasos al aplicar entrevistas:
 Establecer los contactos necesarios para el buen fin de las entrevistas.
 Entrevistador debe estar bien capacitado.
 El entrevistador debe establecer una buena comunicación con el
entrevistado, uso de vestuario adecuado, lenguaje adecuado, escuchar
adecuadamente, no apresurar al entrevistado, etc.
 Buen registro de la información a fin de poder interpretarla adecuadamente.
 El entrevistador debe:

- 34 -
 Dejarle un mensaje positivo al entrevistado.
 Jamás dar consejos,
 Jamás hacer juicios morales,
 Jamás rebatir al entrevistado.

3. LA ENCUESTA
 Método que utiliza un formulario impreso, destinado a obtener respuestas
sobre el problema en estudio y que el sujeto investigado llena por sí mismo.
 La encuesta puede aplicarse a grupos o individuos estando presente el
investigador. Incluso puede enviarse por correo a los destinatarios.
 Algunos instrumentos utilizado en la encuesta son: EL CUESTIONARIO, TEST
– FORMULARIOS - PRUEBAS

VENTAJAS DESVENTAJAS
 Costo relativamente bajo.  Es poco flexible, la información no
 Proporciona información sobre puede variar ni profundizarse.
un mayor número de personas  Si el cuestionario se envía por
en un período breve. correo, es posible que no sean
 Fácil para obtener, cuantificar, devueltos o que no se obtengan
analizar e interpretar datos. respuestas.
 Menores requerimientos de  No utilizable en personas que no
personal capacitado. saben leer ni escribir.
 Mayor posibilidad de mantener  No permite aclarar dudas.
anonimato de los encuestados.  Resulta difícil obtener
 Eliminación de los sesgos que cuestionarios completamente
introduce el encuestador. contestados.
 Se deben obtener grandes
muestras.

- 35 -
4. ANALISIS DOCUMENTARIO

 Este tipo de investigación es la que se realiza apoyándose en fuentes de carácter


documental (documentos que se encuentran en los archivos, como cartas, oficios,
circulares, expedientes, etc).

 Consiste en seleccionar las ideas informativamente relevantes de un documento a


fin de expresar su contenido sin ambigüedades para recuperar la información
contenida. Esta representación puede ser utilizada para identificar el documento e
identificar su contenido o para servir de sustituto del documento.

III. EJERCICIOS

3.1. De los siguientes incisos, ¿cuáles representan variables discretas y cuáles variables
continuas?
a) El número de acciones vendidas por día en la bolsa de valores.
b) Las temperaturas registradas cada media hora en un observatorio.
c) El tiempo de vida de baterías de equipos celulares con cámara y MP3.
d) El ingreso anual de los profesores universitarios.
e) La longitud de 1000 tornillos producidos por una fábrica.

3.2. Establece una correspondencia entre las variables indicadas y la clasificación que se
muestra a continuación:
VARIABLES CLASIFICACION
1 El peso y la talla A Cualitativa – Nominal.
Ciclos de estudios de una carrera Dependiente, independiente
2 B
profesional – Bidimensional.
Cuantitativa discreta –
3 El ingreso familiar en soles C
Unidimensional.
Lugar de nacimiento de los
4 D Cualitativa – Ordinal.
estudiantes de la UCV
La raza y la religión del padre de los Cualitativa, cualitativa –
5 E
pobladores de una ciudad Bidimensional.
El Nº de libros que tiene cada una de Cuantitativa continua –
6 F
las universidades del Perú Razón.

- 36 -
DEPARTAMENTO DE INVESTIGACIÓN
ESTADÍSTICA GENERAL

3.3. Indica a qué clase de variable: por su naturaleza y por su escala de medición,
pertenece cada uno de los siguientes casos:
a) Cantidad de hombres y mujeres en un aula de clase.
b) La edad (en años cumplidos) de los estudiantes de la UCV.
c) Grado de instrucción de los PPFF de los alumnos de un centro educativo.
d) El nivel de autoestima.
e) Etapas del desarrollo.
f) Coeficiente intelectual.

3.4. Proporciona una definición operacional en cada uno de los siguientes casos:
a) Un buen trabajador b) Un bonito día
c) Un servicio de atención rápido d) Tiempo de estudio
e) Número de personas en el hogar f) Un buen estudiante

3.5. Un investigador que está estudiando hábitos de consumo le pregunta a cada vigésima
persona que entra en un supermercado acerca del número de veces que va de
compras semanalmente
a) Si la persona encuestada responde 2, ¿esta respuesta es una muestra, variable,
medida estadística, parámetro o dato? ¿La respuesta es un valor cuantitativo o
cualitativo?, ¿porqué?
b) A la persona encuestada también se le pregunta por su edad, estado civil e
ingresos y responde: 32, soltero, S/. 1500 respectivamente. Identifique los
elementos de cada uno de estos datos.

3.6. Propón las técnicas e instrumentos que se podrían utilizar en la recolección de datos
para responder las preguntas que se presentan a continuación y explica la razón de su
elección.
a) ¿Cuál es la opinión de los estudiantes de la universidad sobre la actual política
educativa?
b) ¿Qué opinan los residentes de una urbanización y del Consejo Territorial
correspondiente, sobre la seguridad ciudadana en dicha urbanización?

- 37 -
c) ¿Cuáles son los niveles de desempeño del docente y de rendimiento de los
alumnos del curso de Estadística General de la UCV?
d) ¿Existe relación entre el nivel de autoestima de los trabajadores de una empresa y
su nivel de satisfacción en el trabajo?
e) ¿Cuál es la opinión de los decanos de las facultades sobre las fortalezas y
debilidades de la investigación científica en la universidad y sus causas?
f) ¿Cuáles son los tiempos promedio de espera y de atención de los clientes de un
banco en las colas que se forman en las ventanillas y la opinión al respecto?
g) ¿Cuál es la opinión de los residentes en el distrito de Salaverry sobre la calidad del
agua potable y la calidad de atención al cliente?
h) ¿Cuál es el pronóstico de las ventas de una empresa para los años 2009 y 2010,
teniendo en cuenta las ventas durante los últimos diez años?
i) ¿Cuál es el desgaste de los rodamientos de cierto tipo de máquinas y su relación
con el tipo de aceite que se utiliza para lubricarlas?
j) ¿Cuál es la opinión de las autoridades del sector turismo del departamento de la
Libertad sobre cómo incrementar el flujo de turistas nacionales y extranjeros hacia
el departamento?

3.7. Un profesor está interesado en analizar la relación entre el rendimiento académico de


los estudiantes de un examen con otras variables como edad, género, escuela, tiempo
de estudio fuera de clase, tiempo de diversión fuera de clase, otras actividades que
realiza fuera de clase, método de estudio, etc. Algunas de las preguntas o ítems del
primer cuestionario que elabora como instrumento para recolectar los datos son:
1) Edad 6) ¿Cuántas horas a la semana dedica a
2) Género trabajar, además de estudiar?
3) Escuela a la que pertenece 7) ¿Realiza actividades de diversión?
4) ¿Cuántas horas a la semana 8) ¿Cuántas horas a la semana dedica a
dedica al estudio, fuera de clases? divertirse?
5) ¿Además de estudiar, realiza otro 9) ¿Cuál es el método de estudio que
tipo de trabajo? utiliza?
10) ¿Cuál es tu estrato socio-económico?

- 38 -
ACTIVIDADES DE REFORZAMIENTO

4.1. Propón la técnica e instrumento de recolección de datos que se podrían utilizar para
lograr los siguientes objetivos.

Objetivos Técnicas Instrumentos

Conocer la opinión de los estudiantes universitarios


sobre la política económica del gobierno

Conocer la opinión de los gerentes de las


entidades financieras sobre las últimas “medidas”
del gobierno en su sector.

Estimar el número promedio de automóviles por


hora que pasan por el cruce de dos avenidas y el
tiempo promedio entre llegadas

Evaluar el cumplimiento de las normas en el


otorgamiento de préstamos para vivienda en una
entidad financiera

Analizar si existe relación entre el nivel de


autoestima y el rendimiento académico de los
estudiantes de una facultad

4.2. Algunos de los objetivos específicos de una investigación para analizar la satisfacción
de los clientes de un restaurante son: (a) Describir el perfil de los clientes, (b) Evaluar
la atención del personal, según la opinión de los clientes, (c) Determinar la opinión de
los clientes sobre la calidad de la comida, (d) Conocer la opinión de los clientes sobre
la infraestructura, (e) Identificar las razones por las que los clientes prefieren el
restaurante. Elabora un cuestionario estructurado y codificado, considerando por lo
menos dos preguntas para cada objetivo.

39
REFERENCIAS BIBLIOGRÁFICAS

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.


Edit. PHH S. A. – México.

3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –


Edit. Préntice Hall Hispanoamericana S.A.- México.

4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la


Psicología y la Educación. Edit. Mc Graw-Hill – México.

5. MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros


– Edit. Préntice Hall Hispanoamericana S.A. – México.

6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.

7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía.


3era edición – Edit. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.

40
MUESTREO
I. DEFINICIONES PRELIMINARES:

UNIDAD DE ANÁLISIS:
Para seleccionar una muestra, primero se define la Unidad de Análisis que puede ser un
cliente, un votante, una organización, un libro contable, un periódico, un hospital, un paciente,
etc. Esta definición nos permite identificar “Quien va ha ser medido”, “Quien nos va ha dar la
información” y por lo tanto precisar claramente el problema a investigar y los objetivos de la
investigación.

POBLACION OBJETIVO:
Una vez que se ha definido la unidad de análisis se procede a delimitar la población que va a
ser estudiada y sobre la cual se pretende generalizar o inferir los resultados. Entonces, una
población es el conjunto de todas las unidades de estudio que concuerdan con una serie de
especificaciones o características. Para seleccionar la muestra debe delimitarse la población
identificando sus características o variables de interés a fin de determinar los parámetros
poblacionales. En algunos casos, la delimitación de una población no sólo depende de los
objetivos del estudio, sino de otras razones prácticas. Las poblaciones tienen que ser
especificadas en contenido, lugar y tiempo.

MUESTRA:
La muestra es un subconjunto de elementos que pertenecen a una población de estudio. Para
seleccionar una muestra debemos de tener presente el tipo de muestreo a utilizar: muestreo
probabilística y el muestreo no probabilístico. Se tiene que definir la variable de interés, para
que en función de esta se sepa qué tipo de muestreo utilizar. Luego calcular el tamaño de
muestra y finalmente seleccionar las unidades de análisis.

41
MUESTREO
Es una TÉCNICA ESTADÍSTICA por la cual se realizan inferencias a la población examinando
solo una parte de ella, ésta parte recibe el nombre de MUESTRA, la cual debe ser
estadísticamente representativa y adecuada.
Ventajas: Desventajas:
 Costo reducido • Presencia del error de muestreo
 Mayor rapidez • Presencia de gran variabilidad de las obs.
 Claridad

TÉCNICAS DE MUESTREO: Existen 2 tipos de técnicas de muestreo:


A. TECNICAS PROBABILISTICAS: B. TECNICAS NO PROBABILISTICAS
 Muestreo aleatorio • El muestreo a criterio o juicio.
 Muestreo aleatorio estratificado • El muestreo por cuotas.
 Muestreo sistemático • El muestreo por conveniencia.
 Muestreo por conglomerados • El muestreo intencional

A. TECNICAS PROBABILISTICAS

MUESTREO ALEATORIO:
Escoge al azar los miembros de la población hasta completar el tamaño muestral previsto.
En teoría se enumeran previamente todos los elementos y de acuerdo con una tabla de
números aleatorios se van escogiendo.
El procedimiento puede darse con o sin reemplazos y esta condición afectará posteriormente el
análisis.
a. Sin reposición:
Cuando un elemento es seleccionado y puede volver a ser seleccionado, se dice que hacemos
un muestreo aleatorio con reemplazamiento o con reposición. Generalmente recibe el nombre
de muestreo aleatorio simple. (m.a.s.)

b. Con reposición:
En caso de que el elemento no vuelva a formar parte de la población de manera que no puede
volver a ser seleccionado se dice que se ha obtenido la muestra mediante un muestreo
aleatorio sin reposición o reemplazamiento. En algunos libros, este método recibe también el
nombre de muestreo irrestrictamente aleatorio.

42
MUESTREO SISTEMATICO:
En la población (N) se elige el primer elemento al azar.
Luego los demás se escogen cada cierto intervalo (k), hasta completar el tamaño muestral (n).
El tamaño del intervalo (k) se calcula así: k = N/n

MUESTREO ESTRATIFICADO:
Considera que al interior del universo existen estratos (subgrupos internamente homogéneos
pero cualitativa y cuantitativamente diferentes entre sí), y que no se cumple la condición de
selección aleatoria pues los miembros del grupo mayoritario tienen una mayor probabilidad de
ser seleccionados en la muestra.

MUESTREO POR CONGLOMERADO:


En el muestreo por conglomerados, la población se divide en unidades o grupos, llamados
conglomerados (generalmente son unidades o áreas en los que se ha dividido la población),
que deben ser lo más representativas posible de la población, es decir, deben representar la
heterogeneidad de la población objeto del estudio y ser entre sí homogéneos.

B. TECNICAS NO PROBABILISTICAS

MUESTREO POR CUOTAS:


También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un
buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o
"adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el
muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.

MUESTREO A JUICIO:
Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo
del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas
es vital para la toma de decisiones.

43
MUESTREO OPINÁTICO O INTENCIONAL:
El investigador selecciona aquellos casos que le están más disponibles. Los resultados que se
obtengan no podrán generalizarse más allá de los individuos que componen la muestra, al igual
que las conclusiones.

BOLA DE NIEVE:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen
estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos,
etc.

II. DISEÑO DE LA MUESTRA:

Para determinar el tamaño, primeramente hay que identificar la variable a estudiar


(Cuantitativa o cualitativa). Luego depende de cuatro factores o elementos que son los
siguientes:

44
Se quiere saber cómo se
comporta una cierta
característica en una Población Las observaciones
particular Hacer pueden atribuirse
un Censo a los miembros la
población

La población Sí Es posible
está bien observar toda la Muestreo
definida población? Variable Representativo
? Cualitativa para estimar una
Proporción
NO
NO
De que naturaleza
Definir es el parámetro
Observar que se
La una Muestra quiere estimar
población ?

Muestreo
Variable Representativo
Cuantitativa para estimar una
Media

III. TAMAÑO DE LA MUESTRA

3.1. PARA UNA VARIABLE CUANTITATIVA:

a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%,
95% o 99% y que origina el valor de Z.
b. El error de estimación (E): Que también es fijado por el investigador
c. La desviación estándar ó varianza: que son valores que se obtienen por estudios
anteriores, por la muestra piloto o por la distribución de la población.
d. El Tamaño de la población (N): Que generalmente no se conoce.

45
3.2. PARA UNA VARIABLE CUALITATIVA:

a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%,
95% o 99% y que origina el valor de Z.
b. El error de estimación (E): Que también es fijado por el investigador
c. La proporción poblacional (P): que son valores que se obtienen por estudios
anteriores, por la muestra piloto y si no se conoce asumir p=0.5.
d. El Tamaño de la población (N): Que generalmente no se conoce.

3.3. FORMULAS PARA DETERMINAR EL TAMAÑO DE MUESTRA:

Cualitativa Cuantitativa
VARIABLE (Proporción (Promedio
Poblacional) Poblacional)

POBLACION INFINITA Z 2 P(1 - P) Z 2S 2


(Cuando no se conoce N)
n0 = n0 =
E2 E2

Z 2 P(1 - P) N Z 2S 2 N
POBLACION FINITA n= n=
E 2 ( N - 1) + Z 2 P(1 - P) E 2 ( N - 1) + Z 2 S 2
(Cuando se conoce N)

 Z = es el valor de la distribución normal estandarizada para un nivel de confianza


fijado por el investigador.
 S = Desviación estándar de la variable fundamental del estudio o de interés para el
investigador. Obtenida por estudios anteriores, muestra piloto, criterio de
experto o distribución de la variable de interés.
 P = es la proporción de la población que cumple con la característica de interés.
 E = % del estimador o en valor absoluto (unidades). Fijada por el investigador.
 N = Tamaño de la población.

46
3.4. ESTIMACION DE LOS VALORES A APLICAR EN LAS FORMULAS

A. Valor de Z: es el valor de la abscisa de la distribución normal estandarizada


teniendo en cuenta el nivel de confianza fijado por el investigador, por lo tanto
este valor se encuentra en las tablas estadística respectiva. Para hacer el
trabajo menos tedioso, presentamos a continuación los diferentes valores de Z

VALORES DE LA DISTRIBUCIÓN NORMAL


ESTANDARIZADA(Z)
Nivel de Valor Z
Nivel de confianza
significancia
(1-) Bilateral Unilateral
()
90% = 0.90 10% = 0.10 1.64 1.28
95% = 0.95 5% = 0.05 1.96 1.64
98% = 0.98 2% = 0.02 2.33 2.05
99% = 0.99 1% = 0.01 2.58 2.32

B. Cálculo del Valor de P:(Se calcula este valor cuando la variable es


CUALITATIVA)
Que son valores que se obtienen por estudios anteriores, por la muestra piloto y
si no se conoce asumir p=0.5.

C. Cálculo del Valor de la varianza (Si la variable es CUANTITATIVA): este


valor es obtenida por estudios anteriores, muestra piloto, criterio de experto o
distribución de la variable de interés.

D. Cálculo del error de estimación: Generalmente se asume 2%, 5%, y 8% de


error. Este valor es fijado por el investigador. Es la diferencia entre el parámetro
(población) y el estimador (Muestra). Es decir, por ejemplo E=| x   |. Este
error puede ser absoluto o relativo. Si E=±0.35 se denomina error absoluto. Si
consideramos un error del 10% de la media, es decir, E=10%( x )= 0.10(3.5)=
0.35 se denomina error relativo.

47
CASOS
CASO Nº 01: (Cuando se conoce la varianza)

En un estudio realizado en la Minera Barrick se obtuvo que el


promedio de horas extras por trabajador es de 3.3 hrs., con una
varianza de 4.18 hrs2. Si en el presente año cuenta con 120
trabajadores, los cuales registran sus horas extras en tarjetas de
control. Determinar el tamaño de muestra necesario para estimar el
promedio de horas extras diarias con un error del 10% del promedio
y una confianza del 95%.

CASO Nº 02: (cuando se conoce la varianza)

El Director del Departamento de Salud Pública de la Ciudad de


Trujillo desea obtener una muestra de los registros de casos de
mordidas de perro, reportadas durante el año anterior, para estimar la
edad media de las personas mordidas. El Director desea una
muestra con una seguridad del 95%, con un error del 5% del
promedio. En base a estudios anteriores se conoce que la edad
promedio de las personas que son mordidas por perros es de 25
años y la desviación estándar es de 5 años. ¿De que tamaño debe
ser la muestra?

CASO Nº 03:

De una población de 1,043 pequeños establecimientos comerciales


con 5 o más empleados, en una área del centro de la ciudad de
Trujillo, se requiere ser muestreada para estimar el numero medio de
empleados por establecimiento, teniendo información preliminar que la
desviación estándar es de 1.3 empleados.
¿Qué tamaño debe ser la muestra, si la estimación se establece una
precisión de 0.25 con una confianza del 95%?.
Analice los resultados obtenidos.

48
CASO Nº 04: (Cuando no se conoce la varianza-Muestra piloto)

La Dirección Regional de Salud DIRESA-Trujillo esta realizando una


investigación acerca del comportamiento del peso de niños en la ciudad de
Trujillo y ver si presenta un plan de salud para mejorar esta factor latente de
bajo de peso. Como no se conoce la varianza se obtiene una muestra piloto
de 20 niños cuyos pesos son:
14.8, 14.2, 15.3, 15.4, 15.0, 15.2, 15.3, 14.2, 15.2, 15.5, 15.6, 16.4, 14.8,
15.1, 15.8, 16.1, 14.5, 15.3, 14.9, 15.9.
Determinar el tamaño de muestra apropiado con una confianza del 95% y
un error tolerable del 1% respecto al promedio.

CASO N° 05: (Cuando existen estudios previos)


Por estudios científicos se sabe que el Coeficiente de Inteligencia promedio para jóvenes
según la escala de Weshler es de 100 puntos con una desviación estándar de 15 puntos.
Determinar el tamaño de muestra para realizar una investigación sobre niveles de
inteligencia en la Universidad Privada del Norte, si se admite un error del 2% del promedio y
una seguridad del 95%.

CASO N° 06:
Se desea determinar una muestra representativa para conocer la opinión en contra de la
población acerca de la explotación del Cerro Quilish-Cajamarca. Se aplicó una muestra piloto
a 20 de los 10000 cajamarquinos, obteniéndose los siguientes datos. Cuál es el tamaño de
muestra con un 95% de confianza y un error del 2%?

Grupo Tamaño de muestra


A favor 9
En contra 8
Indecisos 3
Total 20

49
CASO N° 07:
Se desea estimar la proporción de jóvenes de la ciudad de Trujillo
que hacen uso de Internet como mínimo una hora diaria con un 95%
de confianza. De estudios anteriores se conoce que P=0.70 y se
desea un E = 5%. Suponiendo que N = 1500. Cual debe ser el
tamaño de muestra.

CASO Nº 08:
El administrador del Restaurante “El Romano” desea saber que proporción de sus Clientes-
Turistas están inconformes con las atenciones recibidas durante su estadía en Trujillo. ¿De
que tamaño debe ser la muestra si se considera E=0.05, nivel de confianza del 95% y no se
dispone de alguna otra información?

CASO N° 09:

En una muestra piloto de tamaño 50 estudiantes universitarios,


seleccionados de 4,000 estudiantes se encuentra que 30 fuman, que
tamaño deberá ser la muestra, para que la precisión de estimación
“p” sea del 5%, considere una confianza del 95%.

50
Sesión 4
Organización de los datos:
Tablas y Gráficos Estadísticos

CAPACIDADES
1. Construye e Interpreta los diferentes tipos distribuciones de frecuencias.
2. Presenta adecuadamente los cuadros estadísticos.
3. Construye e interpreta los gráficos de acuerdo a las normas técnicas del INEI

ACTITUDES
1. Valora la importancia que tiene la distribución de frecuencias y los gráficos como
método de organización y como método para describir el comportamiento de las
variables de interés.
2. Valora la importancia que tiene la estructura y la presentación adecuada de los cuadros
y gráficos estadísticos para descubrir patrones de comportamiento en la Investigación
científica.
3. Actitud creativa y disposición a trabajar en equipo.

CONTENIDO

Organización de datos: Distribución de Frecuencias. Interpretación. Presentación


de Cuadros. Representación grafica de acuerdo a las normas técnicas del INEI

51
CUADROS ESTADISTICOS

I. CUADRO ESTADISTICO
Un cuadro estadístico es un arreglo ordenado de filas y columnas, de datos estadísticos
o características relacionadas, con el objeto de presentar adecuadamente información
estadística. (Ejemplo: las tablas del BCR, INEI). Deben ser diseñados de tal forma que el
lector pueda dirigirse fácilmente al cuadro.

II. FINALIDAD: Es ofrecer información resumida de fácil lectura, comparación e


interpretación

III. VENTAJAS:
 Los cuadros permiten presentar en forma resumida y ordenada muchos datos.
 Es un instrumento que clasifica, resume y comunica información estadística.
 Facilita el análisis de los datos.

IV. PARTES DE CUADRO ESTADISTICO

52
1. Número: Es el código de identificación. El número se anota junto a la palabra tabla o
cuadro, ejm.: Tabla Nº 1, Cuadro Nº 1
2. Título: Se refiere a la descripción del contenido del cuadro. Debe indicar la
característica principal en estudio, lugar y tiempo que se realizó el trabajo.
3. Encabezamiento: Es la descripción de las filas y columnas de un cuadro
estadístico. El encabezamiento se ubica en la parte superior del cuerpo del cuadro.
4. Columna Matriz: En esta columna se designa la naturaleza del contenido de cada
fila. Se anotan las categorías o las diferentes clases de la escala de clasificación
utilizada.
5. Cuerpo del Cuadro: Se ubica la distribución de los datos estadísticos de acuerdo a
las indicaciones del encabezamiento y la columna matriz.
6. Notas explicativas: Se refiere a cualquier nota aclaratoria sobre el contenido del
cuadro estadístico.
7. Fuente: Sirve para indicar de donde se obtuvo la información estadística.

Ejemplo: Cuadro Nº 1
Intervenciones por delitos, registrados por la Policía Nacional, en el País
y en el Departamento de La Libertad, según tipo de falta: 2009
INTERVENCIONES EN DELITOS
TIPO DE FALTA
TOTAL DPTO LA RESTO

53
PAIS LIBERTAD PAIS
Contra la vida el cuerpo y la salud 23681 2137 21544
Contra la tranquilidad pública 1/ 1296 1 1295
Contra el patrimonio 109112 7793 101319
Contra la familia 6669 21 6648
Contra la libertad 8531 424 8107
Contra la seguridad pública 7736 17 7719
Contra el orden económico 4247 -- 4247
Delito tributario 15081 -- 15081
Contra la fe pública 1483 6 1451
Contra la administración pública 314 6 308
Otros 924 36 888
TOTAL 179074 10467 168607

Fuente: Policía Nacional del Perú- División de Estadística


V. ERRORES MAS COMUNES
 Disposición incorrecta de los datos
 Títulos y encabezamientos incompletos e inadecuados
 Datos no comparables: establecer comparaciones es una de las partes más
importantes del análisis
 Cuadro sobrecargado

CLASIFICACION DE LOS CUADROS ESTADISTICOS

54
CUADROS DE DISTRIBUCION DE FRECUENCIAS

DEFINICION: Es una forma de organizar u resumir los datos con la finalidad de describir el
comportamiento de las variables de interés. Esta organización tabular, consiste en presentar
la lista de valores de la variable, clases o categorías junto con el número de veces que se
repite cada valor de la variable (frecuencia)

55
Donde: fi : Frecuencia absoluta simple
hi : Frecuencia relativa simple
Fi : Frecuencia absoluta acumulada
Hi : Frecuencia relativa acumulada

EJEMPLO

Simples Acumuladas
# hijos fi hi Fi Hi

0 hijos f1 = 6 6/13 = F1 = f1 = 6 H1 =F1/N =


46.1% 46.1%
1 hijos f2 = 4 4/13 = F2 = f1+f2 =10 H2 =F2/N =
30.8% 76.9%
2 hijos f3 = 3 3/13 = F3 = f1+f2+f3 =13 H3 =F3/N =
23.1% 100%
Total 13 100%
f2 : 4 personas tienen 1 hijo
h1: El 46.1% de la población tiene 0 hijos (no tiene hijos)
F2: 10 personas tiene 1 o menos hijos
H2: el 76.9% de la población tiene 1 hijo o menos

56
GRAFICOS ESTADISTICOS

• Un gráfico es la representación de un fenómeno estadístico por medio de figuras


geométricas, cuyas dimensiones son proporcionales a la magnitud de los datos
representados.
• Su objeto principal es la representación de los datos de forma gráfica, que permita
de un solo golpe de vista darse cuenta del conjunto de elementos representados y de
evidenciar sus variaciones y características.
• El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo
complementa.
• En estadística los gráficos están en relación a las variables de estudio: cuantitativa o
cualitativa

I. PARTES DE UN GRAFICO ESTADISTICO

LEYENDA:

1. TITULO DEL GRAFICIO:


2. ESCALAS:
3. CUERPO:
4. FUENTE:
5. LEYENDA:

57
II. CLASIFICACION DE LOS GRAFICOS ESTADISTICOS

A. GRAFICO PARA VARIABLES CUALITATIVA O CUANTITATIVA DISCRETA

58
B. GRAFICO PARA VARIABLES CUANTITATIVAS CONTINUAS

III. PRINCIPALES GRAFICOS ESTADISTICOS

A) HISTOGRAMA DE FRECUENCIAS
Para construir un histograma de frecuencias, se trazan barras por arriba de cada
intervalo de clase y a una altura que es igual a la frecuencia de la clase.

59
Ilustración 1: Histograma de Frecuencia
12

10
f
8

0
y
10 20 30 40

f 9
B) POLIGONO DE FRECUENCIAS
8
Para construir un polígono de 7

frecuencias absolutas simples se 6


5
traza una línea poligonal sobre los
4
puntos marcados, teniendo en 3

cuenta la marca de clase y sus 2


1
frecuencias correspondientes. 0
5 15 35 25 45 y

F 90
80
El polígono de 70
60
Frecuencias acumuladas se 50
llama OJIVA 40
30
20
10
0
1 2 3 4 5 6 y

60
C) GRAFICO DE BARRAS
Estos gráficos constituyen una herramienta adecuada para comparar los tamaños
relativos de cantidad que se distribuyen en el espacio.
Ejemplo: Número de personas que visitaron, durante un mes, lugares turísticos
de una ciudad.

f 45

40
LUGAR Nº DE
35
TURISTICO PERSONAS
30
A 40
B 20 25

C 30 20

D 15 15

TOTAL 105 10
5

0
A B C D

D) GRAFICO CIRCULAR
Sirve para representar la división de un todo en las partes que lo constituyen. El
círculo total es dividido en partes por medio del trazado de radios, según los grados
del ángulo correspondiente.
Ejemplo: La siguiente tabla muestra la situación académica de un grupo de
estudiantes al final de un ciclo académico

RESERVA DE
INHABILITADO;
Nº DE MAT; 4
10
CONDICION ESTUD %
APROBADO 35 70 DESAPROBADO;
DESAPROBADO 8 16 16

INHABILITADO 5 10
RESERVA DE MAT 2 4
TOTAL 50 100

APROBADO; 70

61
EJEMPLOS

IV. ERRORES MAS COMUNES EN LA CONFECCION DE GRAFICOS


 Falta de Titulo o títulos extremadamente extensos.
 No usa correctamente las partes de un grafico
 Escasez de datos
 No uso de la identificación.
 Títulos que no responden a las preguntas básicas.
 Gráficos muy cargados y/o sumamente complejos de interpretar.
 Desproporción notable entre las longitudes de los ejes.
 Omisión de los rótulos de los ejes y/o las unidades de medida.

62
EJERCICIOS

1. Se presenta os tiempos (en minutos) que demoran 45 estudiantes en un


consultorio Psicológico de la universidad
Tiempo de Frecuencia Frecuencia Frec. Frec.
ocupación Absoluta Relativa Absoluta Relativa
(min) simple acumulada acumulada
20 – 30 7
30 – 40 16
40 – 50 12
50 – 60 3
60 – 70 5
70 – 80 2
TOTAL 45
a) Completa la información del cuadro estadístico
b) Hacer la grafica respectiva

2. Los siguientes datos corresponden al número de hijos de cada una de las 30


familias de una urbanización de Trujillo.
2 4 6 0 3 1 3 5 2 4 1 5 3 0 2
4 3 2 1 0 3 4 5 2 0 2 3 5 4 2
Presentar la información en un cuadro estadístico y grafico estadístico

3. La siguiente información corresponde a las calificaciones individuales de 50


alumnos en un examen de ingles de la Universidad Cesar Vallejo
84 47 74 57 42 35 50 85 81 60
65 53 54 68 85 65 52 35 33 71
74 65 77 45 73 55 91 61 41 40
59 65 60 76 64 69 48 55 78 94
67 47 88 89 77 73 66 98 66 70

63
a) Presentar la información en un cuadro estadística, utilizando intervalos
cerrados
b) Grafica un histograma de frecuencia absolutas simples
c) Graficar un polígono de frecuencia relativas simples
d) Grafica una ojiva porcentual menor que

4. Las siguientes observaciones expresan el número de veces que 22


consumidores compraron una determinada marca de un producto en los 2
últimos meses
Primer mes 0 2 5 0 3 1 8 0 3 1 1
Segundo mes 9 2 4 0 2 9 3 0 1 9 8
a) Construir la distribución de frecuencias relativas y la de frecuencias
relativas acumuladas
b) Representar ambas distribuciones en un grafico comparativo
c) ¿Qué proporción de personas no compraron nunca dicha marca?
d) ¿Qué porcentaje de consumidores adquirieron dicha marca menos de 5
veces?

5. Los siguientes datos corresponden al número de bibliotecarias o


bibliotecarios en las bibliotecas públicas de las diferentes provincias
españolas
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2
5 3
2 2 5 3 3 8 12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12

a) Hallar la distribución de frecuencias relativas y representarla mediante un


diagrama de barras
b) Obtener y representar la distribución de frecuencias relativas acumuladas
c) ¿Qué proporción de provincias tiene más de 7 bibliotecarios?

64
6. Los dos cuadros siguientes presentan datos sobre el gasto mensual en
calefacción para un apartamento de dos habitaciones
Calefacción por gas
25.42 26.22 25.22 23.60 27.77 28.52 21.60 29.49 26.22
25.22 20.19 23.97 26.32 23.38 26.77 31.56 25.42 22.72
27.58 29.96 26.22 23.97 28.17 18.01 22.98

Calefacción por electricidad


33.52 51.01 41.99 33.82 25.93 30.32 32.06 39.86 24.62
31.80 48.58 44.65 31.30 35.04 19.24 40.78 43.39 34.78
25.43 33.82 26.47 34.78 32.02 27.98 32.92
a) Hacer una tabla de distribución de frecuencia
b) Comparar ambas distribuciones gráficamente
c) ¿Qué conclusiones pueden extraerse?

7. Las siguientes medidas corresponden a las alturas de 50 niños y niñas


1.56 1.59 1.63 1.62 1.65 1.58 1.56 1.59 1.53 1.54
1.61 1.59 1.51 1.62 1.62 1.52 1.54 1.50 1.49 1.56
1.53 1.49 1.57 1.54 1.53 1.63 1.68 1.62 1.47 1.65
1.59 1.58 1.57 1.47 1.64 1.56 1.52 1.59 1.57 1.59
1.55 1.59 1.53 1.56 1.53 1.62 1.62 1.62 1.60 1.54

a) Construir una distribución de frecuencias absolutas y relativas


b) Obtener las correspondientes distribuciones de frecuencias acumuladas
c) Representar las distribuciones anteriores mediante histogramas
d) Dibujar los correspondientes polígonos de frecuencias
e) Hallar, a partir del polígono de frecuencias acumuladas, la proporción
de observaciones entre 1.59 y 1.62 ambas inclusive
f) ¿Qué conclusiones pueden extraerse?

65
8. En la oficina de un diario, el tiempo que se tardan en imprimir la primera
plana fue registrado, durante 50 días. A continuación se transcriben los
datos, aproximados a décimas de minuto.

20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1
23.3 20.9 22.9 23.5 19.5 23.7 23.6 19.0 25.1 25.0
21.3 21.5 19.9 24.2 24.1 19.8 23.9 22.8 23.9 19.7
21.1 20.9 21.6 22.7 25.3 20.3 23.1 20.7 19.5 23.8
21.8 24.3 22.5 21.2 23.8 23.8 20.7 24.2 24.2 24.1

a) Presenta los datos en una distribución de frecuencias con amplitud


de clase entera, utilizando la fórmula de Sturges.
b) Calcula e interpreta las frecuencias porcentuales simples y
acumuladas.
c) Determina ¿qué porcentaje de las veces, la primera plana del
periódico puede imprimirse en menos de 24 minutos?
d) Construye un diagrama de tallos y hojas. Interpreta

9. Para realizar un estudio de la cantidad de azúcar vendida por semana en


una tienda, se tomó una muestra de 35 semanas del año 2000, obteniéndose
los siguientes resultados (en cientos de Kg.)
68 48 66 21 28 30 46 38 69 50 90 38
21 35 92 53 53 21 27 52 55 50 48 35
36 52 45 24 28 31 39 46 61 81 46
a) Organiza los datos usando el diagrama de tallos y hojas. Interpreta.
b) Construye una distribución de frecuencias que tenga 7 clases de amplitud
entera.
c) Observando la distribución de frecuencias obtenida, ¿qué puede decir sobre
la asimetría?
d) Interpreta las frecuencias simples y porcentuales.

66
10. Una muestra de tiempos, en minutos, de llamadas telefónicas que recibe
una secretaria son:

3 6 2 3 3 1 4 5 2 4 3 1 2 4 4 5 3 1 2 4 1 4 8
1 2 3 4 5 2 7 2 3 5 3 4 4 3 4 3 6 2 1 3 6 4 5
3 2 4 3 2 4 5 3 7 1 3 4 3 4 1 3 7 3 2 1 3
Organiza los datos en una distribución de frecuencias considerando las
frecuencias absolutas simples (fi) y los porcentajes simples.

11. Considerando la amplitud de clase entera, construya las clases y sus


correspondientes límites reales para la variable pago por consumo telefónico
mensual en los siguientes casos:
a) Xmin = S/. 52.5 Xmáx = S/. 385.8, k = 6 redondeado a
décimos.
b) Xmin = S/. 153.55 Xmáx = S/. 595.75 , k=8 redondeado a
centésimos.

12. Cuando se les pidió clasificar la destreza que se requiere para obtener una
alta calificación en un nuevo juego de computadora como principiante,
aprendiz, competidor, maestro o experto, 45 evaluadores respondieron de la
manera siguiente: experto, maestro, maestro, competidor, experto, maestro,
maestro, maestro, experto, aprendiz, maestro, maestro, maestro, maestro,
experto, maestro, competidor, maestro, maestro, principiante, experto,
competidor, maestro, maestro, experto, experto, maestro, maestro, maestro,
competidor, competidor, experto, maestro, experto, experto, experto,
competidor, maestro, maestro, y experto. Ahora:
Construye una tabla que indique las frecuencias correspondientes a estas
clasificaciones de la destreza que se requiere para obtener una calificación
alta.

67
13. Se han tomado muestras de ventas, en soles, realizadas en una empresa
durante los meses de julio y agosto. Los datos son los siguientes:
Mes de julio
20.00 425.00 40.00 380.00 18.00 43.00 47.50 30.00 434.08 16.00 62.50
30.00 11.60 37.00 98.50 4.80 235.00 97.50 490.00 147.00 235.50 124.00
158.00 194.65 30.00 16.15 200.00 60.00 22.50 30.00 45.00 490.00 413.00
122.00 15.93 90.62 55.00 86.00 188.80 32.50 307.40 92.00 140.00 5.70
63.00 90.00
Mes de agosto
120.00 34.45 14.00 40.00 95.00 390.30 49.10 29.19 17.20 93.00 160.00
21.00 32.00 19.50 141.00 76.00 4.20 18.50 88.50 88.00 70.00 48.00
40.00 12.10 129.20 50.00 35.00 78.00 82.00 356.70 86.00 6.20 14.10
5.80 50.00 141.00 32.00 50.00 117.50 50.00 300.00 3.00 12.00 13.00
55.00 33.00 500.00

a) Construye distribuciones de frecuencias de las ventas (una para cada mes)


considerando las clases: 0 á menos de 100.00, 100 á menos de 200.00, etc.
b) Construye una distribución de frecuencias para las ventas del mes de julio
utilizando la fórmula de Sturges. Compara con las distribuciones obtenidas en (a),
¿cuál es mejor? Explica.

ACTIVIDAD EN CLASE
Recolecta la siguiente información de los alumnos del aula.
Edad Genero Talla Peso Estado Numero de
civil hermanos

1. Indicar la clasificación de cada tipo de variable (Cualitativa o Cuantitativa)


2. Hacer las tablas de frecuencia de Edad, genero, talla, Peso, Estado Civil, #
Hermanos
3. Hacer las graficas respectivas de cada variable.

68
ACTIVIDADES DE AUTO EVALUACIÓN (TABLAS)

Antes de continuar con los siguientes temas, es conveniente que te autoevalúes,


desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la
teoría estudiada y califícate en la escala de 0 – 20:

4.1. Los pesos de los estudiantes de una sección de Estadística de la UCV,


redondeados a enteros, varían entre 52 y 83 kilogramos. Indica los límites
nominales y los límites reales de siete clases en que se podrían agrupar estos
pesos. (3 ptos)

4.2. Los números de análisis de sangre por día que se realizan en un hospital se
agrupan en una distribución que tiene las clases 25-39, 40-54, 55-69, 70-84 y 85-
99. Encuentra: a) las fronteras de clase, b) las marcas de clase, c) la amplitud de
clase. (3 ptos)

4.3. Las marcas de clase de una distribución del número de asaltos registrados
diariamente en una delegación de policía son 4, 13, 22, 31 y 40. Encuentra: a) los
límites de clase nominales, b) los límites reales. (2 ptos)

4.4. Para agrupar las ventas que varían entre $10.00 y $60.00, un dependiente utiliza
las clasificaciones siguientes: $10.00-19.99, $20.00-35.99, $35.00-49.00 y $50.00-
59.99. Explica las dificultades que se tendrían al utilizar estas clases. (2 ptos)

4.5. Una compañía de computadoras recibió un pedido urgente del mayor número de
computadoras domésticas que pudiera entregar en un período de tiempo de seis
meses. Los expedientes de la compañía ofrecen las siguientes entregas diarias:
(5 ptos)
69
22 65 65 57 55 50 65 77 73 30 62 54 48 65
79 60 63 45 51 68 79 83 33 41 49 28 55 61
65 75 55 75 39 87 45 50 66 65 59 25 35 53

a) Agrupa estas cifras de entrega diaria en una distribución que tenga las clases
20-29, 30-39, 40-49,.., 80-89.

b) ¿Cuáles son los límites reales o fronteras de clase?

c) Calcula las frecuencias absolutas acumuladas y porcentuales acumuladas


“menos que” y “mayor que”. Interpreta las frecuencias de la segunda y quinta
fila.

4.6. En la redacción del diario “El Observador” el tiempo requerido para formar la
primera página completa fue registrado durante 50 días. Los datos, redondeados a
la décima de minutos más cercana, se dan a continuación: (5 ptos)

20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1
25.3 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5
23.7 20.3 23.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8
21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9
19.7 24.2 23.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7

a) Utilizando la fórmula de Sturges, construye una distribución de frecuencias


absolutas, que incluya frecuencias simples y frecuencias porcentuales
acumuladas “menor que” y “mayor que”, utilizando una amplitud de clase de 0.8
minutos.

b) Halla los límites reales de clase de la distribución.

70
ACTIVIDADES DE AUTO EVALUACIÓN (GRAFICOS)

Antes de continuar con los siguientes temas, es conveniente que te autoevalúes,


desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la
teoría estudiada:

1. A continuación se da el consumo semanal de carne de vacuno en una muestra de


80 familias de la comunidad de Namora:

Consumo (Kg/Sem.)
0 - 1,9 2 - 3,9 4 - 5,9 6 - 7,9 8 - 9,9
Nº de familias 15 26 20 13 6

a) Construye un polígono de frecuencias y describe el comportamiento de la


variable.
b) Construye las ojivas “menor que” y “mayor que” en un sólo gráfico

2. La Asociación Nacional de Vendedores de Muebles de Estados Unidos recabó los


datos siguientes de una muestra de 130 vendedores, que representan las
ganancias totales por comisiones que obtienen los vendedores anualmente:

Ganancias Frecuencias
$5.000 o menos 2
$5.001 - $10.000 12
$10.001 - $15.000 11
$15.001 - $20.000 33
$20.001 - $30.000 32
$30.001 - $40.000 20
$40.001 - $50.000 13
más de $50.000 7

71
a) Construye una ojiva que le ayude a responder las preguntas siguientes:
b) ¿Qué % de vendedores gana más de 20,000 dólares?

c) Aproximadamente ¿cuánto ganará al año un vendedor de muebles cuyo


desempeño fuera de cerca del 25% del máximo esperado?

3. Para una muestra de 155 estudiantes de una Facultad, se obtuvo la siguiente


distribución de los estudiantes por género y según tipo de ingreso a la Universidad

GÉNERO
MASCULINO FEMENINO Total
TIPO DE A 26 16 42
INGRESO 61.9% 38.1% 100.0%
28.6% 25.0% 27.1%
16.8% 10.3% 27.1%
B 34 22 56
60.7% 39.3% 100.0%
37.4% 34.4% 36.1%
21.9% 14.2% 36.1%
C 31 26 57
54.4% 45.6% 100.0%
34.1% 40.6% 36.8%
20.0% 16.8% 36.8%
Total 91 64 155
58.7% 41.3% 100.0%
100.0% 100.0% 100.0%
58.7% 41.3% 100.0%

a) Interpreta cualquier porcentaje de cada uno de los casilleros del cuadro.


b) Construye un gráfico de barras simples para la variable género. Comenta.
c) Construye un gráfico de barras agrupadas que considere ambas variables.
Comenta.
d) Construye un gráfico de barras apiladas. Comenta.

72
REFERENCIAS BIBLIOGRÁFICAS

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.


Edit. PHH S. A. – México.

3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –


Edit. Préntice Hall Hispanoamericana S.A.- México.

4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la


Psicología y la Educación. Edit. Mc Graw-Hill – México.

5. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para


Ingenieros – Edit. Préntice Hall Hispanoamericana S.A. – México.

6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.

73
Sesión 6
Medidas Estadísticas:
Tendencia Central – Posición - Dispersión

CAPACIDADES
1. Realiza cálculos básicos utilizando las fórmulas,
tanto para datos simples como para datos
agrupados, de las medidas de tendencia central.

2. Interpreta las medidas calculadas, usando como


referencia el contexto y las variables en estudio.

3. Calcula e interpreta cuantiles.

4. Analiza la presencia de valores extremos en un


conjunto de datos.

ACTITUDES

1. Valora la importancia que tienen las medidas de tendencia central y los cuantiles en la
descripción de las poblaciones estadísticas en estudio.

2. Actúa trabajando en equipo con responsabilidad, puntualidad y orden en la ejecución de


las tareas y trabajos asignados, asumiendo una posición reflexiva y crítica hacia los
resultados obtenidos.

CONTENIDO

Medidas de Tendencia Central. Media Aritmética, Mediana y Moda. Cuantiles. Valores


Atípicos y Extremos.

74
MEDIDAS ESTADISTICAS
En numerosas ocasiones, en vez de trabajar con todos los datos, es preferible disponer de
una o más medidas descriptivas que resumen los datos de forma cuantitativa. Se trata, de
resumir en unos cuantos valores la información más importante y útil contenida en un
conjunto de datos, haciendo más fácil la comprensión y la comparación de las diversas
características de las poblaciones o muestras.

VI. DEFINICIÓN
Las medidas estadísticas son medidas de resumen que se calculan a partir de una
muestra y que describen ciertos aspectos de una serie o distribución de datos para
poder tener un mejor conocimiento de la población

VII. FINALIDAD
Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder
tener así un mejor conocimiento de la población

VIII. ALGUNAS CONSIDERACIONES PARA UNA MEDIDA ESTADISTICA:

1. Debe definirse de manera objetiva: dos observadores distintos deben llegar al


mismo resultado numérico.

2. Usar todas las observaciones y no algunas de ellas solamente, de manera que


si varía alguna observación la medida considerada debe reflejar esta variación.

3. Tener un significado concreto: la interpretación debe ser inmediata y sencilla.

4. Ser sencilla de calcular.

5. Prestarse fácilmente al cálculo algebraico: Lo que permitirá demostraciones más


elegantes.

6. Ser poco sensible a las fluctuaciones muestrales. Esta condición es


imprescindible en la Estadística Matemática y en la Teoría de Sondeos.

75
IX. CLASIFICACION DE LAS MEDIDAS ESTADÍSTICAS

a. MEDIDAS DE TENDENCIA CENTRAL


Son valores que se ubican en la parte central de un conjunto de datos o de una
distribución.
 Las medidas de centralización responden a la pregunta. ¿Alrededor de qué
valor se agrupan los datos?
 Estas medidas solo se calculan para variables cuantitativas.
 EL conocimiento de estas medidas es de gran utilidad tanto en los niveles de
decisión como de ejecución.
 Las principales medidas de tendencia central son:

MUESTRA POBLACION

Media aritmética simple X 


Media ponderada Xp p
La Mediana me Me
La Moda mo Mo

76
̅):
1.1. LA MEDIA ARITMÉTICA O PROMEDIO ( o 𝒙

 Es el valor representativo de una población o conjunto de datos


 También se llama Esperanza matemática, valor medio o promedio aritmético
 Se obtiene sumando todos los valores de los datos observados y se divide entre el
número total de ellos.
 Solo es aplicable para el tratamiento de datos cuantitativos.
 Existen dos formas de trabajar con los datos: sin agruparlos o agrupándolos en
tablas de frecuencias.
 Formulas de cálculo de la media aritmética:
POBLACION (N) MUESTRA (n)

Datos sin ∑ Xi ∑ Xi
Agrupar μ= 𝑥̅ =
N n

Datos ∑ 𝑋𝑖. 𝑓𝑖 ∑ 𝑋𝑖. 𝑓𝑖


Agrupados * fi μ= 𝑥̅ =
N n
77
 Ejemplo: Suponga que se han registrado 20 observaciones referentes a los
ingresos semanales del jefe de hogar de un determinado distrito. De la información
muestral obtenida calcule el promedio:
36 55 55 41
25 55 55 55
41 41 57 37
40 31 58 58
45 36 43 43

Solución: Calculamos el promedio muestral:


n
 xi
36  25  ...  58  43 907 . 0
x  i 1    45 . 35
n 20 20

1.2. LA MEDIANA (Me)


 Valor que divide en dos partes iguales un conjunto de datos ordenados en forma
ascendente o descendente
 En otras palabras es el valor que ocupa del lugar central.
 La cantidad de datos que queda por debajo y por arriba de la mediana son iguales.
 Es una medida de tendencia central que divide al total de n observaciones
debidamente ordenadas o tabuladas en dos partes de igual tamaño, cada una con
el 50% de los datos observados.
Formulas de cálculo de la mediana:
n es par n es impar

Datos no
agrupados
Valor que está en la mitad Promedio de los 2 valores
de la serie ordenada centrales
Datos 𝑛
− 𝐹𝑗−1
Agrupados 𝑀𝑒 = 𝐿𝐼 + 𝑐 [ 2 ]
𝐹𝑗 − 𝐹𝑗−1
(TABLAS)

78
Para datos no agrupados: Para calcular la mediana, los n datos originales
1) Se ordenan en forma ascendente o descendente los datos
2) Se halla el lugar en donde se encuentra la mediana

Se presenta dos casos:


a) Para un número par de datos:
La mediana será el promedio de los dos valores centrales.

Ejemplo: Calcular e interpretar la mediana


Xi : 650, 750, 850, 1000, 750, 820, 850, 1200, 1000, 1000
Solución:
1) Ordenando en forma ascendente
Xi: 650, 750, 750, 820, 850, 850, 1000, 1000, 1000, 1200
50% Me 50%

2) Como n = 10 (par)  se ubica el lugar en donde se encuentra la Me

𝑋𝑛 + 𝑋𝑛+1 𝑋5 + 𝑋6 850 + 850


2 2
𝑀𝑒 = = = = 850
2 2 2

3) Interpretación: El 50% de los trabajadores tienen un ingreso máximo de S/. 850,


el otro 50% supera dicho ingreso.

b) Para un número impar de datos:


La mediana será el valor que está ocupando la posición central.

Ejemplo: Los siguientes datos corresponden a los tiempos de acceso en minutos a 11


Páginas Web cargadas por la tarde en el horario de 14 a 15 horas desde una PC

79
Xi: 2.9, 1.4, 1.2, 3.4, 1.3, 2.5, 1.6, 1.8, 2.3, 1.5, 1.0

Solución: Ordenando los datos en forma ascendente


Xi: 1.0, 1.2, 1.3, 1.4, 1.5, 1.6, 1.8, 2.3, 2.5, 2.9, 3.4.
50% Me 50%

𝑀𝑒 = 𝑋𝑛+1 = 𝑋11+1 = 𝑋6 = 1.6


2 2
Interpretación: El 50% de las páginas Web son cargadas en un tiempo de acceso
Máximo de 1.6 minutos., el otro 50% supera dicho tiempo.

1.3.- LA MODA (Mo)

 Definición: Es el valor que ocurre con más frecuencia

 Es especialmente útil para datos de tipos nominal, ordinal y de intervalos


 Una distribución puede ser: amodal sino tiene ninguna moda,
unimodal si tiene una moda,
bimodal si tiene dos modas y
multimodal si tiene tres o más modas.

PROPIEDADES DE LA MODA
 La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de
intervalos, y relativa).

80
 La moda no es afectada por valores extremos.

DESVENTAJAS DE LA MODA
 En muchas series de datos no hay moda porque ningún valor aparece más de una
vez.
 En algunas series de datos hay más de una moda, en este caso uno podría
preguntarse ¿cuál es el valor representativo de la serie de datos?

CÁLCULO Cálculo de la moda para datos agrupados

𝑓𝑗 − 𝑓𝑗−1
𝑀𝑜 = 𝐿𝐼 + 𝑐 [ ]
(𝑓𝑗 − 𝑓𝑗−1 ) + (𝑓𝑗 − 𝑓𝑗+1 )

∆1
𝑀𝑜 = 𝐿𝐼 + 𝑐 [ ]
∆1 + ∆2

Donde: ∆𝟏 = 𝑓𝑗 − 𝑓𝑗−1 y ∆𝟐 = 𝑓𝑗 − 𝑓𝑗−1

USO ADECUADO DE LA MEDIA, MEDIANA Y MODA.-


De las tres medidas de tendencia central, se observa que:

1°) La media aritmética tiene la ventaja de que toma en cuenta para su calculo, la
totalidad de los valores de la variable, aumentando o disminuyendo de acuerdo a
ellos, pero a causa de este problema, puede tener la desventaja que es afectada
por la existencia de valores muy altos o muy bajos en los extremos.
En conclusión cuando el comportamiento de la variable es más o menos simétrico
la media aritmética es la más recomendable.

81
2°) La mediana se usa cuando existe mucha dispersión de los datos.
3°) Así también la mediana es la mas ventajosa en usarla cuando en el primer o último
grupo o clase no tiene límite definido.

4°) La moda no es muy usual, pero se emplea cuando se quiere conocer el valore que
se presenta más frecuentemente.

b. MEDIDAS DE POSICION

2.1. CUARTILES (Qi):


 Se denotan por Qi, donde k=1,2,3
 Son valores que dividen a un conjunto de datos en 4 partes iguales, es decir,
cada sector tiene el 25% de los datos.
 El Q2 coincide con la mediana
 Para calcular los cuartiles se utilizan las formulas adecuadas ya sea si son datos
agrupados o datos no agrupados.
in
−Fj−1
4
 Formula: Qi = LI + c [ ]
Fj −Fj−1

 Ejemplo datos sin agrupar:


o Número Impar de datos 2, 3, 4, 5, 6, 7, 9

Q1 Q2 Q3

o Numero par de datos 1, 2, 3, 4, 5, 6, 7, 9

2.5 4.5 6.5


82 Q1 Q2 Q3
 Ejemplo datos agrupados:
fi FI 1∗63
Cuartil 1 (Q1) = 15.75
[ 50 – 60 ) 8 8 4

[ 60 – 70 ) 10 18 15.75 − 8
Q1 = 60 + 10 [ ] = 67.75
[ 70 – 80 ) 16 34 18 − 8
[ 80 – 90 ) 14 48
2∗63
[ 90 – 100 ) 10 58 Cuartil 2 (Q2) = 31.5
4
[ 100 – 110 ) 5 63
31.5 − 18
Total 63 Q1 = 70 + 10 [ ] = 78.44
34 − 18

2.2. DECILES (Di):

 Se denotan por Di, donde i=1,2,3,4,5,6,7,8,9


 Son valores que dividen a un conjunto de datos en 10 partes iguales, es decir,
cada sector tiene el 10% de los datos.
 D5 coincide con la mediana
in
−Fj−1
10
 Formula: Di = LI + c [ ]
Fj −Fj−1

2.3. PERCENTILES (Pi):


 Se denotan por Pi, donde i=1,2,3,4,5,6,7,8,9,10, … , 99
 Son valores que dividen a un conjunto de datos en 100 partes iguales, es decir,
cada sector tiene el 1% de los datos.

83
in
−Fj−1
100
 Formula: Pi = LI + c [ ]
Fj −Fj−1

EJEMPLO:
Suponga que se han registrado 20 observaciones referentes a los ingresos
semanales del jefe de hogar de un determinado distrito. De la información muestral
obtenida calcule el cuatil1, decil 8 y percentil 97:
36 55 55 41
25 55 55 55
41 41 57 37
40 31 58 58
45 36 43 43
Solución:
Seguimos el siguiente procedimiento:
1. Ordenar la serie en forma ascendente
2. Definir la posición de los cuartiles, deciles y percentiles siguiendo la formula
correspondiente.
3. Luego

Cuartil1
 Ordenando los datos de forma ascendente:
25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58

 Calcularemos la ubicación del cuartil 1 para lo cual definimos la posición del


cuartil 1(K=1): QK  Wk(n+1)  0.25(20+1)  5.25.
 De esto decimos que el cuartil 1 esta entre la ubicación 5ºy 6º (pues el valor
hallado es 5.25), luego para hallar el valor de la ubicación 5.25 interpolamos:
5.0º  37
5.25º   de esto obtenemos que la ubicación 5.25º  39.75
6.0º  40

84
 Po lo tanto Q1: 39.75.

Decil 8: Ordenando los datos de forma ascendente:

25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58

 Calcularemos la ubicación del decil 8 para lo cual definimos la posición del


decil 8 (D=8): DK  Wk(n+1)  0.80(20+1)  16.80.
 De esto decimos que el decil 8 esta entre la ubicación 15ºy 17º (pues el valor
hallado es 5.25), luego para hallar el valor de la ubicación 5.25 interpolamos:
15.0º  55
16.8º   de esto obtenemos que la ubicación 16.80º  55.0
17.0º  55
 Po lo tanto D8: 55.0

85
c. MEDIDAS DE DISPERSIÓN

Rango

Medidas
Coeficiente
de Variación
de Varianza
Dispersión

Desviación
estándar

Son indicadores estadísticos que representan cuan dispersas se encuentran los datos de
la variable, señalándonos el grado de concentración de los mismos con respecto al
promedio de la distribución.

Las medidas de dispersión se usan para:


a) Verificar la confiabilidad de los promedios.
b) Establecer como base para el control de la variable. Así tenemos:

86
 Alta dispersión (medida de dispersión alta) --- baja concentración alrededor
del promedio. DATOS HETEROGENEOS

 Baja dispersión (medida de dispersión baja) -- Alta concentración alrededor


del promedio. DATOS HOMOGENEOS
Las medidas de dispersión más usuales son:

MUESTRA POBLACION
 Rango R R
 Varianza S2 2
 Desviación estándar S 

3.1. RANGO: R = Max - Min


 Se denota por R y la medida de variabilidad más fácil de calcular.
 Es la diferencia que existe entre el valor máximo y el valor mínimo del conjunto
de datos.
 Su uso es muy limitado, pues solo toma en cuenta los valores extremos

Ejemplo: La edad de 10 alumnos en un aula de clase, es según se muestra a


continuación. Se pide hallar el rango.
23 18 28 18 16 26 19 20 21 18

Solución. Rango = 28 - 16 = 12
Luego, existe una dispersión de 12 años.

3.2. VARIANZA (σ2):


 Mide la variabilidad de un conjunto de datos respecto a un valor central
(promedio)
87
 Mide la variabilidad pero en unidades elevadas al cuadrado, por lo tanto es ilógica
su interpretación.
 Para calcular la varianza se utilizan las formulas adecuadas ya sea sin son datos
agrupados o datos no agrupados.

POBLACION MUESTRA
DATOS SIN N n

 x    x  x 
2 2
AGRUPAR i i
2  i 1
S2  i 1
N n 1
DATOS N n

 Y    . f  Y  x  . f
2 2
AGRUPADOS i i i i
  2 i 1
S 
2 i 1
N n 1
N N

ABREVIADA X i
2
X i
2

2  i 1
 2 2  i 1
 2
N n 1
Donde:
Xi valores de la variable X
Yi marca de clase de cada variable o grupo
N tamaño de la población
n tamaño de la muestra

2 Varianza poblacional
S2 Varianza muestral

3.3. DESVIACIÓN ESTANDAR (σ):


 Mide la variabilidad de un conjunto de datos respecto a su valor central pero en
unidades originales.

88
 Esta es la medida de variabilidad que tiene una interpretación lógica.
 Se obtiene al sacar la raíz cuadrada de la varianza.

 DESVIACION STANDARD:    2
S  S2

Ejemplo: En una de las fábricas de Motor Perú, se producen autos de diversas


marcas, desde Enero a Agosto de 2007
Meses : Ene Feb Mar Abr May Jun Jul Agos
Producción: 100 130 90 120 100 140 110 98
Defina la variable en estudio y halle la varianza y Desviación Standard.

3.4. COEFICIETE DE VARIACIÓN (CV):


 Es el grado de desviación con relación a la media.
 Este coeficiente se usa para comparar las medias aritméticas o promedio de
diferentes muestras.
 El C.V. sirve para determinar si un conjunto de datos tiene un comportamiento
homogéneo o heterogéneo.
 Para llegar a determinar la homogeneidad se compara con un valor del 33%.
o Si el CV ≤ 33% Los datos tiene un comportamiento homogéneo.
o Si el CV > 33% Los datos tiene un comportamiento heterogéneo.
 Nota.- Cuanto menor es el C.V. mejor será la estimación del promedio y el
proyecto será mejor.

 S
C.V .  *100% c.v.  *100 %
 X

Donde: C.V. = coeficiente de variación de la población


c.v = coeficiente de variación muestral
89
 = Desviación estándar poblacional
µ = Media aritmética poblacional
S = Desviación estándar muestral
X = Media aritmética muestral

Ejemplo.- Considerar dos proyectos de inversión A y B. Ambos tienen una ganancia


promedio igual a $ 500. La Desviación estándar es 63.25 y 516.20 respectivamente.
Halle cuál de los dos proyectos es mejor.

Solución: A B

µ 500 500
 63.25 516.20
C.V.

Luego el mejor proyecto es:

 EJEMPLO:
Suponga que se han registrado 20 observaciones referentes a los ingresos
semanales del jefe de hogar de un determinado distrito. De la información muestral
obtenida calcule el Rango, varianza muestral, desviación estándar y el coeficiente
de variación
36 55 55 41
25 55 55 55
41 41 57 37
40 31 58 58
45 36 43 43

Solución:
 Rango: R  V max  V min  58-25  33
 Varianza muestral:
Para calcular VARIANZA para datos sin agrupar, trabajamos con la formula:
n 2
 ( xi  x ) (36  45.38)2  (25  45.38)2  ...  (58  45.38)2  (43  45.38)2 1882.55
2
s  i  1    99.08
90 n 1 20 1 19
La varianza tiene una interpretación un poco dificultosa de entender, es por eso
que nos ayudamos de la desviación estándar cuando queremos interpretar esta
medida.

 Desviación estándar muestral:


Para calcular la desviación estándar para datos sin agrupar, trabajamos con la
formula: 𝑠 = √𝑠 2 = √99.08 = 9.95

Este valor se puede interpretar como la variabilidad promedio de los datos


con respecto con respecto a su valor 𝑋̅

 Coeficiente de variación:
Para calcular el coeficiente de variación para datos sin agrupar, trabajamos con
la formula:
𝐶𝑉 = 𝑠 /𝑋̅ ∗ 100 = (9.95/45.38) ∗ 100 = 21.93%

Como, CV 21.93 ≤ 33%, podemos decir que el conjunto de datos tiene un
comportamiento homogéneo.

91
EJERCICIOS:

A.- CIENCIAS ECONOMICAS Y CONTABLES

1. La empresa A tiene 100 empleados, con su sueldo promedio mensual por empleado de $
250. La empresa B tiene 200 empleados con un sueldo promedio mensual de $ 240.
a. ¿Cuál es el sueldo promedio mensual de las dos empresas en conjunto?
b. Si las dos empresas se agrega una tercera con 50 empleados y un sueldo
promedio mensual por empleado de $ 300, ¿Cuál es el sueldo promedio para las
tres empresas en conjunto?

2. El ingreso medio mensual de los 16,500 obreros de una compañía es de S/. 116.00 y de
los 12,900 empleados de esta compañía es de S/. 148.00. Si los obreros reciben una
aumento del 20% sobre sus ingresos más una bonificación de S/. 50.00 por condiciones
de trabajo y los empleados reciben un aumento del 30% más S/. 60.00 por refrigerio.
¿Cuál es el ingreso promedio de todos los trabajadores de la compañía después del
aumento?

3. Un auxiliar de contabilidad está trabajando en una Tienda Comercial, en la cual se han


realizado ciertas ventas, que han sido facturadas. Se presenta las facturas identificadas
según nro de código.

FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133,
135, 134, 139, 142, 146.
a. Se le pide ordenar las facturas y luego aplicar los cuartiles Q1, Q2, Q3.
b. Calcular el nro. De factura mediana e interpretar correctamente

92
4. Después de ser capacitados un grupo de trabajadores en una Empresa, rindieron un
examen de evaluación, donde los resultados oscilan entre:
a. (Calcule los cuartiles: Q1, Q2, Q3, interprete correctamente cada estadígrafo).
b. Cuál es el promedio de nota después de recibir una capacitación
c. Cuál es la nota mediana después de recibir una capacitación
d. Cuál es la nota más frecuente en el grupo de trabajadores.

Yi-1 -Yi fi
0-50 14
50-100 18
100-150 19
150-200 5

5. En la sgte. Tabla se presenta los sueldos de magistrados Xi fi


de la Corte Superior, se pide calcular el promedio, moda 1200 16
y la mediana e interpretar correctamente cada estadígrafo. 1400 23
1600 17
1800 41
2000 32
2200 21

6. Establezca, con base estadística, en cuál de las siguientes empresas el salario está
repartido de forma más equitativa.
Empresa A Empresa B
nº de personas salario nº de personas salario
percibido percibido (S/.)
(S/.)
15 800 10 800
20 1000 30 1000
30 1200 35 1200
20 1500 24 1500
15 7500 1 7500

93
Calcular el promedio de salario percibido en el grupo de trabajadores de la Empresa
A y de l a Empresa B.

B.- CIENCIAS DE LA SALUD


1. En los siguientes ejercicios calcular el promedio, mediana y moda e interpretar
correctamente cada estadígrafo.
a. Pesos de pacientes que fueron evaluados en análisis de sangre, en un
laboratorio.
PESOS fi
20-25 5
26-31 9
32-37 15
38-43 10
44-49 6
TOTAL

b. Medidas de paredes de áreas de salud de consulta que se encontraron en el


Hospital Regional
MEDICIONES(cms.) fi
1.2- 2.6 7
2.7-4.1 23
4.2-5.6 70
5.7-7.1 135
7.2-8.6 27
TOTAL

2. Un farmacéutico realiza ventas de medicinas en FARMACIA INKAFARMA, del reporte de


ventas tiene a su disposición el nro de boletas emitidas con respectivos códigos. Se le
pide ordenar las facturas y luego encontrar el nro de factura mediana. Se le pide ordenar
las facturas y luego aplicar los cuartiles Q1, Q2, Q3.
FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133,
135, 134, 139, 142, 146.

94
3. Se presenta el nro. de vacunas que se aplicaron a niños menores de 5 años. según
fueron atendidos en diferentes puestos de salud. Calcula el promedio, la mediana y la
moda, e interprete correctamente.
2 3 4 5 5 5 5 5 6 6 6 67 7 7 7 7 7 88

4. A aquellos pacientes que sienten mejoría todos los días del


tratamiento se les realiza un estudio sobre el tiempo de Tiempo de Nº de
reacción pacientes
reacción del medicamento (en minutos), encontrándose
recogido los datos en la siguiente tabla: 0-10 300
10-20 500
Calcula el promedio, mediana, moda e interpreta correctamente
20-30 400
cada estadígrafo. Identifica la variable en estudio y realiza una
30-40 500
grafica adecuada.
40-60 300

5. A continuación se presenta el número de pacientes que son atendidos por dia en el


consultorio de un doctor
10 13 4 7 8 11 10 16 18 12 3 6 9
9 4 13 20 7 5 10 17 10 16 14 8 18
Obtener su promedio, moda y mediana

6. Una distribución estadística viene dada por la siguiente tabla:

10, 15) 15, 20) 20, 25) 25, 30) 30, 35)

fi 3 5 7 4 2

Hallar el promedio, moda y mediana

95
C.- INGENIERIA:

1. En una investigación agrícola en el Valle de Chancay se determinó la producción total en


(kilogramos), de un cierto cultivo, el cual fue sembrado en 20 parcelas experimentales.
Los resultados fueron:
Producción en Kg: 40, 35, 38, 40, 41, 37, 41, 38, 20, 25, 33, 27, 25, 28, 44, 22, 29, 36
a. Construya una tabla de Distribución de frecuencias
b. Calcular el promedio, mediana y moda y los cuartiles 1, 2 y 3 e interpretar
correctamente

2. La distribución de establecimientos PRODUCCION ESTABLECIMIENTOS


industriales, Menos de 5 39
según su producción mensual (en millones 5 a 10 19
10 a 25 14
de soles), es la siguiente
25 a 50 12
Calcular: 50 a 100 9
a. El promedio de producción 100 a 250 4
250 a 500 2
b. La producción mediana
500 a más 1
c. La producción más frecuente

3. En cada uno de las sgtes. Tablas determinar las medidas descriptivas que se te pide.
Media, Mediana, moda y sus interpretaciones.
a. Cantidad en litros de insecticida que se necesita para la fumigación de las plagas
según por nro. de terrenos de cultivo

MEDICIONES fi
1.2- 2.6 7
2.7-4.1 23
4.2-5.6 70
5.7-7.1 135
7.2-8.6 27
TOTAL

96
b. Sueldos en soles que se les paga a los trabadores que realizan siembra y riego
en los cultivos de Chavimochic
SUELDO fi
240-364 13
365-489 76
490-614 18
615-739 9
740-864 4
TOTAL

4. Se presenta el nro. frutos maduros hallados cada dos semanas en una huerta de cultivos.
2 3 4 5 5 5 5 5 6 6
6 6 7 7 7 7 7 7 8 8
Calcula el promedio de frutos, el fruto mediano. El fruto más frecuente. e interpreta.

5. Se tiene en cuenta el nro. de sembríos de arroz por valles de la costa peruana fue lo
sgte:

sembrío fi Calcula:
1 3 a) El promedio, mediana, moda e interpreta
2 7
3 10 cada estadígrafo.
4 5 b) Realiza una gráfica correspondiente de acuerdo al tipo
5 10
TOTAL de variable.

97
6. Las temperaturas recogidas en un determinada ciudad durante el mes de Enero se
muestran en la siguiente tabla:
Temperatura en ºC 19 20 21 22 23 24
Número de días 7 9 6 4 3 2

a. ¿Cuántos días hizo por encima de 21ºC? ¿Cuántos por debajo de 23ºC?
b. ¿Cuántos días hizo la temperatura máxima?
c. Calcula la media, la moda y la mediana.

7. El siguiente cuadro muestra la distribución de la renta anual (en miles de soles) en que
incurren 50 viviendas:
Marca de 18.85 21.55 24.25 26.95 29.65 32.35 35.05
Clase
N° de 3 2 7 7 11 11 9
Viviendas

a) Halle e intérprete según el enunciado la Media, mediana y moda.


b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26 000 soles pero
menores que 32 000 soles.

8. Una compañía requiere los


Prueba
servicios de un técnico 1 2 3 4 5 6 7
especializado. De los expedientes Puntaje 57 55 54 52 62 55 59
presentados, se han seleccionado obtenido por A
Puntaje 80 40 62 72 46 80 40
2 candidatos: A y B, los cuales obtenido por B
reúnen los requisitos mínimos requeridos.
Para decidir cual de los 2 se va a contratar, los miembros del Jurado deciden tomar 7
pruebas a cada uno de ellos.
a. Halle e interprete la media, mediana y moda de los dos candidatos.
b. Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su
respuesta

98
D.- EDUCACION:

1. Se realiza una estadística en dos centros de enseñanza, uno público y otro privado,
referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a
los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes:

Centro privado Centro público


Nota global de
Nota global de Frecuencias Frecuencias
cada alumno.
cada alumno.
250
5,5 10
150
6.5 15
100
7.5 20
20
8.5 30

9.5 15
Se pide:
a. A la vista de la tabla, te sugiere algún comentario de especial importancia. ¿Cuál
es el motivo de que los datos se presente en dos tablas de diferente tipo?
b. Estudiar las diferentes medidas de tendencia central (promedios) en las dos
distribuciones. En cada distribución ¿cuál te parece más representativo? ¿por
qué?
c. Indique cual es la nota mediana de cada grupo.

2. En las sgte. Tabla, se presenta la sgte. NIVEL DE GASTO (€) Nº DE JÓVENES


Información y se pide calcular la Media 0-5 4
aritmética, mediana y moda. 5-10 11
Tenemos la siguiente información sobre 10-15 16
el gasto semanal en ocio de un grupo de 15-20 22
estudiantes universitarios. 20-25 8
25-30 6

99
3. Hemos pasado una prueba de actitud a 200 aspirantes al ingreso en la Escuela de
Psicología. Para cada aspirante hemos anotado el número de preguntas acertadas, y con
ellas hemos elaborado la distribución de frecuencias que presentamos en la tabla nro. 1.
Dibuje una representación gráfica de las frecuencias absolutas. Calcule el promedio de
notas, la mediana de y la moda e intérprete correctamente cada estadígrafo.

Tabla nro. 1.

Preguntas Acertadas Frecuencia absoluta


21-25 16
26-30 20
31-35 30
36-40 42
41-45 22
46-50 29
51-55 23

56-60 18

4. Se muestra la frecuencia de la cantidad de bolas metidas en 2 horas por Eduardo y sus


amigos.
(Li - Ls) fi
Se pide calcular la
10-20 2 mediana, moda y media.
20-30 3
30-40 5
40 - 50 8
50-60 12

5. Dada las edades de 20 señoritas del ciclo anual.


15 17 19 20 18 18 19 17 16 17
20 15 20 18 15 15 16 17 15 17
Calcular el promedio, mediana, moda

100
6. Se tiene que:
A 2 3 3 5 7 6 7 5 8 4
B 6 7 5 2 9 1 7 6 4 2
C 3 4 7 6 8 9 7 6 3 2
Se pide determinar el promedio, mediana y moda.

7. Dada la distribución de frecuencias de cierto número de alumnos:


Edades 20 22 24 26 28
fi 5 4 6 3 2
Determinar el promedio aritmético entre la mediana y la media.

8. La siguiente tabla refleja las calificaciones de 30 alumnos en un examen de Matemáticas:


nota 2 4 5 6 7 8 9 10
Nº alumnos 2 5 8 7 2 3 2 1
a. ¿Cuántos alumnos aprobaron? ¿Cuántos alumnos sacaron como máximo un
7?¿Cuántos sacaron como mínimo un 6?
b. Calcular la nota media, la moda y la mediana

101
SEGUNDA UNIDAD

102
Sesión 8 y 9
Regresión Lineal Simple
Correlación

CAPACIDADES

1. Establece el tipo de relación entre variables cuantitativas utilizando diagramas de


dispersión.
2. Calcula e interpreta los coeficientes de la ecuación de regresión lineal simple.
3. Construye relaciones funcionales lineales simples y realiza predicciones
4. Calcula e interpreta el coeficiente de correlación.
5. Calcula e interpreta el coeficiente de determinación para regresión simple..

ACTITUDES
1. Valora la importancia que tiene el análisis estadístico de asociación de variables
en general y específicamente en la investigación científica.
2. Asume una actitud reflexiva, crítica y creativa al aplicar los métodos y técnicas
Estadísticas de regresión y correlación al análisis de relaciones de causa-efecto

CONTENIDO

Regresión Lineal Simple. Diagrama de Dispersión. Correlación. Coeficiente de


Correlación de Pearson. Coeficiente de Determinación. Interpretaciones.

103
Con frecuencia, las variables que constituyen una distribución bidimensional muestran un
cierto grado de dependencia entre ellas. Un ejemplo de esta relación aparece en la relación
de peso y altura: aunque no existe una ley causal que relacione ambas variables, en
términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura,
suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que
representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados
en algunas zonas.

En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las
dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre
de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica,
hiperbólica, exponencial, etc.

Análisis de regresión
 Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la
variable dependiente (Y) basado en la variable independiente (X).
 Procedimiento: seleccionar una muestra de la población y enumerar los datos por
pares para cada observación; dibujar un diagrama de dispersión para visualizar la
relación; determinar la ecuación de regresión.
 La ecuación de regresión: Y’= a + bX, donde:
o Y’ es el valor promedio pronosticado de Y para cualquier valor de X.
o a es la intercepción en Y, o el valor estimado de Y cuando X = 0
o b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de
una unidad en X:

104
REGRESIÓN LINEAL
Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a
esta forma geométrica por medio de un método general conocido como método de los
mínimos cuadrados. La recta de ajuste tendrá por ecuación:

𝑌 = 𝛽0 + 𝛽1 𝑋

Vamos a llamar a “X: VARIABLE INDEPENDIENTE o EXPLICATIVA”, y a la otra la


llamaremos “Y: VARIABLE DEPENDIENTE o EXPLICADA”.

Donde los coeficientes β0 y β1 se calculan teniendo en cuenta que:


 La recta debe pasar por el punto ( ).
 La separación de los puntos de la gráfica de dispersión con respecto a la recta de
regresión debe ser mínima.

CÁLCULO DE LOS COEFICIENTES β0 y β1:

𝑪𝒐𝒗(𝒙,𝒚)
1° Cálculo de β1: 𝜷𝟏 = 𝑽(𝒙)

2° Cálculo de β0: ̅ − 𝜷𝟏 𝑿
𝜷𝟎 = 𝒀 ̅
Donde:
𝑛
∑ 𝑌
𝑌̅ = 𝑖=1 𝑖: Media Aritmética de Y.
𝑛
𝑛
∑ 𝑋
𝑋̅ = 𝑖=1 𝑖: Media Aritmética de X.
𝑛

105
CORRELACIÓN (r)
El coeficiente de correlación (r) mide el grado de relación lineal (intensidad) de la relación
entre dos variables cuantitativas. El coeficiente r puede tomar valores entre -1.00 y 1.00.
Básicamente, esta información se refiere a dos características de la relación lineal: la
dirección o sentido y la cercanía o fuerza.

Correlación
Correlación nula
Correlación
perfecta perfecta
negativa Positiva
-1 0 1
Fuerte Débil Débil Fuerte
Negativa Negativa Positiva Positiva

 Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si la
relación a analizar es del tipo lineal. Si ésta no fuera no lineal, el coeficiente de
correlación sólo indicaría la ausencia de una relación lineal más no la ausencia
de relación alguna.

El coeficiente de correlación se expresa como:

𝐶𝑜𝑣(𝑥, 𝑦) 𝑆𝐶𝑥𝑦
𝑅= =
𝜎𝑥 𝜎𝑦
√(𝑆𝐶𝑥 )(𝑆𝐶𝑦 )

Donde:
(∑𝑛 𝑛
𝑖=1 𝑋𝑖 )(∑𝑖=1 𝑌𝑖 )
𝑆𝐶𝑥𝑦 = ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛
: Suma Cruzada de X e Y.
2
(∑𝑛
𝑖=1 𝑋𝑖 )
𝑆𝐶𝑥 = ∑𝑛𝑖=1 𝑋𝑖 2 − : Suma de Cuadrados de X.
𝑛
2
(∑𝑛
𝑖=1 𝑌𝑖 )
𝑆𝐶𝑦 = ∑𝑛𝑖=1 𝑌𝑖 2 − : Suma de Cuadrados de Y.
𝑛

106
Correlación negativa perfecta (r=-1) Correlación Positiva perfecta (r=1)

Correlación Nula

107
Correlación Positiva Fuerte

EL COEFICIENTE DE DETERMINACION “R2”


El coeficiente de determinación, r2 - la proporción de la variación total en la variable
dependiente Y que está explicada por o se debe a la variación en la variable independiente
X. El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma
valores de 0 a 1.

El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente


conociendo o suponiendo valores para la variable independiente. La confiabilidad de las
proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del
coeficiente de determinación y de los errores de los coeficientes de regresión.

Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer


de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste
lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad
del ajuste se utiliza el coeficiente de determinación, definido como sigue:

108
𝑅2 % = (𝑅2 ) × 100
Donde:
R: Coeficiente de Correlación.

EJERCICIOS

Después de haber leído la bibliografía básica propuesta en el punto 2.1, resuelve los
siguientes ejercicios:

1. Para cada uno de los siguientes conjuntos de datos bivariantes graficar sus
correspondientes diagramas de dispersión de puntos. ¿Qué tipo de relación
funcional, cree usted, se podría ajustar mejor a los datos?, ¿Por qué?

X 5 10 8 19 14 19 15 15 25 20 20
a)
Y 2 7 13 14 15 16 10 5 7 10 5

X 3 6 5 1 4 2 3 7 4
b)
Y 16 14 12 8 18 11 11 5 20

X 6 2 1 4 1 3 4 1 3 2 4
c)
Y 10 16 14 10 16 13 11 15 14 14 12

X 6 14 15 18 10 16 14 12 18 17
d)
Y 8 11 16 17 11 14 13 10 14 18

2. Se realiza un estudio para determinar el efecto de la reducción de las horas de


sueño sobre la habilidad para resolver problemas sencillos. La reducción de las
horas de sueño es de 8, 12, 16, 20 y 24 horas sin dormir. En el estudio participaron
un total de 10 individuos, con dos en cada nivel de reducción. Después de su
período específico de reducción de horas de sueño, cada individuo fue sometido a

109
un conjunto de problemas simples de suma, observándose el número de errores.
Los resultados fueron:

Número de errores (Y) 8, 6 6, 10 8, 14 14, 12 16, 12


Reducción de horas de 8 12 16 20 24
sueño (X)

a) Grafica el diagrama de dispersión de puntos.

b) Encuentra la recta de mínimos cuadrados apropiada para estos datos.

c) En el diagrama de dispersión de puntos, grafica la recta de mínimos


cuadrados.

d) Interpreta los coeficientes de regresión.

3. Los gastos semanales de publicidad y las ventas semanales de una empresa, en


dólares, para una muestra de diez semanas son:

Gastos
semanales de 41 54 63 54 48 46 62 61 64 71
publicidad
Ventas 1250 1380 1425 1425 1450 1300 1400 1510 1575 1650
semanales

a) Establece la recta de regresión de mínimos cuadrados que permita predecir las


ventas semanales en función de los gastos en publicidad.

b) Representa gráficamente los puntos y la recta de mínimos cuadrados. Comenta.

c) Interpreta la pendiente de la recta de regresión.

d) Pronostica las ventas para gastos semanales de publicidad de 50 y 60 dólares.

e) ¿Cuáles son los errores de estimación cuando se predice las ventas semanales
para gastos semanales de publicidad de 61, 62 y 63 dólares respectivamente?

110
4. Las calificaciones en un examen de estadística y el número de horas de estudio
para el examen, de una muestra de doce estudiantes de una sección, se presentan
en el siguiente cuadro.

Tiempo de
3 3 3 4 4 5 5 5 6 6 7 8
estudio
Calificación 9 12 11 12 15 14 16 15 18 16 15 17

a) Halla la recta de regresión de mínimos cuadrados considerando la calificación


en el examen como variable dependiente.

b) Interpreta la pendiente de la recta de regresión.

c) Calcula el error estándar de estimación. ¿Para qué se utiliza esta medida?

5. En una empresa se tiene interés en pronosticar el tiempo, en minutos, que toma


atender a un cliente en caja (Y) y se decide utilizar como variable independiente el
monto de las compras en dólares (X). Se tomó una muestra de 18 clientes y se
obtuvieron los siguientes resultados: x = 861, x2 = 60323, xy = 5177.3, y =
75.4, y2 = 455.86.

a) Halla la recta de regresión que mejor se ajusta a los datos e interpreta la


pendiente.
b) Grafica la recta de regresión.
c) Utiliza el gráfico de la recta de regresión para realizar dos predicciones de la
variable dependiente.
d) Calcula el error de estimación.
e) Calcula e interpreta el coeficiente de correlación

6. Para los puntajes de ansiedad (X) y de aptitud académica (Y) de diez postulantes
a un trabajo se han obtenido los siguientes resultados:  x = 847,  x2 = 71927,
 y = 446,  y2 = 20058,  xy = 37615.

a) Halla la recta de regresión de mínimos cuadrados que se ajusta a estos datos.


Interpreta la pendiente.

111
b) Interpreta la pendiente de la recta de regresión.

c) Grafica la recta de regresión.

d) Calcula e interpreta el coeficiente de correlación

7. Se ha tomado una muestra de 16 ventas de una casa comercial. Para cada venta
se han observado el precio de venta (X) y la cantidad vendida (Y) y se han obtenido
los siguientes resultados:  x = 77.9,  y = 749, SCx = 75.53, SCy = 7114.44 y
SCxy = - 489.89.

a) Halla la recta de regresión de mínimos cuadrados.

b) Interpreta la pendiente.

c) Pronostica la cantidad vendida para precios de venta de X=3 y x=5.

d) Calcula e interpreta el coeficiente de determinación.

8. Según investigaciones, el porcentaje de desembolso por empresas manufactureras


estadounidenses en plantas y equipo que fue destinado al control de polucióín
durante el periodo 1975–1987 fue como sigue:*

1975 1980 1981 1984 1987

9.3 4.8 4.3 3.3 4.3

*Fuente: Survey of Current Business.

a) Obtenga un modelo de regresión lineal, donde X: tiempo en años desde 1975.


b) Grafique la ecuación de la Recta.
c) Use el modelo calculado en (a) para estimar el porcentaje en 1985.

112
3.9. La siguiente tabla muestra el beneficio neto, en millones de dólares, de la
empresa Disney durante los años 1984-1992.

Beneficios estimados al $5 millón más cercano.


Fuente: Informes de compañía/The New York Times, Dic. 1992.

a) Estime la ecuación de la recta de mejor ajuste para estos datos.


b) Interprete el coeficiente β1.
c) Use el modelo calculado para hacer una estimación.

9. La siguiente tabla muestra la producción de soja, en millones de toneladas, en la


región Cerrados de Brasil, como función del área cultivada en millones de hectáreas.

Área
10,1 12,1 12,9 16,2 21,0
(Millones de hectáreas)

Producción
15 25 30 40 60
(Millones de toneladas)

*Fuente: Ministerio de Agricultura de Brasil/New York Times.

113
a) Obtenga la ecuación de la recta de regresión lineal.
b) Interprete el coeficiente β1.
Use el modelo calculado para hacer una estimación.

10. Para una muestra de 20 operadores de máquinas se tienen registrados, la nota del
examen de ingreso (X) y la evaluación de eficiencia laboral (Y). A partir de estos
datos se han obtenido los siguientes coeficientes para la recta de regresión de
mínimos cuadrados: 0 = 28.64 y 1 = 1.01.

a) Escribe la recta de regresión e interpretar 1 .

b) Estima el puntaje promedio de evaluación de eficiencia laboral para los


operadores que obtuvieron 75 puntos en el examen de ingreso.

c) Grafica la recta de regresión.

11. La siguiente información corresponde a calificaciones obtenidas por 10 estudiantes


en un examen de Estadística y su calificación final promedio.

Calificación
en examen 14 18 16 12 10 15 17 11 08 12
Calificación
promedio 12 14 15 10 11 12 12 11 10 11

a) Grafica el diagrama de dispersión. Comentar

b) Halla la recta de regresión de mínimos cuadrados. Interpretar la pendiente.

c) Calcula el coeficiente de correlación lineal. Interpreta.

d) Calcula el coeficiente de determinación. Interpreta.

114
12. En un estudio con 15 observaciones mensuales, un analista financiero quiere
determinar la relación de la tasa porcentual de rendimiento (Y) de las acciones de
una empresa sobre la tasa porcentual de rendimiento (X) de un índice bursátil.
Dispone de la siguiente información:

 x = 33.8,  y = 33.5,  xy = 79.22,  x2 = 80.34,  y2 = 79.45

a) Estima la regresión lineal de Y sobre X. Realiza una predicción.

b) Calcula el coeficiente de correlación lineal. Interpreta.

c) Calcula el coeficiente de determinación. Interpreta.

13. Un vendedor de bienes desea establecer la relación entre el número de semanas


que las casas están en el mercado antes de venderse y el precio que por ellas se
pide. La información es la siguiente:

Semana 6.2 6.7 7.5 8.5 11.5 9.5 12.2 9.8


Precio
(miles) 25 82 100 95 120 110 130 135

a) Grafica la dispersión de puntos.

b) Halla la ecuación de regresión de Y sobre X. Interpreta la pendiente.

c) Realiza dos predicciones.

d) Calcula e interpreta el coeficiente de determinación.

e) Calcula el error estándar de estimación.

115
14. La siguiente tabla y gráfica muestran el consumo mensual de energía en función del
área del domicilio:

Área
119,8 125,4 136,6 148,8 158,9 170,9 183,9 207,2 223,0 272,2
(m2)

Consumo
1180 1170 1260 1490 1570 1710 1800 1840 1960 1950
(kw-hrs)

a) Establezca la recta de regresión de mínimos cuadrados que permita predecir el


consumo de energía en función del área del domicilio.
b) Represente gráficamente los puntos y la recta de mínimos cuadrados. Comenta al
respecto.
c) Interprete la pendiente de la recta de regresión.
d) Calcule e interprete el Coeficiente de Correlación R.
e) Calcule e interprete el Coeficiente de Determinación R2.

15. En el servicio central de turismo del país se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total
de plazas ocupadas en un año se tiene:

Precio 260 650 1000 1400 2100 2500 2700 3300 4000
(US$./noche)
Nº Habitac 4725 2610 1872 943 750 700 700 580 500
Ocupadas
a) Representa gráficamente para comprobar que existe cierta dependencia lineal
entre las variables.
b) Halle la ecuación de la recta de regresión del precio sobre el número de
habitaciones.
c) ¿Cuántas habitaciones se llenarían a US$1500?

116
16. El volumen de ahorro y la renta del sector familias en billones de pesos, para el
período 77-86 fueron:

Año 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5

a) Encuentre la recta de regresión considerando el ahorro como variable


independiente.
b) Encuentre la recta de regresión considerando la renta como variable
independiente
c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el
ahorro esperado para el año 87?

17. La tabla presenta datos ficticios para un estudio de adolescentes en riesgo de


desarrollar obesidad.

N° de comidas 2 2 5 2 4 3 3 2
rápidas consumidas
la última semana
Peso (Kg.) 50,8 59,4 77,6 72,6 82,6 74,8 67,6 62,1

a) Trace un diagrama de dispersión del peso regresionado a partir del número de


comidas rápidas consumidas en la última semana.
b) Calcule el coeficiente de correlación R de Pearson para estas dos variables, así
como la ecuación de regresión 𝑌 = 𝛽0 + 𝛽1 𝑋.

117
18. La tabla siguiente contiene la edad (X) y la máxima de la presión sanguínea (Y) de
un grupo de 10 mujeres:

Edad 56 42 72 36 63 47 55 49 38 42
Presión 14,8 12,6 15,9 11,8 14,9 13,0 15,1 14,2 11,4 14,1
a) Determine la recta de regresión de Y sobre X, justificando la adecuación de un
modelo lineal.
b) Interprete la pendiente.
c) Mida la bondad del modelo.
d) Realice las siguientes predicciones, sólo si tienen sentido:
 Presión sanguínea de una mujer de 51 años.
 Presión sanguínea de una niña de 10 años.
 Presión sanguínea de un hombre de 54 años.

19. El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue


un patrón lineal. Se calculó una recta de regresión mediante el método de mínimos
cuadrados con datos de alturas de niñas norteamericanas de 4 a 9 años y el
resultado fue: β0 = 80 y β1 = 6. La variable dependiente Y es la altura (en cm.) y X
es la edad (en años).

a) Interprete los valores estimados del intercepto y de la pendiente.


b) Cuál será la altura predicha de una niña de 8 años.
c) Cuál será la altura predicha de una mujer de 25 años. Comente el resultado.

20. En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista


Field Crops Research, los datos usados en la investigación son:

Duración 92 92 96 100 102 102 106 106 121 143


Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3

Con X = la duración de la cosecha de porotos de soya en días, Y = rendimiento


de la cosecha en toneladas por hectárea.

118
a) Estime la recta de regresión mediante el método de mínimos cuadrados.
Interprete los estimadores en el contexto de la pregunta
b) ¿Existe una relación lineal significativa entre la duración y el rendimiento de la
cosecha?
c) Estime el rendimiento si la duración de la cosecha fue de 104 días.

21. Un investigador cree que la inteligencia de los niños, medida a través del
coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una
muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados
aparecen en la tabla adjunta.

CI 110 115 120 118 110 108 105 104 98 99 99 100 90 93 90


N° Hmos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6
a) Encuentre e interprete el coeficiente de correlación R.
b) Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto
de la pregunta.
¿Existe una relación lineal significativa entre el número de hermanos y el
coeficiente intelectual?

22. Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas
en lactantes desnutridos. Se realizan 20 determinaciones de ingestión y absorción
cuyos resultados se muestran en la tabla que sigue:

INGESTIÓN Y ABSORCIÓN DE GRASAS EN 20 LACTANTES


DESNUTRIDOS
Caso N° Ingestión Absorción Caso N° Ingestión Absorción
1 1,4 0,7 11 2,0 1,4
2 1,6 1,2 12 1,4 1,1
3 2,1 1,6 13 1,9 1,5
4 1,7 1,1 14 1,8 1,3
5 1,8 1,3 15 1,9 1,5

119
6 2,6 2,0 16 1,6 1,4
7 1,5 1,2 17 1,9 1,7
8 2,5 1,5 18 2,1 1,7
9 2,7 2,4 19 1,6 1,3
10 1,8 1,5 20 1,6 1,1

a) Estime β0 y β1 mediante el método de mínimos cuadrados. Interprete los


coeficientes de regresión.
b) Encuentre e interprete el coeficiente de correlación R.
c) ¿Existe una relación lineal significativa entre la ingestión y la absorción de
grasas?

23. La siguiente tabla presenta los datos sobre el número de cambios de aceite al año
(X) y el costo de la reparación (Y), en miles de pesos, de una muestra aleatoria de 8
autos de una cierta marca y modelo.

N° Cambios
3 5 2 3 1 4 6 4
de Aceite
Costo
(miles de 150 150 250 200 350 200 50 125
pesos)
a) Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad.
b) Encuentre la recta de regresión de mínimos cuadrados.
c) Interprete los valores estimados del intercepto y de la pendiente.
d) Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de
aceite.
e) Si cambia X por Y, ¿obtendrá la misma recta de regresión?
f) Calcule el residuo para la primera observación (X=3, Y=150).

120
24. Para la economía española, disponemos de los datos anuales redondeados sobre
consumo final de los hogares a precios corrientes (Y) y renta nacional disponible
neta (X), tomados de la Contabilidad Nacional de España base 1995 del INE , para
el período 1995-2002, ambos expresados en miles de millones de euros:

Año 1995 1996 1997 1998 1999 2000 2001 2002


Y 258,6 273,6 289,7 308,9 331,0 355,0 377,1 400,4
X 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590,3

Considerando que el consumo se puede expresar como función lineal de la renta,


determine:
a) Los parámetros β0 y β1 de la recta de regresión.
b) El coeficiente de determinación de dicha regresión.
c) La predicción del valor que tomará el consumo para una renta de 650.000
millones de euros.

25. Se supone que se puede establecer cierta relación lineal entre las exportaciones de
un país y la producción interna de dicho país. En el caso de España, tenemos los
datos anuales (expresados en miles de millones de pesetas) para tales variables
correspondientes al quinquenio 2002-06 en la siguiente tabla:

Año Producción Exportaciones


2002 52,654 10,420
2003 53,972 11,841
2004 57,383 14,443
2005 61,829 16,732
2006 65,381 18,760
A partir de tal información, y considerando como válida dicha relación lineal, se pide:

a) Si la producción para el año 2007 fue de 2.210.610 millones de pesetas, ¿cual


sería la predicción de las exportaciones para este año? ¿Qué grado de precisión
tendría dicha predicción?

121
b) ¿Qué tanto por ciento de la varianza de las exportaciones no vienen explicadas
por la producción interna, y se debe a otro tipo de variables?

26. Un estudiante de la Escuela Universitaria de Estudios Empresariales de la


Universidad de Sevilla, para poder pagarse sus estudios, debe trabajar como
camarero en un bar de copas de su localidad. A este establecimiento, suelen acudir
todos los jóvenes de la zona. Este año, con los conocimientos aprendidos, decide
por fin estudiar la relación existente entre la cantidad de sal de las galletas saladas
y el consumo de bebidas, ya que es costumbre dar al cliente este aperitivo cuando
pide una consumición. Se sabe que las galletas no pueden tener una concentración
de sal superior a 3,5 gramos por cada 1000 galletas y, por ello, decide ir variando a
partir de 1 gramo la concentración de 0,5 en 0,5 gramos cada semana e ir anotando
el incremento en caja semanalmente, obteniendo la siguiente tabla:

Gramos de sal por Ingresos


1000 galletas (pesetas)
1 140,3
1,5 150
2 165
2,5 175
3 200

A partir de tales cifras, se quiere conocer:

a) ¿Considera justificado el planteamiento de un modelo lineal para expresar la


relación entre las variables?
b) Si el propietario desea unos ingresos de 160.000 pesetas, ¿qué cantidad de sal
debería aportar por cada 1000 galletas? Si aporta el máximo permitido de sal,
¿cuál sería el ingreso en caja? Explicar cuál de las dos predicciones le merece
mayor confianza.

122
¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal
aumenta en un 1% sobre el último valor de la tabla? Si aumentamos en 1gr. la sal
por cada 1000 galletas, ¿cuánto variarán los ingresos?

27. La factura mensual del gasto telefónico de una pequeña empresa se ha


incrementado notablemente en los últimos meses. Los estudios realizados por el
administrador de la misma argumentan que el mayor uso de Internet dentro de la
misma es la principal causa del mayor gasto en teléfono, lo que ha hecho que se
estudie la posibilidad de acogerse a alguno de los múltiples bonos o tarifas
especiales que ofrecen las compañías, lo que hasta la fecha todavía no se llevó a
cabo. Las últimas cifras mensuales no hacen sino confirmar esta relación:

Mes Enero Febrero Marzo Abril Mayo


Cuantía de la factura 55 100 118 120 142
telefónica (€)
Tiempo de conexión 200 500 700 800 1000
(minutos)

De acuerdo con la información anterior, responda a las siguientes preguntas:


a) Suponiendo la existencia de una relación de tipo lineal entre tiempo de conexión y
gasto telefónico, ¿qué porcentaje de las variaciones en la cuantía de la factura
telefónica no podrían ser explicadas linealmente por el tiempo de conexión a
Internet dentro de la compañía?
b) ¿Cuál sería la cuantía de la factura telefónica de la compañía de acuerdo a esta
relación lineal si no se conectase a Internet en la empresa?
c) ¿Cuál sería el gasto telefónico estimado según esta relación lineal si el tiempo de
conexión a Internet fuera de 2000 minutos? ¿Le parece aceptable tal predicción?
Justifique su respuesta.

Se considera que un incremento del 20% en el tiempo de conexión a Internet


respecto al realizado en el mes de mayo conllevaría a que la factura telefónica se

123
elevase de forma extraordinaria. ¿Cuál sería el incremento relativo en la misma si
ello se produjese? Justifique su respuesta.

28. Una juguetería ha examinado la evolución reciente de las ventas de su muñeco


“Qco” (Y, en millones de euros) junto con los gastos de publicidad de ese muñeco
(X, en millones de euros), obteniéndose los siguientes resultados:

Año 2003 2004 2005 2006 2007 2008 2009


Y 126 135 156 156 150 150 180
X 20 25 30 32,5 35 32 34

A partir de esta información, responda a las siguientes cuestiones:


a) ¿Se puede afirmar que al aumentar los gastos en publicidad se incrementarán las
ventas? Obtenga los parámetros del ajuste lineal que explique las ventas en
función de los gastos. Interprete dichos coeficientes e indique la bondad del ajuste
realizado.
b) Si para este año 2010 aumentásemos los gastos de publicidad en un 1%, ¿en qué
porcentaje se espera que variasen las ventas, según el modelo lineal?

29. Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, se
han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y,
en Kg.) y el tiempo que llevan siguiendo la dieta (variable X, en semanas), los
cuales se muestran en la siguiente tabla:

Y 2,4 5,4 5,6 8,4 10,6 13,5 15 15


X 3 5 6 8 11 13 15 16

a) Estime el modelo lineal que explica el peso perdido en función del tiempo que se
lleva siguiendo la dieta e interprete los parámetros.
b) Para el modelo estimado en el apartado anterior, descomponga la varianza total
como suma de la explicada y la no explicada por el mismo y obtenga, a partir de
tal descomposición, el coeficiente de determinación.

124
c) Según el modelo considerado, ¿qué peso esperaría perder una persona que siga
la dieta durante 2 meses (8 semanas)? ¿Y una persona que esté dispuesta a
seguir la dieta durante dos años (108 semanas)? ¿Qué fiabilidad le otorga a cada
una de las estimaciones anteriores?

30. Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el
número de unidades vendidas, se procedió a recoger datos sobre tales magnitudes
durante el pasado mes en una determinada región. Los resultados obtenidos fueron
los siguientes:

Precio
7,5 9 10,5 12 14 16 18 20,5 23,5 27
(miles de euros)
Cantidad
450 425 400 350 325 300 290 280 260 200
vendida por mes

En función a los datos recabados para esa región y mes:

a) Una empresa radicada en la región tiene previsto para el mes próximo aumentar
el precio de su modelo más vendido en 500 �. Si suponemos como válida la
relación lineal entre las dos variables analizadas para los datos del pasado mes,
¿cómo afectaría este hecho a las ventas de dicho modelo?
b) Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un
3%, ¿cómo variarían las ventas de dicho modelo?

31. En una muestra de familias se han analizado las variables ahorro anual (Y) y renta
anual (X), medidas ambas en miles de euros. Los datos obtenidos han sido los
siguientes:

Ahorro
1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3, 2,7 3,0
(Y)
Renta
20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5
(X)

125
A partir de tales datos, se pide:

a) Obtener el modelo lineal que explica el ahorro de las familias en función de su


renta.
b) ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese
incrementada en un 5%, la familia que tiene la menor renta de entre todas o la
que posee la mayor renta?
c) ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su
renta anual en 500 euros?
d) ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable
renta a través del modelo lineal planteado?

REFERENCIAS BIBLIOGRÁFICAS

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.


Edit. PHH S. A. – México.

3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –


Edit. Préntice Hall Hispanoamericana S.A.- México.

4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la


Psicología y la Educación. Edit. Mc Graw-Hill – México.

5. MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros


– Edit. Préntice Hall Hispanoamericana S.A. – México.

6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.

7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía.


3era edición – Edit. McGraw-Hill Companies,

126
TERCERA UNIDAD

ESTADISTICA INFERENCIAL
127
Sesión 11
Introducción a las Probabilidades:
Probabilidades
Distribución Normal

CAPACIDADES

1. Realiza cálculos básicos sobre probabilidades de eventos.


2. Identifica y construye espacios muestrales para experimentos.
3. Conoce y aplica las propiedades de probabilidad para resolver problemas.
4. Calcula e interpreta probabilidades de sucesos con distribución normal.

ACTITUDES

1. Valora la importancia que tiene la probabilidad y la distribución de probabilidad normal


y sus propiedades en la Inferencia Estadística Clásica.
2. Actúa trabajando en equipo con responsabilidad, puntualidad y orden en la ejecución
de las tareas y trabajos asignados, asumiendo una posición reflexiva y crítica hacia
los resultados obtenidos.

CONTENIDO

Nociones de Probabilidad. Espacio Muestral. Probabilidad de un Evento.


Propiedades. Distribución Normal.

128
PROBABILIDAD

DEFINICIONES PREVIAS:

1) Experimento Aleatorio (E) : es aquel fenómeno cuyos resultado depende del azar y
cumple ciertas características:
a) El experimento se puede repetir indefinidamente bajo condiciones idénticas.
b) Se puede describir el conjunto de todos los resultados posibles, pero no se
pueda asegurar o predecir un resultado en particular.
c) Si se repite un número grande de veces debe aparecer cierta regularidad
estadística.

2) Sucesos: un suceso de un Experimento Aleatorio (E) es cada uno de los posibles


resultados de dicho experimento que no puede descomponerse en resultados más
simples

3) Espacio Muestral (S): Es el conjunto de todos los resultados posibles (sucesos) de un


experimento aleatorio. A los ejemplos previos corresponden los siguientes espacios
muestrales en notación de conjuntos:

EJEMPLO:

EXPERIMENTO ALEATORIO ESPACIO MUESTRAL (S)

1) Observar el lanzamiento de una moneda. E= {Cara, Sello}

Suceso 1 Suceso 2

4) Eventos (A, B, etc) Es cualquier subconjunto de resultados de un espacio muestral S.


Los siguientes son eventos asociados a los espacios muestrales previos.

129
EXPERIMENTO ALEATORIO ESPACIO EVENTOS
MUESTRAL (S)

A. Observar el lanzamiento de una moneda. Cara, Sello A1: Que salga cara
A2: Que salga sello

B. Observar el lanzamiento de un dado. 1,2,3,4,5,6 B1: Que salga par


B2: Que salga impar
B3; Que salga > 4

C. Medir la duración de un equipo electrónico.

D. Contar el número de vehículos que pasan 0,1,2,4,5,….


por un cruce en lapsos de un minutos.

E. El lanzamiento de dos dados. (1,1); (1,2); (1,3); … E1: Suma de las


caras superiores es
igual a 7
E2: La suma de las
caras superiores es
menor que 5

F. Lanzamiento de un dado y una moneda (1,S); (2,S); …(1,C); F1: Salga un 6 y una
cara

130
DEFINICIÓN DE PROBABILIDAD SEGÚN LAS TRES ESCUELAS DE
PENSAMIENTO DIFERENTES: LA TEORÍA CLÁSICA, LA TEORÍA DE
FRECUENCIA RELATIVA Y LA TEORÍA SUBJETIVA

1.1. LA TEORÍA CLÁSICA.


 Dada por Andrei Kolmogorov, 1903 a 1987, probabilista ruso.
 Se aplica cuando todos los elementos del espacio muestral (sucesos) tienen la
misma probabilidad de ocurrir.
 Sea S el espacio muestral asociado a un experimento aleatorio y sean A i  S

para i  1, 2,.., n eventos.

# de resultados favorables
DEFINICIÓN DE PROBABILIDAD Probabilidad de un evento =
# de resultados posibles
CLÁSICA

Ejemplo 1:
Se tiene el siguiente exp. Aleatorio E: Lanzamiento de dos monedas al aire.
a) ¿Calcule el espacio muestral?
b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto
c) ¿Cuál es la probabilidad de que salga 1 cara?

1.2. LA TEORÍA DE LA FRECUENCIA RELATIVA.-

 Se debe a Pierre Simón de Laplace, 1749 a 1827.

 Supóngase que repetimos n veces un experimento aleatorio, sean A un evento


asociado al experimento y al espacio S. Sean n A el número de veces en que
ocurren A o sea el número de elementos del conjunto.

 Definimos la frecuencia relativa del evento A: nA


hA  ; 0  nA  n
n
nA
como 0  nA  n entonces 0  1
n
o sea 0 ≤ hA ≤ 1

131
Ejemplo 1.
Se tiene información acerca de los cargos y el sexo del personal de cierta empresa.

Sexo Abogado Contador Ingeniero TOTAL


Hombres 10 5 6
Mujeres 15 4 7
TOTAL

Cuál es la probabilidad de que al seleccionar un trabajador éste sea:


a) Contador y sea hombre
b) Abogado y mujer
c) Mujer
d) Sabiendo que el trabajador es ingeniero. ¿Cuál es la probabilidad de que sea
hombre?
e) Sabiendo que el trabajador sea mujer. ¿Cuál es la probabilidad de que sea
abogado?

Ejemplo 2.
Localice todos los valores de probabilidad asociados a la siguiente tabla de Carrol
que ofrece información sobre la hipertensión y el hábito de fumar.
No Fumadores Fumadores
fumadores moderados empedernidos

Hipertensos 20 15
10

No hipertensos 15 10
30

a. Si se selecciona aleatoriamente uno de estos pacientes, encuentre la probabilidad


de que la persona sea:

a. fumadora moderada:
b. no hipertensa:
c. no hipertensa ni fumadora :

132
d. hipertensa y fumadora empedernida:
e. Sabiendo que el paciente no fuma. ¿Cuál es la probabilidad de que sea
hipertensa?
f. Sabiendo que el paciente es hipertenso. ¿Cuál es la probabilidad de que sea
fumador empedernido?

1.3. LA TEORÍA SUBJETIVA.

Se refiere a la posibilidad de que un evento particular ocurra, que es asignada por un


individuo basándose en la información que tenga disponible y en su propia experiencia
o presentimientos.

Ejemplos de probabilidad subjetiva son las apuestas en eventos atléticos o deportivos


o la estimación del futuro de una acción.

AXIOMAS DE LA PROBABILIDAD

1) 0  P A i   1
P(Ai) 0 0.5 1
Sin probabilidad Tan probable Certeza
De ocurrir como improbable de ocurrir
2) P(S )   P( Ai)  1

PROPIEDADES DE LAS PROBABILIDADES

 PROPIEDAD 1: La probabilidad de un evento imposible  es cero.

En efecto A    A

P A    P A  como A    A excluye a 

Entonces P A   P   P A   P   0

133
 PROPIEDAD 2: COMPLEMENTO DE UN EVENTO
Veamos:

A = S por lo tanto P(A  ) = P(S)

Como A excluye P(A) + P( ) = 1

entonces P( )= 1 – P(A) B

 PROPIEDAD 3: LEY DE LA ADICION (UNION DE DOS EVENTOS)

 PROPIEDAD 4: UNION DE 3 O MAS EVENTOS

P A B  C  P A   P B  P C
 P A B  P A  C  P B  C
 P A B  C

134
 PROPIEDAD 5: PROBABILIDAD CONDICIONAL
Sean A y B dos sucesos en S. Indicaremos con P B A  la probabilidad
condicional del suceso B, dado que A ha ocurrido, así:
P A  B
P B A   , 0  P A   1
P A 

 PROPIEDAD 5: EVENTOS INDEPENDIENTES


Dos eventos son INDEPENDIENTES si el resultado de uno NO afecta al otro, es decir

Cuando P(A⁄B) = P(A) o P(B⁄A) = P(B)

 PROPIEDAD 6: PROBABILIDAD DE UNA INTERSECCION


De la probabilidad condicional podemos deducir que P(A ∩ B) = P (A). P (B/A)
Si A y B son independientes, entonces P(B/A) = P(B)
P(A ∩ B) = P (A). P (B)

135
EJERCICIOS:

1. Las probabilidades de que A, B y C resuelvan un cierto problema son 1/2, 3/5 y 2/3
respectivamente. ¿Cuál es la probabilidad de que el problema sea resuelto por lo
menos por uno de los tres?

2. Una tabla de mortalidad muestra que las probabilidades de que A y B vivan 25 años
más son 0.9 y 0.8 respectivamente. Calcula la probabilidad que al final de 25 años
ambos hayan muerto.

3. De 300 estudiantes de educación superior, 100 están inscritos en inglés y 80 en


Computación. Estas cifras de inscripción incluyen 30 estudiantes inscritos en
ambos cursos. ¿Cuál es la probabilidad que al seleccionar un estudiante al azar,
esté inscrito únicamente en inglés o en Computación?

4. En general, la probabilidad de que algún prospecto realice una compra cuando lo


visita un vendedor es 40%. Si un vendedor elige tres prospectos al azar de un
archivo y los visita: ¿Cuál es la probabilidad de que?:

A) Los tres prospectos realicen la compra?


B) El vendedor logre al menos dos ventas?
C) El vendedor logre al menos una venta?
D) Ningún prospecto realice la compra?

5. La tabla de contingencias que se muestra a continuación, presenta información


sobre las reacciones de los votantes con respecto a un nuevo plan de impuestos
sobre la propiedad, de acuerdo con su afiliación partidaria.

136
CUADRO No 1: REACCION DE VOTANTES RESPECTO A UN NUEVO PLAN DE
IMPUESTOS SOBRE LA PROPIEDAD SEGUN SU AFILIACIÓN PARTIDARIA.

Afiliación Reacción
Total
Partidaria A favor Neutral Se opone
Fuente: Datos Hipotéticos
NUEVO PERÚ 120 20 20 160
PRO PERÚ 50 30 60 140
Otros 50 10 40 100
Total 220 60 120 400

a) Elabora la tabla de probabilidad conjunta.


b) Determina e interpreta las probabilidades marginales.
c) Si de estas 400 personas, se elige una persona al azar, ¿cuál es la probabilidad
que esté a favor del plan de impuestos?
d) Si de estas 400 personas, se elige una persona al azar, ¿cuál es la probabilidad
que pertenezca a PRO PERÚ?

6. La probabilidad de que un individuo consuma bebidas alcohólicas y fume es de


15/50, de que consuma bebidas alcohólicas es 25/50, y de que fume es de 20/50.
Calcula las siguientes probabilidades:

a) Que fume o consuma bebidas alcohólicas.


b) Que fume, sabiendo que consume bebidas alcohólicas.
c) ¿Son excluyentes los sucesos fumar y consumir bebidas alcohólicas?

7. CUADRO No 2: DISTRIBUCION PORCENTUAL DE GRUPOS HEMATICOS EN LA


POBLACION DEL DISTRITO DE LA ESPERANZA.

F/T A B AB O
Rh + 34% 9% 4% 38%
Rh - 6% 2% 1% 6%
Fuente: Datos Hipotéticos

137
De la información que se presenta en cuadro No 2 Resolver:
a) ¿Cuál es la probabilidad de que una persona tenga sangre tipo O?
b) ¿Cuál es la probabilidad de que una persona tenga sangre Rh-?
c) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan Rh-
d) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan tipo AB?
e) ¿Cuál es la probabilidad de que una persona tenga Rh- si tiene sangre tipo O?
f) ¿Cuál es la probabilidad de que una persona tenga sangre tipo B si tiene Rh+?

8. Los tiempos de reemplazo de los televisores tiene una distribución normal con una
media de 8.2 años y una desviación Standard de 1.1 años. Determina la
probabilidad que un televisor seleccionado al azar tenga un tiempo de reemplazo de
menos de 7 años.

9. Las duraciones de los embarazos tienen una distribución normal con una media de
268 días y una desviación estándar de 15 días. Si estipulamos que un bebé es
prematuro si nace al menos tres semanas antes de lo debido. ¿Qué porcentaje de
bebés nacen prematuramente?

10. Los puntajes de cociente intelectual (IQ) están distribuidos normalmente con una
media de 100 y una desviación estándar de 15. MENSA es una organización para
personas con cociente intelectual elevado, y sólo acepta personas con un IQ mayor
de 131.5.

a) Si se escoge aleatoriamente a una persona, determina la probabilidad de que


satisfaga el requisito de MENSA.

b) En una región representativa con 75 000 habitantes, ¿cuántos son elegibles


para MENSA?

138
11. El Cuerpo de Infantes de la Marina de EEUU requiere que los hombres tengan
estaturas entre 1.60 y 1.95 m. Determina el porcentaje de hombres que satisfacen
ese requisito de estatura, sabiendo que la Encuesta Nacional de Salud de ese país
revela que las estaturas de los estadounidenses de sexo masculino tienen una
distribución normal con una media de 1.725 m y una desviación estándar de 0.07
m.

12. Los niveles de colesterol en el suero de hombres con edades entre 18 y 24 años
están distribuidos normalmente con una media de 178.1 y una desviación estándar
de 40.7. Todas las cifras están dadas en mg/100 ml, y los datos se basan en la
Encuesta Nacional de Salud de EEUU. El nivel de colesterol en el suero se
considera demasiado alto si está en el 7% superior, encuentre la cantidad de
mg/100 ml para los niveles excesivamente altos.

13. Se recolectó información sobre el peso del recién nacido y si la madre fumó o no
durante el embarazo. Los datos se presentan a continuación:

CUADRO No 3: DISTRIBUCION DE LOS RECIEN NACIDOS DE ACUERDO A SU


PESO SEGÚN LA CONDICION DE FUMAR DE LA MADRE
CONDICIÓN PESO R.N.
DE FUMADORA BAJO NORMAL TOTAL
SI 30 10 40
NO 20 140 160
TOTAL 50 150 200

FUENTE: DATOS HIPOTETICOS


A. ¿Cuál es la probabilidad que el recién nacido tenga bajo peso?
B. ¿Cuál es la probabilidad que una gestante fume?
C. ¿Cuál es la probabilidad que el niño seleccionado tenga un peso normal?

139
VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES
DE PROBABABILIDADES

VARIABLE ALEATORIA:
Es una función que asigna un valor numérico a cada suceso o resultado de un espacio
muestral. Es una variable cuyo valor numérico está determinado por el resultado del
experimento aleatorio

 Las variables aleatorias se le denota con letras mayúsculas X, Y,Z; y su valores se


denotan con letras minúsculas x, y, z
 Las Variables aleatorias se clasifican en dos tipos: DISCRETAS y CONTINUAS
o VARIABLE ALEATORIA DISCRETA: Cuando puede tomar un numero finito o
infinito, pero enumerable de posibles valores
o VARIABLE ALEATORIA CONTINUA: Cuando puede tomar un número
infinito (no enumerable) de valores

CARACTERISTICAS DE LAS VARIABLES:


VA. DISCRETA VA. CONTINUA
𝑛
MEDIA O
𝐸(𝑋) = ∑ 𝑋𝑖 𝑃(𝑋𝑖 ) 𝐸(𝑋) = ∫ 𝑋𝑖 𝑓(𝑋𝑖 )𝑑𝑥
PROMEDIO
𝑖=1
𝑛
(𝑋𝑖 − 𝐸(𝑥))2 𝑃(𝑋𝑖 ) (𝑋𝑖 − 𝐸(𝑥))2 𝑓(𝑋𝑖 )
VARIANZA 𝑉(𝑋) = ∑ 𝑉(𝑋) = ∫
𝑁 𝑁
𝑖=1

TIPO DE
GRAFICOS

140
DISTRIBUCIONES DE PROBABILIDAD
Son modelos que describen la forma en que se espera que varíen los resultados o probable
valores de una variable aleatoria.

 Debido a que estas distribuciones tratan sobre expectativas de que algo suceda,
resulta ser modelos muy útiles para hacer inferencias y para tomar decisiones en
condiciones donde hay incertidumbre
 Las distribuciones de probabilidad son esencialmente modelos gráficos que
relacionan los diversos probables valores que puede tomar una variable aleatoria
 Tradicionalmente se clasifican en dos grandes familias:
o Distribuciones Parámetricas
o Distribuciones No Parámetricas

Muchos de los acontecimientos cotidianos, pueden ser asimilados a funciones probabilísticas


teóricas, que son de gran ayuda en la toma de decisiones bajo condiciones de incertidumbre.
Eminentes estudiosos de la estadística han planteado modelos probabilísticos que han
contribuido al desarrollo de la ciencia. Veamos algunos de ellos:
DISCRETAS CONTINUAS
Distribución Binomial Distribución Normal
Distribución Poisson Distribución Normal Estandar
Distribución Geométrica Distribución t - Student
Distribución Hipergeometrica Distribución F - Senedector

141
PRINCIPALES CARACTERISTICAS DE UNA DISTRIBUCION DE PROBABILIDAD

Una distribución se caracteriza, en general, por medio de tres criterios:


a.- El valor central o medida de posición (la media, la mediana o la moda).
b.- Una cantidad que expresa el grado de dispersión (la desviación estándar).
c.- La forma de la curva, es decir la forma general de la distribución probabilística

142
LA DISTRIBUCIÓN NORMAL O GAUSSIANA

 La distribución normal, llamada también Curva de Gauss (en recuerdo al científico Karl
Gauss (1777 – 1855) que lo descubrió), es la distribución de probabilidad más importancia
en la Estadística y por ende del Cálculo de Probabilidades.

 Esta distribución de probabilidad es importante porque las variables aleatorias continuas


(peso, edad, talla, producción, gasto en publicidad, temperatura, ventas, PBI, ganancias,
etc.) que son variables que más se evalúan en una investigación científica o investigación
de mercados se aproximan a esta distribución de probabilidad.

 También es importante porque se utiliza como aproximación de las distribuciones discretas


tales como: la Binomial, la Poisson, etc.

 Se puede reconocer por su forma acampanada

143
CARACTERÍSTICAS

1. Tiene como parámetros a  y 

2. Su función de probabilidad está dada por:

2
1  X 
1  
2  
f ( x)  e ,    X  
2
3. El área total bajo la curva normal es igual a 1

4. El promedio  puede tomar valores entre – y + mientras que  > 0, entonces existen
infinitas curvas normales.

5. En la distribución normal, la mayoría de las probabilidades se centra en la zona central

6. Cada distribución normal es especificada por su media µ y su desviación estándar σ.

144
X ~ N (µ, σ2)

7. Esta función de probabilidad es asintótica con respecto al eje X, (a pesar de tener


recorrido infinito, la curva nunca toca el eje X); además es unimodal y es simétrica con
respecto a la media .

8. El área bajo esta función o curva es 1 ó 100%, de la misma manera se sabe que las
áreas comprendidas bajo la curva normal son :

1.    = 68.3%
2.   2 = 95.5%
3.   3 = 99%

- -3 -2 -1  1 2 3 +

LA DISTRIBUCIÓN NORMAL ESTÁNDAR


2
145 1  2z
f(Z  z)  N  0, 1  e    z  
2
1. Es una distribución Normal a la cual se le ha modificado la escala original; esta
modificación se ha logrado restando la media  al valor de la variable original y
dividiendo este resultado por , la nueva variable se denota por Z y recibe el nombre de
variable estandarizada
X
Z 

2. La modificación de la escala ha permitido elaborar una tabla para el cálculo de las


probabilidades; si esto no hubiera sido posible, sería necesario construir una tabla para
cada valor de  y .
1 2
1 z
f ( z) 
2
e
3. La función de densidad de la variable estandarizada es: 2

4. El promedio (valor esperado) y la varianza de Z son: E(Z) = 0 , V(Z) = 1

5. Notación:
Si X es v.a. continua distribuida normalmente con media  y varianza 2, la denotamos
por: X  N ( , 2).

146
Aplicando esta notación a la variable normal estandarizada Z, escribimos:
ZN (0, 1), esto se interpreta como, Z tiene distribución normal con media 0 y varianza
1.

6. La superficie bajo la curva normal Z estandarizada también es igual a 1. Por


consiguiente, las probabilidades pueden representarse como áreas bajo la curva normal
escandalizada entre dos valores.

7. Debido a que la distribución normal es simétrica muchas de las tablas disponibles


contienen solo probabilidades para valores positivos de Z.

USO DE TABLA: Si se conoce el comportamiento de una variable es decir se sabe que


tienen una distribución normal, para calcular las diferentes probabilidades se tiene que
estandarizar la variable. Una vez estandarizada la variable, recién utilizar la tabla de la
distribución normal estandarizada o tabla Z.
FORMULAS:
x a a
a. P( x  a)  P(  )  P( Z  )
  

x a a


b. P( x  a)  1  P( x  a)  1  P(  )  1  P( Z  )
  

b a
c. P ( a  x  b)  P ( x  b)  P ( x  a )  P ( Z  )  P( Z  )
 

EJERCICIOS:
1. Determinar la probabilidad de cada una de las siguientes expresiones:

147
a) P ( Z < 1.25 ) b) P ( Z< -2.28)
c) P (Z < 0 ) d) P ( 0 < Z < 2.5 )
e) P ( -2.38 < Z < 0 ) f) P ( - 2.25 < Z < 2.25 )
g) P (1.55 < Z < 2.35) h ) P ( Z > 2.43 )

2. En una población normalmente distribuida con media µ = 30 y variancia igual a 25 se


pregunta: ¿Qué porcentaje del total de las observaciones estarán entre 20 y 35?

3. Se sabe que el peso medio de la población de un grupo de estudiantes es igual a 60 Kg.,


y su desviación estándar es igual a 3 kg. ¿Halle la probabilidad de que el peso de un
alumno este entre 55 y 65 Kg?

4. El peso de los atletas de pruebas de medio fondo sigue una distribución normal con media
64,3 kilos y desviación típica 2,3 kilos. Hallar un intervalo centrado alrededor de la media
que contenga:
a) El 68,3% de la población.
b) El 95,5% de la población.
c) El 99,7% de la población

5. El rendimiento académico de los estudiantes de la UPN, tiene una distribución normal con
media igual a 16 y varianza igual a 4. Si se selecciona un estudiante de esta Universidad,
encuentre la probabilidad de que:
a. El rendimiento sea mayor que 16
b. El rendimiento sea menor que 14
c. El rendimiento este entre 14 y 18
d. El rendimiento este entre 15.5 y 16.5

148
6. Los salarios mensuales de los trabajadores de una empresa tiene un comportamiento
normal cuya media es S/. 2100 y una desviación estándar de S/. 450. Cuantos
trabajadores tienen salarios:
a. Menores de S/. 2150.
b. Menos de S/. 2200.
c. Mas de S/. 2180.
d. Entre 2080 y 2150 soles.
7. El tiempo de duración de los focos de alumbrado eléctrico producidos por una compañía
eléctrica tiene una distribución normal con una media de 1000 horas y una desviación
estándar de 750 horas. Determinar la probabilidad de que:
a. Un foco tomado al azar se queme antes de las 990 horas de funcionamiento
b. Un foco se que queme entre 980 y 1120 horas de funcionamiento.
c. Un foco dure más de 998 horas

8. NEUMA Perú, es una empresa que produce llantas para automóviles en nuestro país. La
vida útil de estas llantas se distribuye aproximadamente como una normal con media y
desviación estándar iguales a 32000 y 1000 millas respectivamente. Esta empresa quiere
exportar estas llantas por lo que empieza a hacer ciertos cálculos acerca de la calidad de
estas llantas, para lo cual se hace las siguientes preguntas:
a. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil
de 31900 millas.
b. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil
desde 31000 y 33000 millas.
c. Si la empresa fija una garantía de 30000 millas. ¿Qué porcentaje de esta producción
necesitará ser reemplazada?

9. El peso de los estudiantes de la escuela de Ing. Industrial de la UPN, tienen una


distribución normal que tiene una media de 60 Kgs. y una desviación estándar de 18 kgs.
Calcular la probabilidad de que un estudiante pese entre:
a. Entre 58 y 65 Kgs.

149
b. Menos de 71 Kgs.
c. Más de 69 Kgs.

10. El tiempo requerido para realizar una pregunta de examen es una variable aleatoria cuya
distribución es aproximadamente normal con media 12.9 minutos y una desviación
estándar de 2.0 minutos. ¿Cuáles son la probabilidades de que un alumno resuelva una
pregunta del examen en:
a. Al menos 11.5 minutos.
b. Entre 11.0 y 14.8 minutos.
c. A lo mas 12 minutos
d. Entre 10 y 13 minutos.

ACTIVIDAD DE AUTO EVALUACIÓN:

Antes de continuar con los últimos temas, es conveniente que te autoevalúes,


desarrollando las preguntas en forma individual. Luego coteja tus respuestas con la
teoría estudiada:

1. Supone que el administrador de un gran condominio de departamentos elabora los


estimados subjetivos de probabilidad sobre la cantidad de departamentos que
estarán vacíos el próximo mes:

Vacantes Probabilidad
0 0.05
1 0.15
2 0.35
3 0.25
4 0.10
5 0.10

150
Determina la probabilidad de cada uno de los siguientes sucesos:
a) No hay departamentos vacíos.
b) Cuando menos hay 4 departamentos vacíos.
c) Hay 2 o menos departamentos vacíos.

2. El gerente de una tienda de decoración vende de 0 a 4 jarrones de porcelana cada


semana. En base a su experiencia, se asigna probabilidades de vender los
jarrones: P(0) = 0.08, P(1) = 0.18, P(2) = 0.32, P(3) = 0.30, P(4) = 0.12.
a) ¿Son válidas estas asignaciones de probabilidad? ¿Por qué?
b) Sea A el evento en el cual se venden 2 o menos en una semana. Determina
P(A).
c) Sea B el evento en el cual se venden 4 o más en una semana. Determina P
(B).

3. CUADRO No 3: DISTRIBUCION DE ALUMNOS DE LA UCV SEGÚN EL NUMERO


DE ACTIVIDADES EXTRACURRICULARES QUE PARTICIPA.

NUMERO de Actividades 0 1 2 3 4 5
NUMERO de ALUMNOS 8 20 12 6 3 1
Fuente: Datos Hipotéticos

RESOLVER:
a) Sea A el evento en que un alumno participa al menos en una actividad.
Determina P(A).
b) Sea B el evento en que un alumno participa en 3 o más actividades. Determina
P(B).
c) ¿Cuál es la probabilidad de que un alumno participe exactamente en 2
actividades?

151
4. Durante el invierno en Huancayo, el Sr. Llajaruna tiene problemas para arrancar sus
dos automóviles La probabilidad que el primero arranque es 0.80 y la probabilidad que
el segundo arranque es 0.40, también hay una probabilidad de 0.30 de que arranquen
ambos:
a) Define los eventos que intervienen y emplea notación de probabilidades para
mostrar la información anterior.
b) ¿Cuál es la probabilidad que al menos un automóvil arranque?
c) ¿Cuál es la probabilidad de que el Sr. Llajaruna no pueda arrancar uno de los
dos automóviles?

5. Se ha ajustado el proceso de fabricación de un tornillo de precisión de manera que


la longitud promedio de los tornillos sea 13 cm. Por supuesto, no todos los tornillos
tienen un longitud exacta, debido a fuentes aleatorias de variabilidad que generan
una variación de 0.1 cm aprox. Si se sabe que la distribución de las longitudes tiene
una forma normal, determina la probabilidad de que un tornillo elegido al azar tenga
una longitud entre 13.2 y 13.4 cm.

6. Se sabe que el tiempo útil de un componente eléctrico tiene una distribución normal
con media 2000 horas y desviación estándar 200 horas.
a) Calcula la probabilidad de que un componente elegido al azar dure más de
1950 horas.
b) ¿A qué cantidad de horas corresponde el 10% superior de la duración de los
componentes?

7. El tiempo que se requiere para reparar cierto tipo de transmisión automotriz en un


taller mecánico tiene distribución normal con media 45 min. y desviación estándar 8
min. El gerente de servicio planea hacer que se inicie la reparación de la
transmisión de los automóviles de los clientes diez minutos después de que se
recibe el vehículo, y le dice al cliente que el automóvil estará listo en una hora.

A) ¿Cuál es la probabilidad de que el gerente esté equivocado?

152
B) ¿Qué asignación de tiempo de trabajo se requiere para que haya una
probabilidad del 75% de que la reparación de las transmisiones se lleve a
cabo dentro de ese tiempo?

REFERENCIAS BIBLIOGRÁFICAS:

1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.

2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.


Edit. PHH S. A. – México.

3. KAZMIER, Leonard y DÍAZ MATA, Alfredo, 1991. Estadística aplicada a la


Administración y Economía, Segunda Edición – Editorial Mc Graw Hill – México.

153
4. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para
Ingenieros – Edit. Prentice Hall Hispanoamericana S.A. – México.

5. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.

6. TRIOLA, Mario F., (2000). Estadística Elemental, Séptima Edición – Editorial


Addison Wesley Longman – México.

7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía.


3era edición – Edit. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.

154
NOCIONES DE ESTADISTICA
INFERENCIAL
155
Sesión 12
Nociones de Estadística Inferencial:
Prueba de Hipótesis
CAPACIDADES

6. Posee nociones sobre el procedimiento para probar hipótesis estadísticas.


7. Plantea hipótesis en sus investigaciones.
8. Realiza pruebas de hipótesis estadísticas paramétricas básicas: para una media, dos
medias, una proporción y dos proporciones poblacionales.
9. Realiza la prueba de hipótesis estadística: Ji cuadrada.

ACTITUDES
1. Valora la importancia que tiene el método estadístico para la contrastación de hipótesis
en la investigación científica.
2. Asume una actitud analítica al conocer y aplicar a su carrera profesional la docimasia
de hipótesis.

CONTENIDO

1. Nociones de Estadística Inferencial. Prueba de Hipótesis. Prueba de Hipótesis sobre


la Media y la Proporción Poblacional. Uso de la Tabla de la Distribución T Student.
2. Prueba de Hipótesis sobre Comparación de Medias y de Proporciones.
3. Prueba de Hipótesis sobre Relación entre Variables Cualitativas. Uso de la Tabla de
la Distribución Ji Cuadrada.

156
Inferencia
Estadistica
Distribuc.
Muestreo
Muestrales

Prueba de
Estimacion
Hipotesis

Una Dos
Puntual Intervalo
Poblacion poblaciones

µ p σ2 µ p σ2

157
ESTADISTICA INFERENCIAL

La inferencia estadística o estadística inferencial es una parte de la Estadística que


comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de
una población, a partir de una pequeña parte de la misma.

El objetivo de la estadística inferencial es obtener la información acerca de una población,


partiendo de la información que contiene una muestra. El proceso que se sigue para
seleccionar una muestra se denomina Muestreo.

Las ventajas que nos brinde el muestreo son:


- Los operativos son menores.
- Posibilita analizar un mayor número de variables.
- Permite controlar las variables en estudio.

ESTIMACION ESTADISTICA:
Es el conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una
población a partir de los datos proporcionados por una muestra.

 Por ejemplo, una estimación de la media de una determinada característica de una


población de tamaño N podría ser la media de esa misma característica para una
muestra de tamaño n
 La estimación se divide en tres grandes bloques, cada uno de los cuales tiene
distintos métodos que se usan en función de las características y propósitos del
estudio:
o Estimación puntual
o Estimación por intervalos.
o Estimación bayesiana.

158
Estimación Puntual: Consiste en la estimación del valor del parámetro mediante un sólo
valor, obtenido de una muestra. Por ejemplo, si se pretende estimar la talla media de un
determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación
puntual la talla media de los individuos.

Estimación por Intervalos


Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro
estimado con una cierta probabilidad. Para calcular la estimación por intervalo o Intervalo de
confianza (IC), en primer lugar se procede a:
 Seleccionar el nivel de confianza (grado de fiabilidad en el intervalo), 1-α y
α nivel de error.
 Un nivel de confianza del 95%, implica que 95% de todas las muestras incluye al
parámetro y solo un 5% de las muestras producirá un intervalo erróneo.
 Cuanto mayor es el nivel de confianza se estima que el valor del parámetro este
dentro del intervalo.

ESTIMACIÓN PARA LA MEDIA POBLACIONAL.

X  X-µ
Sabemos que: Z Pero también Ζ 
 σ
n
Como no conocemos el parámetro µ y lo queremos estimar por medio de la media de
la muestra, sólo se despejará µ de la formula anterior, quedando lo siguiente

σ
Para muestras mayores a 30
µ  X  Ζ 1-α/2
n
s
µ  X  t (n- 1;1- α/2)
Para muestras menores que 30
n

159
 Donde S la desviación estándar de la muestra y t es la distribución de la t de
Student con n – 1 grados de libertad y nivel de confianza igual a 1 - /2 .
 Para el caso de tamaños de muestra grande se puede utilizar una estimación
puntual de la desviación estándar, es decir igualar la desviación estándar de la
muestra a la de la población (s=  ).

El error de estimación de µ será la diferencia absoluta entre x y µ, es decir


despejando:


Error de estimación de µ
  µ - X  1-/2
n

Ejemplo:
1. Se encuentra que en una dieta la concentración promedio de vitaminas a partir de
una muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos
por mililitro. Suponga que la desviación estándar de la concentración de vitaminas
es 0.3.
a) Señale la estimación puntual para µ.
b) Encuentre el intervalo de confianza al 95% para la concentración media de
vitaminas en las dietas de dicho hospital.
c) Halle el error de estimación de µ para la pregunta b.
d) Encuentre el intervalo de confianza al 99% para la concentración media de
vitaminas en las dietas de dicho hospital.
e) Halle el error de estimación de µ para la pregunta d.

Solución:
a) La estimación puntual para µ es: X µ, es decir µ= 2.6 gr/ml

σ
b) IC para la media poblacional se calcula:
µ  X  Ζ 1- α/2
n

160
 0 .3 
µ  2.6  (1,96 )
 36 

Estimación de una Proporción


Una proporción es una razón de una parte con respecto a un todo y que generalmente
pertenecen a un experimento aleatorio de tipo binomial, es decir con solo dos posibles
respuestas.
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑞𝑢𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑐𝑖𝑒𝑟𝑡𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎
𝑝=
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝐸𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠

p
Sabemos que: Z 
pq
n

Como no conocemos el parámetro π y lo queremos estimar por medio de la proporción


de la muestra, sólo se despejará π de la formula anterior, quedando lo siguiente:

 pq 
   p  Z1 / 2 * 
 n 
𝑝𝑞
Error de estimación de π 𝜀 = 𝑝 − 𝜋 = 𝑍1−∝⁄2 ∗ √
𝑛

Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de


pruebas amplias para evaluar la función eléctrica de su producto. Todos los
reproductores de discos compactos deben pasar todas las pruebas antes de venderse.
Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una

161
o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
reproductores de discos compactos de la población que no pasan todas las pruebas.

Para la distribución Normal utilice la siguiente tabla:

Nivel de confianza   Z


2
90%   1.645
95%   1.96
99%   2.576

162
Ejemplo 1: En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de
2000 valores de la que resulta una media de 225 y una desviación típica de 10. Suponiendo
que la varianza muestral coincide con la poblacional, estimar un intervalo para la media de la
población con un nivel de confianza del 95%.
Tendríamos 1- =0.95 luego =0.05; S=10= (muestra grande n>30); n=2000, para una
población normal.
 
P( x  Z   u  x  Z )  0.95
2 n 2 n
el resultado sería : µ  [224,56 , 225,44] con el 95 % de confianza.

Ejemplo 2: Las ventas diarias de cierta oficina comercial se supone que siguen una
distribución normal. Para estimar el volumen medio de ventas por día se realiza una muestra
de 10 días escogidos al azar, resultando que la media de las ventas de esos 10 días es S/.
100 con una desviación típica de S/. 4. Dar un intervalo de estimación para el volumen medio
de ventas por día con una confianza del 95 %.

Conocemos que según la información que poseemos, estamos ante: Distribución


normal; n=10 (muestra pequeña); S=4(poblacional desconocida); media muestral=100;
Para 1- =0.95, luego  =0.05 con lo que t (9 gl )  2.26 (según tabla T)
2

S S
P( x  t   u  x  t )  0.95
2 n 2 n
El resultado sería: µ  [S/.96,99 ; S/.103,01] con el 95 % de confianza.

Ejemplo 3: Se quiere obtener un intervalo de confianza para el valor de las ventas medias
por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en
elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos
resultados fueron: ventas medias por hora S/. 4000, y varianza de dicha muestra S2/. 4000.
Obtener dicho intervalo con un nivel de confianza del 95.5 %.

163
Queremos construir un intervalo para la media con las siguientes características:

Tamaño muestral=n=1000, con muestreo aleatorio simple, la población no es normal ni


conocemos su varianza.
El resultado de la muestra es x  4000 , S2=4000.

Si bien se trata de un intervalo para la media con varianza desconocida y población no


normal, dado que el tamaño muestral es grande podemos suponer normalidad y tomar como
varianza poblacional a la muestral así:
 
P( x  z   u  x  z )  0.95
2 n 2 n
El resultado sería: µ  [S/.399,08 ; S/.4003,92] con el 95 % de confianza.

EJERCICIOS

Una media:
1. Una máquina llena un determinado producto en bolsas cuyo peso medio es μ gramos.
Suponga que la población de los pesos es normal con desviación estándar 20 gramos.
Estime μ mediante un intervalo de confianza del 95%, si una muestra aleatoria de 36
bolsas ha dado una media de 495 gramos

2. Se decide estimar la media μ del nivel de ansiedad de todos los estudiantes


preuniversitarios. Se supone que la población de los puntajes de la prueba para medir la
ansiedad se distribuye normalmente con desviación están dar igual a 10 puntos.

3. Determinar el intervalo para μ con confianza del 95%, si una muestra aleatoria de
tamaño 100 ha dado una media de 70 puntos.

164
4. El tiempo en, minutos que utilizan los clientes en sus distintas operaciones en un banco
local es una variable aleatoria cuya distribución se supone normal con una desviación
estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes
del banco resultando una media igual a 9 minutos:
a. Hallar el nivel de confianza si la estimación de μ es el intervalo de 7 a 11 minutos.
b. Calcular la probabilidad de que la media de los tiempos de todas las muestras de
tamaño 9 esté entre 6.5 y 11.5 minutos.

1. Un fabricante afirma que el peso promedio de las latas de fruta en conserva que saca al
mercado es 19 onzas. Para verificar esta afirmación se escogen al azar 20 latas de la
fruta y se encuentra que el peso promedio es 18.5 onzas Suponga que la población de
los pesos es normal con una desviación estándar de 2 onzas.
a. Utilizando un intervalo de confianza del 98% para μ, ¿se puede aceptar la
afirmación del fabricante?
b. ¿Qué tamaño de muestra se debe escoger para estimar μ si se quiere un error no
superior a 0.98 onzas con confianza del 95%?

2. Se quiere hacer una encuesta para estimar el tiempo promedio por semana que los
niños ven televisión. Por estudios anteriores se sabe que la desviación estándar de
dicho tiempo es de 3 horas. Con el nivel de confianza del 99%.
a. ¿Qué tamaño de muestra se debería elegir si el error de la estimación puntual no
es superior a media hora?

3. Un fabricante produce focos cuya duración tiene distribución normal. Si una muestra
aleatoria de 9 focos da las siguientes vidas útiles en horas:
775, 780, 800, 795, 790, 785, 795, 780, 810
a. Estimar la duración media de todos los focos del -fabricante mediante un intervalo
de confianza del 95%.
b. Si la media poblacional se estima en 790 horas con una confianza del 98%,
¿cuánto es el error máximo de la estimación si se quiere una confianza del 98%?

165
4. El ingreso mensual de cada una de las 500 microempresas de servicios de una ciudad,
es una variable aleatoria con media μ desconocida. Con el fin de simplificar la
recaudación de impuestos, la Sunat ha dispuesto que a estas empresas se las grave
mensualmente con un 10% de sus ingresos. De una muestra al azar de 50
microempresas se obtuvo un ingreso mensual promedio de $1000 con una desviación
están dar de $80.
a. Estime el monto medio de los ingresos de las microempresas de la ciudad con un
intervalo de confianza del 95%
b. Estime el monto promedio de la recaudación a estas microempresas con un
intervalo de confianza del 95%
c. Si el propósito de la SUNAT es lograr mensualmente una recaudación total de al
menos $52,000 a estas microempresas, ¿es factible que se cumplan sus metas?,
¿por qué?

Una proporción:
5. En un estudio socioeconómico se tomó una muestra aleatoria de 100 comerciantes
informales y se encontró entre otros datos los siguientes: un ingreso medio de $600,
una desviación estándar de $50 y sólo el 30% tienen ingresos superiores a $800.
a. Estimar la proporción de todos los comerciantes con ingresos superiores a $800,
mediante un intervalo de confianza del 98%.
b. Si la proporción de todos los comerciantes con ingresos superiores a $800 se
estima entre 20.06% y 39.94% ¿qué grado de confianza se utilizó?

6. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor.
a. Estimar la proporción de menores de 16 años que consumen licor en toda la
población mediante un intervalo de confianza del 99%.

7. Un fabricante estima en 5% la proporción de piezas defectuosos de los 5,000


producidos. Para confirmar tal estimación primero se debe escoger una muestra
aleatoria,

166
a. ¿cuántas piezas debe tener la muestra si se quiere tener una confianza del 95%
que el error de la estimación no será superior a 0.047?
b. Se escoge una muestra aleatoria del tamaño calculado en a), si en ella se
encuentran 40 piezas defectuosos, mediante un intervalo de confianza del 95%,
¿se puede inferir que la estimación del fabricante es coherente con la
estimación efectuada a partir de la muestra aleatoria?

8. La oficina de planificación familiar de cierta provincia quiere estimar el porcentaje de


familias con más de 4 hijos.
a. ¿Qué tamaño de muestra se requiere para asegurar con una confianza del 95%
que el error de la estimación de tal porcentaje no sea superior a 0.05?
b. Si en una muestra aleatoria de 385 familias se encuentra que 154 de ellas tienen
más de 4 hijos. Estime el porcentaje de familias con más de 4 hijos en toda la
provincia, mediante un intervalo de confianza del 98%.

9. Para estimar el porcentaje de todos los electores a favor de un candidato, una


encuestadora debe determinar el tamaño" de la muestra aleatoria para escoger de una
población de 10,000 electores, ¿qué tan grande debería ser la muestra si se quiere
tener una confianza del 95% que el error de estimación no sea superior al4.8%?

10. Se probó una muestra aleatoria de 400 cinescopios de televisor y se encontraron 40


defectuosos. Estime el intervalo que contiene, con un coeficiente de confianza de 0.90,
a la verdadera fracción de elementos defectuosos.

167
168
PRUEBA DE HIPOTESIS

las hipótesis que formulamos lo serán lógicamente sobre la población. Bien afectando a
algún parámetro de ésta, lo que da origen a los contrastes paramétricos o bien a otras
características de la mismas que no lo sean estrictamente, lo que origina contrates "no"
paramétricos.La solución estadística del problema de contrastación se basará en los datos
muestrales y la base estadística (probabilística) de la que arrancará el contraste, de algún
estadístico muestral.

CONCEPTOS BÁSICOS
a) Hipótesis: Es una respuesta a priori a un problema. Es una conjetura sobre el valor
concreto que tiene en realidad

b) Hipótesis Estadística: Llamamos hipótesis estadística a una suposición que se hace


respecto a un parámetro poblacional. Las hipótesis estadísticas comprenden:

a. Hipótesis Alternativa: Es la cuantificación de la hipótesis científica; es la que


nos interesa probar. Se denota por Ha.

b. Hipótesis Nula: Es la hipótesis que se desea contrastar. Es el supuesto


contrario de la hipótesis alternativa. Se denota por Ho. Esta hipótesis se
formula con el solo propósito de rechazarla o anularla, motivo por el cual,
recibe el nombre de hipótesis nula.

c) Estadístico De Prueba: Es un valor, determinado a partir de la información


muestral, que se utiliza para aceptar o rechazar la hipótesis nula.

d) Nivel de Significación: Después de plantear la hipótesis nula y la alternativa, el


siguiente paso es definir el nivel de significación. Este es la probabilidad de rechazar
la hipótesis nula cuando en realidad es verdadera.

169
Decisión posible Ho Verdadera Ho Falsa

DECISIÓN CORRECTA ERROR TIPO II

=(1- β
Aceptar Ho
“Nivel de Confianza” o “Evidencia
Estadística”
ERROR TIPO I DECISIÓN CORRECTA
Rechazar Ho α (1-
“Poder Estadístico”

 Si la hipótesis nula (H0) es cierta y nuestra decisión es no rechazarla, la decisión ha


sido correcta.
 Si la hipótesis nula (H0) es cierta y nuestra decisión es rechazarla, la decisión provoca
un error. Dicho error se denomina error tipo I.
 Si la hipótesis nula (H0) es falsa y nuestra decisión es no rechazarla, la decisión
provoca un error. Dicho error se denomina error tipo II.
 Si la hipótesis nula (H0) es falsa y nuestra decisión es rechazarla, la decisión ha sido
correcta.

Pasos a Seguir para Realizar una Prueba de Hipótesis


1º Plantear la hipótesis estadística Ho y Ha.
2º Fijar el nivel de significancia α.
3º Elegir la distribución de probabilidad. Z o t
4º Establecer las regiones de aceptación y rechazo de la hipótesis nula.
5º Encontrar el valor experimental. Reemplazando los valores muestrales obtenidos
en la distribución propuesta en el punto número 3.
6º Observar si el valor experimental pertenecen a la RA/RR de Ho y decidir si se
acepta o no la hipótesis nula.
7º Concluir.

170
Estadísticos de Prueba: (z o t)

Estadísticos de Prueba para la Media de una Población

Caso I: Para muestra grande (n≥30) y cuando te dan la varianza poblacional.


̅ − 𝛍𝟎
𝑿 𝝈
𝒛= 𝒅𝒐𝒏𝒅𝒆 𝝈𝑿̅ =
𝝈𝑿̅ √𝒏

̅ −𝛍𝟎
𝑿
Caso II: Para muestra pequeña (n<30): 𝒕= 𝐬
√𝒏

Estadísticos de Prueba para la Proporción de una Población


Sea p la proporción muestral y p0 la proporción poblacional.
𝒑 − 𝒑𝟎
𝒛=
𝒑 𝟎 𝒒𝟎

𝒏

Estadísticos de Prueba para la Media de Dos Poblaciones

Caso I: Muestras Grandes


Para muestra grande (n≥30) y cuando te dan las varianzas poblacionales:
̅𝟏 − 𝑿
(𝑿 ̅ 𝟐)
𝒛𝒄 =
𝝈𝟐 𝝈𝟐
√ 𝟏+ 𝟐
𝒏𝟏 𝒏𝟐

O con las varianzas muestrales como estimadores de las varianzas poblacionales:

171
̅𝟏 − 𝑿
(𝑿 ̅ 𝟐)
𝒛𝒄 =
𝒔𝟐 𝒔𝟐
√ 𝟏+ 𝟐
𝒏𝟏 𝒏𝟐

Caso II: Muestras Pequeñas


Para muestras pequeñas (n<30) y varianzas poblacionales desconocidas:

̅𝟏 − 𝑿
𝑿 ̅𝟐 𝒏𝟏 𝒏𝟐 (𝒏𝟏 + 𝒏𝟐 − 𝟐)
𝒕𝒄 = √ → 𝒕𝒏𝟏+𝒏𝟐 −𝟐
𝒏 𝟏 + 𝒏 𝟐
√(𝒏𝟏 − 𝟏)𝑺𝟐𝟏 + (𝒏𝟐 − 𝟏)𝑺𝟐𝟐

Caso III: t-Student


Cuando se supone que las varianzas poblacionales son iguales (muestras homogéneas):

̅𝟏 − 𝑿
(𝑿 ̅ 𝟐 ) − (𝝁𝟏 − 𝝁𝟐 ) (𝒏𝟏 − 𝟏)𝒔𝟐𝟏 + (𝒏𝟐 − 𝟏)𝒔𝟐𝟐
𝒕𝒄 = → 𝒕𝒏𝟏 +𝒏𝟐 −𝟐 𝒅𝒐𝒏𝒅𝒆 𝐒𝐩𝟐 =
𝟏 𝟏 𝒏𝟏 + 𝒏𝟐 − 𝟐
√𝐒𝐩𝟐 (𝒏 + 𝒏 )
𝟏 𝟐

Caso IV: t-Student-Welch


Cuando se supone que las varianzas poblacionales son diferentes (muestras heterogéneas):
2
𝑠21 𝑠22
(𝑋̅1 −𝑋̅2 ) [ + ]
𝑛1 𝑛2
𝑡𝑐 = → 𝒕𝒈𝒍 donde 𝑔𝑙 = 2 2
𝑠2 𝑠2
𝑠2 𝑠2 1
[ ] [ ]2
√ 1+ 2 𝑛1 𝑛2
𝑛1 𝑛2 +
𝑛1 −1 𝑛2 −1

Caso V: Diferencia Pareada


Cuando se obtienen dos mediciones repetidas de un mismo artículo o sujeto. En
consecuencia se trabajara con la diferencia de este par de datos

172
̅ √𝒏
𝑫
𝑻𝒄 = → 𝒕𝐧−𝟏
𝑺𝑫

Estadísticos de Prueba para Diferencia de Proporciones

𝒑𝟏 − 𝒑𝟐 𝒙𝟏 + 𝒙𝟐
𝒛= , 𝒄𝒐𝒏 𝒑 = 𝒚 𝒒 = (𝟏 − 𝒑)
𝟏 𝟏 𝒏𝟏 + 𝒏𝟐
√𝒑𝒒 [ + ]
𝒏𝟏 𝒏𝟐

Regiones de Aceptación y Rechazo de la Hipótesis Nula

173
EJERCICIOS
1. Al estudiar si conviene tener o no una sucursal en la ciudad de Trujillo, la gerencia
de una gran tienda comercial de Lima, establece el siguiente criterio para tomar una
decisión: Abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha
ciudad es no menos de $ 500 y no abrirla en caso contrario. Si una muestra
aleatoria de 100 ingresos familiares de esa ciudad ha dado una media de $ 480.
¿Cuál es la decisión a tomar al nivel de significancia del5%?, Se sabe que la
distribución de los ingresos tiene una desviación estándar poblacional es igual a $
80.

2. El gerente de ventas de una compañía afirma que sus vendedores venden


semanalmente en promedio $ 1500. Al nivel de significación del 1% pruebe la
hipótesis del gerente versus la hipótesis del presidente de los vendedores que
afirma que el promedio de las ventas semanales es mayor, si una muestra de 36
vendedores ha dado una media igual a $ 1510. se sabe que la varianza semanal es
de $ 900.

3. En un estudio de control de calidad de automóviles, se considera un parámetro de


evaluación si arranca en menos de 3 minutos. Para lo cual se ha tomado 10 autos
de la misma marca para estudiar el tiempo de arranque encontrándose los
siguientes resultados (en segundos): 2.84, 2.86, 3.06, 2.94, 2.94, 2.82, 3.02, 3.14
,3.42, 3.16. Probar si los automóviles cumplen con este parámetro de calidad.
Verificar Ho: μ = 3 frente a H1: μ < 3, utilizando α =0.05 ¿A qué conclusión llegaría
usted?

4. Según Roper Starch, el 62% de las Mujeres en el grupo de 40 a 49 años de edad


ahorra en una cuenta individual para el retiro. Si quisiéramos poner a prueba si este
porcentaje es igual para las mujeres de este grupo de edad que viven en Nueva
York y seleccionáramos una muestra aleatoria de 300 neoyorquinas con estas
condiciones y 195 de ellas ahorra en una cuenta individual, ¿Cuáles serían las
hipótesis nula y alternativa? ¿La prueba seria de z o t? ¿Por qué?

174
5. Se ha dicho que no más de 5% de las unidades que salen de una línea de montaje
están defectuosas, Formule una hipótesis nula y una alternativa para esta situación.
¿La prueba será de una o dos colas? ¿Por qué?. Si la prueba es de una cola,
¿Sera de cola izquierda o de cola derecha? ¿Por qué?

6. Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74
por ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto,
el banco desarrollará un paquete especial de servicios para este grupo. La
administración quiere determinar si el porcentaje verdadero es mayor del 60 por
ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los
resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron
ingresos de $200,000 o más al año.

7. Un muestreo aleatorio de 24 artículos en un supermercado presenta una diferencia


entre el valor marcado del artículo y el valor real de éste. La media y la desviación
estándar de las diferencias entre el precio marcado y el real en los 24 artículos son
$37.14 y $6.42 respectivamente. Con un nivel de significancia de 0.05 pruebe que
la diferencia media entre el valor marcado y el real por artículo en ese
supermercado no es mayor de $40.0.

8. Un fabricante de cereales afirma que el peso promedio de cada caja de cereal es


de 500 gramos. ¿Los datos que a continuación se le dan apoyan la afirmación del
fabricante? Pruebe con  = .10.

506, 508, 499, 503, 504, 510, 497, 512,


514, 505, 493, 496, 506, 502, 509, 496

9. Para determinar el rendimiento anual de ciertos valores, un grupo de


inversionistas tomó una muestra de n =10 de esta clase de valores. La media y

desviación estándar resultaron:  X = 8.71% y S = 2.1%. ¿Existe evidencia para


decir que el verdadero rendimiento anual promedio es igual o mayor 8.5%? con 
=0.10.

175
10. El presidente del PRI en 1988, basado en su experiencia, sostiene que un 95% de
los votos para las elecciones presidenciales han sido a favor de su partido. Los
partidos de oposición levantaron una muestra de 1100 electores y encontraron que
un 87% de ellos votaría por el PRI. El presidente del PRI quiere probar la hipótesis,
con un nivel de significación de 0.05, que el 95% de los votos son para su partido.

11. Se afirma que, de todas las familias que salen de Cumana por lo menos el 30 % se
mudan a Maracaibo. Si una muestra de 600 mudanzas tomada al azar de los
registros de la Alcaldía de Cumana revela que de los permisos de mudanza
autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30 contra la
hipótesis alternativa p < 30 con un nivel de significancia del 1 %.

12. Un fabricante de semiconductores produce controladores que se emplean en el


sistema eléctrico de vehículos. El cliente requiere que la proporción de
controladores defectuosos no sea mayor de 0.05, y que el fabricante demuestre
estas características del proceso de fabricación con este nivel de calidad, con un
nivel de significancia del 5 %. El fabricante de semiconductores toma una muestra
aleatoria de 200 dispositivos y encuentra que 4 de ellos son defectuosos. ¿El
fabricante puede demostrar al cliente la calidad exigida? Saque sus conclusiones.

13. Se sabe que el 10 % de los fumadores prefieren la marca de cigarrillo Malboro.


Después de una campaña publicitaria del cigarrillo Malboro, se entrevistaron a 200
fumadores para determinar la eficiencia de la campaña publicitaria. El resultado de
la muestra realizada detecto un total de 26 personas que fumaban Malboro.
¿Pueden considerarse que esos datos presentan evidencia suficiente para indicar
que hubo un aumento en la aceptación del cigarrillo Malboro. Obtenga las
conclusiones del planteamiento desarrollando un contraste de hipótesis con un
nivel de significancia del 5 %.

14.

176
15. Probemos la hipótesis de que el porcentaje de microempresas cuyos patrones son
hombres captado por la ENAMIN es distinto de 88%.

SEXO DEL PATRON

Valid Cumulative
Frequency Percent Percent Percent
Valid Hombre 1634 83.9 83.9 83.9
Mujer 314 16.1 16.1 100.0
Total 1948 100.0 100.0

16. La administración de las tiendas Oxxo cree, sobre la base de una investigación,
que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes
(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo.

La información proporcionada es:

nH  45 nM  71
PH  0.58 PM  0.42
PH  PM  0.58  0.42  0.16

17. Un fabricante está por decidir entre continuar con el método actual o usar un nuevo
método de montaje de un producto. Cambiará el método actual si, hay prueba que
evidencia que el nuevo método usa menos tiempo. A fin de tomar una decisión, se
seleccionó una muestra aleatoria de 10 operarios expertos y se registro el tiempo
de montajes, en minutos, que utilizó cada operario con ambos métodos. Los datos
se resumen en la siguientes tabla:

Operador 1 2 3 4 5 6 7 8 9 10
M. Actual 7 8 10 12 13 13 14 14 15 16
M. Nuevo 6 9 7 11 10 11 15 12 13 12
Diferencia 1 -1 3 1 3 2 -1 2 2 4

177
¿Con los resultados de esta muestra y al 5% de significancia. ¿Cree usted que el
fabricante cambiará el método de montaje del producto??

18. El inversionista desea comparar los riesgos asociados con dos diferentes
mercados, A y B. El riesgo de un mercado dado se mide por la variación en los
cambios diarios de precios. El inversionista piensa que el riesgo asociado con el
mercado B es mayor que el del mercado A. Se obtienen muestras aleatorias de 31
cambios de precio diario de A y de 36 para el mercado B. Se obtienen los
siguientes resultados.

Medidas Estadísticas Mercado A Mercado B


Promedio muestral 0.3 0.4
Desviación muestral 0.25 0.45

a) Si se supone que las muestras provienen de dos poblaciones normales e


independientes a un nivel de significancia del 5% ¿encuentre apoyo la creencia del
inversionista?
b) Si la varianza de A es la dada ¿cuál es el máximo valor de la varianza muestral
de B con base en que no llevará el rechazo de la hipótesis nula del primer inciso?

19. Yahoo Internet Life patrocinó encuestas en varias áreas metropolitanas para
estimar la proporción de adultos que usan internet en el trabajo (USA Today, 7 de
Mayo 2007). En los resultados se encontró que 40% de los adultos de Washington,
utilizan internet en el trabajo, en tanto que el 32 % de los adultos de San Francisco
utilizan internet en el trabajo. Si las muestras son de 240 y 250, respectivamente,
¿los resultados muestrales indican que la proporción de adultos que usan internet
en el trabajo en Washington es mayor que la proporción de San Francisco? Con
α=0,05.

178
20. Un supervisor de calidad va a comparar las cantidades de artículos defectuosos
que procesan dos líneas de producción A y B. El escogió dos muestras aleatorias
independientes, una de 50 de A y la otra de 60 de B, observando 8 y 6 artículos
defectuosos respectivamente. ¿Existe alguna evidencia que indique que una de las
líneas produce una mayor proporción de artículos defectuosos?

En Ciencias de la Salud

1. El doctor Jeffrey M. Barrett de Lakeland, en el estado de Florida, Estados Unidos,


reportó los datos correspondientes a 8 casos de prolapso del cordón umbilical Las
edades de las madres eran de 25, 28, 17, 26, 27, 22, 25 y 30 años. Se pretende
saber si es posible concluir que la media de la población de la que se supone fue
extraída la muestra es mayor a 20 años. Sea α=01.

2. Se hizo un estudio de una muestra de 25 expedientes de enfermos crónicos


atendidos como pacientes externos. El número medio de consultas por paciente fue
de 4.8 y la desviación estándar de la muestra fue de 2. ¿Es posible concluir a partir
de estos datos que la media de la población es mayor que cuatro visitas por
paciente? Suponga que la probabilidad de cometer un error de tipo I es de .05.
¿Cuáles son los supuestos que se deben cumplir?

3. En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio


inmunológico, una variable de interés fue la prueba del' diámetro de reacción de la
piel a un antígeno. La media de la muestra y la desviación estándar poblacional
fueron eritema de 21 y 11 mm, respectivamente. ¿Es posible concluir a partir de
estos datos que la media de la población es menor que 30? Sea α =0.05.

179
4. Nueve animales de laboratorio fueron infectados con cierta bacteria y luego
inmunosuprimidos. El número medio de organismos aislados posteriormente de los
tejidos de dichos animales fue de 6.5 (datos codificados) con una desviación
estándar de 0.6 ¿Es posible concluir a partir de estos datos que la media de la
población es mayor que 6? Sea α = 0.05. ¿Qué supuestos se deben cumplir?

5. Se desea saber si es posible concluir que el consumo medio diario de calorías de la


población rural de un país en desarrollo es de menos de 2000. Una muestra de 500
individuos produjo un consumo medio de 1985. Se sabe que la desviación
estándar poblacional es de 210. Sea α = 0.05.

6. Una encuesta de 100 hospitales de tamaño similar reveló un censo medio diario en
el servicio de pediatría de 27 con una desviación estándar de 6.5. ¿Proporcionan
estos datos suficiente evidencia para indicar que la media de la población es mayor
que 25? Sea α =0.05.

7. Una muestra aleatoria de 20 profesores universitarios aparentemente sanos


proporcionó los siguientes valores de capacidad respiratoria máxima. ¿Es posible
concluir que la media máxima de respiración no es de 110 litros por minuto?

132, 33, 91, 108, 67, 169, 54, 203, 190, 133, 96,30, 187, 21,63, 166,84, 110, 157,
138

Sea α = 0.01. ¿Qué supuestos se deben cumplir?

8. En un estudio diseñado para comparar un nuevo tratamiento para la migraña con el


tratamiento estándar, 78 de los 100 individuos que recibieron el tratamiento
estándar, respondieron favorablemente; de los 100 individuos que recibieron el
nuevo tratamiento, 90 de ellos respondieron satisfactoriamente. ¿Proporcionan
estos datos evidencia suficiente que indique que el nuevo tratamiento es más
efectivo que el estándar?

180
9. Para analizar la obesidad se obtuvieron los siguientes resultados a partir de una
muestra de hombres y otra de mujeres, entre las edades de 20 a 75 años:

SEXO N Personas con sobrepeso


MASCULINO 150 21
FEMENINO 200 48
¿Es posible concluir a partir de estos datos que en las poblaciones muestreadas
existe diferencia en las proporciones de individuos con sobrepeso?

10. Un investigador de enfermería desea saber si los graduados de los programas de


enfermería a nivel bachillerato y los graduados de programas asociados de
enfermería difieren en cuanto a las calificaciones medias obtenidas en un estudio
de personalidad. Una muestra de 50 graduados de programas asociados (grupo A)
y uña maestra de 60 graduados de bachillerato (grupo B) proporcionaron las
siguientes medias y desviaciones estándar:

Muestra Media S

A 52.5 10.5

B 49.6 11.2

Con base en estos datos, ¿qué puede concluir e! investigador? Sea α = .05.

11. Una prueba diseñada para medir las actitudes de las madres en cuánto al trabajo
de parto y el periodo de expulsión se aplicó a dos grupos de madres primerizas. La
muestra 1 (asistentes) acudieron a clases de instrucción prenatal impartidas en el
departamento de salud. La muestra 2 (ausentes) no asistieron a clases. El tamaño
de las muestras, medias y desviaciones estándar de las calificaciones para las
pruebas son las siguientes:

Muestra n Media s
1.0
1 15 4.75

2 22 3.00 1.5

181
¿Proporcionan estos datos la evidencia suficiente para indicar que las asistentes,
en promedio, tienen calificaciones más que las ausentes? Sea α= .05.

12. Varios investigadores desean saber si es posible concluir que dos poblaciones de
niños difieren respecto a la edad promedio en la cual pueden caminar por sí solos.
Los investigadores Obtuvieron los siguientes datos (edades en meses).

Muestra de la población A: 9.5, 10.5, 9.0,-9:75,10.0, 13.0, 10.0, 13.5, 10.0, 9.5,
10.0, 9.75

Muestra de la población B: 12.5, 9.5, 13.5, 13.75, 12.0, 13.75, 12.5, 9.5, 12.0,
13.5, 12.0, 12.0

13. Babaian y Camps afirman que el antígeno específico prostático (A£P), encontrado
en las células, ductales epiteliales de la próstata, es específico para el tejido
prostático y es detectable en el suero de hombres con próstata normal y en
hombres con enfermedades benignas ó malignas de esta glándula. Los
investigadores determinaron los valores de AEP en una muestra de 124 hombres
que se sometieron á una biopsia de la próstata. Sesenta y siete hombres tenían
concentraciones elevadas de AEP (>4 ng/ml); de estos, a 46 se les diagnosticó
cáncer. Diez de los 57 hombres con valores de AEP ≤ 4 ng/ml tenían cáncer. Con
base en estos datos, ¿es posible concluir que, en general, los hombres con valores
elevados de AEP tienen mayor probabilidad de tener cáncer de próstata? Sea α
=0.01.

14. La mayoría de las personas que dejan de filmar, se quejan de que al hacerlo
suben de peso. Hall y otros investigadores diseñaron una nueva técnica para
prevenir que la gente suba de peso, la cual compararon contra otras condiciones
que incluían una condición control de tratamiento estándar ideada para representar
la atención estándar del sobrepeso inducido por dejar de fumar. Una de las
hipótesis de los investigadores era que las tasas de abstinencia de tabaco serían
mayores con la nueva técnica que las registradas en las otras dos condiciones. De
53 individuos asignados a la nueva condición, 11 dejaron de fumar al final de 52

182
semanas; diecinueve de los 54 individuos asignados a la condición de control se
abstuvieron hasta el final del mismo periodo. ¿Ofrecen estos datos suficiente
evidencia para apoyar, con un nivel de significación de 0.05, la hipótesis de los
investigadores?

15. En un estudio para comparar los pesos promedios de niños y niñas de sexto grado
en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25
niñas. Se sabe que tanto para niños como para niñas los pesos siguen
una distribución normal. El promedio de los pesos de todos los niños de sexto
grado de esa escuela es de 100 libras y su desviación estándar es de
14.142 libras, mientras que el promedio de los pesos de todas las niñas de
sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247
libras. ¿El promedio de los pesos de los niños será más grande que el de las
niñas?

En Ingeniería
1. Se sabe que la duración en horas, de un foco de 75 watts tiene una distribución
aproximadamente normal, con una desviación estándar de 25 horas. Se toma una
muestra aleatoria de 20 focos, la cual resulta tener una duración promedio de x =
1014 horas.

¿Se tiene evidencia estadística para decir que la duración promedio de todos los
focos de 75 watts es de 51 horas? Pruebe con un nivel de significancia de 0.05.

2. Un ingeniero civil analiza la resistencia a la comprensión del concreto. La


resistencia esta distribuida aproximadamente de manera normal, con una varianza
= 1000(psi)2. Al tomar una muestra aleatoria de 12 especímenes, se tiene que x =
3250 psi.

Pruebe Ho

183
3. Después del mantenimiento y la calibración, una máquina para extrusión produce
tubos de aluminio con una media de diámetro exterior de 2.500 pulgadas y una
desviación estándar de 0.027 pulgadas. Cuando la máquina funciona durante un
gran número de tumos de trabajo. La desviación estándar no se altera, pero la
combinación de desechos acumulados y el desgaste mecánico provoca que la
media del diámetro "se aleje" de las 2.500 pulgadas deseadas. En una muestra
aleatoria reciente de 34 tubos, la media del diámetro fue de 2.509 pulgadas. Con
un nivel de significancia de 0.01, ¿La máquina parece requerir de mantenimiento y
calibración? Determine e interprete el valor de p para la prueba.

4. Un fabricante de equipos electrónicos encontró que media del tiempo que


necesitan los novatos para armar su nuevo probador de circuitos es de 3 horas, con
una desviación estándar de 0.20 horas. Un consultor desarrolló un nuevo
instructivo con el fin de reducir el tiempo que necesita un armador inexperto para
montar el dispositivo. En una prueba sobre la eficacia del nuevo instructivo, 15
novatos requirieron una media de 2.90 horas para completar el trabajo. Suponiendo
que la población de tiempos tiene una distribución normal, y utilizando un nivel de
significancia de 0.05. ¿debemos concluir que el nuevo folleto es eficaz? Determine
e interprete el valor de p para la prueba.

5. En un estudio hecho para determinar el tiempo medio necesario para el montaje de


cierta pieza de una maquina, 40 trabajadores hicieron un promedio de 42.5 minutos
con una desviación típica de 3.8 minutos:

¿Los datos arrojan evidencia para decir que el tiempo promedio de montaje de
cierta pieza es mayor de 44 minutos? Utilice  = .02.

6. Se encuentra que la concentración promedio de zinc que se saca del agua a partir
de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por
mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe
suficiente evidencia estadística para decir que la concentración promedio de zinc es
menor de 2.9 gramos por mililitro? Utilice  = .05.

184
7. Se encuentra que la concentración promedio de zinc que se saca del agua a partir
de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por
mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe
suficiente evidencia estadística para decir que la concentración promedio de zinc es
menor de 2.9 gramos por mililitro? Utilice  = .02.

8. En un experimento de laboratorio 50 estudiantes de ingeniería midieron por


separado el calor especifico del aluminio, obteniendo una media de 0.2210
calorías por grados centígrado y por gramo y una desviación estándar de .0240
¿Los datos arrojan evidencia suficiente para decir Ho :  = .2300? .Utilice un nivel
de significancia de 0.05.

9. Una muestra aleatoria simple de 50 artículos originó una media de muestra de 32 y


una desviación estándar muestral de 6. Con un nivel de significancia 0.10 Podemos
decir que la media de la población es 34?.

10. Una compañía controla su proceso de producción en tal forma, que se pone en
bolsitas un promedio de 20 grs. de un producto químico. El proceso se detendrá
cuando el promedio no es de 20 grs. Se tomó una -muestra; aleatoria de 16
observaciones y el promedio muestra! resultó ser 19 grs. ¿Debe pararse el proceso
y ajustarse? La desviación estándar poblacional es dé 2 grs. Y el nivel de
significancia escogido es de 5%.

11. Un fabricante requiere fibra de algodón con una resistencia, media a la tensión de
6,50 onzas y o = 0.25. Investigó un nuevo lote de fibras mediante una muestra de
16 piezas y encontró x = 6,65 onzas. Existe evidencia de que este lote es de
resistencia mayor a la requerida?

12. Las cajas de avena llenadas por un proceso automático deben -tener un contenido
de 160 gramos en promedio. Si no es así debe detenerse la producción para
regular la máquina. Para el control se obtuvo el peso en gramos Xi de 10 cajas
seleccionadas al azar de esa producción y resultaron las siguientes sumas: Ʃxi =

185
1580, Ʃxi2 = 249658; al nivel de significancia de 0.01 ¿es razonable detener la
producción?

13. Una compañía afirma que la resistencia a la rotura de sus maletas plásticas es de
un promedio mayor a las 300 lluras. Se toma una muestra aleatoria de 9 maletines
se encuentra que el promedio de resistencia a la-rotura es:

280, 290, 292, 300,305, 295, 290, 310, 305.


Verificar la afirmación de la compañía. Suponga que sus resistencias a la rotura
están normalmente distribuidas α=0.05

14. La empresa productora de cereales embasados para consumo directo " ENERGÍA"
a lanzado al mercado su nuevo producto "CRECIENDO FUERTE el cual tiene
como especificaciones un peso promedio neto de 1 kilogramo. Si un agente del
gobierno toma una muestra representativa de 8 unidades y los pesos netos fueron
los siguientes: 0.995, 0.974, 0.966, 0.9.35, 0.999, 1.06, 1.01 y 0.983 kilogramos.
Con una significación del 5% ¿Podría el agente ordenar se multe a la empresa
productora?

15. El productor de cierta marca de baterías para .cámara, fotográfica dice que su
producción tiene vida media de más de 750. minutos. Se- prueban 20 baterías
elegidas al azar y sé suministraron los siguientes resultados: 720, 759, 723, 740,
754, 725, 790, 719, 775, 700, 745, 750, 753, 730, 780, 710, 775, 728, 702, 752

Suponiendo normalidad, con estos datos podríamos contrastar lo que dice el


productor, con un nivel de confianza, del 99%?

16. Una muestra aleatoria de 100 propietarios de automóvil en la ciudad de Bogotá


indica que los automóviles recorren anualmente en promedio 25 000 kilómetros con
una desviación estándar de 4000 kilómetros. ¿Los datos arrojan evidencia
suficiente para decir que el verdadero recorrido promedio anual es mayor de 27000

186
kilómetros? ¿Existe suficiente evidencia estadística para decir que la concentración
promedio de zinc es menor de 2.9 gramos por mililitro? 

17. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra
de piezas cuyos diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03
centímetros. Con un nivel de significancia de .01. ¿Pruebe la hipótesis de que el
diámetro promedio de piezas de esta máquina es de 1.009?

18. Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido
promedio de nicotina de 2.6 miligramos y una desviación estándar de 0.9
miligramos. ¿Existe suficiente evidencia estadística para decir que el contenido
promedio real de nicotina de esta marca de cigarros en particular es de 2.4
miligramos? Con  = .05.

19. Se toma una muestra aleatoria de 12 agujas de tejer en un estudio de la dureza


Rockwell de la cabeza de las agujas. Se realizan las mediciones de la dureza para
cada una de las 12 piezas, de lo que se obtiene un valor promedio 48.50 con una
desviación estándar de 1.5. Suponiendo que las mediciones están normalmente
distribuidas, pruebe la hipótesis de que la dureza Rockwell promedio es menor
48.705. Con  = .05.

16. Un contratista ha construido un gran número de casas aproximadamente del


mismo tamaño y del mismo precio. El contratista afirma que el valor promedio de
estas casas no excede de $35,000 dólares. Un corredor de bienes raíces
selecciona aleatoriamente 5 de las casas construidas recientemente por el
contratista y averigua los precios que resultan ser: $34,500, $37,000, $36,000,
$35,000 y $35,500. ¿Contradicen estas cinco observaciones la afirmación del
contratista acerca del valor promedio de sus casas?. Use  =0.05

20. Según los datos obtenidos en una encuesta del CIS sobre política internacional,
realizada en febrero de 2002, el 52% de los 1202 hombres entrevistados,
manifestaba prestar “bastante” atención a las noticias sobre cuestiones y
acontecimientos sucedidos en otros países, mientras que entre las 1285 mujeres

187
entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de
confianza del 95% , que existen diferencias significativas entre las proporciones de
hombres y mujeres “bastante” atentos a ese tipo de noticias? ¿Y si contrastamos la
hipótesis aplicando un nivel de significación de 0,01?

21. Previo a una elección la senadora X contrata los servicios de la compañía Y para
fijar la contienda establecida con los electores. Ella percibe con respecto a
este punto que si tiene el 45% de los votos será nominada de cuerdo con su
estrategia de campaña. Suponiendo que la compañía contratada selecciona
una muestra aleatoria simple de 1600 electores registrados. ¿Cuál es la
probabilidad de que la muestra pueda produc ir una proporción de 45% más
dado que la verdadera proporción es del 40%?

22. Sea X1 la duración de un filamento de wolframio en espiral simple, y X2 la duración


usando espiral doble.Se toma una muestra de tamaño 200 de ambos tipos de
filamentos teniéndose unas duraciones medias de x1 = 1100 horas, y ¯ x2 = 1108
horas. Las varianzas de las duraciones de cada tipo de filamento son σ2(1) = (20
horas)2 y σ2(2) = (23 horas). ¿Hay diferencias significativas entre ambos tipos de
filamento?

23. Se quiere elegir entre dos tipos de material textil para construir sistemas de
amarre. Para ello se mide la tensión de rotura de varias cintas de prueba utilizando
dos tipos de material. Se toman 24 datos usando el material M1, obteniéndose ¯ x1
= 87 (kg/mm2) y ˆ s1 = 2. Se toman además 30 datos usando el material M2,
obteniéndose ¯ x2 = 75 y ˆ s2 = 2.3. Se sabe que las tensiones de rotura se
distribuyen como una Normal. Se supondrá, además, que las varianzas de ambas
poblaciones son iguales. Contrasta, con un nivel de significación del 1%, que el
material M1 tiene mayor resistencia media que el M2.

21. Un nuevo programa de cómputo que se ha desarrollado para ayudar a los


analistas de sistemas a reducir el tiempo requerido para diseñar, desarrollar e
implementar un sistema de información. Para evaluar las ventajas del nuevo

188
programa se selecciona una muestra aleatoria de 24 analistas de sistemas. A cada
analista se le proporcionan especificaciones para un sistema hipotético de
información, y a los 12 de ellos se les pide producir el sistema usando la tecnología
(los programas) actual. A los otros 12 se les capacita primero en el uso del nuevo
paquete y, a continuación, se les pide usarlo para producir el sistema de
información.

Tiempos de terminación y estadísticos del Estudio de Prueba del Programa.


Resultados. Diciembre 2008.
Tecnología Actual Nuevo Programa
de Cómputo
300 276
280 222
344 310
385 338
372 200
360 302
288 317
321 260
376 320
290 312
301 334
283 265
12 12
325 288
40 44
Fuente: Escuela de Informática de UNMSM.

En Ciencias Sociales

1. Una muestra aleatoria de 12 alumnas graduadas de una escuela secretarial


mecanografió un promedio de 79.3 palabras por minuto con una desviación
estándar de 7.8 palabras por minuto. ¿Se tiene evidencia estadística para decir
que el número promedio de palabras mecanografiadas por todas las graduadas de
esa escuela es menor de 80 con  =0.01.

189
2. Los siguientes datos corresponden a los pesos en Kg de 15 hombres escogidos al
azar: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69. Pruebe la Ho  
74 con un nivel de significancia de .05.

3. Se obtiene una muestra de 16 estudiantes con una X  68 y una varianza de


S2 = 9 en un examen de estadística. Hay evidencia suficiente que apoye que la
media poblacional de las calificaciones de estadística es mayor de 70 con =
0.02.

4. Un distribuidor de libros plantea la hipótesis de que las ventas por mes promedian
S/.12, 000. Diez meses seleccionados como muestra reportan una media de S/.
11,277 y una desviación estándar de S/. 3,772. Sí se utiliza un valor  del 5%.
¿Qué puede concluir acerca de la impresión que tiene el distribuidor sobre las
condiciones del negocio? ¿Cuál es el supuesto que se debe cumplir?

5. Una encuesta a 64 empleados profesionales de una institución correccional reveló


que el tiempo promedio de empleo en el campo correccional era de 5 años: Se
sabe que la desviación estándar de la población es de 4 años. ¿Sirven estos datos
de soporte a la hipótesis de que el tiempo promedio de empleo de todos los
empleados de este tipo está por debajo de los 6 años? Usar α = 0.05

6. Se considera que el peso promedio de los profesores de un centro educativo se


distribuye normalmente con una media de 160 libras y la desviación estándar de 20
libras. En una muestra aleatoria de 55 profesores, la media resulto ser de 150
libras. Probar la hipótesis nula contra la hipótesis alternativa de que el peso
promedio de los profesores más recientes del centro educativo es diferente de 160
libras para α = 0.02.

7. La estatura media de 50 estudiantes de un colegio que tomaban parte en las


pruebas atléticas fue de 68.2 pulgadas con desviación estándar de 2.5 pulgadas,
mientras que 50 estudiantes que no mostraban interés en tal participación tenían
una estatura media de 67.5 pulgadas con desviación estándar de 2.8 pulgadas.

190
Ensayar la hipótesis de que los estudiantes que participan en las pruebas atléticas
son más altos que los otros. Ensaye la hipótesis al 5%.

8. Se ha afirmado que por lo menos el 60 % de los alumnos de primero y segundo


semestre de un Tecnológico prefieren estudiar a partir de las dos de la madrugada.
Si 4 de una muestra de alumnos de primero y segundo semestre de n =14 tomadas
al azar, afirman estudiar a partir de las dos de la madrugada, pruebe con un nivel
de significancia del 5 % si se debe aceptar la hipótesis nula p≥0.60 contra la
hipótesis alternativa p<0.60.

9. Una muestra aleatoria de 10 estudiantes se someten a una prueba de cálculo, y


reciben las calificaciones (X). Después se efectúa una sesión de repaso de álgebra
y se repite el mismo examen (Y). A un nivel de significancia de 0.05 ¿las
calificaciones son mejores en el segundo examen?

Estudiantes Examen Examen 2


1
(X) (Y)
1 80 84
2 50 56
3 78 81
4 90 92
5 75 76
6 70 75
7 62 72
8 90 87
9 95 93
10 68 72

191
10. Una muestra aleatoria de 8 estudiantes se someten a una prueba de estadística, y
reciben las calificaciones (X). Después se efectúa una sesión de repaso de
Estadística y se repite el mismo examen (Y). A un nivel de significancia de 0.01
¿las calificaciones son menores en el segundo examen?

Estudiantes (X) (Y)


1 90 82
2 85 95
3 75 79
4 78 81
5 95 88
6 95 91
7 60 50
8 83 81

11. Un epidemiólogo desea comparar dos vacunas. Las personas que previamente
había recibido dichas vacunas se dividieron en dos grupos. El grupo una recibió
una dosis de refuerzo de la vacuna tipo 2. Las respuestas de los anticuerpos se
registraron dos semanas después. Las medias, desviaciones estándar y tamaño de
las muestras para los dos grupos fueron los siguientes:

Grupo Muestra Media D. Estándar


1 30 4.5 2.5
2 49 2.5 2.0

Ho: µ1 = µ2
Ha: µ1  µ2
El nivel de significancia es de  = 0.01

12. Elegimos aleatoriamente 23 alumnos de Psicología y 25 de Pedagogía de la


Universidad de Sevilla, con el fin de comparar el rendimiento alcanzado en la
asignatura Análisis de Datos. Las medias de ambos grupos son 74 y 79

192
respectivamente, y sabemos que las varianzas valen 2.9 para la población de
alumnos de Psicología y 4.2 para la población de alumnos de Pedagogía.
¿Podemos afirmar que existen diferencias entre las medias alcanzadas por ambos
grupos? Realiza el proceso completo de decisión estadística tomando un nivel de
significación igual a 0.05 (alfa).

13. Se aplica un examen a dos grupos de estudiantes de 144 niños cada uno. El grupo
A que está cerca de una fábrica tuvo una puntuación promedio de 88 con una
varianza de 27 puntos, el grupo B que está lejos de la fábrica tuvo una puntuación
de 90 con una varianza de 24 puntos ¿Hay diferencia significativa en el rendimiento
promedio de los dos grupos a un nivel de significancia del 5%?.

14. Como parte de un estudio para evaluar las diferencias en los niveles educativos en
2 centros de capacitación, se aplicó un examen común que personas que asisten a
cada centro. Las calificaciones del examen son uno de los factores principales para
evaluar diferencias de calidad entre los centros.

Resultados de las Calificaciones en el examen en los Centros de adiestramiento.


Marzo 2009.

Centro de Adiestramiento A Centro de Adiestramiento B


n1 = 30 n2 = 40
̅̅̅
𝑋1 = 82,5 ̅̅̅
𝑋2 = 78
𝑆1 = 8 𝑆2 = 10
Fuente: Resumen Estadístico de los Centros de adiestramiento.
A la luz de estos resultados:

a) ¿Cuál de los centros de adiestramiento brinda un mejor nivel educativo? Use


un nivel de significancia del 1%.

193
b) Si los tamaños de muestra reales hubieran sido de 10 y 15 para los centros
de adiestramiento A y B, respectivamente, realice la prueba de hipótesis
adecuada.

c) ¿Los resultados obtenidos en la parte (b) son similares a los de la parte (a)?

REFERENCIAS BIBLIOGRÁFICAS

1. Daniel Wayne; 1987, Bioestadística – Base para el Análisis de las Ciencias de la


Salud, Edit Limusa S.A. – México; (Págs. 155 a 159).

2. Freund J. y Manning R.; 1989, Estadística 4ta edición, Edit. Prentice Hall
Hispamericana S.A. – México ;(Págs. 342 a 363).

3. Miller I. y Freund J.; 1992, Probabilidad y Estadística para Ingenieros, Edit. Prentice
– Hall Hispanoamericana S.A. – México (Págs. 220 a 232).

4. Mills Richard; 1990, Estadística para Economía y Administración, Edit. Mc Graw


Hill – Bogotá, Colombia (Págs. 221 a 247).

5. Mason, , Robert y col., 2000; Estadística para Administración y Economía,


Editorial Alfaomega – México (Págs. 358 a 359)

6. Moya R. y Saravia G.; 1983, Teoría de Probabilidades e Inferencia Estadística,


Edit. San Marcos – Lima – Perú; (Págs. 637 a 662 y 682 a 692).

7. Ostle Bernard; 1985, Estadística Aplicada, Edit. Limusa – Wiley S.A. – México,
(Págs. 131 a 138 y 140 a 142).

194
Sesión 14
Prueba de hipótesis sobre relación entre
variables cualitativas: Chi-Cuadrado

CAPACIDADES

10. Aplicar la prueba Chi Cuadrada en los trabajos de aplicación de su especialidad


11. Realizar una prueba de hipótesis que compare un conjunto observado de frecuencias
versus una distribución esperada
12. Realizar una prueba de hipótesis para determinar si hay alguna relación de
dependencia o independencia entre dos criterios de clasificación

ACTITUDES

11. Valora el uso de la Chi cuadrada para probar independencia de criterios


12. Valora el uso de la Chi cuadrada como una prueba para ajustar un conjunto de datos a
una distribución estadística

CONTENIDO

195
Uso de la Ji Cuadrado. Prueba de bondad de ajuste. Prueba de independencia.

INTRODUCCION

 En numerosas ocasiones, se necesita analizar la relación de dependencia o


independencia entre dos variables de tipo cualitativo o categórico.
 A estas variables también se les denomina factores, mientras que a las distintas
categorías de la variable se les suele denominar niveles.
 Existen diferentes pruebas para medir la dependencia entre dos variables
cualitativas, entre ellas la prueba ji-cuadrado en sus diferentes versiones.

PRUEBA JI-CUADRADO (X2)

La prueba χ² de Pearson es considerada como una prueba no paramétrica que mide la


discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando
en qué medida las diferencias existentes entre ambas se deben al azar en la prueba de
hipótesis. También se utiliza para probar la independencia de dos variables entre sí, en una
tabla de contingencia. La fórmula que da el estadístico es la siguiente:

Cuanto mayor sea el valor de χ2, menos verosímil es que la hipótesis sea correcta. De la
misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están
ambas distribuciones.

Los grados de libertad gl vienen dados por :

196
gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.

 La prueba ji-cuadrado de Pearson (X2) es una de las pruebas más utilizadas.

 También podremos encontrarla bajo el nombre de “chi-cuadrado”, siendo su origen la


traducción al castellano del término inglés “chi-squared”.

 Se aplica principalmente para estudiar la asociación entre dos variables categóricas o


cualitativas y para comparar proporciones o porcentajes.

 Esta prueba no mide el grado o la fuerza de la asociación entre dos variables


categóricas, para ello ya existen medidas como la odds ratio o el riesgo relativo,
adecuadas para estos fines.

 Su uso no está restringido únicamente para variables dicotómicas. Si alguna de las


dos variables es de naturaleza ordinal, se debe aplicar la prueba ji-cuadrado de
tendencia lineal como veremos más adelante.

 La prueba X2 puede aplicarse con una sola variable para comparar valores
observados respecto a esperados, aunque su uso más frecuente es para comparar
dos proporciones.

 Una de sus limitaciones es que requiere un tamaño muestral suficientemente grande


y aunque su cálculo es sencillo, no lo es tanto el entender su procedencia y su
interpretación.

 Simplemente diremos que los valores que toma el estadístico ji-cuadrado con un
grado de libertad corresponden a los obtenidos a una distribución normal estandar

197
elevados al cuadrado, y que por tanto la prueba ji-cuadrado solo tiene una cola
tomando únicamente valores positivos.

Ejemplo
Supongamos que realizamos un estudio en 45 pacientes en el que deseamos estudiar la
relación entre el hábito tabáquico y EPOC diagnosticado mediante espirometría obteniendo
los resultados de la Tabla I. Podemos ver que 15 pacientes de 25 (60%) tenían EPOC dentro
del grupo de fumadores, mientras que tan solo 5 de 20 (25%) presentaron EPOC en el grupo
de no fumadores. Desde un punto de vista clínico las diferencias son importantes, pero ¿lo
serán desde un punto de vista estadístico?
Fumador

EPOC No Sí Total

No 15 (75%) 10 (40%) 25 (55,6%)

Sí 5 (25%) 15 (60%) 20 (44,4%)

Total 20 (100%) 25 (100%) 45 (100%)

Tabla I. Relación entre EPOC y hábito tabáquico. Frecuencias observadas y porcentajes de


columna.

Hipótesis Nula (Ho): La proporción de pacientes con EPOC es la misma en el grupo de


fumadores que en el de no fumadores.
Hipótesis alternativa (Ha): Las proporciones son distintas.

Si la proporción es distinta, tenemos en cuenta las dos posibilidades que existen: que la
proporción de pacientes con EPOC sea más alta o más baja en los fumadores, por lo tanto la
prueba es bilateral o también denominada de “dos colas”.
Entonces tenemos: Ho : 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 = 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠

198
Ha: 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 ≠ 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠

Si al calcular el valor X2, que es la diferencia entre lo observado y lo esperado,


sobrepasamos cierto valor crítico, diremos que las diferencias encontradas son demasiado
grandes como para poder ser explicadas por el azar.
Si en nuestro estudio tenemos 20 pacientes con EPOC de 45 personas (44%), para que la
hipótesis nula fuese cierta, tendríamos que tener la misma proporción de pacientes con
EPOC en los fumadores y en los no fumadores. Es decir, de los 25 fumadores, esperamos
tener (25*20)/45, que serían 11 fumadores aproximadamente. De este modo obtendríamos
las frecuencias esperadas para el resto de las 3 celdas (Tabla II). Una vez conocidas las
frecuencias esperadas, sólo nos queda calcular el valor de la expresión X2 que es una
simple suma de unas diferencias al cuadrado:
Fumador
EPOC No Sí Total
No 11,1 (55,6%) 13,9 (55,6%) 25 (55,6%)
Sí 8,9 (44,4%) 11,1 (44,4%) 20 (44,4%)
Total 20 25 45

X2 = 5.51

Si miramos en las tablas de la distribución ji-cuadrado para un grado de libertad,


podemos ver que la significación estadística p<=0,05, se alcanza para aquellos valores
de X2 iguales o superiores a 3,84. Como el valor obtenido en nuestro estudio; 5,51 es
mayor al valor crítico de 3,84, podemos rechazar la hipótesis nula (H0) y afirmar que las
diferencias encontradas difícilmente pueden ser explicadas por el azar, siendo mayor la
proporción de pacientes con EPOC en los fumadores (p<0,05).

199
PRUEBA DE INDEPENDENCIA: JI-CUADRADA

EJERCICIOS

1. Estamos interesados en estudiar la relación entre cierta enfermedad y la adicción al


tabaco. Para tal fin, seleccionamos una muestra de 150 individuos, 100 individuos no
fumadores y 50 fumadores. La siguiente tabla muestra las frecuencias de enfermedad
en cada grupo:
Padecen la No padecen la
Fumadores Total
enfermedad enfermedad
Sí 12 88
No 25 25
Total
Emplee un nivel de confianza del 95%.

2. Estamos interesados en estudiar la fiabilidad de cierto componente informático con


relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una
muestra de 100 componentes de cada uno de los 3 distribuidores que nos sirven el
producto comprobando el número de defectuosos en cada lote. La siguiente tabla
muestra el número de defectuosos para cada uno de los distribuidores.
Componentes Componentes
Distribuidor Total
defectuosos correctos
1 16 94
2 24 76

200
3 9 81
Total
Determine si existe relación entre la cantidad de componentes defectuosos y el
distribuidor que los suministra, con un α = 0,01.

3. Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se


seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes
resultados:
Deportista Sin depresión Con depresión Total
Sí 38 9
No 31 22
Total
Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo.
Nivel de significación (5%).

4. Un estudio que se realizó con 81 personas referente a la relación entre la cantidad de


violencia vista en la televisión y la edad del televidente produjo los siguientes
resultados.
Nivel de
16-34 35-55 56 a más Total
Violencia
Alta 8 12 21
Baja 18 15 7
Total
¿Indican los datos que ver violencia en la televisión depende de la edad del
televidente, a un nivel de significación del 1%?

5. Supongamos que se quiere estudiar la posible asociación entre el hecho de que una
gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo

201
tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes
que fuman comparado con aquellas que no lo hacen. Para responder a esta pregunta
se realiza un estudio de seguimiento en 2000 gestantes, a las que se interroga sobre
su hábito tabáquico durante la gestación y se determina además el peso del recién
nacido. Los resultados se muestran a continuación:
Bajo Peso en el Recién Nacido
Gestante Total
Sí No
Fumadora 43 207
No Fumadora 105 1645
Total
Realice la prueba Ji-Cuadrada de independencia para determinar la existencia de
relación o no, use un α = 0,10.

6. En un estudio para determinar si existe relación entre el sexo y el propósito de elegir


una carrera técnica se entrevistaron a 120 aspirantes a la universidad. Los resultados
se observan en la siguiente tabla de contingencia:

Aspira a Carrera Técnica


Género Total
Sí No
Masculino 40 30
Femenino 10 40
Total
¿Existe relación entre las 2 variables presentadas? α = 0,05.

7. En la frontera de una provincia del sur se revisaron cargamentos de frutas de distinta


procedencia para evaluar la posibilidad de introducción de mosca de las frutas
(Ceratitis Capitata), una plaga de los frutales, en áreas no infestadas. La información
de cargamentos con presencia de la plaga se resume en la siguiente tabla:

Presencia de Región de Procedencia del Cargamento


Total
la Plaga Norte Centro Selva

202
Sí 22 32 33

No 67 5 10

Total

Con un nivel de significancia del 1%, ¿existe alguna dependencia entre la región de
procedencia y la presencia de la plaga?

8. Un grupo de investigadores, al estudiar la relación entre el tipo sanguíneo y la


severidad de una afección en la población, reunió los datos de 1500 personas, los
cuales se presentan en la tabla de contingencia adjunta. Los investigadores desean
saber si estos datos son compatibles con la hipótesis de que el grado de la afección y
el tipo sanguíneo son independientes.
Severidad de Tipo de Sangre
Total
la Condición A B AB O
Ausente 543 211 90 476
Moderada 44 22 8 31
Severa 28 9 7 31
Total

Use los resultados adjuntos para entregar una conclusión a los investigadores con un
nivel de significación del 5%.

9. Los niños de una escuela primaria fueron clasificados en forma cruzada de acuerdo
con el grupo socioeconómico al que pertenecen y la presencia o ausencia de cierto
defecto en el lenguaje. Los resultados fueron los siguientes:
Grupo Socioeconómico
Defecto del
Medio Total
Lenguaje Alto Medio Bajo Bajo
Alto
Presente 8 24 32 27
Ausente 42 121 138 108

203
Total

¿Son compatibles estos datos con la hipótesis de que el defecto en el lenguaje está
relacionado con el grupo socioeconómico? Nivel de significación del 2,5%.

10. Una muestra de 500 estudiantes ingresantes a una universidad participó en un


estudio diseñado para evaluar el grado de conocimientos en matemáticas. La
siguiente tabla muestra los estudiantes clasificados según su formación secundaria
(escuelas técnicas, bachiller y otras) y el nivel de conocimientos en matemáticas
(bueno=aprobó el examen; deficiente=no aprobó el examen):
Nivel de Conocimientos en
Escuela Total
Matemáticas
Bueno Deficiente
Técnicas 20 60
Bachiller 15 150
Otras 25 230
Total

¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de


los estudios secundarios? Nivel de significación del 1%.

11. Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la
medicación de mayor uso. Para esto se tomó al azar un grupo de 300 animales que
padecían la enfermedad; a la mitad de éstos, tomados al azar, se los trató con la
nueva medicación y a los otros 150, con la medicación tradicional. Luego de un
tiempo se analizaron nuevamente los animales con el siguiente resultado:

Resultado del Tratamiento


Tratamiento Total
Empeoró Sin Efecto Mejoró
Nuevo 16 30 104

204
Tradicional 20 42 88
Total
¿Considera que estos medicamentos se comportan de manera similar? Nivel de
significación del 10%.

12. A un grupo de 350 adultos que participaron en una escuela de salud, se les preguntó
si llevaban o no una dieta. Las respuestas (por género) son las siguientes:
¿Sigue una dieta?
Género Total
Sí No
Masculino 14 159
Femenino 25 152
Total
¿Sugieren estos datos que el estar a dieta depende del sexo? Sea α=0,05

205

También podría gustarte