Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LA ESTADISTICA
La Estadística es mucho más que sólo números apilados y gráficas bonitas.
Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de
todas las demás ciencias.
La ausencia de ésta conllevaría a un caos generalizado, dejando a los
administradores y ejecutivos sin información vital a la hora de tomar decisiones en
tiempos de incertidumbre.
La Estadística que conocemos hoy en día debe gran parte de su realización a los
trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las
probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.
La estadística, es la
ciencia que trata de la
recopilación, organización
presentación, análisis e
interpretación de datos
numéricos con el fin de
realizar una toma de
decisión más efectiva.
1
- Porque permite apreciar objetivamente las diferencias de algún fenómeno de
incertidumbre en el tiempo y en el espacio
1.3. UTILIDAD E IMPORTANCIA
- Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estudios de consumidores; análisis de resultados
en deportes; administradores de instituciones; en la educación; organismos políticos;
médicos; y por otras personas que intervienen en la toma de decisiones.
- Diagnostico de un problema cualquiera, ejemplos: Diagnostico de las enfermedades,
diagnostico del nivel de vida, del nivel socioeconómico, el nivel educativo, etc.
- Determinar prioridades en los programas de salud, educación, de las empresas privadas,
o de otros problemas de las comunidades o personales
- Establecer y analizar las relaciones entre las variables (causa efecto)
- Realizar pronósticos a través del tiempo
- Estimar valores poblacionales, tomando solo una muestra
NOTA: Sin embargo para que el uso de la estadística sea adecuado, es necesario trabajar
con muchos datos, porque el uso de pocos datos puede dar lugar a interpretaciones no
consistentes.
2
análisis requiere de generalizaciones que van más allá de los datos. Como
consecuencia, la característica más importante del reciente crecimiento de la
estadística ha sido un cambio en el énfasis de los métodos que describen a métodos
que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza
una población partiendo de una muestra tomada. Los problemas de la inferencia
estadística son: la estimación de parámetros y las pruebas de hipótesis
3
En el antiguo Israel la Biblia da referencias, en el libro de los Números,
de los datos estadísticos obtenidos en dos recuentos de la población
hebrea. El rey David por otra parte, ordenó a Joab, general del ejército
hacer un censo de Israel con la finalidad de conocer el número de la
población.
4
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico,
Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes
operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales
y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los
datos económicos.
Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los
recursos nacionales, comprensiva de datos sobre organización política, instrucciones
sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas
de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la
teoría Estadística.
Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como
resultado de la especulación sobre si la población aumentaba, decrecía o permanecía
estática.
5
En los tiempos modernos tales métodos fueron resucitados por
algunos reyes que necesitaban conocer las riquezas
monetarias y el potencial humano de sus respectivos países. El
primer empleo de los datos estadísticos para fines ajenos a la
política tuvo lugar en 1691 y estuvo a cargo de Gaspar
Neumann, un profesor alemán que vivía en Breslau. Este
investigador se propuso destruir la antigua creencia popular de
que en los años terminados en siete moría más gente que en
los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad.
Después de revisar miles de partidas de defunción pudo demostrar que en tales años no
fallecían más personas que en los demás. Los procedimientos de Neumann fueron
conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre,
quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas
de mortalidad que hoy utilizan todas las compañías de seguros.
6
Jacques Quételect es quien aplica las Estadísticas a las ciencias
sociales. Este interpretó la teoría de la probabilidad para su uso en
las ciencias sociales y resolver la aplicación del principio de
promedios y de la variabilidad a los fenómenos sociales. Quételect
fue el primero en realizar la aplicación práctica de todo el método
Estadístico, entonces conocido, a las diversas ramas de la ciencia.
A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por
Correlación, que tenía por objeto medir la influencia relativa de los factores
sobre las variables. De aquí partió el desarrollo del coeficiente de correlación
creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J.
Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios
estudios sobre la medida de las relaciones.
7
ETAPAS DE DESARROLLO DE LA ESTADÍSTICA
La historia de la estadística está resumida en tres grandes etapas o fases.
8
CRONOLOGIA DE LA ESTADISTICA
9
ETAPAS DEL TRABAJO ESTADISTICO
EN LA INVESTIGACION CIENTIFICA
10
CONCEPTOS Y DEFINICIONES PREVIAS
11
3. PARAMETRO: Es un valor que se obtiene a partir de los datos de una Población o
son los valores que se originas al analizar una población. Un parámetro es un
sumario descriptivo de alguna característica de una población (la media aritmética,
mediana, desviación estándar). Ejemplo: La tasa de desempleo se ha mantenido en
18%. Es un índice estadístico que va dirigido a describir a la población. Muchos de
estos índices se obtienen mediante registros oficiales de agencias del Gobierno.
12
7. VARIABLES: Es una característica observable que poseen
los elementos y que puede tomar diferentes valores.
Ejemplo: Edad, Talla, Tipo de religión
III. EJERCICIOS
En los ejemplos siguientes identifique los elementos indicados en el recuadro:
3.1. Un estudio de 250 pacientes admitidos en un hospital durante el año pasado reveló
que, en promedio, los pacientes viven a 22.5 kilómetros del hospital.
Población
Muestra
Unidad de Análisis
Variable de estudio
3.2. Un estudio de 300 hogares en un pueblo sureño revelo que 20 por ciento tiene al
menos un hijo en edad escolar.
Población
Muestra
Unidad de Análisis
Variable de estudio
3.3. Varias veces durante el día un ingeniero de control de calidad, en una fábrica textil,
selecciona diferentes muestras de metros cuadrados de telas, las examina y registra el
número de imperfecciones que encuentra.
Población
Muestra
Unidad de Análisis
Variable de estudio
13
3.4. Un investigador médico examina los efectos de un agente cancerígeno en las ratas.
Tres semanas después de inyectado el agente en una rata, el investigador realiza una
intervención quirúrgica para extraer y pesar los tumores.
Población
Muestra
Unidad de Análisis
Variable de estudio
3.5. Un gerente desea conocer si aquellos trabajadores que reciben 25 días de vacaciones
son más productivos durante el año, que los que reciben solo 15 días. El gerente
selecciona una muestra de 40 trabajadores y registra su rendimiento laboral.
Población
Muestra
Unidad de Análisis
Variable de estudio
14
En los siguientes ejemplos identifique los parámetros y los estimadores:
3.7. En cierta universidad el decano de un colegio al hacer los preparativos para una
presentación de consejeros, necesita conocer el promedio del número de estudiantes
por clase. El decano descubre que:
En una muestra de 20 grupos, el número promedio de
estudiantes por grupo es de 77.
En un estudio acerca de toda la universidad, el
promedio por grupo resulta en 84.
3.9. Un fisiólogo está interesado en el índice de latidos cardiacos por persona, después de
ciertas cantidades de ejercicio. Está interesado en lo siguiente:
El índice más elevado de latidos cardiacos de 100
personas después de ejercicios vigorosos.
El índice de latidos cardiacos promedio de todas las
personas, antes de realizar ejercicios.
15
IV. ACTIVIDADES DE AUTO EVALUACIÓN
Antes de continuar con los demás temas, es conveniente que te autoevalúes, desarrollando
las preguntas en forma individual. Luego coteja tus respuestas con la teoría estudiada y
califica de acuerdo a la escala siguiente:
19 – 20 puntos Excelente
17 – 18,5 puntos Muy bueno
14 – 16,5 puntos Bueno
11 – 14,5 puntos Regular
Menos de 11 Malo
b) Población:…………………………………………………………………………………
…………………………………………………………………………………..……
c) Muestra:.……………………………………………………………………………………
………………………………………………………………………………..…
d) Dato:………………………………………………………………………………………
………………………………………………………………………………..……
16
4.2. La estadística que se ocupa de interpretar los resultados obtenidos con las técnicas
descriptivas, para tomar decisiones se denomina….......................................... (1Pto)
4.3. Es la característica medible o descrita mediante un valor o atributo de un elemento en
estudio………………………...………………………………………………… (1Pto)
…………………………………………………………….…………………………………
……………………………………………………….………………………………………
17
4.7. En el año 2006, se realizó un muestreo de opinión para determinar si los profesores de
Lima prefieren como texto de consulta el libro de Propedéutica de Razonamiento
Matemático de la editorial Lumbreras con respecto a otro. Con este fin se entrevistaron
a 2000 profesores y entre ellos 1 500 prefirieron dicho texto. Responda lo siguiente: (4
ptos)
¿Cómo estuvo formada la muestra?
¿Cómo estuvo formada la población?
¿Cuál fue la variable de estudio?
¿Cuál fue valor estadístico?
6.1. WAYNE W. DANIEL. (2004) BIOESTADISTICA. Base para el análisis de las Ciencias de la
Salud. 4ta Edición. Editorial LIMUSA. México D.F.
6.2. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima – Perú.
6.3. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición. Edith. PHH
S. A. – México.
6.4. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición – Edith. Prentice
Hall Hispanoamericana S.A.- México.
6.5. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la Psicología y la
Educación. Edit. Mc Graw-Hill – México.
6.6. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para Ingenieros – Edit.
Prentice Hall Hispanoamericana S.A. – México.
6.7. MOYA, Rufino, (1991). Estadística Descriptiva. Editorial San Marcos- Lima- Perú.
6.8. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la Economía. 3era
edición – Edith. McGraw-Hill Companies, Inc. – Santa Fe de Bogotá- Colombia.
Fuentes electrónicas:
http://www.eumed.net/cursecon/libreria/drm/index.htm
18
Sesión 2
Variables y Escalas de Medición
Recolección de datos
CAPACIDADES
ACTITUDES
CONTENIDO
19
VARIABLES
Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas,
su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el
número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso,
niveles de inteligencia, actitudes, entre muchas otras.
Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según
la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes
clasificaciones:
20
CLASIFICACIÓN DE LAS VARIABLES
21
DEPARTAMENTO DE INVESTIGACIÓN
ESTADÍSTICA GENERAL
ESCALAS DE MEDICIÓN
Es una sucesión de medidas que permite organizar datos en orden jerárquico y mediante un
esquema específico para asignar números o símbolos con el objeto de designar
características de una variable (Ary, Jacobs, Razavieh, 1984). La taxonomía más conocida
sobre las escalas de medición las presenta Stevens (1951) quien las clasifica en nominales,
ordinales, de Intervalos y de razón. A continuación veamos los cuatro tipos de escalas de
medición.
ESCALAS NOMINALES
Las escalas nominales son aquellas donde se clasifican a los elementos
en categorías cualitativamente distintas.
Consiste simplemente en agrupar objetos en clases o asignar las
personas de acuerdo a alguna cualidad una vez que los objetos o
personas posean características comunes que lo hagan pertenecer a
una categoría.
Se pueden utilizar números en las escalas nominales, pero estas solo
como etiquetas, nunca se utilizarán para llevar a cabo los
procedimientos matemáticos de suma, resta, multiplicación y división.
Por ejemplo, El DNI, la placa de los automóviles.
Su función solamente está dada para efectos de identificación, no
podemos hacer alguna estimación de la magnitud de lo que
clasificamos.
- 22 -
ESCALAS ORDINALES
Escala ordinal = Nominal + Orden
Las escalas ordinales son las que clasifican a las personas, eventos u
objetos en una posición con relación a cierto atributo, pero sin indicar la
distancia que hay entre las posiciones.
Cuando se asignan números es sólo para indicar el orden de las
posiciones de lo que se está clasificando. Por ejemplo, el cuadro de
meritos del curso de Estadística.
En este nivel también se definen varias categorías, pero además de
mostrar un ordenamiento existe una relación de “mayor o menor que”
entre ellas.
Las etiquetas, símbolos o números asignados si indican jerarquía,
aunque no es posible conocer la magnitud de la diferencia entre cada
una de las categorías
Con las escalas ordinales tampoco se pueden llevar a cabo las
operaciones aritméticas de suma, resta, multiplicación y división. La
diferencia que puede haber entre unas personas u objetos en este tipo
de escala no necesariamente constituye unidades iguales o absolutas
que puedan utilizarse para determinar si el que tiene un segundo lugar
posee el doble valor que el que queda en cuarta posición. Por ejemplo,
en un evento atlético de una carrera que no haya sido cronometrada,
podemos saber quién llegó primero, segundo y tercer lugar, pero no
podemos saber con precisión la velocidad entre un corredor y otro. La
diferencia que hay entre el primero y el segundo no necesariamente es
igual a la que hubo entre el segundo y el tercero.
- 23 -
ESCALA DE INTERVALO
Esta escala mide las variables de manera numérica
Los números de esta escala permiten establecer distancias entre 2
individuos.
Las operaciones aritméticas de suma o resta son perfectamente
realizables y significativas, no siendo la multiplicación o división (no
tienen significados)
El cero es un valor que no indica ausencia de la característica (es decir
es relativo) y es colocado en algún lugar de la escala. Ejemplo: la
Temperatura, donde el cero no implica la ausencia de temperatura
Ejemplo2: La escala de inteligencia posee un punto 0, pero nunca se va
a encontrar a un ser humano con cero de inteligencia.
- 24 -
CARACTERISTICAS, EJEMPLOS Y LIMITACIONES DE LAS
ESCALAS DE MEDICION
- 25 -
PRUEBAS ESTADISTICAS ASOCIADAS A CADA UNA DE LAS ESCALAS DE
MEDICION
Los siguientes cuadros contienen las principales pruebas estadísticas. Estos cuadros solo
representan una guía o procedimiento estadístico en particular.
- 26 -
B. PRUEBAS ESTADÍSTICA INFERENCIALES MÁS FRECUENTE DE ACUERDO A LA
ESCALA DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.
TIPO DE ESCALA DE LA
METODO O TECNICA ESTADISTICA
DESCRIPCION VARIABLE
- Prueba Z para una proporción poblacional.
- Prueba X2 para varias proporciones en
Nominales
Variables una sola población.
individuales - Intervalos de confianza para proporciones
- Prueba del signo o binomial para la
Ordinales mediana poblacional
- Intervalo de confianza para proporciones
Muestras grandes - Prueba t-student para un promedio
con distribución poblacional.
Asociación entre normal - Intervalo de confianza para el promedio
variables Muestras - Prueba del signo o binomial para la
pequeñas sin mediana poblacional.
distribución normal - Intervalo de confianza para el promedio
- 27 -
C. PRUEBAS ESTADÍSTICAS PARA ESTUDIOS COMPARATIVOS MAS FRECUENTES
DE ACUERDO A LAS ESCALAS DE MEDICIÓN DE LA VARIABLE EN ESTUDIO.
- 28 -
RECOLECCION DE DATOS
FUENTES DE INFORMACION
Una fuente de información es el lugar, la institución, la persona donde están
los datos que se necesitan para la investigación.
Los datos pueden reunirse a partir de fuentes de información existentes o pueden obtenerse
mediante encuestas y estudios experimentales diseñados para conseguir nuevos datos. Las
fuentes de información pueden ser:
Primarias Secundarias
Información que se obtiene Información elaborada a base de
directamente de la Unidad datos de las fuentes primarias
de observación
Fuentes de datos
internos. Reportes Financieros,
Informes, Análisis o
Reporte de operaciones,
aquellas que la empresa puede comparaciones sobre reportes
obtener y explorar por sus planificación, reportes
anteriores de la empresa
propios medios y recursos sin especiales, etc
necesidad de acudir a terceros
Fuentes de datos
externos Informes de Estudio de Análisis o informes basados en
mercado, estudio de los reportes del INEI, Ministerios
Información que están situadas
fuera de la empresa cuya posicionamiento, u otras entidades que genera
información puede obtenerse a Reportes del INEI información estadística
través de diferentes medios
- 29 -
TECNICAS E INSTRUMENTOS DE RECOLECCION
DE DATOS
ENCUESTA
ENCUESTA
OBSERVACIÓN
- 30 -
La encuesta
La entrevista
La observación (no experimental y experimental)
El Análisis documentario
1. LA OBSERVACION
Es el registro visual de lo que ocurre en una situación real, clasificado y consignando
los datos de acuerdo con algún esquema previsto y de acuerdo al problema que se
estudia.
VENTAJAS DESVENTAJAS
Permite obtener datos cuantitativos y Se requiere de mucha habilidad y
cualitativos. agudeza para “ver” los
Se observan características y fenómenos estudiados.
condiciones de los individuos. Demanda gran cantidad de
También conductas, actividades, tiempo.
características o factores ambientales. Tiene sesgos; el humano ve lo
Puede ser utilizada en cualquier que quiere ver.
investigación y área del saber. Al momento de la interpretación
Es un método que no depende de pueden distorsionrse los hechos
terceros o de registros; con ello se e ir más allá de lo que vimos en
eliminan sesgos y ambigüedades. realidad.
- 31 -
TIPOS DE OBSERVACION
- 32 -
2. LA ENTREVISTA
Es la comunicación interpersonal establecida entre el investigador y el sujeto de
estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el
problema propuesto.
VENTAJAS
Es aplicable a toda persona, (incluyendo a con limitaciones física o
psicológica).
Permite estudiar aspectos psicológicos o de otra índole donde se desee
profundizar en el tema.
Permite obtener información más completa,
A través de ella el investigador puede: Aclarar el propósito del estudio,
especificar claramente la información que necesita, aclarar preguntas y permite
usar triangulación.
Permite captar mejor el fenómeno estudiado ya que permite observar lenguaje
no verbal.
TIPO DE ENTREVISTAS
1. ENTREVISTA ESTRUCTURADA
Se elabora un formulario estandarizado.
Idénticas preguntas y en el mismo orden a todos los sujetos.
Los sujetos eligen la respuesta de 2, 3 o pocas más alternativas.
Los comentarios y explicaciones son los mismos para todos.
VENTAJAS DESVENTAJAS
Respuestas cortas y precisas. La información puede ser muy
Información fácil de procesar. superficial.
El entrevistador no requiere Limitada la posibilidad de
gran entrenamiento. profundizar en un aspecto
Información uniforme. determinado.
Difícil obtener información
confidencial.
- 33 -
2. ENTREVISTA NO ESTRUCTURADA
Es flexible y abierta, pero regida por los objetivos de la investigación.
Las preguntas, su contenido, orden y formulación es controlado por el
investigador, el que puede adaptarlas dependiendo de las situaciones
y características de los sujetos en estudio.
El entrevistado también cuenta con libertad para dar sus respuestas.
Se utiliza un instrumento guía que contiene las orientaciones de los
temas a tratar.
Muy útil para estudios exploratorios, descriptivos y cualitativos
VENTAJAS DESVENTAJAS
Adaptable y aplicable Requieren mucho tiempo.
a toda clase de Muy costosos por el tiempo de las entrevistas.
sujetos en diversas Limitado para personas con problemas de la
situaciones. palabra.
Permite profundizar Dificultad para tabular datos que han sido
en los temas de recopilados de distinta forma.
interés. Se requiere crear confianza y comodidad
Orienta posibles entre el entrevistado y el entrevistador.
hipótesis y variables Se requiere habilidad técnica para obtener la
cuando se exploran información y mayor conocimiento respecto
áreas nuevas. del tema.
Debido a que son entrevistas en profundidad
habitualmente se utilizan muestras pequeñas.
- 34 -
Dejarle un mensaje positivo al entrevistado.
Jamás dar consejos,
Jamás hacer juicios morales,
Jamás rebatir al entrevistado.
3. LA ENCUESTA
Método que utiliza un formulario impreso, destinado a obtener respuestas
sobre el problema en estudio y que el sujeto investigado llena por sí mismo.
La encuesta puede aplicarse a grupos o individuos estando presente el
investigador. Incluso puede enviarse por correo a los destinatarios.
Algunos instrumentos utilizado en la encuesta son: EL CUESTIONARIO, TEST
– FORMULARIOS - PRUEBAS
VENTAJAS DESVENTAJAS
Costo relativamente bajo. Es poco flexible, la información no
Proporciona información sobre puede variar ni profundizarse.
un mayor número de personas Si el cuestionario se envía por
en un período breve. correo, es posible que no sean
Fácil para obtener, cuantificar, devueltos o que no se obtengan
analizar e interpretar datos. respuestas.
Menores requerimientos de No utilizable en personas que no
personal capacitado. saben leer ni escribir.
Mayor posibilidad de mantener No permite aclarar dudas.
anonimato de los encuestados. Resulta difícil obtener
Eliminación de los sesgos que cuestionarios completamente
introduce el encuestador. contestados.
Se deben obtener grandes
muestras.
- 35 -
4. ANALISIS DOCUMENTARIO
III. EJERCICIOS
3.1. De los siguientes incisos, ¿cuáles representan variables discretas y cuáles variables
continuas?
a) El número de acciones vendidas por día en la bolsa de valores.
b) Las temperaturas registradas cada media hora en un observatorio.
c) El tiempo de vida de baterías de equipos celulares con cámara y MP3.
d) El ingreso anual de los profesores universitarios.
e) La longitud de 1000 tornillos producidos por una fábrica.
3.2. Establece una correspondencia entre las variables indicadas y la clasificación que se
muestra a continuación:
VARIABLES CLASIFICACION
1 El peso y la talla A Cualitativa – Nominal.
Ciclos de estudios de una carrera Dependiente, independiente
2 B
profesional – Bidimensional.
Cuantitativa discreta –
3 El ingreso familiar en soles C
Unidimensional.
Lugar de nacimiento de los
4 D Cualitativa – Ordinal.
estudiantes de la UCV
La raza y la religión del padre de los Cualitativa, cualitativa –
5 E
pobladores de una ciudad Bidimensional.
El Nº de libros que tiene cada una de Cuantitativa continua –
6 F
las universidades del Perú Razón.
- 36 -
DEPARTAMENTO DE INVESTIGACIÓN
ESTADÍSTICA GENERAL
3.3. Indica a qué clase de variable: por su naturaleza y por su escala de medición,
pertenece cada uno de los siguientes casos:
a) Cantidad de hombres y mujeres en un aula de clase.
b) La edad (en años cumplidos) de los estudiantes de la UCV.
c) Grado de instrucción de los PPFF de los alumnos de un centro educativo.
d) El nivel de autoestima.
e) Etapas del desarrollo.
f) Coeficiente intelectual.
3.4. Proporciona una definición operacional en cada uno de los siguientes casos:
a) Un buen trabajador b) Un bonito día
c) Un servicio de atención rápido d) Tiempo de estudio
e) Número de personas en el hogar f) Un buen estudiante
3.5. Un investigador que está estudiando hábitos de consumo le pregunta a cada vigésima
persona que entra en un supermercado acerca del número de veces que va de
compras semanalmente
a) Si la persona encuestada responde 2, ¿esta respuesta es una muestra, variable,
medida estadística, parámetro o dato? ¿La respuesta es un valor cuantitativo o
cualitativo?, ¿porqué?
b) A la persona encuestada también se le pregunta por su edad, estado civil e
ingresos y responde: 32, soltero, S/. 1500 respectivamente. Identifique los
elementos de cada uno de estos datos.
3.6. Propón las técnicas e instrumentos que se podrían utilizar en la recolección de datos
para responder las preguntas que se presentan a continuación y explica la razón de su
elección.
a) ¿Cuál es la opinión de los estudiantes de la universidad sobre la actual política
educativa?
b) ¿Qué opinan los residentes de una urbanización y del Consejo Territorial
correspondiente, sobre la seguridad ciudadana en dicha urbanización?
- 37 -
c) ¿Cuáles son los niveles de desempeño del docente y de rendimiento de los
alumnos del curso de Estadística General de la UCV?
d) ¿Existe relación entre el nivel de autoestima de los trabajadores de una empresa y
su nivel de satisfacción en el trabajo?
e) ¿Cuál es la opinión de los decanos de las facultades sobre las fortalezas y
debilidades de la investigación científica en la universidad y sus causas?
f) ¿Cuáles son los tiempos promedio de espera y de atención de los clientes de un
banco en las colas que se forman en las ventanillas y la opinión al respecto?
g) ¿Cuál es la opinión de los residentes en el distrito de Salaverry sobre la calidad del
agua potable y la calidad de atención al cliente?
h) ¿Cuál es el pronóstico de las ventas de una empresa para los años 2009 y 2010,
teniendo en cuenta las ventas durante los últimos diez años?
i) ¿Cuál es el desgaste de los rodamientos de cierto tipo de máquinas y su relación
con el tipo de aceite que se utiliza para lubricarlas?
j) ¿Cuál es la opinión de las autoridades del sector turismo del departamento de la
Libertad sobre cómo incrementar el flujo de turistas nacionales y extranjeros hacia
el departamento?
- 38 -
ACTIVIDADES DE REFORZAMIENTO
4.1. Propón la técnica e instrumento de recolección de datos que se podrían utilizar para
lograr los siguientes objetivos.
4.2. Algunos de los objetivos específicos de una investigación para analizar la satisfacción
de los clientes de un restaurante son: (a) Describir el perfil de los clientes, (b) Evaluar
la atención del personal, según la opinión de los clientes, (c) Determinar la opinión de
los clientes sobre la calidad de la comida, (d) Conocer la opinión de los clientes sobre
la infraestructura, (e) Identificar las razones por las que los clientes prefieren el
restaurante. Elabora un cuestionario estructurado y codificado, considerando por lo
menos dos preguntas para cada objetivo.
39
REFERENCIAS BIBLIOGRÁFICAS
1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.
6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.
40
MUESTREO
I. DEFINICIONES PRELIMINARES:
UNIDAD DE ANÁLISIS:
Para seleccionar una muestra, primero se define la Unidad de Análisis que puede ser un
cliente, un votante, una organización, un libro contable, un periódico, un hospital, un paciente,
etc. Esta definición nos permite identificar “Quien va ha ser medido”, “Quien nos va ha dar la
información” y por lo tanto precisar claramente el problema a investigar y los objetivos de la
investigación.
POBLACION OBJETIVO:
Una vez que se ha definido la unidad de análisis se procede a delimitar la población que va a
ser estudiada y sobre la cual se pretende generalizar o inferir los resultados. Entonces, una
población es el conjunto de todas las unidades de estudio que concuerdan con una serie de
especificaciones o características. Para seleccionar la muestra debe delimitarse la población
identificando sus características o variables de interés a fin de determinar los parámetros
poblacionales. En algunos casos, la delimitación de una población no sólo depende de los
objetivos del estudio, sino de otras razones prácticas. Las poblaciones tienen que ser
especificadas en contenido, lugar y tiempo.
MUESTRA:
La muestra es un subconjunto de elementos que pertenecen a una población de estudio. Para
seleccionar una muestra debemos de tener presente el tipo de muestreo a utilizar: muestreo
probabilística y el muestreo no probabilístico. Se tiene que definir la variable de interés, para
que en función de esta se sepa qué tipo de muestreo utilizar. Luego calcular el tamaño de
muestra y finalmente seleccionar las unidades de análisis.
41
MUESTREO
Es una TÉCNICA ESTADÍSTICA por la cual se realizan inferencias a la población examinando
solo una parte de ella, ésta parte recibe el nombre de MUESTRA, la cual debe ser
estadísticamente representativa y adecuada.
Ventajas: Desventajas:
Costo reducido • Presencia del error de muestreo
Mayor rapidez • Presencia de gran variabilidad de las obs.
Claridad
A. TECNICAS PROBABILISTICAS
MUESTREO ALEATORIO:
Escoge al azar los miembros de la población hasta completar el tamaño muestral previsto.
En teoría se enumeran previamente todos los elementos y de acuerdo con una tabla de
números aleatorios se van escogiendo.
El procedimiento puede darse con o sin reemplazos y esta condición afectará posteriormente el
análisis.
a. Sin reposición:
Cuando un elemento es seleccionado y puede volver a ser seleccionado, se dice que hacemos
un muestreo aleatorio con reemplazamiento o con reposición. Generalmente recibe el nombre
de muestreo aleatorio simple. (m.a.s.)
b. Con reposición:
En caso de que el elemento no vuelva a formar parte de la población de manera que no puede
volver a ser seleccionado se dice que se ha obtenido la muestra mediante un muestreo
aleatorio sin reposición o reemplazamiento. En algunos libros, este método recibe también el
nombre de muestreo irrestrictamente aleatorio.
42
MUESTREO SISTEMATICO:
En la población (N) se elige el primer elemento al azar.
Luego los demás se escogen cada cierto intervalo (k), hasta completar el tamaño muestral (n).
El tamaño del intervalo (k) se calcula así: k = N/n
MUESTREO ESTRATIFICADO:
Considera que al interior del universo existen estratos (subgrupos internamente homogéneos
pero cualitativa y cuantitativamente diferentes entre sí), y que no se cumple la condición de
selección aleatoria pues los miembros del grupo mayoritario tienen una mayor probabilidad de
ser seleccionados en la muestra.
B. TECNICAS NO PROBABILISTICAS
MUESTREO A JUICIO:
Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo
del tema bajo estudio, por lo tanto, se considera que la información aportada por esas personas
es vital para la toma de decisiones.
43
MUESTREO OPINÁTICO O INTENCIONAL:
El investigador selecciona aquellos casos que le están más disponibles. Los resultados que se
obtengan no podrán generalizarse más allá de los individuos que componen la muestra, al igual
que las conclusiones.
BOLA DE NIEVE:
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen
estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos,
etc.
44
Se quiere saber cómo se
comporta una cierta
característica en una Población Las observaciones
particular Hacer pueden atribuirse
un Censo a los miembros la
población
Sí
La población Sí Es posible
está bien observar toda la Muestreo
definida población? Variable Representativo
? Cualitativa para estimar una
Proporción
NO
NO
De que naturaleza
Definir es el parámetro
Observar que se
La una Muestra quiere estimar
población ?
Muestreo
Variable Representativo
Cuantitativa para estimar una
Media
a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%,
95% o 99% y que origina el valor de Z.
b. El error de estimación (E): Que también es fijado por el investigador
c. La desviación estándar ó varianza: que son valores que se obtienen por estudios
anteriores, por la muestra piloto o por la distribución de la población.
d. El Tamaño de la población (N): Que generalmente no se conoce.
45
3.2. PARA UNA VARIABLE CUALITATIVA:
a. Un nivel de confianza: Que es adoptado por el investigador, el cual puede ser 90%,
95% o 99% y que origina el valor de Z.
b. El error de estimación (E): Que también es fijado por el investigador
c. La proporción poblacional (P): que son valores que se obtienen por estudios
anteriores, por la muestra piloto y si no se conoce asumir p=0.5.
d. El Tamaño de la población (N): Que generalmente no se conoce.
Cualitativa Cuantitativa
VARIABLE (Proporción (Promedio
Poblacional) Poblacional)
Z 2 P(1 - P) N Z 2S 2 N
POBLACION FINITA n= n=
E 2 ( N - 1) + Z 2 P(1 - P) E 2 ( N - 1) + Z 2 S 2
(Cuando se conoce N)
46
3.4. ESTIMACION DE LOS VALORES A APLICAR EN LAS FORMULAS
47
CASOS
CASO Nº 01: (Cuando se conoce la varianza)
CASO Nº 03:
48
CASO Nº 04: (Cuando no se conoce la varianza-Muestra piloto)
CASO N° 06:
Se desea determinar una muestra representativa para conocer la opinión en contra de la
población acerca de la explotación del Cerro Quilish-Cajamarca. Se aplicó una muestra piloto
a 20 de los 10000 cajamarquinos, obteniéndose los siguientes datos. Cuál es el tamaño de
muestra con un 95% de confianza y un error del 2%?
49
CASO N° 07:
Se desea estimar la proporción de jóvenes de la ciudad de Trujillo
que hacen uso de Internet como mínimo una hora diaria con un 95%
de confianza. De estudios anteriores se conoce que P=0.70 y se
desea un E = 5%. Suponiendo que N = 1500. Cual debe ser el
tamaño de muestra.
CASO Nº 08:
El administrador del Restaurante “El Romano” desea saber que proporción de sus Clientes-
Turistas están inconformes con las atenciones recibidas durante su estadía en Trujillo. ¿De
que tamaño debe ser la muestra si se considera E=0.05, nivel de confianza del 95% y no se
dispone de alguna otra información?
CASO N° 09:
50
Sesión 4
Organización de los datos:
Tablas y Gráficos Estadísticos
CAPACIDADES
1. Construye e Interpreta los diferentes tipos distribuciones de frecuencias.
2. Presenta adecuadamente los cuadros estadísticos.
3. Construye e interpreta los gráficos de acuerdo a las normas técnicas del INEI
ACTITUDES
1. Valora la importancia que tiene la distribución de frecuencias y los gráficos como
método de organización y como método para describir el comportamiento de las
variables de interés.
2. Valora la importancia que tiene la estructura y la presentación adecuada de los cuadros
y gráficos estadísticos para descubrir patrones de comportamiento en la Investigación
científica.
3. Actitud creativa y disposición a trabajar en equipo.
CONTENIDO
51
CUADROS ESTADISTICOS
I. CUADRO ESTADISTICO
Un cuadro estadístico es un arreglo ordenado de filas y columnas, de datos estadísticos
o características relacionadas, con el objeto de presentar adecuadamente información
estadística. (Ejemplo: las tablas del BCR, INEI). Deben ser diseñados de tal forma que el
lector pueda dirigirse fácilmente al cuadro.
III. VENTAJAS:
Los cuadros permiten presentar en forma resumida y ordenada muchos datos.
Es un instrumento que clasifica, resume y comunica información estadística.
Facilita el análisis de los datos.
52
1. Número: Es el código de identificación. El número se anota junto a la palabra tabla o
cuadro, ejm.: Tabla Nº 1, Cuadro Nº 1
2. Título: Se refiere a la descripción del contenido del cuadro. Debe indicar la
característica principal en estudio, lugar y tiempo que se realizó el trabajo.
3. Encabezamiento: Es la descripción de las filas y columnas de un cuadro
estadístico. El encabezamiento se ubica en la parte superior del cuerpo del cuadro.
4. Columna Matriz: En esta columna se designa la naturaleza del contenido de cada
fila. Se anotan las categorías o las diferentes clases de la escala de clasificación
utilizada.
5. Cuerpo del Cuadro: Se ubica la distribución de los datos estadísticos de acuerdo a
las indicaciones del encabezamiento y la columna matriz.
6. Notas explicativas: Se refiere a cualquier nota aclaratoria sobre el contenido del
cuadro estadístico.
7. Fuente: Sirve para indicar de donde se obtuvo la información estadística.
Ejemplo: Cuadro Nº 1
Intervenciones por delitos, registrados por la Policía Nacional, en el País
y en el Departamento de La Libertad, según tipo de falta: 2009
INTERVENCIONES EN DELITOS
TIPO DE FALTA
TOTAL DPTO LA RESTO
53
PAIS LIBERTAD PAIS
Contra la vida el cuerpo y la salud 23681 2137 21544
Contra la tranquilidad pública 1/ 1296 1 1295
Contra el patrimonio 109112 7793 101319
Contra la familia 6669 21 6648
Contra la libertad 8531 424 8107
Contra la seguridad pública 7736 17 7719
Contra el orden económico 4247 -- 4247
Delito tributario 15081 -- 15081
Contra la fe pública 1483 6 1451
Contra la administración pública 314 6 308
Otros 924 36 888
TOTAL 179074 10467 168607
54
CUADROS DE DISTRIBUCION DE FRECUENCIAS
DEFINICION: Es una forma de organizar u resumir los datos con la finalidad de describir el
comportamiento de las variables de interés. Esta organización tabular, consiste en presentar
la lista de valores de la variable, clases o categorías junto con el número de veces que se
repite cada valor de la variable (frecuencia)
55
Donde: fi : Frecuencia absoluta simple
hi : Frecuencia relativa simple
Fi : Frecuencia absoluta acumulada
Hi : Frecuencia relativa acumulada
EJEMPLO
Simples Acumuladas
# hijos fi hi Fi Hi
56
GRAFICOS ESTADISTICOS
LEYENDA:
57
II. CLASIFICACION DE LOS GRAFICOS ESTADISTICOS
58
B. GRAFICO PARA VARIABLES CUANTITATIVAS CONTINUAS
A) HISTOGRAMA DE FRECUENCIAS
Para construir un histograma de frecuencias, se trazan barras por arriba de cada
intervalo de clase y a una altura que es igual a la frecuencia de la clase.
59
Ilustración 1: Histograma de Frecuencia
12
10
f
8
0
y
10 20 30 40
f 9
B) POLIGONO DE FRECUENCIAS
8
Para construir un polígono de 7
F 90
80
El polígono de 70
60
Frecuencias acumuladas se 50
llama OJIVA 40
30
20
10
0
1 2 3 4 5 6 y
60
C) GRAFICO DE BARRAS
Estos gráficos constituyen una herramienta adecuada para comparar los tamaños
relativos de cantidad que se distribuyen en el espacio.
Ejemplo: Número de personas que visitaron, durante un mes, lugares turísticos
de una ciudad.
f 45
40
LUGAR Nº DE
35
TURISTICO PERSONAS
30
A 40
B 20 25
C 30 20
D 15 15
TOTAL 105 10
5
0
A B C D
D) GRAFICO CIRCULAR
Sirve para representar la división de un todo en las partes que lo constituyen. El
círculo total es dividido en partes por medio del trazado de radios, según los grados
del ángulo correspondiente.
Ejemplo: La siguiente tabla muestra la situación académica de un grupo de
estudiantes al final de un ciclo académico
RESERVA DE
INHABILITADO;
Nº DE MAT; 4
10
CONDICION ESTUD %
APROBADO 35 70 DESAPROBADO;
DESAPROBADO 8 16 16
INHABILITADO 5 10
RESERVA DE MAT 2 4
TOTAL 50 100
APROBADO; 70
61
EJEMPLOS
62
EJERCICIOS
63
a) Presentar la información en un cuadro estadística, utilizando intervalos
cerrados
b) Grafica un histograma de frecuencia absolutas simples
c) Graficar un polígono de frecuencia relativas simples
d) Grafica una ojiva porcentual menor que
64
6. Los dos cuadros siguientes presentan datos sobre el gasto mensual en
calefacción para un apartamento de dos habitaciones
Calefacción por gas
25.42 26.22 25.22 23.60 27.77 28.52 21.60 29.49 26.22
25.22 20.19 23.97 26.32 23.38 26.77 31.56 25.42 22.72
27.58 29.96 26.22 23.97 28.17 18.01 22.98
65
8. En la oficina de un diario, el tiempo que se tardan en imprimir la primera
plana fue registrado, durante 50 días. A continuación se transcriben los
datos, aproximados a décimas de minuto.
20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1
23.3 20.9 22.9 23.5 19.5 23.7 23.6 19.0 25.1 25.0
21.3 21.5 19.9 24.2 24.1 19.8 23.9 22.8 23.9 19.7
21.1 20.9 21.6 22.7 25.3 20.3 23.1 20.7 19.5 23.8
21.8 24.3 22.5 21.2 23.8 23.8 20.7 24.2 24.2 24.1
66
10. Una muestra de tiempos, en minutos, de llamadas telefónicas que recibe
una secretaria son:
3 6 2 3 3 1 4 5 2 4 3 1 2 4 4 5 3 1 2 4 1 4 8
1 2 3 4 5 2 7 2 3 5 3 4 4 3 4 3 6 2 1 3 6 4 5
3 2 4 3 2 4 5 3 7 1 3 4 3 4 1 3 7 3 2 1 3
Organiza los datos en una distribución de frecuencias considerando las
frecuencias absolutas simples (fi) y los porcentajes simples.
12. Cuando se les pidió clasificar la destreza que se requiere para obtener una
alta calificación en un nuevo juego de computadora como principiante,
aprendiz, competidor, maestro o experto, 45 evaluadores respondieron de la
manera siguiente: experto, maestro, maestro, competidor, experto, maestro,
maestro, maestro, experto, aprendiz, maestro, maestro, maestro, maestro,
experto, maestro, competidor, maestro, maestro, principiante, experto,
competidor, maestro, maestro, experto, experto, maestro, maestro, maestro,
competidor, competidor, experto, maestro, experto, experto, experto,
competidor, maestro, maestro, y experto. Ahora:
Construye una tabla que indique las frecuencias correspondientes a estas
clasificaciones de la destreza que se requiere para obtener una calificación
alta.
67
13. Se han tomado muestras de ventas, en soles, realizadas en una empresa
durante los meses de julio y agosto. Los datos son los siguientes:
Mes de julio
20.00 425.00 40.00 380.00 18.00 43.00 47.50 30.00 434.08 16.00 62.50
30.00 11.60 37.00 98.50 4.80 235.00 97.50 490.00 147.00 235.50 124.00
158.00 194.65 30.00 16.15 200.00 60.00 22.50 30.00 45.00 490.00 413.00
122.00 15.93 90.62 55.00 86.00 188.80 32.50 307.40 92.00 140.00 5.70
63.00 90.00
Mes de agosto
120.00 34.45 14.00 40.00 95.00 390.30 49.10 29.19 17.20 93.00 160.00
21.00 32.00 19.50 141.00 76.00 4.20 18.50 88.50 88.00 70.00 48.00
40.00 12.10 129.20 50.00 35.00 78.00 82.00 356.70 86.00 6.20 14.10
5.80 50.00 141.00 32.00 50.00 117.50 50.00 300.00 3.00 12.00 13.00
55.00 33.00 500.00
ACTIVIDAD EN CLASE
Recolecta la siguiente información de los alumnos del aula.
Edad Genero Talla Peso Estado Numero de
civil hermanos
68
ACTIVIDADES DE AUTO EVALUACIÓN (TABLAS)
4.2. Los números de análisis de sangre por día que se realizan en un hospital se
agrupan en una distribución que tiene las clases 25-39, 40-54, 55-69, 70-84 y 85-
99. Encuentra: a) las fronteras de clase, b) las marcas de clase, c) la amplitud de
clase. (3 ptos)
4.3. Las marcas de clase de una distribución del número de asaltos registrados
diariamente en una delegación de policía son 4, 13, 22, 31 y 40. Encuentra: a) los
límites de clase nominales, b) los límites reales. (2 ptos)
4.4. Para agrupar las ventas que varían entre $10.00 y $60.00, un dependiente utiliza
las clasificaciones siguientes: $10.00-19.99, $20.00-35.99, $35.00-49.00 y $50.00-
59.99. Explica las dificultades que se tendrían al utilizar estas clases. (2 ptos)
4.5. Una compañía de computadoras recibió un pedido urgente del mayor número de
computadoras domésticas que pudiera entregar en un período de tiempo de seis
meses. Los expedientes de la compañía ofrecen las siguientes entregas diarias:
(5 ptos)
69
22 65 65 57 55 50 65 77 73 30 62 54 48 65
79 60 63 45 51 68 79 83 33 41 49 28 55 61
65 75 55 75 39 87 45 50 66 65 59 25 35 53
a) Agrupa estas cifras de entrega diaria en una distribución que tenga las clases
20-29, 30-39, 40-49,.., 80-89.
4.6. En la redacción del diario “El Observador” el tiempo requerido para formar la
primera página completa fue registrado durante 50 días. Los datos, redondeados a
la décima de minutos más cercana, se dan a continuación: (5 ptos)
20.8 22.8 21.9 22.0 20.7 20.9 25.0 22.2 22.8 20.1
25.3 20.7 22.5 21.2 23.8 23.3 20.9 22.9 23.5 19.5
23.7 20.3 23.6 19.0 25.1 25.0 19.5 24.1 24.2 21.8
21.3 21.5 23.1 19.9 24.2 24.1 19.8 23.9 22.8 23.9
19.7 24.2 23.8 20.7 23.8 24.3 21.1 20.9 21.6 22.7
70
ACTIVIDADES DE AUTO EVALUACIÓN (GRAFICOS)
Consumo (Kg/Sem.)
0 - 1,9 2 - 3,9 4 - 5,9 6 - 7,9 8 - 9,9
Nº de familias 15 26 20 13 6
Ganancias Frecuencias
$5.000 o menos 2
$5.001 - $10.000 12
$10.001 - $15.000 11
$15.001 - $20.000 33
$20.001 - $30.000 32
$30.001 - $40.000 20
$40.001 - $50.000 13
más de $50.000 7
71
a) Construye una ojiva que le ayude a responder las preguntas siguientes:
b) ¿Qué % de vendedores gana más de 20,000 dólares?
GÉNERO
MASCULINO FEMENINO Total
TIPO DE A 26 16 42
INGRESO 61.9% 38.1% 100.0%
28.6% 25.0% 27.1%
16.8% 10.3% 27.1%
B 34 22 56
60.7% 39.3% 100.0%
37.4% 34.4% 36.1%
21.9% 14.2% 36.1%
C 31 26 57
54.4% 45.6% 100.0%
34.1% 40.6% 36.8%
20.0% 16.8% 36.8%
Total 91 64 155
58.7% 41.3% 100.0%
100.0% 100.0% 100.0%
58.7% 41.3% 100.0%
72
REFERENCIAS BIBLIOGRÁFICAS
1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.
6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.
73
Sesión 6
Medidas Estadísticas:
Tendencia Central – Posición - Dispersión
CAPACIDADES
1. Realiza cálculos básicos utilizando las fórmulas,
tanto para datos simples como para datos
agrupados, de las medidas de tendencia central.
ACTITUDES
1. Valora la importancia que tienen las medidas de tendencia central y los cuantiles en la
descripción de las poblaciones estadísticas en estudio.
CONTENIDO
74
MEDIDAS ESTADISTICAS
En numerosas ocasiones, en vez de trabajar con todos los datos, es preferible disponer de
una o más medidas descriptivas que resumen los datos de forma cuantitativa. Se trata, de
resumir en unos cuantos valores la información más importante y útil contenida en un
conjunto de datos, haciendo más fácil la comprensión y la comparación de las diversas
características de las poblaciones o muestras.
VI. DEFINICIÓN
Las medidas estadísticas son medidas de resumen que se calculan a partir de una
muestra y que describen ciertos aspectos de una serie o distribución de datos para
poder tener un mejor conocimiento de la población
VII. FINALIDAD
Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder
tener así un mejor conocimiento de la población
75
IX. CLASIFICACION DE LAS MEDIDAS ESTADÍSTICAS
MUESTRA POBLACION
76
̅):
1.1. LA MEDIA ARITMÉTICA O PROMEDIO ( o 𝒙
Datos sin ∑ Xi ∑ Xi
Agrupar μ= 𝑥̅ =
N n
Datos no
agrupados
Valor que está en la mitad Promedio de los 2 valores
de la serie ordenada centrales
Datos 𝑛
− 𝐹𝑗−1
Agrupados 𝑀𝑒 = 𝐿𝐼 + 𝑐 [ 2 ]
𝐹𝑗 − 𝐹𝑗−1
(TABLAS)
78
Para datos no agrupados: Para calcular la mediana, los n datos originales
1) Se ordenan en forma ascendente o descendente los datos
2) Se halla el lugar en donde se encuentra la mediana
79
Xi: 2.9, 1.4, 1.2, 3.4, 1.3, 2.5, 1.6, 1.8, 2.3, 1.5, 1.0
PROPIEDADES DE LA MODA
La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de
intervalos, y relativa).
80
La moda no es afectada por valores extremos.
DESVENTAJAS DE LA MODA
En muchas series de datos no hay moda porque ningún valor aparece más de una
vez.
En algunas series de datos hay más de una moda, en este caso uno podría
preguntarse ¿cuál es el valor representativo de la serie de datos?
𝑓𝑗 − 𝑓𝑗−1
𝑀𝑜 = 𝐿𝐼 + 𝑐 [ ]
(𝑓𝑗 − 𝑓𝑗−1 ) + (𝑓𝑗 − 𝑓𝑗+1 )
∆1
𝑀𝑜 = 𝐿𝐼 + 𝑐 [ ]
∆1 + ∆2
1°) La media aritmética tiene la ventaja de que toma en cuenta para su calculo, la
totalidad de los valores de la variable, aumentando o disminuyendo de acuerdo a
ellos, pero a causa de este problema, puede tener la desventaja que es afectada
por la existencia de valores muy altos o muy bajos en los extremos.
En conclusión cuando el comportamiento de la variable es más o menos simétrico
la media aritmética es la más recomendable.
81
2°) La mediana se usa cuando existe mucha dispersión de los datos.
3°) Así también la mediana es la mas ventajosa en usarla cuando en el primer o último
grupo o clase no tiene límite definido.
4°) La moda no es muy usual, pero se emplea cuando se quiere conocer el valore que
se presenta más frecuentemente.
b. MEDIDAS DE POSICION
Q1 Q2 Q3
[ 60 – 70 ) 10 18 15.75 − 8
Q1 = 60 + 10 [ ] = 67.75
[ 70 – 80 ) 16 34 18 − 8
[ 80 – 90 ) 14 48
2∗63
[ 90 – 100 ) 10 58 Cuartil 2 (Q2) = 31.5
4
[ 100 – 110 ) 5 63
31.5 − 18
Total 63 Q1 = 70 + 10 [ ] = 78.44
34 − 18
83
in
−Fj−1
100
Formula: Pi = LI + c [ ]
Fj −Fj−1
EJEMPLO:
Suponga que se han registrado 20 observaciones referentes a los ingresos
semanales del jefe de hogar de un determinado distrito. De la información muestral
obtenida calcule el cuatil1, decil 8 y percentil 97:
36 55 55 41
25 55 55 55
41 41 57 37
40 31 58 58
45 36 43 43
Solución:
Seguimos el siguiente procedimiento:
1. Ordenar la serie en forma ascendente
2. Definir la posición de los cuartiles, deciles y percentiles siguiendo la formula
correspondiente.
3. Luego
Cuartil1
Ordenando los datos de forma ascendente:
25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58
84
Po lo tanto Q1: 39.75.
25 31 36 36 37 40 41 41 41 43 43 45 55 55 55 55 55 57 58 58
85
c. MEDIDAS DE DISPERSIÓN
Rango
Medidas
Coeficiente
de Variación
de Varianza
Dispersión
Desviación
estándar
Son indicadores estadísticos que representan cuan dispersas se encuentran los datos de
la variable, señalándonos el grado de concentración de los mismos con respecto al
promedio de la distribución.
86
Alta dispersión (medida de dispersión alta) --- baja concentración alrededor
del promedio. DATOS HETEROGENEOS
MUESTRA POBLACION
Rango R R
Varianza S2 2
Desviación estándar S
Solución. Rango = 28 - 16 = 12
Luego, existe una dispersión de 12 años.
POBLACION MUESTRA
DATOS SIN N n
x x x
2 2
AGRUPAR i i
2 i 1
S2 i 1
N n 1
DATOS N n
Y . f Y x . f
2 2
AGRUPADOS i i i i
2 i 1
S
2 i 1
N n 1
N N
ABREVIADA X i
2
X i
2
2 i 1
2 2 i 1
2
N n 1
Donde:
Xi valores de la variable X
Yi marca de clase de cada variable o grupo
N tamaño de la población
n tamaño de la muestra
2 Varianza poblacional
S2 Varianza muestral
88
Esta es la medida de variabilidad que tiene una interpretación lógica.
Se obtiene al sacar la raíz cuadrada de la varianza.
DESVIACION STANDARD: 2
S S2
S
C.V . *100% c.v. *100 %
X
Solución: A B
µ 500 500
63.25 516.20
C.V.
EJEMPLO:
Suponga que se han registrado 20 observaciones referentes a los ingresos
semanales del jefe de hogar de un determinado distrito. De la información muestral
obtenida calcule el Rango, varianza muestral, desviación estándar y el coeficiente
de variación
36 55 55 41
25 55 55 55
41 41 57 37
40 31 58 58
45 36 43 43
Solución:
Rango: R V max V min 58-25 33
Varianza muestral:
Para calcular VARIANZA para datos sin agrupar, trabajamos con la formula:
n 2
( xi x ) (36 45.38)2 (25 45.38)2 ... (58 45.38)2 (43 45.38)2 1882.55
2
s i 1 99.08
90 n 1 20 1 19
La varianza tiene una interpretación un poco dificultosa de entender, es por eso
que nos ayudamos de la desviación estándar cuando queremos interpretar esta
medida.
Coeficiente de variación:
Para calcular el coeficiente de variación para datos sin agrupar, trabajamos con
la formula:
𝐶𝑉 = 𝑠 /𝑋̅ ∗ 100 = (9.95/45.38) ∗ 100 = 21.93%
Como, CV 21.93 ≤ 33%, podemos decir que el conjunto de datos tiene un
comportamiento homogéneo.
91
EJERCICIOS:
1. La empresa A tiene 100 empleados, con su sueldo promedio mensual por empleado de $
250. La empresa B tiene 200 empleados con un sueldo promedio mensual de $ 240.
a. ¿Cuál es el sueldo promedio mensual de las dos empresas en conjunto?
b. Si las dos empresas se agrega una tercera con 50 empleados y un sueldo
promedio mensual por empleado de $ 300, ¿Cuál es el sueldo promedio para las
tres empresas en conjunto?
2. El ingreso medio mensual de los 16,500 obreros de una compañía es de S/. 116.00 y de
los 12,900 empleados de esta compañía es de S/. 148.00. Si los obreros reciben una
aumento del 20% sobre sus ingresos más una bonificación de S/. 50.00 por condiciones
de trabajo y los empleados reciben un aumento del 30% más S/. 60.00 por refrigerio.
¿Cuál es el ingreso promedio de todos los trabajadores de la compañía después del
aumento?
FACTURAS: 123, 140, 300, 126, 127, 128, 129, 130, 141, 142, 120, 131, 132, 111, 133,
135, 134, 139, 142, 146.
a. Se le pide ordenar las facturas y luego aplicar los cuartiles Q1, Q2, Q3.
b. Calcular el nro. De factura mediana e interpretar correctamente
92
4. Después de ser capacitados un grupo de trabajadores en una Empresa, rindieron un
examen de evaluación, donde los resultados oscilan entre:
a. (Calcule los cuartiles: Q1, Q2, Q3, interprete correctamente cada estadígrafo).
b. Cuál es el promedio de nota después de recibir una capacitación
c. Cuál es la nota mediana después de recibir una capacitación
d. Cuál es la nota más frecuente en el grupo de trabajadores.
Yi-1 -Yi fi
0-50 14
50-100 18
100-150 19
150-200 5
6. Establezca, con base estadística, en cuál de las siguientes empresas el salario está
repartido de forma más equitativa.
Empresa A Empresa B
nº de personas salario nº de personas salario
percibido percibido (S/.)
(S/.)
15 800 10 800
20 1000 30 1000
30 1200 35 1200
20 1500 24 1500
15 7500 1 7500
93
Calcular el promedio de salario percibido en el grupo de trabajadores de la Empresa
A y de l a Empresa B.
94
3. Se presenta el nro. de vacunas que se aplicaron a niños menores de 5 años. según
fueron atendidos en diferentes puestos de salud. Calcula el promedio, la mediana y la
moda, e interprete correctamente.
2 3 4 5 5 5 5 5 6 6 6 67 7 7 7 7 7 88
10, 15) 15, 20) 20, 25) 25, 30) 30, 35)
fi 3 5 7 4 2
95
C.- INGENIERIA:
3. En cada uno de las sgtes. Tablas determinar las medidas descriptivas que se te pide.
Media, Mediana, moda y sus interpretaciones.
a. Cantidad en litros de insecticida que se necesita para la fumigación de las plagas
según por nro. de terrenos de cultivo
MEDICIONES fi
1.2- 2.6 7
2.7-4.1 23
4.2-5.6 70
5.7-7.1 135
7.2-8.6 27
TOTAL
96
b. Sueldos en soles que se les paga a los trabadores que realizan siembra y riego
en los cultivos de Chavimochic
SUELDO fi
240-364 13
365-489 76
490-614 18
615-739 9
740-864 4
TOTAL
4. Se presenta el nro. frutos maduros hallados cada dos semanas en una huerta de cultivos.
2 3 4 5 5 5 5 5 6 6
6 6 7 7 7 7 7 7 8 8
Calcula el promedio de frutos, el fruto mediano. El fruto más frecuente. e interpreta.
5. Se tiene en cuenta el nro. de sembríos de arroz por valles de la costa peruana fue lo
sgte:
sembrío fi Calcula:
1 3 a) El promedio, mediana, moda e interpreta
2 7
3 10 cada estadígrafo.
4 5 b) Realiza una gráfica correspondiente de acuerdo al tipo
5 10
TOTAL de variable.
97
6. Las temperaturas recogidas en un determinada ciudad durante el mes de Enero se
muestran en la siguiente tabla:
Temperatura en ºC 19 20 21 22 23 24
Número de días 7 9 6 4 3 2
a. ¿Cuántos días hizo por encima de 21ºC? ¿Cuántos por debajo de 23ºC?
b. ¿Cuántos días hizo la temperatura máxima?
c. Calcula la media, la moda y la mediana.
7. El siguiente cuadro muestra la distribución de la renta anual (en miles de soles) en que
incurren 50 viviendas:
Marca de 18.85 21.55 24.25 26.95 29.65 32.35 35.05
Clase
N° de 3 2 7 7 11 11 9
Viviendas
98
D.- EDUCACION:
1. Se realiza una estadística en dos centros de enseñanza, uno público y otro privado,
referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a
los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes:
9.5 15
Se pide:
a. A la vista de la tabla, te sugiere algún comentario de especial importancia. ¿Cuál
es el motivo de que los datos se presente en dos tablas de diferente tipo?
b. Estudiar las diferentes medidas de tendencia central (promedios) en las dos
distribuciones. En cada distribución ¿cuál te parece más representativo? ¿por
qué?
c. Indique cual es la nota mediana de cada grupo.
99
3. Hemos pasado una prueba de actitud a 200 aspirantes al ingreso en la Escuela de
Psicología. Para cada aspirante hemos anotado el número de preguntas acertadas, y con
ellas hemos elaborado la distribución de frecuencias que presentamos en la tabla nro. 1.
Dibuje una representación gráfica de las frecuencias absolutas. Calcule el promedio de
notas, la mediana de y la moda e intérprete correctamente cada estadígrafo.
Tabla nro. 1.
56-60 18
100
6. Se tiene que:
A 2 3 3 5 7 6 7 5 8 4
B 6 7 5 2 9 1 7 6 4 2
C 3 4 7 6 8 9 7 6 3 2
Se pide determinar el promedio, mediana y moda.
101
SEGUNDA UNIDAD
102
Sesión 8 y 9
Regresión Lineal Simple
Correlación
CAPACIDADES
ACTITUDES
1. Valora la importancia que tiene el análisis estadístico de asociación de variables
en general y específicamente en la investigación científica.
2. Asume una actitud reflexiva, crítica y creativa al aplicar los métodos y técnicas
Estadísticas de regresión y correlación al análisis de relaciones de causa-efecto
CONTENIDO
103
Con frecuencia, las variables que constituyen una distribución bidimensional muestran un
cierto grado de dependencia entre ellas. Un ejemplo de esta relación aparece en la relación
de peso y altura: aunque no existe una ley causal que relacione ambas variables, en
términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura,
suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que
representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados
en algunas zonas.
En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las
dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre
de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica,
hiperbólica, exponencial, etc.
Análisis de regresión
Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la
variable dependiente (Y) basado en la variable independiente (X).
Procedimiento: seleccionar una muestra de la población y enumerar los datos por
pares para cada observación; dibujar un diagrama de dispersión para visualizar la
relación; determinar la ecuación de regresión.
La ecuación de regresión: Y’= a + bX, donde:
o Y’ es el valor promedio pronosticado de Y para cualquier valor de X.
o a es la intercepción en Y, o el valor estimado de Y cuando X = 0
o b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de
una unidad en X:
104
REGRESIÓN LINEAL
Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a
esta forma geométrica por medio de un método general conocido como método de los
mínimos cuadrados. La recta de ajuste tendrá por ecuación:
𝑌 = 𝛽0 + 𝛽1 𝑋
𝑪𝒐𝒗(𝒙,𝒚)
1° Cálculo de β1: 𝜷𝟏 = 𝑽(𝒙)
2° Cálculo de β0: ̅ − 𝜷𝟏 𝑿
𝜷𝟎 = 𝒀 ̅
Donde:
𝑛
∑ 𝑌
𝑌̅ = 𝑖=1 𝑖: Media Aritmética de Y.
𝑛
𝑛
∑ 𝑋
𝑋̅ = 𝑖=1 𝑖: Media Aritmética de X.
𝑛
105
CORRELACIÓN (r)
El coeficiente de correlación (r) mide el grado de relación lineal (intensidad) de la relación
entre dos variables cuantitativas. El coeficiente r puede tomar valores entre -1.00 y 1.00.
Básicamente, esta información se refiere a dos características de la relación lineal: la
dirección o sentido y la cercanía o fuerza.
Correlación
Correlación nula
Correlación
perfecta perfecta
negativa Positiva
-1 0 1
Fuerte Débil Débil Fuerte
Negativa Negativa Positiva Positiva
Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si la
relación a analizar es del tipo lineal. Si ésta no fuera no lineal, el coeficiente de
correlación sólo indicaría la ausencia de una relación lineal más no la ausencia
de relación alguna.
𝐶𝑜𝑣(𝑥, 𝑦) 𝑆𝐶𝑥𝑦
𝑅= =
𝜎𝑥 𝜎𝑦
√(𝑆𝐶𝑥 )(𝑆𝐶𝑦 )
Donde:
(∑𝑛 𝑛
𝑖=1 𝑋𝑖 )(∑𝑖=1 𝑌𝑖 )
𝑆𝐶𝑥𝑦 = ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛
: Suma Cruzada de X e Y.
2
(∑𝑛
𝑖=1 𝑋𝑖 )
𝑆𝐶𝑥 = ∑𝑛𝑖=1 𝑋𝑖 2 − : Suma de Cuadrados de X.
𝑛
2
(∑𝑛
𝑖=1 𝑌𝑖 )
𝑆𝐶𝑦 = ∑𝑛𝑖=1 𝑌𝑖 2 − : Suma de Cuadrados de Y.
𝑛
106
Correlación negativa perfecta (r=-1) Correlación Positiva perfecta (r=1)
Correlación Nula
107
Correlación Positiva Fuerte
108
𝑅2 % = (𝑅2 ) × 100
Donde:
R: Coeficiente de Correlación.
EJERCICIOS
Después de haber leído la bibliografía básica propuesta en el punto 2.1, resuelve los
siguientes ejercicios:
1. Para cada uno de los siguientes conjuntos de datos bivariantes graficar sus
correspondientes diagramas de dispersión de puntos. ¿Qué tipo de relación
funcional, cree usted, se podría ajustar mejor a los datos?, ¿Por qué?
X 5 10 8 19 14 19 15 15 25 20 20
a)
Y 2 7 13 14 15 16 10 5 7 10 5
X 3 6 5 1 4 2 3 7 4
b)
Y 16 14 12 8 18 11 11 5 20
X 6 2 1 4 1 3 4 1 3 2 4
c)
Y 10 16 14 10 16 13 11 15 14 14 12
X 6 14 15 18 10 16 14 12 18 17
d)
Y 8 11 16 17 11 14 13 10 14 18
109
un conjunto de problemas simples de suma, observándose el número de errores.
Los resultados fueron:
Gastos
semanales de 41 54 63 54 48 46 62 61 64 71
publicidad
Ventas 1250 1380 1425 1425 1450 1300 1400 1510 1575 1650
semanales
e) ¿Cuáles son los errores de estimación cuando se predice las ventas semanales
para gastos semanales de publicidad de 61, 62 y 63 dólares respectivamente?
110
4. Las calificaciones en un examen de estadística y el número de horas de estudio
para el examen, de una muestra de doce estudiantes de una sección, se presentan
en el siguiente cuadro.
Tiempo de
3 3 3 4 4 5 5 5 6 6 7 8
estudio
Calificación 9 12 11 12 15 14 16 15 18 16 15 17
6. Para los puntajes de ansiedad (X) y de aptitud académica (Y) de diez postulantes
a un trabajo se han obtenido los siguientes resultados: x = 847, x2 = 71927,
y = 446, y2 = 20058, xy = 37615.
111
b) Interpreta la pendiente de la recta de regresión.
7. Se ha tomado una muestra de 16 ventas de una casa comercial. Para cada venta
se han observado el precio de venta (X) y la cantidad vendida (Y) y se han obtenido
los siguientes resultados: x = 77.9, y = 749, SCx = 75.53, SCy = 7114.44 y
SCxy = - 489.89.
b) Interpreta la pendiente.
112
3.9. La siguiente tabla muestra el beneficio neto, en millones de dólares, de la
empresa Disney durante los años 1984-1992.
Área
10,1 12,1 12,9 16,2 21,0
(Millones de hectáreas)
Producción
15 25 30 40 60
(Millones de toneladas)
113
a) Obtenga la ecuación de la recta de regresión lineal.
b) Interprete el coeficiente β1.
Use el modelo calculado para hacer una estimación.
10. Para una muestra de 20 operadores de máquinas se tienen registrados, la nota del
examen de ingreso (X) y la evaluación de eficiencia laboral (Y). A partir de estos
datos se han obtenido los siguientes coeficientes para la recta de regresión de
mínimos cuadrados: 0 = 28.64 y 1 = 1.01.
Calificación
en examen 14 18 16 12 10 15 17 11 08 12
Calificación
promedio 12 14 15 10 11 12 12 11 10 11
114
12. En un estudio con 15 observaciones mensuales, un analista financiero quiere
determinar la relación de la tasa porcentual de rendimiento (Y) de las acciones de
una empresa sobre la tasa porcentual de rendimiento (X) de un índice bursátil.
Dispone de la siguiente información:
115
14. La siguiente tabla y gráfica muestran el consumo mensual de energía en función del
área del domicilio:
Área
119,8 125,4 136,6 148,8 158,9 170,9 183,9 207,2 223,0 272,2
(m2)
Consumo
1180 1170 1260 1490 1570 1710 1800 1840 1960 1950
(kw-hrs)
15. En el servicio central de turismo del país se ha observado que el número de plazas
hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total
de plazas ocupadas en un año se tiene:
Precio 260 650 1000 1400 2100 2500 2700 3300 4000
(US$./noche)
Nº Habitac 4725 2610 1872 943 750 700 700 580 500
Ocupadas
a) Representa gráficamente para comprobar que existe cierta dependencia lineal
entre las variables.
b) Halle la ecuación de la recta de regresión del precio sobre el número de
habitaciones.
c) ¿Cuántas habitaciones se llenarían a US$1500?
116
16. El volumen de ahorro y la renta del sector familias en billones de pesos, para el
período 77-86 fueron:
Año 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
N° de comidas 2 2 5 2 4 3 3 2
rápidas consumidas
la última semana
Peso (Kg.) 50,8 59,4 77,6 72,6 82,6 74,8 67,6 62,1
117
18. La tabla siguiente contiene la edad (X) y la máxima de la presión sanguínea (Y) de
un grupo de 10 mujeres:
Edad 56 42 72 36 63 47 55 49 38 42
Presión 14,8 12,6 15,9 11,8 14,9 13,0 15,1 14,2 11,4 14,1
a) Determine la recta de regresión de Y sobre X, justificando la adecuación de un
modelo lineal.
b) Interprete la pendiente.
c) Mida la bondad del modelo.
d) Realice las siguientes predicciones, sólo si tienen sentido:
Presión sanguínea de una mujer de 51 años.
Presión sanguínea de una niña de 10 años.
Presión sanguínea de un hombre de 54 años.
118
a) Estime la recta de regresión mediante el método de mínimos cuadrados.
Interprete los estimadores en el contexto de la pregunta
b) ¿Existe una relación lineal significativa entre la duración y el rendimiento de la
cosecha?
c) Estime el rendimiento si la duración de la cosecha fue de 104 días.
21. Un investigador cree que la inteligencia de los niños, medida a través del
coeficiente intelectual (CI en puntos), depende del número de hermanos. Toma una
muestra aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados
aparecen en la tabla adjunta.
22. Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas
en lactantes desnutridos. Se realizan 20 determinaciones de ingestión y absorción
cuyos resultados se muestran en la tabla que sigue:
119
6 2,6 2,0 16 1,6 1,4
7 1,5 1,2 17 1,9 1,7
8 2,5 1,5 18 2,1 1,7
9 2,7 2,4 19 1,6 1,3
10 1,8 1,5 20 1,6 1,1
23. La siguiente tabla presenta los datos sobre el número de cambios de aceite al año
(X) y el costo de la reparación (Y), en miles de pesos, de una muestra aleatoria de 8
autos de una cierta marca y modelo.
N° Cambios
3 5 2 3 1 4 6 4
de Aceite
Costo
(miles de 150 150 250 200 350 200 50 125
pesos)
a) Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad.
b) Encuentre la recta de regresión de mínimos cuadrados.
c) Interprete los valores estimados del intercepto y de la pendiente.
d) Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de
aceite.
e) Si cambia X por Y, ¿obtendrá la misma recta de regresión?
f) Calcule el residuo para la primera observación (X=3, Y=150).
120
24. Para la economía española, disponemos de los datos anuales redondeados sobre
consumo final de los hogares a precios corrientes (Y) y renta nacional disponible
neta (X), tomados de la Contabilidad Nacional de España base 1995 del INE , para
el período 1995-2002, ambos expresados en miles de millones de euros:
25. Se supone que se puede establecer cierta relación lineal entre las exportaciones de
un país y la producción interna de dicho país. En el caso de España, tenemos los
datos anuales (expresados en miles de millones de pesetas) para tales variables
correspondientes al quinquenio 2002-06 en la siguiente tabla:
121
b) ¿Qué tanto por ciento de la varianza de las exportaciones no vienen explicadas
por la producción interna, y se debe a otro tipo de variables?
122
¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal
aumenta en un 1% sobre el último valor de la tabla? Si aumentamos en 1gr. la sal
por cada 1000 galletas, ¿cuánto variarán los ingresos?
123
elevase de forma extraordinaria. ¿Cuál sería el incremento relativo en la misma si
ello se produjese? Justifique su respuesta.
29. Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, se
han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y,
en Kg.) y el tiempo que llevan siguiendo la dieta (variable X, en semanas), los
cuales se muestran en la siguiente tabla:
a) Estime el modelo lineal que explica el peso perdido en función del tiempo que se
lleva siguiendo la dieta e interprete los parámetros.
b) Para el modelo estimado en el apartado anterior, descomponga la varianza total
como suma de la explicada y la no explicada por el mismo y obtenga, a partir de
tal descomposición, el coeficiente de determinación.
124
c) Según el modelo considerado, ¿qué peso esperaría perder una persona que siga
la dieta durante 2 meses (8 semanas)? ¿Y una persona que esté dispuesta a
seguir la dieta durante dos años (108 semanas)? ¿Qué fiabilidad le otorga a cada
una de las estimaciones anteriores?
30. Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el
número de unidades vendidas, se procedió a recoger datos sobre tales magnitudes
durante el pasado mes en una determinada región. Los resultados obtenidos fueron
los siguientes:
Precio
7,5 9 10,5 12 14 16 18 20,5 23,5 27
(miles de euros)
Cantidad
450 425 400 350 325 300 290 280 260 200
vendida por mes
a) Una empresa radicada en la región tiene previsto para el mes próximo aumentar
el precio de su modelo más vendido en 500 �. Si suponemos como válida la
relación lineal entre las dos variables analizadas para los datos del pasado mes,
¿cómo afectaría este hecho a las ventas de dicho modelo?
b) Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un
3%, ¿cómo variarían las ventas de dicho modelo?
31. En una muestra de familias se han analizado las variables ahorro anual (Y) y renta
anual (X), medidas ambas en miles de euros. Los datos obtenidos han sido los
siguientes:
Ahorro
1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3, 2,7 3,0
(Y)
Renta
20,5 20,8 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5
(X)
125
A partir de tales datos, se pide:
REFERENCIAS BIBLIOGRÁFICAS
1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.
6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.
126
TERCERA UNIDAD
ESTADISTICA INFERENCIAL
127
Sesión 11
Introducción a las Probabilidades:
Probabilidades
Distribución Normal
CAPACIDADES
ACTITUDES
CONTENIDO
128
PROBABILIDAD
DEFINICIONES PREVIAS:
1) Experimento Aleatorio (E) : es aquel fenómeno cuyos resultado depende del azar y
cumple ciertas características:
a) El experimento se puede repetir indefinidamente bajo condiciones idénticas.
b) Se puede describir el conjunto de todos los resultados posibles, pero no se
pueda asegurar o predecir un resultado en particular.
c) Si se repite un número grande de veces debe aparecer cierta regularidad
estadística.
EJEMPLO:
Suceso 1 Suceso 2
129
EXPERIMENTO ALEATORIO ESPACIO EVENTOS
MUESTRAL (S)
A. Observar el lanzamiento de una moneda. Cara, Sello A1: Que salga cara
A2: Que salga sello
F. Lanzamiento de un dado y una moneda (1,S); (2,S); …(1,C); F1: Salga un 6 y una
cara
…
130
DEFINICIÓN DE PROBABILIDAD SEGÚN LAS TRES ESCUELAS DE
PENSAMIENTO DIFERENTES: LA TEORÍA CLÁSICA, LA TEORÍA DE
FRECUENCIA RELATIVA Y LA TEORÍA SUBJETIVA
# de resultados favorables
DEFINICIÓN DE PROBABILIDAD Probabilidad de un evento =
# de resultados posibles
CLÁSICA
Ejemplo 1:
Se tiene el siguiente exp. Aleatorio E: Lanzamiento de dos monedas al aire.
a) ¿Calcule el espacio muestral?
b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto
c) ¿Cuál es la probabilidad de que salga 1 cara?
131
Ejemplo 1.
Se tiene información acerca de los cargos y el sexo del personal de cierta empresa.
Ejemplo 2.
Localice todos los valores de probabilidad asociados a la siguiente tabla de Carrol
que ofrece información sobre la hipertensión y el hábito de fumar.
No Fumadores Fumadores
fumadores moderados empedernidos
Hipertensos 20 15
10
No hipertensos 15 10
30
a. fumadora moderada:
b. no hipertensa:
c. no hipertensa ni fumadora :
132
d. hipertensa y fumadora empedernida:
e. Sabiendo que el paciente no fuma. ¿Cuál es la probabilidad de que sea
hipertensa?
f. Sabiendo que el paciente es hipertenso. ¿Cuál es la probabilidad de que sea
fumador empedernido?
AXIOMAS DE LA PROBABILIDAD
1) 0 P A i 1
P(Ai) 0 0.5 1
Sin probabilidad Tan probable Certeza
De ocurrir como improbable de ocurrir
2) P(S ) P( Ai) 1
En efecto A A
P A P A como A A excluye a
133
PROPIEDAD 2: COMPLEMENTO DE UN EVENTO
Veamos:
entonces P( )= 1 – P(A) B
P A B C P A P B P C
P A B P A C P B C
P A B C
134
PROPIEDAD 5: PROBABILIDAD CONDICIONAL
Sean A y B dos sucesos en S. Indicaremos con P B A la probabilidad
condicional del suceso B, dado que A ha ocurrido, así:
P A B
P B A , 0 P A 1
P A
135
EJERCICIOS:
1. Las probabilidades de que A, B y C resuelvan un cierto problema son 1/2, 3/5 y 2/3
respectivamente. ¿Cuál es la probabilidad de que el problema sea resuelto por lo
menos por uno de los tres?
2. Una tabla de mortalidad muestra que las probabilidades de que A y B vivan 25 años
más son 0.9 y 0.8 respectivamente. Calcula la probabilidad que al final de 25 años
ambos hayan muerto.
136
CUADRO No 1: REACCION DE VOTANTES RESPECTO A UN NUEVO PLAN DE
IMPUESTOS SOBRE LA PROPIEDAD SEGUN SU AFILIACIÓN PARTIDARIA.
Afiliación Reacción
Total
Partidaria A favor Neutral Se opone
Fuente: Datos Hipotéticos
NUEVO PERÚ 120 20 20 160
PRO PERÚ 50 30 60 140
Otros 50 10 40 100
Total 220 60 120 400
F/T A B AB O
Rh + 34% 9% 4% 38%
Rh - 6% 2% 1% 6%
Fuente: Datos Hipotéticos
137
De la información que se presenta en cuadro No 2 Resolver:
a) ¿Cuál es la probabilidad de que una persona tenga sangre tipo O?
b) ¿Cuál es la probabilidad de que una persona tenga sangre Rh-?
c) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan Rh-
d) ¿Cuál es la probabilidad de que en un matrimonio ambos tengan tipo AB?
e) ¿Cuál es la probabilidad de que una persona tenga Rh- si tiene sangre tipo O?
f) ¿Cuál es la probabilidad de que una persona tenga sangre tipo B si tiene Rh+?
8. Los tiempos de reemplazo de los televisores tiene una distribución normal con una
media de 8.2 años y una desviación Standard de 1.1 años. Determina la
probabilidad que un televisor seleccionado al azar tenga un tiempo de reemplazo de
menos de 7 años.
9. Las duraciones de los embarazos tienen una distribución normal con una media de
268 días y una desviación estándar de 15 días. Si estipulamos que un bebé es
prematuro si nace al menos tres semanas antes de lo debido. ¿Qué porcentaje de
bebés nacen prematuramente?
10. Los puntajes de cociente intelectual (IQ) están distribuidos normalmente con una
media de 100 y una desviación estándar de 15. MENSA es una organización para
personas con cociente intelectual elevado, y sólo acepta personas con un IQ mayor
de 131.5.
138
11. El Cuerpo de Infantes de la Marina de EEUU requiere que los hombres tengan
estaturas entre 1.60 y 1.95 m. Determina el porcentaje de hombres que satisfacen
ese requisito de estatura, sabiendo que la Encuesta Nacional de Salud de ese país
revela que las estaturas de los estadounidenses de sexo masculino tienen una
distribución normal con una media de 1.725 m y una desviación estándar de 0.07
m.
12. Los niveles de colesterol en el suero de hombres con edades entre 18 y 24 años
están distribuidos normalmente con una media de 178.1 y una desviación estándar
de 40.7. Todas las cifras están dadas en mg/100 ml, y los datos se basan en la
Encuesta Nacional de Salud de EEUU. El nivel de colesterol en el suero se
considera demasiado alto si está en el 7% superior, encuentre la cantidad de
mg/100 ml para los niveles excesivamente altos.
13. Se recolectó información sobre el peso del recién nacido y si la madre fumó o no
durante el embarazo. Los datos se presentan a continuación:
139
VARIABLES ALEATORIAS Y SUS DISTRIBUCIONES
DE PROBABABILIDADES
VARIABLE ALEATORIA:
Es una función que asigna un valor numérico a cada suceso o resultado de un espacio
muestral. Es una variable cuyo valor numérico está determinado por el resultado del
experimento aleatorio
TIPO DE
GRAFICOS
140
DISTRIBUCIONES DE PROBABILIDAD
Son modelos que describen la forma en que se espera que varíen los resultados o probable
valores de una variable aleatoria.
Debido a que estas distribuciones tratan sobre expectativas de que algo suceda,
resulta ser modelos muy útiles para hacer inferencias y para tomar decisiones en
condiciones donde hay incertidumbre
Las distribuciones de probabilidad son esencialmente modelos gráficos que
relacionan los diversos probables valores que puede tomar una variable aleatoria
Tradicionalmente se clasifican en dos grandes familias:
o Distribuciones Parámetricas
o Distribuciones No Parámetricas
141
PRINCIPALES CARACTERISTICAS DE UNA DISTRIBUCION DE PROBABILIDAD
142
LA DISTRIBUCIÓN NORMAL O GAUSSIANA
La distribución normal, llamada también Curva de Gauss (en recuerdo al científico Karl
Gauss (1777 – 1855) que lo descubrió), es la distribución de probabilidad más importancia
en la Estadística y por ende del Cálculo de Probabilidades.
143
CARACTERÍSTICAS
2
1 X
1
2
f ( x) e , X
2
3. El área total bajo la curva normal es igual a 1
4. El promedio puede tomar valores entre – y + mientras que > 0, entonces existen
infinitas curvas normales.
144
X ~ N (µ, σ2)
8. El área bajo esta función o curva es 1 ó 100%, de la misma manera se sabe que las
áreas comprendidas bajo la curva normal son :
1. = 68.3%
2. 2 = 95.5%
3. 3 = 99%
- -3 -2 -1 1 2 3 +
5. Notación:
Si X es v.a. continua distribuida normalmente con media y varianza 2, la denotamos
por: X N ( , 2).
146
Aplicando esta notación a la variable normal estandarizada Z, escribimos:
ZN (0, 1), esto se interpreta como, Z tiene distribución normal con media 0 y varianza
1.
b a
c. P ( a x b) P ( x b) P ( x a ) P ( Z ) P( Z )
EJERCICIOS:
1. Determinar la probabilidad de cada una de las siguientes expresiones:
147
a) P ( Z < 1.25 ) b) P ( Z< -2.28)
c) P (Z < 0 ) d) P ( 0 < Z < 2.5 )
e) P ( -2.38 < Z < 0 ) f) P ( - 2.25 < Z < 2.25 )
g) P (1.55 < Z < 2.35) h ) P ( Z > 2.43 )
4. El peso de los atletas de pruebas de medio fondo sigue una distribución normal con media
64,3 kilos y desviación típica 2,3 kilos. Hallar un intervalo centrado alrededor de la media
que contenga:
a) El 68,3% de la población.
b) El 95,5% de la población.
c) El 99,7% de la población
5. El rendimiento académico de los estudiantes de la UPN, tiene una distribución normal con
media igual a 16 y varianza igual a 4. Si se selecciona un estudiante de esta Universidad,
encuentre la probabilidad de que:
a. El rendimiento sea mayor que 16
b. El rendimiento sea menor que 14
c. El rendimiento este entre 14 y 18
d. El rendimiento este entre 15.5 y 16.5
148
6. Los salarios mensuales de los trabajadores de una empresa tiene un comportamiento
normal cuya media es S/. 2100 y una desviación estándar de S/. 450. Cuantos
trabajadores tienen salarios:
a. Menores de S/. 2150.
b. Menos de S/. 2200.
c. Mas de S/. 2180.
d. Entre 2080 y 2150 soles.
7. El tiempo de duración de los focos de alumbrado eléctrico producidos por una compañía
eléctrica tiene una distribución normal con una media de 1000 horas y una desviación
estándar de 750 horas. Determinar la probabilidad de que:
a. Un foco tomado al azar se queme antes de las 990 horas de funcionamiento
b. Un foco se que queme entre 980 y 1120 horas de funcionamiento.
c. Un foco dure más de 998 horas
8. NEUMA Perú, es una empresa que produce llantas para automóviles en nuestro país. La
vida útil de estas llantas se distribuye aproximadamente como una normal con media y
desviación estándar iguales a 32000 y 1000 millas respectivamente. Esta empresa quiere
exportar estas llantas por lo que empieza a hacer ciertos cálculos acerca de la calidad de
estas llantas, para lo cual se hace las siguientes preguntas:
a. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil
de 31900 millas.
b. Cual es la probabilidad de una llanta producida por esta empresa tenga una vida útil
desde 31000 y 33000 millas.
c. Si la empresa fija una garantía de 30000 millas. ¿Qué porcentaje de esta producción
necesitará ser reemplazada?
149
b. Menos de 71 Kgs.
c. Más de 69 Kgs.
10. El tiempo requerido para realizar una pregunta de examen es una variable aleatoria cuya
distribución es aproximadamente normal con media 12.9 minutos y una desviación
estándar de 2.0 minutos. ¿Cuáles son la probabilidades de que un alumno resuelva una
pregunta del examen en:
a. Al menos 11.5 minutos.
b. Entre 11.0 y 14.8 minutos.
c. A lo mas 12 minutos
d. Entre 10 y 13 minutos.
Vacantes Probabilidad
0 0.05
1 0.15
2 0.35
3 0.25
4 0.10
5 0.10
150
Determina la probabilidad de cada uno de los siguientes sucesos:
a) No hay departamentos vacíos.
b) Cuando menos hay 4 departamentos vacíos.
c) Hay 2 o menos departamentos vacíos.
NUMERO de Actividades 0 1 2 3 4 5
NUMERO de ALUMNOS 8 20 12 6 3 1
Fuente: Datos Hipotéticos
RESOLVER:
a) Sea A el evento en que un alumno participa al menos en una actividad.
Determina P(A).
b) Sea B el evento en que un alumno participa en 3 o más actividades. Determina
P(B).
c) ¿Cuál es la probabilidad de que un alumno participe exactamente en 2
actividades?
151
4. Durante el invierno en Huancayo, el Sr. Llajaruna tiene problemas para arrancar sus
dos automóviles La probabilidad que el primero arranque es 0.80 y la probabilidad que
el segundo arranque es 0.40, también hay una probabilidad de 0.30 de que arranquen
ambos:
a) Define los eventos que intervienen y emplea notación de probabilidades para
mostrar la información anterior.
b) ¿Cuál es la probabilidad que al menos un automóvil arranque?
c) ¿Cuál es la probabilidad de que el Sr. Llajaruna no pueda arrancar uno de los
dos automóviles?
6. Se sabe que el tiempo útil de un componente eléctrico tiene una distribución normal
con media 2000 horas y desviación estándar 200 horas.
a) Calcula la probabilidad de que un componente elegido al azar dure más de
1950 horas.
b) ¿A qué cantidad de horas corresponde el 10% superior de la duración de los
componentes?
152
B) ¿Qué asignación de tiempo de trabajo se requiere para que haya una
probabilidad del 75% de que la reparación de las transmisiones se lleve a
cabo dentro de ese tiempo?
REFERENCIAS BIBLIOGRÁFICAS:
1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.
153
4. MILLER, Irwin y FREUND, John E., 1995. Probabilidad y Estadística para
Ingenieros – Edit. Prentice Hall Hispanoamericana S.A. – México.
5. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.
154
NOCIONES DE ESTADISTICA
INFERENCIAL
155
Sesión 12
Nociones de Estadística Inferencial:
Prueba de Hipótesis
CAPACIDADES
ACTITUDES
1. Valora la importancia que tiene el método estadístico para la contrastación de hipótesis
en la investigación científica.
2. Asume una actitud analítica al conocer y aplicar a su carrera profesional la docimasia
de hipótesis.
CONTENIDO
156
Inferencia
Estadistica
Distribuc.
Muestreo
Muestrales
Prueba de
Estimacion
Hipotesis
Una Dos
Puntual Intervalo
Poblacion poblaciones
µ p σ2 µ p σ2
157
ESTADISTICA INFERENCIAL
ESTIMACION ESTADISTICA:
Es el conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una
población a partir de los datos proporcionados por una muestra.
158
Estimación Puntual: Consiste en la estimación del valor del parámetro mediante un sólo
valor, obtenido de una muestra. Por ejemplo, si se pretende estimar la talla media de un
determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación
puntual la talla media de los individuos.
X X-µ
Sabemos que: Z Pero también Ζ
σ
n
Como no conocemos el parámetro µ y lo queremos estimar por medio de la media de
la muestra, sólo se despejará µ de la formula anterior, quedando lo siguiente
σ
Para muestras mayores a 30
µ X Ζ 1-α/2
n
s
µ X t (n- 1;1- α/2)
Para muestras menores que 30
n
159
Donde S la desviación estándar de la muestra y t es la distribución de la t de
Student con n – 1 grados de libertad y nivel de confianza igual a 1 - /2 .
Para el caso de tamaños de muestra grande se puede utilizar una estimación
puntual de la desviación estándar, es decir igualar la desviación estándar de la
muestra a la de la población (s= ).
Error de estimación de µ
µ - X 1-/2
n
Ejemplo:
1. Se encuentra que en una dieta la concentración promedio de vitaminas a partir de
una muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos
por mililitro. Suponga que la desviación estándar de la concentración de vitaminas
es 0.3.
a) Señale la estimación puntual para µ.
b) Encuentre el intervalo de confianza al 95% para la concentración media de
vitaminas en las dietas de dicho hospital.
c) Halle el error de estimación de µ para la pregunta b.
d) Encuentre el intervalo de confianza al 99% para la concentración media de
vitaminas en las dietas de dicho hospital.
e) Halle el error de estimación de µ para la pregunta d.
Solución:
a) La estimación puntual para µ es: X µ, es decir µ= 2.6 gr/ml
σ
b) IC para la media poblacional se calcula:
µ X Ζ 1- α/2
n
160
0 .3
µ 2.6 (1,96 )
36
p
Sabemos que: Z
pq
n
pq
p Z1 / 2 *
n
𝑝𝑞
Error de estimación de π 𝜀 = 𝑝 − 𝜋 = 𝑍1−∝⁄2 ∗ √
𝑛
161
o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
reproductores de discos compactos de la población que no pasan todas las pruebas.
162
Ejemplo 1: En población cuya distribución se desconoce se obtiene una muestra (m.a.s.) de
2000 valores de la que resulta una media de 225 y una desviación típica de 10. Suponiendo
que la varianza muestral coincide con la poblacional, estimar un intervalo para la media de la
población con un nivel de confianza del 95%.
Tendríamos 1- =0.95 luego =0.05; S=10= (muestra grande n>30); n=2000, para una
población normal.
P( x Z u x Z ) 0.95
2 n 2 n
el resultado sería : µ [224,56 , 225,44] con el 95 % de confianza.
Ejemplo 2: Las ventas diarias de cierta oficina comercial se supone que siguen una
distribución normal. Para estimar el volumen medio de ventas por día se realiza una muestra
de 10 días escogidos al azar, resultando que la media de las ventas de esos 10 días es S/.
100 con una desviación típica de S/. 4. Dar un intervalo de estimación para el volumen medio
de ventas por día con una confianza del 95 %.
S S
P( x t u x t ) 0.95
2 n 2 n
El resultado sería: µ [S/.96,99 ; S/.103,01] con el 95 % de confianza.
Ejemplo 3: Se quiere obtener un intervalo de confianza para el valor de las ventas medias
por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en
elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos
resultados fueron: ventas medias por hora S/. 4000, y varianza de dicha muestra S2/. 4000.
Obtener dicho intervalo con un nivel de confianza del 95.5 %.
163
Queremos construir un intervalo para la media con las siguientes características:
EJERCICIOS
Una media:
1. Una máquina llena un determinado producto en bolsas cuyo peso medio es μ gramos.
Suponga que la población de los pesos es normal con desviación estándar 20 gramos.
Estime μ mediante un intervalo de confianza del 95%, si una muestra aleatoria de 36
bolsas ha dado una media de 495 gramos
3. Determinar el intervalo para μ con confianza del 95%, si una muestra aleatoria de
tamaño 100 ha dado una media de 70 puntos.
164
4. El tiempo en, minutos que utilizan los clientes en sus distintas operaciones en un banco
local es una variable aleatoria cuya distribución se supone normal con una desviación
estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes
del banco resultando una media igual a 9 minutos:
a. Hallar el nivel de confianza si la estimación de μ es el intervalo de 7 a 11 minutos.
b. Calcular la probabilidad de que la media de los tiempos de todas las muestras de
tamaño 9 esté entre 6.5 y 11.5 minutos.
1. Un fabricante afirma que el peso promedio de las latas de fruta en conserva que saca al
mercado es 19 onzas. Para verificar esta afirmación se escogen al azar 20 latas de la
fruta y se encuentra que el peso promedio es 18.5 onzas Suponga que la población de
los pesos es normal con una desviación estándar de 2 onzas.
a. Utilizando un intervalo de confianza del 98% para μ, ¿se puede aceptar la
afirmación del fabricante?
b. ¿Qué tamaño de muestra se debe escoger para estimar μ si se quiere un error no
superior a 0.98 onzas con confianza del 95%?
2. Se quiere hacer una encuesta para estimar el tiempo promedio por semana que los
niños ven televisión. Por estudios anteriores se sabe que la desviación estándar de
dicho tiempo es de 3 horas. Con el nivel de confianza del 99%.
a. ¿Qué tamaño de muestra se debería elegir si el error de la estimación puntual no
es superior a media hora?
3. Un fabricante produce focos cuya duración tiene distribución normal. Si una muestra
aleatoria de 9 focos da las siguientes vidas útiles en horas:
775, 780, 800, 795, 790, 785, 795, 780, 810
a. Estimar la duración media de todos los focos del -fabricante mediante un intervalo
de confianza del 95%.
b. Si la media poblacional se estima en 790 horas con una confianza del 98%,
¿cuánto es el error máximo de la estimación si se quiere una confianza del 98%?
165
4. El ingreso mensual de cada una de las 500 microempresas de servicios de una ciudad,
es una variable aleatoria con media μ desconocida. Con el fin de simplificar la
recaudación de impuestos, la Sunat ha dispuesto que a estas empresas se las grave
mensualmente con un 10% de sus ingresos. De una muestra al azar de 50
microempresas se obtuvo un ingreso mensual promedio de $1000 con una desviación
están dar de $80.
a. Estime el monto medio de los ingresos de las microempresas de la ciudad con un
intervalo de confianza del 95%
b. Estime el monto promedio de la recaudación a estas microempresas con un
intervalo de confianza del 95%
c. Si el propósito de la SUNAT es lograr mensualmente una recaudación total de al
menos $52,000 a estas microempresas, ¿es factible que se cumplan sus metas?,
¿por qué?
Una proporción:
5. En un estudio socioeconómico se tomó una muestra aleatoria de 100 comerciantes
informales y se encontró entre otros datos los siguientes: un ingreso medio de $600,
una desviación estándar de $50 y sólo el 30% tienen ingresos superiores a $800.
a. Estimar la proporción de todos los comerciantes con ingresos superiores a $800,
mediante un intervalo de confianza del 98%.
b. Si la proporción de todos los comerciantes con ingresos superiores a $800 se
estima entre 20.06% y 39.94% ¿qué grado de confianza se utilizó?
6. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor.
a. Estimar la proporción de menores de 16 años que consumen licor en toda la
población mediante un intervalo de confianza del 99%.
166
a. ¿cuántas piezas debe tener la muestra si se quiere tener una confianza del 95%
que el error de la estimación no será superior a 0.047?
b. Se escoge una muestra aleatoria del tamaño calculado en a), si en ella se
encuentran 40 piezas defectuosos, mediante un intervalo de confianza del 95%,
¿se puede inferir que la estimación del fabricante es coherente con la
estimación efectuada a partir de la muestra aleatoria?
167
168
PRUEBA DE HIPOTESIS
las hipótesis que formulamos lo serán lógicamente sobre la población. Bien afectando a
algún parámetro de ésta, lo que da origen a los contrastes paramétricos o bien a otras
características de la mismas que no lo sean estrictamente, lo que origina contrates "no"
paramétricos.La solución estadística del problema de contrastación se basará en los datos
muestrales y la base estadística (probabilística) de la que arrancará el contraste, de algún
estadístico muestral.
CONCEPTOS BÁSICOS
a) Hipótesis: Es una respuesta a priori a un problema. Es una conjetura sobre el valor
concreto que tiene en realidad
169
Decisión posible Ho Verdadera Ho Falsa
=(1- β
Aceptar Ho
“Nivel de Confianza” o “Evidencia
Estadística”
ERROR TIPO I DECISIÓN CORRECTA
Rechazar Ho α (1-
“Poder Estadístico”
170
Estadísticos de Prueba: (z o t)
̅ −𝛍𝟎
𝑿
Caso II: Para muestra pequeña (n<30): 𝒕= 𝐬
√𝒏
171
̅𝟏 − 𝑿
(𝑿 ̅ 𝟐)
𝒛𝒄 =
𝒔𝟐 𝒔𝟐
√ 𝟏+ 𝟐
𝒏𝟏 𝒏𝟐
̅𝟏 − 𝑿
𝑿 ̅𝟐 𝒏𝟏 𝒏𝟐 (𝒏𝟏 + 𝒏𝟐 − 𝟐)
𝒕𝒄 = √ → 𝒕𝒏𝟏+𝒏𝟐 −𝟐
𝒏 𝟏 + 𝒏 𝟐
√(𝒏𝟏 − 𝟏)𝑺𝟐𝟏 + (𝒏𝟐 − 𝟏)𝑺𝟐𝟐
̅𝟏 − 𝑿
(𝑿 ̅ 𝟐 ) − (𝝁𝟏 − 𝝁𝟐 ) (𝒏𝟏 − 𝟏)𝒔𝟐𝟏 + (𝒏𝟐 − 𝟏)𝒔𝟐𝟐
𝒕𝒄 = → 𝒕𝒏𝟏 +𝒏𝟐 −𝟐 𝒅𝒐𝒏𝒅𝒆 𝐒𝐩𝟐 =
𝟏 𝟏 𝒏𝟏 + 𝒏𝟐 − 𝟐
√𝐒𝐩𝟐 (𝒏 + 𝒏 )
𝟏 𝟐
172
̅ √𝒏
𝑫
𝑻𝒄 = → 𝒕𝐧−𝟏
𝑺𝑫
𝒑𝟏 − 𝒑𝟐 𝒙𝟏 + 𝒙𝟐
𝒛= , 𝒄𝒐𝒏 𝒑 = 𝒚 𝒒 = (𝟏 − 𝒑)
𝟏 𝟏 𝒏𝟏 + 𝒏𝟐
√𝒑𝒒 [ + ]
𝒏𝟏 𝒏𝟐
173
EJERCICIOS
1. Al estudiar si conviene tener o no una sucursal en la ciudad de Trujillo, la gerencia
de una gran tienda comercial de Lima, establece el siguiente criterio para tomar una
decisión: Abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha
ciudad es no menos de $ 500 y no abrirla en caso contrario. Si una muestra
aleatoria de 100 ingresos familiares de esa ciudad ha dado una media de $ 480.
¿Cuál es la decisión a tomar al nivel de significancia del5%?, Se sabe que la
distribución de los ingresos tiene una desviación estándar poblacional es igual a $
80.
174
5. Se ha dicho que no más de 5% de las unidades que salen de una línea de montaje
están defectuosas, Formule una hipótesis nula y una alternativa para esta situación.
¿La prueba será de una o dos colas? ¿Por qué?. Si la prueba es de una cola,
¿Sera de cola izquierda o de cola derecha? ¿Por qué?
6. Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74
por ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto,
el banco desarrollará un paquete especial de servicios para este grupo. La
administración quiere determinar si el porcentaje verdadero es mayor del 60 por
ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los
resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron
ingresos de $200,000 o más al año.
175
10. El presidente del PRI en 1988, basado en su experiencia, sostiene que un 95% de
los votos para las elecciones presidenciales han sido a favor de su partido. Los
partidos de oposición levantaron una muestra de 1100 electores y encontraron que
un 87% de ellos votaría por el PRI. El presidente del PRI quiere probar la hipótesis,
con un nivel de significación de 0.05, que el 95% de los votos son para su partido.
11. Se afirma que, de todas las familias que salen de Cumana por lo menos el 30 % se
mudan a Maracaibo. Si una muestra de 600 mudanzas tomada al azar de los
registros de la Alcaldía de Cumana revela que de los permisos de mudanza
autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30 contra la
hipótesis alternativa p < 30 con un nivel de significancia del 1 %.
14.
176
15. Probemos la hipótesis de que el porcentaje de microempresas cuyos patrones son
hombres captado por la ENAMIN es distinto de 88%.
Valid Cumulative
Frequency Percent Percent Percent
Valid Hombre 1634 83.9 83.9 83.9
Mujer 314 16.1 16.1 100.0
Total 1948 100.0 100.0
16. La administración de las tiendas Oxxo cree, sobre la base de una investigación,
que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes
(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo.
nH 45 nM 71
PH 0.58 PM 0.42
PH PM 0.58 0.42 0.16
17. Un fabricante está por decidir entre continuar con el método actual o usar un nuevo
método de montaje de un producto. Cambiará el método actual si, hay prueba que
evidencia que el nuevo método usa menos tiempo. A fin de tomar una decisión, se
seleccionó una muestra aleatoria de 10 operarios expertos y se registro el tiempo
de montajes, en minutos, que utilizó cada operario con ambos métodos. Los datos
se resumen en la siguientes tabla:
Operador 1 2 3 4 5 6 7 8 9 10
M. Actual 7 8 10 12 13 13 14 14 15 16
M. Nuevo 6 9 7 11 10 11 15 12 13 12
Diferencia 1 -1 3 1 3 2 -1 2 2 4
177
¿Con los resultados de esta muestra y al 5% de significancia. ¿Cree usted que el
fabricante cambiará el método de montaje del producto??
18. El inversionista desea comparar los riesgos asociados con dos diferentes
mercados, A y B. El riesgo de un mercado dado se mide por la variación en los
cambios diarios de precios. El inversionista piensa que el riesgo asociado con el
mercado B es mayor que el del mercado A. Se obtienen muestras aleatorias de 31
cambios de precio diario de A y de 36 para el mercado B. Se obtienen los
siguientes resultados.
19. Yahoo Internet Life patrocinó encuestas en varias áreas metropolitanas para
estimar la proporción de adultos que usan internet en el trabajo (USA Today, 7 de
Mayo 2007). En los resultados se encontró que 40% de los adultos de Washington,
utilizan internet en el trabajo, en tanto que el 32 % de los adultos de San Francisco
utilizan internet en el trabajo. Si las muestras son de 240 y 250, respectivamente,
¿los resultados muestrales indican que la proporción de adultos que usan internet
en el trabajo en Washington es mayor que la proporción de San Francisco? Con
α=0,05.
178
20. Un supervisor de calidad va a comparar las cantidades de artículos defectuosos
que procesan dos líneas de producción A y B. El escogió dos muestras aleatorias
independientes, una de 50 de A y la otra de 60 de B, observando 8 y 6 artículos
defectuosos respectivamente. ¿Existe alguna evidencia que indique que una de las
líneas produce una mayor proporción de artículos defectuosos?
En Ciencias de la Salud
179
4. Nueve animales de laboratorio fueron infectados con cierta bacteria y luego
inmunosuprimidos. El número medio de organismos aislados posteriormente de los
tejidos de dichos animales fue de 6.5 (datos codificados) con una desviación
estándar de 0.6 ¿Es posible concluir a partir de estos datos que la media de la
población es mayor que 6? Sea α = 0.05. ¿Qué supuestos se deben cumplir?
6. Una encuesta de 100 hospitales de tamaño similar reveló un censo medio diario en
el servicio de pediatría de 27 con una desviación estándar de 6.5. ¿Proporcionan
estos datos suficiente evidencia para indicar que la media de la población es mayor
que 25? Sea α =0.05.
132, 33, 91, 108, 67, 169, 54, 203, 190, 133, 96,30, 187, 21,63, 166,84, 110, 157,
138
180
9. Para analizar la obesidad se obtuvieron los siguientes resultados a partir de una
muestra de hombres y otra de mujeres, entre las edades de 20 a 75 años:
Muestra Media S
A 52.5 10.5
B 49.6 11.2
Con base en estos datos, ¿qué puede concluir e! investigador? Sea α = .05.
11. Una prueba diseñada para medir las actitudes de las madres en cuánto al trabajo
de parto y el periodo de expulsión se aplicó a dos grupos de madres primerizas. La
muestra 1 (asistentes) acudieron a clases de instrucción prenatal impartidas en el
departamento de salud. La muestra 2 (ausentes) no asistieron a clases. El tamaño
de las muestras, medias y desviaciones estándar de las calificaciones para las
pruebas son las siguientes:
Muestra n Media s
1.0
1 15 4.75
2 22 3.00 1.5
181
¿Proporcionan estos datos la evidencia suficiente para indicar que las asistentes,
en promedio, tienen calificaciones más que las ausentes? Sea α= .05.
12. Varios investigadores desean saber si es posible concluir que dos poblaciones de
niños difieren respecto a la edad promedio en la cual pueden caminar por sí solos.
Los investigadores Obtuvieron los siguientes datos (edades en meses).
Muestra de la población A: 9.5, 10.5, 9.0,-9:75,10.0, 13.0, 10.0, 13.5, 10.0, 9.5,
10.0, 9.75
Muestra de la población B: 12.5, 9.5, 13.5, 13.75, 12.0, 13.75, 12.5, 9.5, 12.0,
13.5, 12.0, 12.0
13. Babaian y Camps afirman que el antígeno específico prostático (A£P), encontrado
en las células, ductales epiteliales de la próstata, es específico para el tejido
prostático y es detectable en el suero de hombres con próstata normal y en
hombres con enfermedades benignas ó malignas de esta glándula. Los
investigadores determinaron los valores de AEP en una muestra de 124 hombres
que se sometieron á una biopsia de la próstata. Sesenta y siete hombres tenían
concentraciones elevadas de AEP (>4 ng/ml); de estos, a 46 se les diagnosticó
cáncer. Diez de los 57 hombres con valores de AEP ≤ 4 ng/ml tenían cáncer. Con
base en estos datos, ¿es posible concluir que, en general, los hombres con valores
elevados de AEP tienen mayor probabilidad de tener cáncer de próstata? Sea α
=0.01.
14. La mayoría de las personas que dejan de filmar, se quejan de que al hacerlo
suben de peso. Hall y otros investigadores diseñaron una nueva técnica para
prevenir que la gente suba de peso, la cual compararon contra otras condiciones
que incluían una condición control de tratamiento estándar ideada para representar
la atención estándar del sobrepeso inducido por dejar de fumar. Una de las
hipótesis de los investigadores era que las tasas de abstinencia de tabaco serían
mayores con la nueva técnica que las registradas en las otras dos condiciones. De
53 individuos asignados a la nueva condición, 11 dejaron de fumar al final de 52
182
semanas; diecinueve de los 54 individuos asignados a la condición de control se
abstuvieron hasta el final del mismo periodo. ¿Ofrecen estos datos suficiente
evidencia para apoyar, con un nivel de significación de 0.05, la hipótesis de los
investigadores?
15. En un estudio para comparar los pesos promedios de niños y niñas de sexto grado
en una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25
niñas. Se sabe que tanto para niños como para niñas los pesos siguen
una distribución normal. El promedio de los pesos de todos los niños de sexto
grado de esa escuela es de 100 libras y su desviación estándar es de
14.142 libras, mientras que el promedio de los pesos de todas las niñas de
sexto grado de esa escuela es de 85 libras y su desviación estándar es de 12.247
libras. ¿El promedio de los pesos de los niños será más grande que el de las
niñas?
En Ingeniería
1. Se sabe que la duración en horas, de un foco de 75 watts tiene una distribución
aproximadamente normal, con una desviación estándar de 25 horas. Se toma una
muestra aleatoria de 20 focos, la cual resulta tener una duración promedio de x =
1014 horas.
¿Se tiene evidencia estadística para decir que la duración promedio de todos los
focos de 75 watts es de 51 horas? Pruebe con un nivel de significancia de 0.05.
Pruebe Ho
183
3. Después del mantenimiento y la calibración, una máquina para extrusión produce
tubos de aluminio con una media de diámetro exterior de 2.500 pulgadas y una
desviación estándar de 0.027 pulgadas. Cuando la máquina funciona durante un
gran número de tumos de trabajo. La desviación estándar no se altera, pero la
combinación de desechos acumulados y el desgaste mecánico provoca que la
media del diámetro "se aleje" de las 2.500 pulgadas deseadas. En una muestra
aleatoria reciente de 34 tubos, la media del diámetro fue de 2.509 pulgadas. Con
un nivel de significancia de 0.01, ¿La máquina parece requerir de mantenimiento y
calibración? Determine e interprete el valor de p para la prueba.
¿Los datos arrojan evidencia para decir que el tiempo promedio de montaje de
cierta pieza es mayor de 44 minutos? Utilice = .02.
6. Se encuentra que la concentración promedio de zinc que se saca del agua a partir
de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por
mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe
suficiente evidencia estadística para decir que la concentración promedio de zinc es
menor de 2.9 gramos por mililitro? Utilice = .05.
184
7. Se encuentra que la concentración promedio de zinc que se saca del agua a partir
de un muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por
mililitro. Suponga que la desviación estándar de la población es 0.3. ¿Existe
suficiente evidencia estadística para decir que la concentración promedio de zinc es
menor de 2.9 gramos por mililitro? Utilice = .02.
10. Una compañía controla su proceso de producción en tal forma, que se pone en
bolsitas un promedio de 20 grs. de un producto químico. El proceso se detendrá
cuando el promedio no es de 20 grs. Se tomó una -muestra; aleatoria de 16
observaciones y el promedio muestra! resultó ser 19 grs. ¿Debe pararse el proceso
y ajustarse? La desviación estándar poblacional es dé 2 grs. Y el nivel de
significancia escogido es de 5%.
11. Un fabricante requiere fibra de algodón con una resistencia, media a la tensión de
6,50 onzas y o = 0.25. Investigó un nuevo lote de fibras mediante una muestra de
16 piezas y encontró x = 6,65 onzas. Existe evidencia de que este lote es de
resistencia mayor a la requerida?
12. Las cajas de avena llenadas por un proceso automático deben -tener un contenido
de 160 gramos en promedio. Si no es así debe detenerse la producción para
regular la máquina. Para el control se obtuvo el peso en gramos Xi de 10 cajas
seleccionadas al azar de esa producción y resultaron las siguientes sumas: Ʃxi =
185
1580, Ʃxi2 = 249658; al nivel de significancia de 0.01 ¿es razonable detener la
producción?
13. Una compañía afirma que la resistencia a la rotura de sus maletas plásticas es de
un promedio mayor a las 300 lluras. Se toma una muestra aleatoria de 9 maletines
se encuentra que el promedio de resistencia a la-rotura es:
14. La empresa productora de cereales embasados para consumo directo " ENERGÍA"
a lanzado al mercado su nuevo producto "CRECIENDO FUERTE el cual tiene
como especificaciones un peso promedio neto de 1 kilogramo. Si un agente del
gobierno toma una muestra representativa de 8 unidades y los pesos netos fueron
los siguientes: 0.995, 0.974, 0.966, 0.9.35, 0.999, 1.06, 1.01 y 0.983 kilogramos.
Con una significación del 5% ¿Podría el agente ordenar se multe a la empresa
productora?
15. El productor de cierta marca de baterías para .cámara, fotográfica dice que su
producción tiene vida media de más de 750. minutos. Se- prueban 20 baterías
elegidas al azar y sé suministraron los siguientes resultados: 720, 759, 723, 740,
754, 725, 790, 719, 775, 700, 745, 750, 753, 730, 780, 710, 775, 728, 702, 752
186
kilómetros? ¿Existe suficiente evidencia estadística para decir que la concentración
promedio de zinc es menor de 2.9 gramos por mililitro?
17. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra
de piezas cuyos diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03
centímetros. Con un nivel de significancia de .01. ¿Pruebe la hipótesis de que el
diámetro promedio de piezas de esta máquina es de 1.009?
18. Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido
promedio de nicotina de 2.6 miligramos y una desviación estándar de 0.9
miligramos. ¿Existe suficiente evidencia estadística para decir que el contenido
promedio real de nicotina de esta marca de cigarros en particular es de 2.4
miligramos? Con = .05.
20. Según los datos obtenidos en una encuesta del CIS sobre política internacional,
realizada en febrero de 2002, el 52% de los 1202 hombres entrevistados,
manifestaba prestar “bastante” atención a las noticias sobre cuestiones y
acontecimientos sucedidos en otros países, mientras que entre las 1285 mujeres
187
entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de
confianza del 95% , que existen diferencias significativas entre las proporciones de
hombres y mujeres “bastante” atentos a ese tipo de noticias? ¿Y si contrastamos la
hipótesis aplicando un nivel de significación de 0,01?
21. Previo a una elección la senadora X contrata los servicios de la compañía Y para
fijar la contienda establecida con los electores. Ella percibe con respecto a
este punto que si tiene el 45% de los votos será nominada de cuerdo con su
estrategia de campaña. Suponiendo que la compañía contratada selecciona
una muestra aleatoria simple de 1600 electores registrados. ¿Cuál es la
probabilidad de que la muestra pueda produc ir una proporción de 45% más
dado que la verdadera proporción es del 40%?
23. Se quiere elegir entre dos tipos de material textil para construir sistemas de
amarre. Para ello se mide la tensión de rotura de varias cintas de prueba utilizando
dos tipos de material. Se toman 24 datos usando el material M1, obteniéndose ¯ x1
= 87 (kg/mm2) y ˆ s1 = 2. Se toman además 30 datos usando el material M2,
obteniéndose ¯ x2 = 75 y ˆ s2 = 2.3. Se sabe que las tensiones de rotura se
distribuyen como una Normal. Se supondrá, además, que las varianzas de ambas
poblaciones son iguales. Contrasta, con un nivel de significación del 1%, que el
material M1 tiene mayor resistencia media que el M2.
188
programa se selecciona una muestra aleatoria de 24 analistas de sistemas. A cada
analista se le proporcionan especificaciones para un sistema hipotético de
información, y a los 12 de ellos se les pide producir el sistema usando la tecnología
(los programas) actual. A los otros 12 se les capacita primero en el uso del nuevo
paquete y, a continuación, se les pide usarlo para producir el sistema de
información.
En Ciencias Sociales
189
2. Los siguientes datos corresponden a los pesos en Kg de 15 hombres escogidos al
azar: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77, 70, 69. Pruebe la Ho
74 con un nivel de significancia de .05.
4. Un distribuidor de libros plantea la hipótesis de que las ventas por mes promedian
S/.12, 000. Diez meses seleccionados como muestra reportan una media de S/.
11,277 y una desviación estándar de S/. 3,772. Sí se utiliza un valor del 5%.
¿Qué puede concluir acerca de la impresión que tiene el distribuidor sobre las
condiciones del negocio? ¿Cuál es el supuesto que se debe cumplir?
190
Ensayar la hipótesis de que los estudiantes que participan en las pruebas atléticas
son más altos que los otros. Ensaye la hipótesis al 5%.
191
10. Una muestra aleatoria de 8 estudiantes se someten a una prueba de estadística, y
reciben las calificaciones (X). Después se efectúa una sesión de repaso de
Estadística y se repite el mismo examen (Y). A un nivel de significancia de 0.01
¿las calificaciones son menores en el segundo examen?
11. Un epidemiólogo desea comparar dos vacunas. Las personas que previamente
había recibido dichas vacunas se dividieron en dos grupos. El grupo una recibió
una dosis de refuerzo de la vacuna tipo 2. Las respuestas de los anticuerpos se
registraron dos semanas después. Las medias, desviaciones estándar y tamaño de
las muestras para los dos grupos fueron los siguientes:
Ho: µ1 = µ2
Ha: µ1 µ2
El nivel de significancia es de = 0.01
192
respectivamente, y sabemos que las varianzas valen 2.9 para la población de
alumnos de Psicología y 4.2 para la población de alumnos de Pedagogía.
¿Podemos afirmar que existen diferencias entre las medias alcanzadas por ambos
grupos? Realiza el proceso completo de decisión estadística tomando un nivel de
significación igual a 0.05 (alfa).
13. Se aplica un examen a dos grupos de estudiantes de 144 niños cada uno. El grupo
A que está cerca de una fábrica tuvo una puntuación promedio de 88 con una
varianza de 27 puntos, el grupo B que está lejos de la fábrica tuvo una puntuación
de 90 con una varianza de 24 puntos ¿Hay diferencia significativa en el rendimiento
promedio de los dos grupos a un nivel de significancia del 5%?.
14. Como parte de un estudio para evaluar las diferencias en los niveles educativos en
2 centros de capacitación, se aplicó un examen común que personas que asisten a
cada centro. Las calificaciones del examen son uno de los factores principales para
evaluar diferencias de calidad entre los centros.
193
b) Si los tamaños de muestra reales hubieran sido de 10 y 15 para los centros
de adiestramiento A y B, respectivamente, realice la prueba de hipótesis
adecuada.
c) ¿Los resultados obtenidos en la parte (b) son similares a los de la parte (a)?
REFERENCIAS BIBLIOGRÁFICAS
2. Freund J. y Manning R.; 1989, Estadística 4ta edición, Edit. Prentice Hall
Hispamericana S.A. – México ;(Págs. 342 a 363).
3. Miller I. y Freund J.; 1992, Probabilidad y Estadística para Ingenieros, Edit. Prentice
– Hall Hispanoamericana S.A. – México (Págs. 220 a 232).
7. Ostle Bernard; 1985, Estadística Aplicada, Edit. Limusa – Wiley S.A. – México,
(Págs. 131 a 138 y 140 a 142).
194
Sesión 14
Prueba de hipótesis sobre relación entre
variables cualitativas: Chi-Cuadrado
CAPACIDADES
ACTITUDES
CONTENIDO
195
Uso de la Ji Cuadrado. Prueba de bondad de ajuste. Prueba de independencia.
INTRODUCCION
Cuanto mayor sea el valor de χ2, menos verosímil es que la hipótesis sea correcta. De la
misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están
ambas distribuciones.
196
gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.
La prueba X2 puede aplicarse con una sola variable para comparar valores
observados respecto a esperados, aunque su uso más frecuente es para comparar
dos proporciones.
Simplemente diremos que los valores que toma el estadístico ji-cuadrado con un
grado de libertad corresponden a los obtenidos a una distribución normal estandar
197
elevados al cuadrado, y que por tanto la prueba ji-cuadrado solo tiene una cola
tomando únicamente valores positivos.
Ejemplo
Supongamos que realizamos un estudio en 45 pacientes en el que deseamos estudiar la
relación entre el hábito tabáquico y EPOC diagnosticado mediante espirometría obteniendo
los resultados de la Tabla I. Podemos ver que 15 pacientes de 25 (60%) tenían EPOC dentro
del grupo de fumadores, mientras que tan solo 5 de 20 (25%) presentaron EPOC en el grupo
de no fumadores. Desde un punto de vista clínico las diferencias son importantes, pero ¿lo
serán desde un punto de vista estadístico?
Fumador
EPOC No Sí Total
Si la proporción es distinta, tenemos en cuenta las dos posibilidades que existen: que la
proporción de pacientes con EPOC sea más alta o más baja en los fumadores, por lo tanto la
prueba es bilateral o también denominada de “dos colas”.
Entonces tenemos: Ho : 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 = 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠
198
Ha: 𝑃𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠 ≠ 𝑃𝑛𝑜 𝑓𝑢𝑚𝑎𝑑𝑜𝑟𝑒𝑠
X2 = 5.51
199
PRUEBA DE INDEPENDENCIA: JI-CUADRADA
EJERCICIOS
200
3 9 81
Total
Determine si existe relación entre la cantidad de componentes defectuosos y el
distribuidor que los suministra, con un α = 0,01.
5. Supongamos que se quiere estudiar la posible asociación entre el hecho de que una
gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo
201
tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes
que fuman comparado con aquellas que no lo hacen. Para responder a esta pregunta
se realiza un estudio de seguimiento en 2000 gestantes, a las que se interroga sobre
su hábito tabáquico durante la gestación y se determina además el peso del recién
nacido. Los resultados se muestran a continuación:
Bajo Peso en el Recién Nacido
Gestante Total
Sí No
Fumadora 43 207
No Fumadora 105 1645
Total
Realice la prueba Ji-Cuadrada de independencia para determinar la existencia de
relación o no, use un α = 0,10.
202
Sí 22 32 33
No 67 5 10
Total
Con un nivel de significancia del 1%, ¿existe alguna dependencia entre la región de
procedencia y la presencia de la plaga?
Use los resultados adjuntos para entregar una conclusión a los investigadores con un
nivel de significación del 5%.
9. Los niños de una escuela primaria fueron clasificados en forma cruzada de acuerdo
con el grupo socioeconómico al que pertenecen y la presencia o ausencia de cierto
defecto en el lenguaje. Los resultados fueron los siguientes:
Grupo Socioeconómico
Defecto del
Medio Total
Lenguaje Alto Medio Bajo Bajo
Alto
Presente 8 24 32 27
Ausente 42 121 138 108
203
Total
¿Son compatibles estos datos con la hipótesis de que el defecto en el lenguaje está
relacionado con el grupo socioeconómico? Nivel de significación del 2,5%.
11. Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la
medicación de mayor uso. Para esto se tomó al azar un grupo de 300 animales que
padecían la enfermedad; a la mitad de éstos, tomados al azar, se los trató con la
nueva medicación y a los otros 150, con la medicación tradicional. Luego de un
tiempo se analizaron nuevamente los animales con el siguiente resultado:
204
Tradicional 20 42 88
Total
¿Considera que estos medicamentos se comportan de manera similar? Nivel de
significación del 10%.
12. A un grupo de 350 adultos que participaron en una escuela de salud, se les preguntó
si llevaban o no una dieta. Las respuestas (por género) son las siguientes:
¿Sigue una dieta?
Género Total
Sí No
Masculino 14 159
Femenino 25 152
Total
¿Sugieren estos datos que el estar a dieta depende del sexo? Sea α=0,05
205