Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA GENERAL Cap 1
ESTADISTICA GENERAL Cap 1
ESTADÍSTICA GENERAL
INTRODUCCIÓN
¿Que es la estadística?
La Estadística, rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de
decisiones.
Importancia de la Estadística
La estadística ha jugado un papel primordial en el desarrollo de la sociedad moderna, al
proporcionar herramientas metodológicas generales para analizar la variabilidad, determinar
relaciones entre variables, diseñar en forma óptima estudios y experimentos y mejorar las
predicciones y toma de decisiones en situaciones de incertidumbre.
Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en
deportes; administradores de instituciones; en la educación; organismos políticos; médicos;
y por otras personas que intervienen en la toma de decisiones.
La Investigación Científica
La investigación es un proceso de producción de conocimientos científicos; es un proceso
sistemático a través del cual se recogen datos e información de la realidad objetiva para dar
respuesta a las interrogantes que se plantean.
No hay investigación grande o pequeña, simplemente investigar es buscar respuesta a
determinadas interrogantes, a través de la aplicación de procedimientos científicos.
TRABAJO
Observar y describir diferentes problemas relacionados con su carrera.
ESTADÍSTICA GENERAL
DIVISIÓN DE LA ESTADÍSTICA
TÉRMINOS DE ESTADÍSTICA
Los términos estadísticos que se usan en estadística es necesario conocerlos para poder
entender el lenguaje estadístico que se utiliza en el desarrollo de la asignatura:
Población:
En forma general, en estadística; se denomina población, a un conjunto de elementos (que
consiste de personas, objetos, etc.), que contienen una
característica observable común.
La población debe estar perfectamente definida en el
tiempo y en el espacio. Por lo tanto, al definir una
población, se debe cuidar que el conjunto de elementos que
la integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando la edad de
los alumnos de la UNP, debemos especificar cuáles y cuándo, entonces seria: 14537
alumnos de la Universidad Nacional de Piura, en Abril del 2011.
Población (N)
Muestra (n)
Muestreo
X
S
2 Inferencia
S2
Variable: Es una característica de interés, toma diferentes valores. Las variables son
características observables, susceptibles de adoptar distintos valores o ser expresados en
varias categorías. Las variables se representan con letras mayúsculas del abecedario.
Ejemplo:
X: Tamaño de pernos producidos por cierto proceso industrial.
Y: Ph. Del yogurt.
Q: Color de la bebida gaseosa.
Z: Número de gaseosas defectuosas por lote.
P: Método de enseñanza.
M: Temperatura de cocido de ladrillos pandereta.
N: Tipo de batería que usan los equipos de Oftalmología para el servicio de zonas rurales
en el CLAS de la ciudad de Sullana en Julio del 2008.
X: Gastos realizados por la empresa por aniversario de esta, en el mes de Julio.
Y: Edad de los alumnos del colegio “Mariano Melgar”.
Z: Tiempo de servicio de los trabajadores de la empresa OKG.
Datos: Comúnmente se le conoce como observaciones. Son los valores que toma la variable
en cada unidad estadística.
De los ejemplos anteriores seria:
x1=2 cm., x2=2.1 cm.
y1=12.2°, y2=13.5°
q1=amarillo, q2=rojo, q3=negra, q4=amarilla.
Etc.
Unidad de medida. Son las unidades físicas en las que son expresados los datos. Las
variables cualitativas no tienen unidad de medida.
De los ejemplos anteriores.
cm.
Grados.
LAS VARIABLES
Podemos iniciar el tema indicando que definir las variables “me permitirá dar respuesta a lo
que quiero estudiar”. El sexo, la edad, el nivel socioeconómico, el seguimiento de un
determinado plan de cuidados, el tipo de droga que se consume, la percepción de riesgo
frente a una determinada conducta, etc. son aspectos que con seguridad se abordarán si
estamos realizando un estudio sobre el consumo de drogas, pues bien, estos aspectos a
estudiar, son lo que denominamos las variables de estudio.
VARIABLES CUALITATIVAS:
Miden una característica, en término de cualidad, nunca de forma numérica.
Cada uno de los valores que puede tomar la variable se llama categorías. Deben incluir
todas las opciones posibles que puede adoptar la variable.
Pueden ser:
Escala nominal: Determina la igualdad o desigualdad de los individuos.
Sexo: masculino o femenino. Fumador: Sí. No.
Estado Civil: soltero, casado, viudo, separado o divorciado.
Escala ordinal: Determina el orden de los individuos de “mayor”, “menor” o “igual
que”.
Habito de fumar: no fumador, fumador moderado, fumador importante.
Consumo de tabaco: Tabaco: 0 c/d, 1-10 c/d, > 10 c/d
Escala de dolor: Muy fuerte, fuerte, regular, débil, muy débil.
Si las variables cualitativas tienen solo dos categorías se llama variable cualitativa
dicotómica (Ejemplo: Sexo: Hombre. Mujer), y si tiene más de dos, variable cualitativa
politómica (color de cabello: negro, rubio, castaño, pelirrojo)
VARIABLES CUANTITATIVAS:
Miden una característica de forma numérica, miden una cantidad. Pueden ser:
Variables Discretas: Entre dos valores consecutivos no existe otro valor, es decir toman
solo valores enteros. Se obtienen siempre por conteo.
Ejemplo.
Número de hijos.
Número de maquinas registradoras.
Número de máquinas empacadoras de cemento.
Número de estaciones de servicio.
Número de cajeros automáticos.
VARIABLES
CUALITATIVAS CUANTITATIVAS
Ejemplo:
Veamos la variable Estado Civil:
a) Nombre: Estado Civil o conyugal
b) Definición: Es la situación de la persona empadronada en relación con las leyes y
costumbres del país.
c) Categorías:
(01) Soltero
(02) Casado
(03) Conviviente
(04) Divorciado
(05) Viudo
d) Categorización: ¿Cuál es su estado civil?
e) Medidas de Resumen Indicadores:
- Distribución Porcentual
- Tasa de Nupcionalidad
- Etc.
Veamos la variable cuantitativa, Ingreso:
a) Nombre: Ingresos
b) Definición: Son los recursos monetarios netos, incluyendo todas las bonificaciones
que percibe una persona por su ocupación principal y secundaria durante el periodo
de referencia de la encuesta.
c) Categorías: Puede proponerse en forma de niveles o simplemente intervalos.
Primera forma: Segunda forma:
(01) Alto (01) Menos de 300
(02) Medio (02) De 301 a 500
(03) Bajo (03) De 501 a 700
(04) De 701 a mas
EJERCICIOS 01
1) Se desea saber el tiempo de vida de los motores en las motocar YAMAHA cierto estudio
se hizo ciudad de Tumbes e Iquitos ya que son las ciudades donde el calor es intenso
todo el año y el motor de cierto objeto de estudio sufre en estas condiciones climáticas.
2) En la UNP se quiere saber cuál es el deporte más practicado por los alumnos la cual se
tomo información de 200 alumnos elegidos al azar de las diferentes escuelas de esta
universidad.
4) La UNP necesita información sobre lugar de procedencia de los alumnos que vienen a
integrarse a nuestra casa de estudio en el segundo semestre del presente año.
Trabajo 02
Investigar, presentar y exponer acerca de:
Recolección de datos:
- Concepto
- Fuentes de datos
- Técnicas de recolección de datos.
- Censo y Encuesta
RECOPILACIÓN DE DATOS
La recopilación de datos es el momento en la cual el investigador se pone en contacto
directo con los sujetos, objetos o elementos sometidos al estudio con el propósito de obtener
los datos o respuestas de las variables consideradas; a partir de estos datos se prepara la
información estadística y se calcula las medidas de resumen e indicadores para el análisis
estadístico.
Para recoger la información se toma en cuenta las siguientes modalidades: Las fuentes de
información, los sistemas de recolección y las técnicas de recolección.
FUENTES DE INFORMACION
Es el lugar, la institución o persona donde están los datos para cada una de las variables o
aspectos de la investigación. Las fuentes de información pueden ser:
a) Fuentes internos: Es la información recopilada por la empresa (o la institución) de
los resultados de su propia gestión. Son pues las observaciones que constantemente
realizan los departamentos: Administrativos, contables, comerciales, técnicos, etc.
Ejemplo. Reportes financieros, Reportes de operaciones, que están dados por la
información de la producción, ventas, compras, estados de pérdidas y ganancias,
Reportes especiales, es información adicional para un análisis específico.
Ejemplo. Llevar a cabo una encuesta para conocer el grado de satisfacción laboral de
los trabajadores de la fábrica CEPICAFE.
Índices de precios al consumidor.
d) Fuentes Secundarias: Cuando los datos ya han sido elaborados y procesados por
otras personas o instituciones.
Ejemplo. La información estadística que publica el INEI de los diferentes ministerios
del Perú.
SISTEMA DE RECOLECCIÓN
Son procedimientos que se utilizan para recoger información, puede ser:
a) Los Registros: Son libros, padrones en donde se anotan en forma regular
permanente y obligatoria los hechos ocurridos.
Ejemplo. Registros civiles, RENIEC, Registros Públicos, etc.
TECNICAS DE RECOLECCION
Son procedimientos que se utilizan para recolectar información según la naturaleza del
trabajo de investigación. Pueden ser:
El cuestionario, la entrevista, el análisis de contenido, etc.
a) La observación: Es la acción de mirar con rigor, en forma sistemática y profunda,
con el interés de descubrir la importancia de aquello que se observa.
b) El cuestionario: Es un instrumento constituido por un conjunto de preguntas
sistemáticamente elaboradas que se formulan al encuestado o entrevistado con el
propósito de obtener datos de las variables consideradas en estudio.
c) La entrevista: Es un dialogo entre personas, es una técnica donde una persona
llamada entrevistador, encuestador o empadronador solicita al entrevistado le
proporcione algunos datos e información.
d) Análisis de contenidos: Es la técnica más elaborada y que goza de mayor prestigio
en el campo de la observación documental. El fin o propósito del análisis del
contenido consiste en determinar los puntos más importantes de un documento para
observar y reconocer el significado de los mismos en sus elementos, como palabras,
frases, etc., y en clasificarlos adecuadamente para su análisis y explicación.
Todo análisis estadístico, por acabado y seguro que sea, es capaz de suministrar respuestas
inadecuadas si éste se basa en una información incorrecta, es por eso que es necesario
inspeccionar la validez y confiabilidad de los datos para corregir los errores y omisiones de
acuerdo a ciertas reglas.
Partes principales:
1) Número del Cuadro, es le código o elemento de identificación que permite ubicar el
cuadro en el interior de un documento.
2) Titulo, es la descripción resumida del contenido del cuadro.
Responder a las clásicas preguntas: Que, Donde, Como y Cuando
Que: ¿Qué información contiene el cuadro?
Que hay en el cuadro, se refiere al hecho observado o la característica principal.
Como: ¿Cómo está arreglada o clasificada la información?
Como están ordenados o clasificados los datos en el cuadro.
Donde: ¿A dónde corresponde la información tabulada?
Se refiere al lugar geográfico o institución a la que corresponde la información.
Cuando: ¿A qué período de tiempo se refiere la información?
A que momento o periodo de tiempo esta referida la información puede ser un
momento especifico o puntual, como también un periodo de varios años, mese o
semanas, etc.
3) Encabezamiento o conceptos, Es la descripción resumida sobre contenido de las filas y
columnas que contiene el cuadro de información.
4) Cuerpo, Comprende al contenido numérico de la información del cuadro.
5) Fuente, Se anotará el nombre de la unidad responsable de la formulación y
presentación del tabulado de información estadística.
CUADRO Nº 01 N° de cuadro
DISTRIBUCIÓN DE 20 EMPRESAS SEGÚN EL NUMERO DE
TRABAJADORES EN PIURA, ABRIL DEL 2008
Nº Fi Encabezamiento
fi hi
Titulo Trabajadores
100 2 0.07 2
110 4 0.13 6
120 8 0.27 14 Cuerpo
130 10 0.33 24
140 4 0.13 28
150 2 0.07 30
Total 30 1
Fuente: Oficina de RRHH de las 20 empresas Fuente
TALLO Y HOJAS
Una manera muy simple de representar información en muestras de tamaño
moderado, es el tallo y hojas. Básicamente, consiste en un ordenamiento en que
el último dígito se escribe separadamente de los de mayor significación.
Mostraremos su uso mediante los datos que aparecen en la Tabla 01 que
presentamos a continuación.
Tabla 01
DATOS DE ALUMNOS DEL TERCER DE INGENIERIA INDUSTRIAL CICLO DE
LA UNIVERSIDAD PRIVADA CESAR VALLEJO DE PIURA, 2011.
G T P E G T P E G T P E G T P E G T P E G T P E
M 163 50 17 F 163 62 17 F 162 48 18 F 163 48 19 F 163 55 17 M 178 70 18
M 167 55 18 F 167 51 19 F 158 57 18 F 160 55 18 F 167 56 18 M 185 72 18
M 160 55 17 M 173 63 18 F 160 51 19 F 158 51 19 F 158 48 19 M 165 70 19
F 158 49 18 F 156 41 20 F 162 56 20 F 166 60 18 F 170 54 18 M 180 75 20
F 157 55 20 F 164 55 18 F 169 53 21 F 174 59 20 F 160 49 20 M 176 66 21
F 161 53 17 F 165 60 18 F 170 58 20 F 174 60 19 M 174 56 20 M 175 60 18
F 160 60 18 F 154 52 19 F 165 56 18 F 173 70 20 M 172 60 22 M 169 70 19
F 160 60 17 F 154 52 20 F 165 56 19 M 173 70 18 M 172 60 19 M 173 70 19
M 177 67 21 M 178 60 19 F 155 52 18 F 157 54 17 M 166 62 20
F 158 50 17 F 160 55 18 F 155 45 19 F 158 52 18 M 171 75 19
Fuente: Encuesta a alumnos.
Donde:
G : genero (M= Masculino, F=Femenino)
T: Estatura (cm)
P: Peso (kg)
E: Edad (años)
En esta tabla, aparecen datos de 58 alumnos del tercer ciclo de ingeniería industrial
de la Universidad Privada César Vallejo, correspondientes a las variables Género,
Estatura (cm) y Peso (Kg), recolectados de una encuesta.
Términos utilizados:
- Frecuencia absoluta simple ( f i ): indica el número de veces que se repite
un atributo, característica, valor o el número de valores de un conjunto de
datos que se encuentran en un intervalo. La suma total de estas frecuencias
es igual al total de datos (n o N).
- Frecuencia porcentual simple ( hi % ): se define en cada fila como
f
hi % i 100 . La suma total de estas frecuencias es el 100.00%. Cuando
n
no esta expresada en porcentaje se denomina frecuencia relativa simple (
hi ).
- Frecuencia absoluta acumulada ( Fi ) : indica la cantidad de datos que se
encuentran hasta cierto valor o clase.
- Frecuencia porcentual acumulada ( H i % ): indica el porcentaje de datos
que se encuentran hasta cierto valor o clase.
´
- Marca de clase ( Yi ): es el punto medio de cada intervalo, es decir
L Ls
Yi´ i .
2
Nota.-
Las frecuencias acumuladas se observan cuando estamos estudiando variables
cuantitativas, la marca de clase se utilizará cuando trabajemos con intervalos.
SOLUCION.
La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida gaseosa, es
la distribución de frecuencias del cuadro 1.2.
ELABORACIÓN DE GRAFICOS
GRAFICO DE BARRAS
Gráfico 1: Distribución de personas por su color preferido de una marca de bebida
gaseosa.
Personas
9 0.45
8 0.40
7
6
5
4
3 0.15
2
1
0
Negro Blanco Rojo
Fuente: Cuadro 01
Grafico Circular
El gráfico 2 es la representación mediante gráfica de sectores circulares del cuadro 1 La
frecuencia 45% es equivalente a 0. 45 360 162 , la frecuencia 40% es equivalente a
0. 40 360 144 , y la frecuencia 15% es equivalente a 0.15 360 54
Gráfico 2: Distribución de personas por su color preferido de una marca de bebida gaseosa.
15%
40%
R
B
N
45%
Fuente: Cuadro 01
Ejercicio.
En una muestra se recolecto datos sobre la marca de baterías que usaban 30 radios portátiles
del ejército peruano de la Ciudad de Piura.
Co ca se co ca
Donde:
Ca co ca ca Se ca: Panasonic
co: Duracell
Se co se co Co se: Akita
so: National
Co se co ca Co
So co ca ca Co
Co co co co Ca
B) VARIABLE CUANTITATIVA
B.1) CUADRO SIN INTERVALOS
Suponga que se han recolectado n valores de alguna variable discreta X. El procedimiento
más simple de organizar estos n datos, consiste en ordenar estos valores numéricos en forma
ascendente.
Si todos los n datos son distintos entre si, se obtendrá una distribución de frecuencias de n
valores de la variable X, donde cada uno de estos valores tienen frecuencia absoluta igual a
uno.
Si algunos valores se repiten, y si al terminar el ordenamiento se obtienen k ( k n )
valores distintos de X, digamos, x1 , x 2 ,..., x k , con frecuencias absolutas respectivas
f 1 , f 2 ,..., f k , la distribución de frecuencias de estos n datos se resume en el cuadro 1.3
(observar que es similar al cuadro 1.1).
Cuadro 2: Distribución de frecuencias de variable discreta
Valores de Frecuencias Frecuencias Frecuencias
La variable X Absolutas f i Relativas hi Porcentajes p i
x1 f1 h1 p1
x2 f2 h2 p2
... ... ... ...
xk fk hk pk
Total n 1.00 100.00
Fuente:……………..
Gráfica
La representación gráfica más común de una distribución de frecuencias de variable discreta
es del tipo bastón que consiste en trazar en cada valor distinto de la variable, segmentos de
recta proporcionales a su frecuencia.
También, se pueden usar barras rectangulares para graficar una distribución de frecuencias
de variable discreta.
EJEMPLO 1.2.
Ante la pregunta del número de hijos por familia (variable X) una muestra de 20 hogares
de la ciudad de Piura, marcó las siguientes respuestas:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
SOLUCION.
Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3,
4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de frecuencias de X se
da en el cuadro 1.4.
GRAFICO DE BASTONES
0 1 2 3 4 X
Fuente: Cuadro 02
Ejercicio.
Se tomo a 20 empresas de transportes de la Ciudad del norte del país la cual se tiene
datos de la cantidad de años dando servicio de transporte puntos turísticos del norte del
país:
6 5 4 4 3
3 4 4 5 5
4 5 6 2 4
3 4 6 5 3
Elabora un cuadro de distribución de frecuencias
Observe que se cierra por la derecha el último intervalo. Esto se debe a que si la
división R/k es exacta en el número de decimales de los datos, entonces,
X max X min kA .
43 53 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
53 64 76 44 73 56 62 63 60
SOLUCION:
1) De los datos, se encuentra X max 89 y X min 26. El rango de variación de los datos es:
R 89 26 63
2) La amplitud del intervalo se elige a partir del valor
R 63
A 7.875.
k 8
Como los datos son enteros, elegimos A 8 .
3)
Cuadro 3: Distribución de los ingresos de 45 personas
Frecuencias
Intervalos Conteo Absoluta Relativa Porcentaje
Ii fi hi pi %
[26,34[ / 1 0.022 2.2
[34,42[ // 2 0.044 4.4
[42,50[ //// 4 0.089 8.9
[50,58[ ///// ///// 10 0.222 22.2
[58,66[ ///// ///// ///// / 16 0.356 35.6
[66,74[ ///// /// 8 0.178 17.8
[74,82[ /// 3 0.067 6.7
[82,90] / 1 0.022 2.2
Total 45 1.000 100.0
Fuente: Elaboración propia.
Ejercicio.
Estos datos corresponden a las puntuaciones de 60 ingresantes a la Escuela de Ingeniería
Industrial en el último examen de admisión para el ingreso a la UCV – Piura.
65 43 88 59 35 76 21 45 62 41
36 78 50 48 62 60 35 53 65 74
49 37 60 76 52 48 61 34 55 82
84 40 56 74 63 55 45 67 61 58
79 68 57 70 32 51 33 42 73 26
56 72 46 51 80 54 61 69 50 35
35
30
25
20
CANTIDAD
15
10
0
10 - 14
25 - 29
30 - 34
15 - 19
20 - 24
EDAD (años)
POLÍGONO DE FRECUENCIA:
35
30
25
20
CANTIDAD
15
10
0
7 12 17 22 27 32 37
EDAD (años)
35
30
25
20
CANTIDAD
15
10
0
7 12 17 22 27 32 37
EDAD (años)
OJIVAS:
Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o
relativas, y que consiste en un grafico lineal que nos permite observar la cantidad de
elementos que quedan por encima o por debajo de determinados valores.
Las ojivas son de dos tipos:
“ojivas menor que”, “ojivas o más”.
Para su elaboración se trabaja con los límites inferiores de cada intervalote clase y las
frecuencias acumuladas correspondientes.
GRAFICO Nº 12 GRAFICO Nº 13
COMISARIA “X” COMISARIA “X”
DISTRUBUCION ACUMULADA DISTRUBUCION ACUMULADA “O
“MENOR QUE” DE PERSONAS MAS” DE PERSONAS DETENIDAS
DETENIDAS POR DELITO DE ROBO, POR DELITO DE ROBO, SEGÚN
SEGÚN EDAD - JUNIO 2005 EDAD - JUNIO 2005
120 120
NUMERO DE PERSONAS
NUMERO DE PERSONAS
100
100
80
80
60
60
40
40
20
20
0
10 15 20 25 30 35
0
10 15 20 25 30 35 EDAD (años)
EDAD (años)
PRACTICA DIRIGIDA
3 . Clasifique las variables e indique el tipo de escala en que están medidas las siguientes
características
- Profesión - Año de nacimiento - Nacionalidad -
Edad
- Grado de instrucción - Estado civil - Número de hijos
- Ingreso mensual familiar promedio - Número de teléfono
- Número de DNI - Dirección
8 . Las punt uaci ones obt eni das por un grupo de en una prueba d e
es t adí st i ca a l os al um nos de La UC V - P i ura en el m es de Marz o del
2011 han si do:
11 17 12 13 1 20 8 20 1 16
9 1 14 1 5 12 9 17 7 5
a. C onst rui r l a tab l a d e d istri b u ci ón d e f recu en ci as y di buj a el
p ol í gon o d e f recu en ci as .
9 . Organiza los datos y realiza un diagrama de tronco y hojas para luego realizar su cuadro
con 5 intervalos de igual amplitud (k=5) y también utilizando la regla de Sturges con
los sueldos anuales de las siguientes personas que trabajan en la fábrica de Cementos
Pacasmayo en Lima en Enero del 2010 de la planilla de la empresa.
33320 20967 28537 29411 31611 23188 21638 32865 22513 27742 28384 24582
21081 23820 22992 26768 30092 29148 27361 30021 21809 23890 31914 26621
23437 21959 28536 20546 28931 25562 22241 32418 32880 23899 32506 26533
23511 20107 33388 28752 26794 28823 24631 22675 33419 27174 27103 25728
10. Se ha medido a 30 enfermos del Hospital Regional de Piura en el mes de enero del
2009 el contenido de calcio en la sangre, datos recolectados de su registro medico,
dándose los valores siguientes:
8.46 12.46 9.23 12.40 10.17 11.58 10.01 11.32 11.19 10.40
9.43 8.89 8.99 9.88 11.74 10.90 12.88 11.78 12.62 8.93
12.57 9.86 12.16 8.37 12.29 11.83 8.71 10.24 11.13 8.98
a. Agrupa en intervalos y represéntalo gráficamente de una manera adecuada.
b . Interpreta los resultados más importantes en esta tabla.
11. Los puntajes de una prueba de aptitud de Alumnos de la I.E. “San Juan Bautista” del
2010 en Barranca se tabularon en una distribución de frecuencias de 6 intervalos de
igual amplitud. Si se tienen: marcas de clase, 𝑌2` = 40 y 𝑌4` = 80, frecuencias: h1 h6 ,
h3 h5 , h4 0. 25, h2 h4 h1, h3 h1 0.10 , y F6 60 , completar la distribución de
frecuencias absolutas y graficar el polígono
12. Durant e est e año se han cont abi l i z ado de l os regi st ros l os sigui ent es
naci m i ent os en l a z ona nort e del P erú en el año 2009, del ac at a m edi co
s e obt uvo l o si gui en t e:
HOSPITAL A B C D F
Nº de NACIMIENTOS 331 592 141 499 196
14. Se registra el tiempo en minutos que utilizan 30 alumnos para ejecutar una tarea,
resultando los siguientes: 21.3 15.8 18.4 22.7 19.6 15.8 26.4 17.3 11.2 23.9 26.8
22.7 18.0 20.5 11.0 18.5 23.0 24.6 20.1 16.2 08.3 21.9 12.3 22.3 13.4 17.9
12.2 13.4 15.1 19.1
a) Construir una distribución de frecuencias de 6 intervalos de igual amplitud y a
partir de ésta
18. La distribución de los tiempos, en minutos, que utilizaron 65 personas para realizar
una prueba de aptitud aparece representada en el siguiente histograma. ¿Qué porcentaje
de las personas emplearon entre 9 y 11.5 minutos ?.
21. La organización del tiempo (minutos) registrados en un informe, que tardaron 100
obreros de CONSTRUCTICOS SAC para ejecutar la reparación de un colegio en el mes
de Enero del 2010, ha dado una tabla de frecuencias de cuatro intervalos de igual
amplitud cuyo histograma correspondiente es simétrico. Si el intervalo I 1 [6, ?] , la
frecuencia absoluta: f 2 2 f1 5 , y si se sabe que el 85% de los obreros demoran
menos de 12 minutos. Completar la distribución de frecuencias.
REDUCCION DE DATOS
En las tres semanas anteriores están referidos, con cierto detalle, a la clasificación
de variables, recolección de datos, construcción de tablas de frecuencia y a la
representación grafica, como fase preliminar en la descripción y análisis
estadístico. El objetivo principal de estas primeros temas, ha sido determinar la
naturaleza y formas de la distribución de frecuencias, como base para la
“reducción de datos” a través de ciertas características descriptivas y medidas de
resumen.
CARACTERISTICAS DESCRITIVAS
Reducción de datos
ESTADIGRAFOS
MEDIA ARITMÉTICA
Es el valor promedio de todos los valores de la variable, o el “centro de gravedad
“de la distribución de datos. Se representa como “μ” si se trata de la media de la
población de referencia y como “x” si se trata de una media muestral.
La media puede calcularse en las variables cuantitativas continuas y discretas. La
fórmula es:
X
x i
x1 x 2 x 3 ........... x n
n n
Σxi= Sumatorio de todos los valores de la variable
n = número total de todos los individuos
Ejemplo:
Calcular la media de edad de un grupo de 6 personas, cuyas edades son 5, 6,7, 8,
9 y 10 años.
5 6 7 8 9 10
X 7.5
6
LA MEDIANA
Cuando se tiene un numero impar de datos, la mediana es igual al termino
si n escentral:
impar
Me x n 1
2
si n Cuando
es parse tiene un numero par de datos, la mediana es igual:
xn xn
1
Me 2 2
2
Ejemplo: Supongamos que tenemos datos sobre los sueldos en soles que reciben
mensualmente el personal que labora en el hospital de la ciudad de Piura.
445 510 323 425 428 440 432 510
n n
b) Que coincide con algún Nj, se tiene que: N j 1 N j
2 2
Entonces: M e : Y j i Y j
1
2
La moda Mo = n j
n j 1
M o Li c
n
j 1 n
j 1
MEDIDAS DE POSICIÓN
DECILES: son los nueve valores que dividen al conjunto de datos ordenados en
diez partes iguales, tal que entre dos decilas consecutivas se encuentre no mas del
10% del total de las observaciones.
En total hay nueve decilas: D1, D2, D3, D4, D5,…….., D9.
kn
10 N j 1
DK LI C K 1, 9
N j N j 1
kn
N j 1
PK L I C 100 K 1, 99
N j N j 1
MEDIDAS DE DISPERSIÓN
Introducción
Las medidas de tendencia central no son suficientes para describir un conjunto de valores
de alguna variable estadística. Los promedios determinan el centro, pero nada indican
acerca de cómo están situados los datos respecto al centro.
En primer lugar se necesita una medida del grado de dispersión o variabilidad con respecto
al centro con la finalidad de ampliar la descripción de los datos o de comparar dos o más
series de datos.
En segundo lugar se necesita una medida del grado de asimetría o deformación en ambos
lados del centro de una serie de datos, con el fin de describir la forma de la distribución de
los datos. Esta medida se denomina índice de asimetría.
En tercer lugar se necesita una medida que nos permita comparar el apuntamiento o curtosis
de distribuciones simétricas con respecto a la distribución simétrica normal. Esta medida se
denomina índice de apuntamiento o curtosis.
El lector debería correr paquetes de computo entre otros el MCEST para las aplicaciones de
este capitulo.
R x max x min
El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable,
ya que depende únicamente de los dos valores extremos. Su valor puede cambiar
grandemente si se añade o elimina un sólo dato. Por tanto su uso es muy limitado.
Por ejemplo, dadas las dos series de datos
a) 1, 4, 4, 5, 5, 5, 5, 6, 6, 9
b) 1, 2, 3, 4, 5, 6, 7, 8, 9
Ambas series tienen la misma media, 5, y el mismo rango, 8, pero las dos series no tienen la
misma dispersión, ya que la segunda tiene mayor variabilidad.
El empleo del rango como medida de comparación de variación puede estar justificado
cuando se precise rápidamente de una medida de dispersión y no haya tiempo de
calcular algunas de las otras.
Definición. El rango intercuartil, RI, es la diferencia entre sus cuartiles tercero y primero.
Esto es,
RI Q3 Q1
El rango intercuartil es una medida que excluye el 25% más alto y el 25% más bajo,
dando un rango dentro del cual se encuentra el 50% central de los datos observados y a
diferencia del rango total no se encuentra afectada por los valores extremos.
Si el rango intercuartil es muy pequeño entonces describe alta uniformidad o
pequeña variabilidad de los valores centrales.
Por ejemplo, si en una distribución de frecuencias de 100 ingresos quincenales se
encuentran los cuartiles Q1 62$ , y Q3 70$ , entonces, el rango intercuartil es
RI Q3 Q1 $70 62$ 8. Esto, indica que el 50% de los ingresos quincenales de los 100
empleados varía dentro del valor $8.
El rango intercuartil se aplica a variables medidas en escala por lo menos ordinal.
Definición. El rango semiintercuartil, RSI, es igual al rango intercuartil dividido por 2.
El rango semiintercuartil se puede asociar con la mediana y se puede expresar en función
de ella. Si una distribución es normal los cuartiles Q1 y Q3 son equidistantes de la mediana.
Se deduce entonces, que el rango intercuartil y la mediana RSI, son la misma distancia.
Además, como exactamente el 50% de los datos se encuentran en el rango intercuartil,
entonces, el intervalo: mediana RSI contiene también exactamente el 50% de los datos.
Si la distribución es asimétrica, el intervalo: mediana RSI contendría aproximadamente
el 50% de los datos.
Por ejemplo, si en la distribución de los 100 ingresos quincenales donde Q1 62$ , y
Q3 70$ , el rango semiintercuartil es $4. Si la mediana fuera igual a $66, entonces,
aproximadamente el 50% de los datos se hallan comprendidos en el intervalo $66 4.
Cálculo de la varianza
(x i x)2
s2 i =1
n
n n
Por lo tanto,
n
x
i 1
2
i
s2 x2
n
EJEMPLO 3.1
Calcular la varianza y la desviación estándar de los 45 ingresos quincenales sin tabular
del ejemplo 1.3
SOLUCION
n n
n 45 , i 1
xi 2682$, x 2682 59.6,
45
x
i =1
2
i 166,244$2
Luego, la varianza es el número
n
x
i 1
2
i
166,244
s2 x2 (59.6) 2 142.151$2.
n 45
f (x i i x)2
s2 i =1
n
k k
Se verifica que f (x
i 1
i i x) 2
fx
i 1
2
i i nx 2
Por lo tanto,
k
f x
i 1
2
i i
s2 x2
n
EJEMPLO 3.2
Calcular la varianza y la desviación estándar del número de hijos de la muestra de 20
familias del ejemplo 1.2.
SOLUCION.
La distribución del ejemplo 1.2 se repite en el cuadro 3.1 donde se ha insertado una
columna de productos f i ( xi ) 2 .
k k
fx
44
Entonces, n 20, k 5,
i 1
i i 44, x
20
2.2, fx
i =1
2
i i 118
fx 2
i i
118
s2 i 1
x2 (2.2) 2 1.06 hijos2.
n 20
f (y i i x)2
s2 i =1
n
Se puede verificar que:
k k
f (y
i 1
i i x ) f i y i2 nx 2
2
i 1
Por lo tanto,
2
k
k k
k
f i (y i x ) 2
n
i 1
f y
i i
2
i 1
f i y i
=
f y i
2
i
s
2 i =1
2
i 1
x 2.
n n n
EJEMPLO 3.3
Calcular la varianza y la desviación estándar de los 45 ingresos quincenales tabulados del
ejemplo 1.3.
SOLUCION.
La distribución del ejemplo 1.3 se repite en el cuadro 3.2 donde se ha insertado una
columna de productos fi mi2 .
Ii yi fi f i yi f i y i2
[26,34[ 30 1 30 900
[34,42[ 38 2 76 2888
[42,50[ 46 4 184 8464
[50,58[ 54 10 540 29160
[58,66[ 62 16 992 61504
[66,74[ 70 8 560 39200
[74,82[ 78 3 234 18252
[82,90] 86 1 86 7396
Total 45 2702 167764
k k
2702
n 45, k 8, i 1
f i y i 2702, x
45
60.044, fy i =1
i
2
i 167,764
fy i
2
i
167,764 2
s 2 i 1
x2 (60.044) 2 122.754 $ .
n 45
(x i ) 2
x 2
i
2 i =1
i =1
2
N N
Si formamos todas las muestras posibles de tamaño n y calculamos sus varianzas
utilizando la fórmula s 2 ( xi x ) 2 n , resulta que la media de todas estas varianzas vale:
n 1 2
.
n
Para que la media de todas las varianzas sea igual a 2 , basta multiplicar a s 2 por
n (n 1) . Por esta razón, algunos autores definen la varianza (en estadística descriptiva ) con
denominador n 1 . Estas 2 varianzas se tratan en el capítulo 9 de estimación de parámetros.
EJEMPLO 3.4
En una evaluación de Matemáticas e Historia resultan las medias 13 y 17 y las
desviaciones estándar 3 y 4, respectivamente. Si un alumno obtiene 14 en Matemáticas y 16
en Historia, ¿en cuál de los dos cursos tiene mejor rendimiento relativo?.
SOLUCION
El hecho de que tenga 16 en Historia y 14 en Matemáticas no significa que tiene mejor
rendimiento en Historia.
Se deben calcular los rendimientos relativos con la puntuación estandarizada Z
14 13
En Matemáticas z 0.333
3
16 17
En Historia z 0.25
4
En consecuencia, tiene mejor rendimiento relativo en Matemáticas.
ejemplo,
n
xi2 n( sX2 x 2 )
i =1
3) Si cada uno de n los valores xi es transformado en yi axi b , entonces, la varianza de los
n valores yi es, sY2 a2 s2X (verificar!).
Consiguientemente, sY a s X
Como casos particulares se tiene:
i 1
ni s i2 n (x
i 1
i i x) 2
s T2 n
n
.
6) Desigualdad de Chebyshev.
Cualquiera sea la forma de la distribución de frecuencias (simétrica o asimétrica), el
intervalo [ x ksX , x ksX ] , k 1 contiene por lo menos el
1
1 2 en % de los datos.
k
El porcentaje de datos que se hallan fuera del intervalo es menor que el
1
en % .
k2
1 3
Por ejemplo, el intervalo [ x 2s X , x 2s X ] contiene por lo menos el 1 2
o 75%,
2 4
de los datos.
El intervalo [ x 3s X , x 3s X ] contiene por lo menos el 88.89%, (8/9), de los datos.
El intervalo [ x 4s X , x 4s X ] contiene por lo menos el 93.75%, (15/16), de los datos.
EJEMPLO 3.5
En el mes de Enero el sueldo promedio de los trabajadores del sector industrial era de
$200. Para el mes de Julio se considera un aumento del 30% al sueldo del mes de Enero más
un adicional de $50. Si el coeficiente de variación en Enero era de 0.25, ¿se puede decir
que la distribución de sueldos en Julio es más homogénea?
SOLUCION
Sea X: Sueldos de Enero, Y: Sueldos de Julio
La media de Enero es: x $200.
Coeficiente de variación en Enero, CV 0.25
La desviación estándar de Enero es s X CV x 0.25200 $50
La relación entre las dos variables es:
Y 1.30X 50,
Entonces, la media de los sueldos de Julio es
y 1.3x 50 1.3(200) 50 310
La varianza de los sueldos de Julio es
sY 65
Coeficiente de variación en Julio: CV 0.2097.
y 310
Comparando los coeficientes de variación de Enero y Julio se puede decir que la distribución
de los sueldos de Julio es más homogénea.
EJEMPLO 3.6
Si el ingreso de 120 obreros tiene una media de $300 y una desviación estándar de $30
a) ¿Cuántos obreros por lo menos tienen sueldos comprendidos en el intervalo [$240,
$360]?.
b) Determinar el intervalo que contiene al menos el 88.889% de los ingresos
c) Si el mínimo sueldo es $210, en qué porcentaje se puede afirmar que los ingresos son
superiores a $390?
SOLUCION.
a) x $300, s $30, de la relación
[300 k (30), 300 k (30)] [240 , 360 ]
1 3
resulta k 2 . Entonces el, 1 2 o 75%(120)=90 obreros por los menos tienen
2 4
ingresos en el intervalo [240, 360].
b) Si al menos el 88.889% de los obreros tienen ingresos en el intervalo
[300 k (30), 300 k (30)]
1
entonces, 1 0.8889 . De donde resulta k 3 .
k2
Luego, el intervalo es [$210, $390].
c) Fuera del intervalo [$210, $390] está menos del 11.11% de los ingresos. Si el mínimo es
$210, entonces, el porcentaje de ingresos mayor que $390 es menos de 11.11%.
EJEMPLO 3.7
El costo inicial de producción, X ; de una muestra de 80 objetos de cierto tipo, tiene una
desviación estándar de $30. La media del costo de producción es de $250 para el 60% de la
muestra y de $200 para el resto. El costo final de producción Y es dado por la relación:
Y 1.2X 5.
Si el precio de venta de cada objeto de la muestra es proporcional al cuadrado del costo
final de producción, ¿cuánto se recaudaría por la venta total?.
SOLUCION.
s X $30, x 2500.60 2000.40 $230
De Y 1.2X 5, se tiene, y 1.2x 5 1.2(230) 5 281. También,
Por ejemplo, la distribución de los 45 ingresos quincenales del ejemplo 1.3 tabulados
en ocho intervalos tiene asimetría negativa:
3( x Me) 3(60.44 60.75)
As 0.191
s 11.079
Fig. 3.2a Ojivas asimétricas relativas Fig. 3.2b Ojivas simétricas relativas
3.4 Curtosis
La curtosis es la propiedad de una distribución de frecuencias por la cual se compara
la dispersión de los datos observados cercanos al valor central con la dispersión de los datos
cercanos a ambos extremos de la distribución. La curtosis se mide en comparación a la curva
simétrica normal o mesocúrtica (fig. 3.3a)
Una curva simétrica con curtosis mayor que de la normal es denominada curva leptocúrtica
(fig. 3.3c).
Una curva simétrica con curtosis menor que de la normal es denominada curva
platicúrtica (fig. 3.3b).
Existen varias maneras de medir la curtosis de la distribución de los datos.
Esta curtosis es utilizado por los paquetes de computo estadístico para determinar la
curtosis de distribuciones de la forma dato-frecuencia.
Para n datos tabulados en k intervalos, la curtosis se calcula por:
M /n
K 44 3
s
k
donde: M 4 f (m x )
i 1
i i
4
, s la desviación estándar.