Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva
Estadistica Descriptiva
CAPITULO 1.
DISTRIBUCIONES DE FRECUENCIA
I.INTRODUCCION
“¿Quién no se ha preguntado porque hay diferencias y similitudes entre padres e hijos? Ya
sea en rasgos físicos, personalidad, gustos, etc. La respuesta es, la luz de la ciencia, la ¡La
variabilidad! Que es la característica más relevante de todos los seres vivos. Se interpreta
como las diferencias existentes entre individuos de un mismo grupo aun cuando tengan un
estrecho vínculo de parentesco, incluso entre gemelos. La variabilidad es el atributo que
caracteriza a la naturaleza, así como el azar está presente en los hechos biológicos. Esta
variabilidad puede generarse por alguna o más de una de las siguientes causas.
a. El medio ambiente o efecto ecológico
b. La herencia o efecto genético
La variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica los efectos
de la primera a través de métodos que se fundamentan en la matemática, la experimentación
y la observación. La variabilidad no puede estudiarse en un solo individuo, la formulación de
un problema estadístico requiere de la presencia de un grupo de ellos, mejor si es un conjunto
numeroso.” (Luis Zapata docente estadístico)
2. ESTADISTICA. Es la ciencia parte de la ciencia matemática teórica aplicada. Es el
conjunto de métodos que permiten la recolección, procesamiento, análisis y comprensión de
la información de los fenómenos más diversos información destinada a las decisiones. La
estadística trata grandes volúmenes de información buscando las irregularidades de los
sujetos observados, antepone la expresión numérica a la explicación verbal.
3. ESTADISTICAS. Son los resultados de la tarea de recolectar y procesar dicha información
presentada en forma ordenada y sistemática, ya sea como cuadros de datos, gráficos o
indicadores (estadígrafos).
Para ilustrar. Los resultados de las elecciones presidenciales o municipales se reconocen a
través de los informes de la tribunal supremo electoral que clasifica a los votantes según el
candidato o frente político y por departamento o ciudad, sin embargo, antes de la realización
de estos eventos democráticos muchas empresas realizan estudios para investigar la
“intención de voto”.
Estas investigaciones son resultados de aplicar la teoría de la estadística, y más concretamente
la teoría del muestreo.
La estadística como ciencia estudia las características que son comunes a un conjunto
numerosos de objetos o personas, no se detiene a estudiar los casos raros o individuales de
los elementos de dichos conjuntos. De cada característica como sexo, edad, ocupación, etc.
Hay más de una posibilidad de observación y este hecho hace la esencia de la estadística; la
variabilidad de los datos.
En el último censo se indago la característica o variable de edad, como es de imaginarse, las
posibilidades de respuestas son de 0 a 110 años. Cada encuestado no aparece en las
estadísticas de él solo, se registra el dato y se lo agrupa con todas las personas de su misma
edad o mejor aún se lo agrupa dentro de un inventario de edad. ¿Cuál el objeto de averiguar
la edad? El estudio de la población según edad no reviste importancia, con ella se sabrá
cuantas personas demandaran servicio de educación en los próximos 5 años y en que regiones,
o la proporción de personas que ingresaran a la tercera edad y por tanto debe preverse los
recursos que serán demandados en servicios médicos y otros, etc. La permanencia o
regularidad estadística solo se presenta en conjuntos numerosos y el propósito de la
estadística es precisamente hallar esas regularidades que además de servir para la descripción
del fenómeno estudiado, pueden usarse con fines de predicción.
ALGO DE HISTORIA.
La estadística tal como se la definió, se fundamenta en el cálculo de probabilidades y se
desarrolló a partir de inicios del siglo pasado. A veces se denomina estadística matemática en
oposición a la estadística estatal, cuya misión es el registro de las estadísticas de los estados:
población, empleo, consumo, etc. La estadística estatal se remonta a las primeras
civilizaciones conocidas (5000 A. de C. Sameria, Mesopotamia, Egipto) en los siglos XVII y
XVIII a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre desarrollan
parte de la teoría de probabilidad, como también Laplace y Gauss en el siglo XIX.
Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel (1822, 1884)
se hizo célebre por sus experimentos acerca de la herencia de los caracteres en los guisantes,
llevados a cabo entre 1856 a 1864 al cruzar cepas que diferían por un solo carácter (grano
liso o rugoso, flore blanca o amarilla, etc.) las leyes de reaparición del carácter en cuestión y
su transmisión publicadas en 1965fueron redescubiertas recién en 1900, reciben el nombre
de leyes de Mendel.
A finales del siglo XIX y comienzos del siglo XX Quetelet, aplico la estadística a la
investigación de problemas sociales y educativos Francis Galton fue el que promovió su
aplicación en colaboración con Pearson. En el siglo XX, Pearson, Fixher, Gosett introducen
nuevas técnicas y métodos en muestras de pequeño tamaño. Hoy día la estadística es la
principal herramienta metodológica en toda investigación de cualquier ciencia.
4. POBLACION Y MUESTRA.
POBLACION. Es un conjunto de elementos de los que interesa una o más características o
variables. Nótese que no necesariamente es un conjunto de personas. Para los demógrafos en
efecto les interesa las características generales de las personas, como ser la distribución
geográfica, la proporción según sexo, etc. Para un auditor la población puede ser un conjunto
de facturas o comprobantes de ingresos y egreso, de los que interesa el monto de los que
fueron girados, el tipo de transacción, etc. En estudios socioeconómicos como los censos,
encuestas demográficas y otras, las viviendas constituyen una población de las que interesa
la materia de construcción, material de piso, de paredes, de techo, de los servicios básicos
como, agua, alcantarillado, energía eléctrica etc. En la parte tecnológica nos interesa tiempo
de duración de un artefacto o tiempo que dura en dar respuesta un circuito, la temperatura, la
humedad, etc.
En un proceso industrial en serie, el control de calidad determina la condición de un artículo
por observación en bueno o defectuoso, en consecuencia, la población está constituido por
todos los artículos que se producen. En la biología la población es un conjunto de seres vivos,
como plantas en un territorio, animales de la misma especie, etc. De una población de esas
características interesa, por ejemplo: su distribución geográfica, abundancia de sus efectos
benéficos o perniciosos, etc.
En algunas especialidades se denomina a la población como universo o colectivo.
MUESTRA. Es un subconjunto de la población. Es representativa si cada elemento de la
población que pase a formar parte de la muestra ha sido elegido al azar con probabilidad
conocida. La información proporcionada por una muestra se utiliza para generalizar o inferir
hacia la población. Los estudios demográficos y socioeconómicos especializados utilizan
muestras grandes. Las poblaciones biológicas, exceptuando a la humana, son grupos muy
grandes de individuos (se las considera infinitas) por lo tanto la muestra es la mejor (si no la
única) forma de estudiarlas. En los diseños experimentales por razones de costo, posibilidad
de destrucción o alta peligrosidad se acuden a muestras aleatorias de pocos elementos.
5. FUESTES DE INFORMACION ESTADISTICA
CENSO. Es el recuento o enumeración de todos los elementos de una población. El censo
nacional de población y vivienda que se realiza en el país es la investigación que estudia las
características estructurales y más estáticas de ella. Por ejemplo la tasa de mortalidad infantil,
tasa de natalidad, porcentaje de analfabetismo, etc. Son parámetros que cambian lentamente.
En la mayoría de los países se ejecutan censos de población cada 10 años. Aquellos que
terminan en cero.
En el caso de algunos grupos de seres vivos puede resultar una tarea gigantesca, casi
imposible, el realizar un censo como por ejemplo el intento de censar a todos los osos andinos
que medran en nuestro territorio y caos semejantes.
ENCUESTA. En la investigación que estudia las características de una parte de la población
o muestra. El termino genérico usado el proceso de recolectar información con ayuda de un
registro estructurado y planificado para cada investigación.
La encuesta nacional de hogares, la encuesta de demografía y salud que ejecuta el instituto
nacional de estadística registran los cambios de corto plazo o de coyuntura como el
desempleo, la inflación, etc. Permite investigaciones a mayor profundidad y tiene la ventaja
de la oportunidad del dato, es decir sus resultados se conocen en un lapso muy breve frente a
los datos de un censo.
Las libretas del campo de entomólogos, botánicos, herpetólogos y otros, constituyen
resultados de encuestas.
REGISTROS. Son los datos recolectados en forma sistemática y periódica a través de
documentos. Las tarjetas de ingreso en una institución, partes de asistencia, y planillas de
sueldos, balances diarios, semestrales y anuales de los bancos, pólizas de importación
registros de la precipitación pluvial etc.Los registros históricos de información permiten los
investigadores realizar proyecciones para el futuro.
DISEÑOS EXPERIMENTALES. Bajo condiciones de mucho control, genera información
como respuesta a estudios en los que el investigador está en las posibilidades de controlar
variables independientes buscando relaciones puras (muchos autores no consideran una
fuente de información) . Por ejemplo, ¿Cuál rendimiento de una variedad de maíz sembrado
en las parcelas de iguales características de suelo que reciben 4 concentraciones de
fertilizante? Se obtienen 4 posibles respuestas. Por otra parte, si se quiere medir el
rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4 fertilizantes se
obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por criterio propio o experiencia
de otros elige, el terreno, decide las profundidades de sembrado y la dosis o variedades de
fertilizante, y lo que llega al azar son los rendimientos (variable respuestas, efecto o
endógena) sobre la que no tiene ningún tipo de acción.
Los datos estadísticos provenientes de cualquiera de las 4 formas señaladas se recopilan y
analizan no solamente para añadirlos al conocimiento científico general, sino también para
ayudar a tomar decisiones en cualquier campo de actividad social o científica. La función de
la estadística es contribuir a decidir qué clase de datos son necesarios para un objetivo
específico, como loa recopilara y analizara, y que función deberán cumplir una vez
publicados.
6. PARAMETRO Y ESTIMADOR.
PARAMETRO. Es una constante propia de la población cuyo valor es proporcionado por la
información de un censo.
El censo nacional de la población y vivienda proporciona los siguientes parámetros: tasas de
masculinidad, fertilidad, mortalidad infantil, analfabetismo, escolaridad, y otros de
importancia, consultar los resúmenes en biblioteca del INE.
Otro ejemplo como resultados de muchos años de observación se sabe que el naranjo y otros
árboles frutales de la misma especie comienzan a dar fruto recién a los 4 años de edad ese
dato constituye un parámetro. También son parámetros: la proporcione machos y hembras
entre los marimonos de la provincia nor yungas.
ESTIMADOR O ESTADIGRAFO O MEDIDA. Es la medida obtenida a través de la
información de una muestra y que se infiere para el total de la población. (inferir: acción de
sacar una conclusión).
Las encuestas opinión política han servido para medir el grado de popularidad o confianza en
los gobernantes de cualquier país incluido el nuestro. El estudio de la encuesta continua de
hogares proporciona estimadores socioeconómicos como la tasa de desempleo abierto, tasa
de deserción escolar, tasa de inflación, índice de precios al consumidor, etc.
Otro ejemplo las características reproductivas de tortugas acuáticas de los afluentes del rio
Beni. Se estudiaron con muestras de transectas o partes del territorio donde habitan. los
resultados se generalizan para todos los individuos que están en esta región del país.
7. CLASIFICACION DE LA ESTADISTICA.
ESTADISTICA DESCRIPTIVA. Tiene por objetivo de analizar y sintetizar la información,
contenida en los datos estadísticos recurriendo a distribuciones de frecuencia, gráficos,
resúmenes numéricos de una variable o de fenómenos multivariantes. La estadística
descriptiva recibe también el nombre de estadística exploratoria.
ESTADISTICA INFERENCIAL. Tiene por objeto hacer inferencia o generalizar a la
población sobre la base de la información proporcionada por una muestra. Se fundamenta en
la teoría de la probabilidad (ver en fuentes de información encuestas). La estadística
inferencial también se denomina estadística sobre muestreo. (inferencia: acción intelectual de
obtener una conclusión verdadera a partir de premisas que también son verdaderas)
MODELIZACION ESTADISTICA. Tiene por objetivo manejar la información para formar
modelos aplicados a la realidad con capacidad para predecir. Trata de establecer relaciones
lineales o no entre variables ajustándose a hipótesis probabilísticas, el insumo importante es
proporcionado por muestras.
Como ejemplo esta la proyección de las exportaciones sobre la base de datos de años
anteriores, el producto interno y la mano de obra disponible, etc.
8. VARIABLES CUALITATIVAS Y CUANTITATIVAS.
Una variable X es una función tal que cada elemento de la población P o muestra le asigna
un elemento de otro conjunto A. si A es un subconjunto de números reales la variable X es
cuantitativa, en otro caso es variable cualitativa o categórica.
𝑋: 𝑃 → 𝐴
𝑝 → 𝑥 = 𝑋(𝑝
Variable cualitativa. Aquella que asigna al elemento observado un atributo no numérico, las
características observables de una variable cualitativa son las siguientes:
a. Las modalidades o clases son en número reducidas y fácilmente identificables.
b. Las categorías están bien definidas, son exhaustivas y mutuamente excluyentes.
c. Por razones de tolerabilidad son identificadas con números y códigos.
Ejemplo: la variable estado civil tiene las categorías: casado(a) cuyo código es 1, divorciado
(a) código 2. Viudo (a) con 3. Soltero (a) con 4. En efecto a cada a cada persona la variable
le asigna una y solo una de estas categorías.
Variable cuantitativa aquella que al elemento observado le asocia un número real con
propiedades algebraicas. Entre una observación y otra las diferencias son muy pequeñas como
ocurre con los pesos de una muestra de especímenes de animales o la envergadura de una
muestra de aves. Para el estudio de una variable cuantitativa se requiere un numero grande
de observaciones puesto que los rasgos diferenciables son muy pequeños y frecuentemente
difícil de distinguir y clasificar.
Las características principales de las variables cuantitativas son:
a. La alta variabilidad entre elementos estudiados.
b. Número elevado de clases o modalidades.
c. Es necesario agruparlos en número reducido de clases.
Por ejemplo: número de personas ene l hogar. En efecto en cada hogar la variable X asigna
uno y solo un número que representa al total de personas que lo forman.
Las variables cuantitativas se clasifican en: discreta y continua. Es variable discreta aquella
cuyo recorrido 𝑅𝑥 es numerable, podrá ser finito o infinito son valores aislados. En el ejemplo
anterior: número de personas en el hogar, los datos observados son valores enteros, por
ejemplo al lanzar un dado dos veces y observar el promedio de los números superiores el
recorrido es el siguiente conjunto 𝑅𝑥 = {1; 1,5; 2; 2,5;3;… … . .6} no será posible observar
2,86 o 3,17.
La variable continua es aquella cuyo recorrido es no numerable, y puede tomar cualquier
valor en un intervalo. Ejemplo: sea X: estatura de las personas en consecuencia 𝑅𝑥 = {0,48
< 𝑋 < 2} con X medido en metros.
9. ESCALAS DE MEDICION.
Son reglas que permiten asignar un numero o categoría en forma univoca a cada elemento
observado. Estas escalas son definidas con carácter universal.
ESCALA NOMINAL. (o cardinal) es aquella que permite identificar cada elemento, permite
reunir individuos entre sí solo respecto de una modalidad. Esta escala asigna un código o
número a individuos que presentan la misma categoría. (ver ejemplo de estado civil) los
números asignados no tienen significado algebraico no representa nada la suma, el producto
o cualquier operación aritmética.
Los números en las camisetas de jugadores de un equipo de futbol son 1, 2,28, 22 que solo
los identifica. El 1 no significa que es el primer jugador o el más importante, (el 1 lo usa el
arquero) tampoco tiene significado 1 + 10 = 11. La codificación internacional de genero
usa: hombre = 1 mujer = 2. No tiene significado (1 + 2)/2=1,5.
ESCALA ORDINAL. Aquella que además de identificar a los elementos observados y poder
compararlos para ver si son iguales o diferentes, les asigna un orden o jerarquía no pudiendo
establecerse ninguna otra relación. Los números asignados son arbitrarios. La variable “nivel
de instrucción” establece: primaria -1- secundaria- 2 – superior - 3 -. La escala Mercali del 1
al 12 es otro ejemplo que mide el grado de movimientos sísmicos: 1 para el más débil que
solo se siente en edificios altos de 10 o más pisos hasta el 12, que establece ruptura de corteza
terrestre formación de grietas y destrucción total de edificios.
Las variables cualitativas utilizan indistintamente las escalas nominal u ordinal, para los
registros mientras que para las variables cuantitativas se usan una de las siguientes escalas.
ESCALA DE INTERVALOS. Asigna números con propiedades algebraicas del cuerpo de
los reales, son comparables y tienen orden. El origen de estas mediciones es arbitrario (no
tienen cero). Las comparaciones entre elementos se diferencian por la distancia que lo separa.
El tiempo medido con el reloj es un ejemplo, cero es la media noche. Las calificaciones finales
de cualquier asignatura son realizadas con escala por intervalos, una nota d 50 puntos respecto
de una nota de 100 se diferencia en 50 puntos. No se puede establecer que el primero sepa la
mitad de lo que sabe el segundo o que este último es el doble de inteligente.
ESCALA DE RAZON. Con ella se registran mediciones que poseen cero absolutos, por
supuesto tienen propiedades de los reales. Medidas como el peso corporal, longitud, edad,
densidad, sonoridad, volumen, son realizadas con esta escala, con estas mediciones se hacen
comparaciones significativas. La precisión depende del instrumento de medición usado. Una
persona de 40 años tiene el doble de otra de 20 años (40/20=2).
Ejercicios.
1. Establecer la escala de medición de las siguientes observaciones
a. Los números que asigna la municipalidad a las viviendas.
b. La cantidad de acciones que pone a la venta la empresa A.
c. La distancia que existe entre la vivienda nuestra y el centro de trabajo y estudio.
d. El cociente de inteligencia IQ como resultado de un test estandarizado.
e. Las marcas de cigarrillos que se comercializan en la ciudad.
Cada fila representa la información por alumno. Cada columna es una serie de datos tanto
de variables cualitativas (sexo, curso) y variables cuantitativas (notas) ¿Qué se puede hacer
con estos datos?
11. ANALISIS DE LA INFORMACION
El siguiente paso lógico después de haber fijado los objetivos del estudio, recolectada la
información, procesada y reunida en la matriz de datos es el análisis de la información, ya
sea por variables separadas o asociadas. El principal objetivo del análisis es para obtener
conclusiones validad que apoyen la toma de decisiones.
DISTRIBUCION DE FRECUENCIAS.
Previamente será necesario hacer un resumen por modalidades o clases comunes a los
individuos o al número de observaciones con el que se repite dicha clase. Las clases o
categorías deberán ser exhaustivas y excluyentes es decir cada observación pertenece a una
y solo una clase. Ese resumen se denomina distribución de frecuencias absolutas, una
tabulación por columnas en donde se distingue la columna variable separada en clases y la
columna de las frecuencias que proporciona comparaciones significativas. Se define
frecuencia absoluta de la clase i, n el número de veces que se repite la clase. O número de
observaciones que corresponden a la clase i. es un número que tiene unidades. El total de
observaciones n, cumple:
𝑛 = 𝑛1 + 𝑛2 + 𝑛3 +………+n𝑘
La distribución de frecuencias relativas. Se registra en otra columna. La frecuencia relativa
𝑓𝑖 es la proporción de observaciones de la clase i respecto del total. Es un numero
adimensional. Se calcula como el cociente de la frecuencia absoluta 𝑛𝑖 entre n es decir
𝑓1 = 𝑛i/n y tal que
1 = 𝑓1 + 𝑓 𝑓3 .... 𝑓𝑘
Las frecuencias relativas multiplicadas por 100 se expresan en porcentaje, (la forma más
común de presentar información agregada) tienen importancia independientemente del
trabajo de la muestra o de la población observada. Es más rápido interpretar por ejemplo el
20% o el 75% que un valor cualquiera.
DISTRIBUCION DE FRECUENCIAS DE UNA VARIABLE CUALITATIVA. En este caso
la variable X está identificada por cada una de sus categorías y las frecuencias resultan de
contabilizar los casos, en la matriz de datos, que corresponden a dicha categoría.
Ejemplo de la matriz de datos anterior clasificar a los alumnos según: sexo y paralelo.
Cuadro 1.
Comentario del cuadro 1.: de la muestra se deduce que el 55% de los alumnos son varones y
el 45% son mujeres.
De estos datos poco podemos decir si no los reunimos en una distribución de frecuencias.
Clase Conteo Total
1 ///// ///// // 12
2 //// 4
3 // 2
4 ///// ///// // 12
total 30
Este ejemplo de variable cualitativa hecha con escala nominal, no tiene orden.
RAZONES Y PROPORCIONES
Una razón o una proporción es un instrumento muy sencillo y útil para comparar atributos o
modalidades cualitativas, se calcula formado un cociente que tiene significación, la columna
% es uno de ellos. Si el numerado res una parte del denominador entonces es una proporción,
en otro caso es una razón.
Ejemplo. La tasa de mortalidad infantil TMI es una razón igual al número de niños fallecidos
antes de cumplir un año, dividido el número de niños vivos nacidos en los últimos 365 días.
Las razones permiten comparar grupos de variables clasificadas por tamaño, origen, tiempo,
etc.
Para que una razón sea significativa, es necesario elegir el adecuado denominador para excluir
factores ajenos que oscurezcan la relación que se trata de explicar por ejemplo los datos
siguientes: de los meses de enero a junio de cada año, de accidentes de tráfico.
2000 2002
Vuelcos 114 126
Embarrancamientos 97 109
Ocupantes accidentados 1954 2377
100=112,4%
100=111,4%
Para el 2000,
Las razones y porcentajes pese a su sencillez, frecuentemente se los calcula mal, ya sea por
utilizar un denominador incorrecto, dejar de restar 100% en los incrementos o al interpretar
erróneamente la naturaleza de las comparaciones.
Es importante señalar también que al usar porcentajes se comete otro error. La diferencia
entre dos porcentajes, a menudo llamados puntos porcentuales, no se debe interpretar como
porcentaje de cambio. Ejemplo. Se anunció que la producción de la energía eléctrica subió
de 130 en 1995 a 153 en 2001. No se puede afirmar que hubo un incremento de 23% ya que
ambas cifras tienen como base el año 1990 por lo tanto los 23 puntos representan 17,7% de
incremento entre 1995 al 2001.
Finalmente, una razón no debe usarse si el denominador es un número muy pequeño, porque
el grado de comparación pierde significado útil.
DISTRIBUCION DE FRECUENCIAS DE LA VARIABLE CUANTITATIVA Se
distinguen dos casos: de variable discreta y de variable continua.
Distribución de frecuencias de una variable discreta. Primero se identifican las clases o
valores que toma la variable, luego las frecuencias se obtienen por conteo. Por ejemplo, de la
matriz de datos construir la distribución de los alumnos según “calificaciones en la materia
1.” Los valores que toma esta variable son números enteros del 10 al 15, en consecuencia, se
tiene.
Comentario: del total de alumnos, el 30% obtuvo nota de 12. Si consideramos como nota
mínima de aprobación el valor de 11 es posible afirmar que el 25% de los alumnos están
reprobados, luego el 75% de los 3 paralelos tienen nota de aprobación etc.
Sin embargo, la misma información puede ser agregada de manera tal que al juntar
modalidades, disminuye la longitud de la distribución.
Notas.
1. Esta no es la única manera de calcular el número de clases y los anchos de clase,
el, método se lo utiliza por su sencillez.
2. Se recomienda que el número de clases de clases k este es el intervalo 5 ≤ 𝐾 ≤
20. Si k es menor a 5 se pierde información, si k 20 el detalle y precisión no
justifica el trabajo.
3. El extremo inferior 𝐿1 del primer intervalo puede ser el mínimo 𝑥𝑖 o un valor aun
menor.
𝐿𝑖 - 𝐿𝑖 +1 conteo frecuencia
53 – 57,9 //
58 – 62,9 ///// ///
63 – 67,9 ///// /////
68 – 72,9 ///// ///// / etcétera
𝑁i = N(𝑥 ≤ 𝑥j)= número de observaciones cuyo el valor de la variable es menor o igual xj.
𝑁𝑖 = 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑖 = ∑𝑖𝑗=1 𝑛𝑗
Calificaciones alumnos % 𝑁1 𝐹1
53 – 57.9 2 2,50 2 2,5
58 – 62,9 8 10,00 10 12,5
63 – 67,9 10 12,50 20 25,0
68 – 72,9 11 13,75 31 38,75
73 – 77,9 17 21,25 48 60,0
78 – 82,9 12 15,00 60 75,0
83 – 87,9 8 10,00 68 85,0
88 – 92,9 7 8,75 75 93,75
93 – 97,9 5 6,25 80 100
Total 80 100
De manera semejante hay dos clases: absolutas acumuladas N*i inversas y relativas acumuladas
inversas F*i. Las frecuencias acumuladas inversas N*i indican el número de observaciones que son
mayores o iguales a la clase de igual manera ocurre con las frecuencias relativas acumuladas inversas
F*i .
𝑁i = N(𝑥 ≤ 𝑥j)= número de observaciones cuyo el valor de la variable es menor o igual xj.
En la columna 5o columnas 4o fila, indica que 75% de los alumnos obtuvo nota mayor o igual a 68
puntos.
La proporción de alumnos cuya calificación es mayor o igual a 63 puntos es 87.5%
REPRESENTACIÓN GRÁFICA
En distribuciones de ancho de clase igual para cada intervalo queda definida la base del rectángulo,
por lo tanto la altura es un valor proporcional a la frecuencia.
Ejemplo graficar el histograma de la siguiente distribución de frecuencias.
Ejemplo graficar el histograma de la siguiente distribución primero calcular las alturas y distribuir el
eje horizontal proporcionar a los antros del de clase.
POLÍGONO DE FRECUENCIAS Este gráfico sólo tiene significado de utilidad para distribuciones de
variable cuantitativa es la poligonal de unir los pares (xi, ai)del plano. Para una distribución de
variable cuantitativa discreta resulta de unir los extremos de las barras mientras que para una
variable continua es el representante de clase o punto medio del intervalo.
Ejemplo. En dos ciudades, capitales del departamento se muestrea a igual número de empleados
públicos. La investigación registra la proporción del salario que se destina a la compra de alimentos
(expresado en %) los datos son los siguientes.
Los polígonos proporcionan información adicional sobre características de la distribución con ellos
se puede calificar la simetría asimetría etc.
Distribución simétrica.
Es simétrica porque a partir de un eje de un eje vertical la superficie debajo del polígono ocupa
partes iguales.
Es asimétrica positiva porque la cola más larga del polígono se extiende hacia los números positivos
polígono abultado a la izquierda.
Un ejemplo típico es distribución de personas según ingreso una alta proporción de personas tiene
salarios bajos y una baja proporción de ellas tiene salarios altos.
Es asimétrica negativa porque la cola más larga del polígono se dirige hacia los números negativos
polígono abultado a la derecha
Ejemplo distribución de personas afectadas de problemas cardíacos según edad en efecto la mayoría
de enfermos del corazón en las edades altas.
Distribución en J invertida
Ejemplo distribución de costo de mantenimiento de vehículos según su anti. Edad en años en efecto
cuando el vehículo es nuevo se imputa el valor luego el costo sube según va envejeciendo.
Es la poligonal que resulta de unir los pares ( xi Ni ) tratándose de variable discreta y uniendo los
pares (Li Ni-1) para distribuciones de variable continua en este último caso la curva se conoce como
el del nombre de ojiva
Polígono de frecuencia acumulada de variable continua u ojiva El dominio de la Gráfica son todos los
reales y el recorrido es el conjunto de Los Reales positivos esta curva es ascendente continua no
derivable.
Ejemplo: El curso de la asignatura A esta formada por 50 estudiantes. La siguiente distribución se
refiere a los puntajes obtenidos en una prueba.
El polígono de frecuencias acumuladas de v. continua u ojiva se llama también curva integral, ya que
la integral de una constante es una recta con pendiente positiva.
CURVA DE FRECUENCIAS ACUMULADAS INVERSAS O FRECUENCIAS DECOMULADAS.
La grafica tiene por dominio todos los reales y su recorrido son enteros para una distribución de
frecuencias absolutas acumuladas y su respectivo valor si son frecuencias relativas acumuladas es
una curva discontinua.
Para variable continua genera una curva con dominio todos los reales, es decreciente, continua pero
no derivable.
DIAGRAMA DE TALLOS Y HOJAS. Es una forma de representar variables cuantitativas desglosando,
cada dato en dos partes: rama y hoja. Para observaciones de dos dígitos el primero es la rama y el
segundo la hoja y así sucesivamente.
Ejemplo los tiempos que tardan distintos programas en ejecutarse 4,7,2, 1,3,5, 2,6,0,9, 1,6,2,
1,3,7,0,8, 1,7,2,4, 3,6,4,5,0, 1,2,1,6, 2,5,2,4, 1,8,2,6
Elaborar una distribución de frecuencias de variable discreta graficar el diagrama de barras y la curva
de frecuencias acumuladas.
5. los siguientes datos se refieren a los puntajes obtenidos por un grupo de jóvenes que
respondieron un texto estándar de creatividad
126 111 122 121 108 124 102 118 116 128 111 112 106 105 115 131 123 123
120 123 118 129 114 124 146 117 113 106 123 115 106 116 124 112 121 120
138 124 123 138 120 121 112 126 134 122 112 113 116 107 166 139 115 107
146 112 132 118 120 122 117 116 104
a. graficar el histograma y la ojiva b. Calcular, la proporción de facturas de valor menor que 450
bolivianos y mayor que 150 bolivianos se calcular la proporción de facturas cuyo valor sea
menor de 500 bolivianos dado que se sabe que las facturas son mayores de 250 bolivianos.
9. Construir una distribución de frecuencias de ancho de clase de longitud 10 con los datos del
problema de las 80 calificaciones
10. en una distribución simétrica de frecuencias con siete intervalos de clase se sabe que f1 = 5%
f3 = 20% y F5 = 95%. Con base en esta información reconstruir las columnas de frecuencia relativa
y frecuencia relativa acumulada suponga también que el representante de la clase x3 = 20. Luego
graficar la ojiva
11. El programa de salud preventiva en mujeres en edad fértil ha registrado datos desde hace 10
años en el servicio contra el cáncer femenino y las muertes ocurridas.
Calcular la tasa de letalidad del cáncer respecto a las mujeres examinadas y respecto del total así
como la tasa del Total explicar los resultados.
12. Los ingresos diarios de un artesano se registran en la tabla incompleta siguiente completar
la información y graficar el polígono de frecuencias relativas.
13. Las calificaciones de un grupo de 120 estudiantes se han agrupado en una distribución
simétrica de frecuencias de 7 intervalos de ancho de clases iguales la información parcial
disponible es: f1=%5% f3%=15% F3%=85% x4 = 72
14. Del hospital infantil de la ciudad Se dispone del número de niños atendidos con hospitalización
que fueron atendidos en el último mes de menores de 12 meses 40 niño de 2 a 6 meses 60 niños
de 6 meses a un año 60 niños de 1 a 2 años 96 niños de 2 a 3 años setenta y dos niños representar
esta información en un histograma.
15. Construir un diagrama circular y otro de barras para representar la siguiente información.
16. El siguiente histograma expresa la distribución de 70 hoteles según número de empleados. Halle
la distribución de frecuencias acumuladas y acumuladas inversas identifica el valor de X en que
se cortan Los polígonos de frecuencias acumuladas.
17. El gráfico presenta las ojivas de ingresos de 200 familias de trabajadores del sector A y 400
familias de trabajadores del sector B. La variable X está en miles de pesos con la información
gráfica responder los siguientes puntos.
Para la muestra A
a. ¿Cuántas familias, tienen ingresos por encima de 80 mil?
b. ¿Cuál es el porcentaje de familias que gana menos de 40 mil?
c. ¿Qué porcentaje de familias tienen ingresos entre 60 mil y 70 mil.
d. ¿Qué porcentaje de familias percibe entre 42,500 y 77700?
Capítulo II
Estadígrafos
DEFINICION: Son medidas que sintetizan la información y como tales sólo tienen sentido si la
variable en estudio es cuantitativa. Sea discreta o continúa. Un estadígrafo o medida, sólo depende
de los valores observados en una muestra, en consecuencia.
T= T(X1 X2……Xn)
Condiciones generales. Los estadígrafos deberían cumplir las siguientes:
1. Estar bien definidos, no debe dar lugar a ser confundido uno con otro
2. Debe prestarse al cálculo
3. Deben intervenir la mayoría de Las observaciones
4. Deben ser poco sensible a valores observados extremos
Por ejemplo el recorrido R=max xi – min xi es un estadígrafo que cubre las propiedades 1,2 pero no
la 3 y ni 4. Está bien definido y se presta al cálculo, pero sólo intervienen 2 observaciones y a
cualquier variación de los extremos R cambiará.
En el análisis de grandes volúmenes de datos numéricos es más útil cuando se presentan en forma
compacta como en una distribución de frecuencias si es aún de mayor consistencia si se conocen
valores que los definen de manera más concreta
Los estadígrafos de posición Central son medidas que representan la variable en estudio Se
denomina de tendencia central Por qué es un entorno? Se agrupan Las observaciones para cualquier
serie de datos numéricos, es posible seleccionar un valor típico para describir a dichas feria que se
denomina genéricamente promedio de los que hay una colección numerosa.
MEDIA ARITMÉTICA
La media aritmética es el estadígrafo de posición central más conocido y utilizado bajo el término
de promedio se está definido como:
La media aritmética cumple con las tres primeras condiciones está bien definida, se presta al cálculo
Intervienen todas las observaciones, No cumple con la cuarta condición es muy sensible cualquier
cambio en el valor de las observaciones altera su resultado.
Ejemplo Se tienen 4 familias el número de personas que las conforman son 5,2,4,3 respectivamente
la media aritmética resulta ser.
Ahora consideremos que la muestra es de 10 familias habiendo registrado los siguientes valores
2,4,5, 3,3,2, 3,4,3,4 ¿Cuál es la media aritmética?
Al formar la distribución de frecuencias de estas diez familias los resultados de los productos
variables por frecuencia se listan en una nueva columna.
En consecuencia para calcular la media aritmética de una variable agregada en una distribución de
frecuencias debe considerarse dichas frecuencias.
Ejemplo sea X: préstamos de la mutual “La Única” según él % de intereses calcula la media aritmética
interpretar el resultado.
= 16,8% Es el único % medio que cobra esta mutual por los 50 créditos comprometidos.
La media aritmética es un parámetro tratándose de todos los valores de la población. Para todas las
muestras posibles que puedan obtenerse de esa población, la media aritmética varia de muestra,
sin embargo, se espera se aproximan al parámetro.
Ejemplo
De una muestra de familias encuestadas en la ciudad se ha calculado por métodos indirectos el valor
de los ingresos expresados en Bs. Calcular la media aritmética del ingreso y el % de las familias que
ganan por encima de ese valor.
Solución: para calcular la media usando una transformación se elige como la constante T, el
representante de clase que tiene la mayor frecuencia eligiendo c e l ancho de clase común T = xp |
np = max ni En la columna 2, max ni = 33 entonces T = 1750 y c = 500
Media ponderada Considerando que Las observaciones tienen pesos distintos la media ponderada,
se calcula según
Ejemplo es muy frecuente que las calificaciones de un asignaturas eran en realidad medias
ponderadas Por qué las distintas tareas tienen ponderación diferente, así tenemos pruebas parciales
que valen 60% prácticas 15% y final 25% Juan Carlos obtuvo las siguientes notas promedio de
pruebas parciales, 74, nota de prácticas 86 prueba final 48, la nota semestral es entonces
Ejercicios
2. En una fábrica la media de los salarios de 5000 Bs. El salario medio del personal técnico es de 5200
mientras que el salario medio de los obreros de 4200, ¿qué proporción de obreros trabajan en la
institución?
3. Los 1752 comprobantes de egreso de una institución se dividen en 7 pares iguales, los extremos
de los intervalos son: 200,380,510,580,680,830,1050,1360,, Calcular la media aritmética y graficar
el polígono de frecuencias.
4.
Suponer que el ingreso anual por persona es de Bs. 5000 y que el sector obrero percibe al 20% el
ingreso total constituyendo el 60% de la población trabajadora. Calcular el ingreso medio personal
del sector no obrero
5. Una fábrica tiene 3 máquinas. La máquina B produce la mitad de lo que produce la máquina A. La
máquina C produce el 20% de lo que produce la máquina B. Los costos por unidad de las 3
máquinas son 2, 2,5 y 3 respectivamente. Si sobre el precio medio de producción se aumenta el
15% de utilidad ¿Cuál es el precio de venta por unidad?
a. Graficar el histograma
b. Graficar del polígono de frecuencias y definir su condición de simetría
c. Calcular la media aritmética
8. Un fabricante de sierras de cinta quiere estimar el costo de reparación promedio mensual para
las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de
reparación para cada sierra pero puedo obtener la cantidad total gastada en reparación y el no de
sierras que tiene cada industria. El fabricante o usa una muestra de tamaño de 20 de las 96
industrias a la que presta servicio. Los datos sobre costo total de reparaciones por industria y el
número de sierras por industria están a continuación. Estime el costo promedio de reparación por
tierra para el mes pasado
9. Una variable sólo puede tomar valores 0 ó 1 si la frecuencia relativa de observar es uno es p y la
frecuencia de observar es 0 es q (p+q = 1) calcular la media aritmética de X.
MEDIANA Me
Se define como el valor de la variable X que divide en dos partes los datos ordenados tal que la
proporción de ellos que son menores o iguales que la mediana es 0,5.
P(X Me)=0,5
Para una serie de datos de variable discreta, la mediana, no existe o existen muchos valores que
cumplen la definición, por ejemplo para 6 observaciones x1<x2<x3<x4<x5< x 6, la mediana puede ser
cualquier valor comprendido entre x3 y x4 (infinitos valores) cualquiera de ellos supera al 50% de los
datos y es superado por el otro 50%. El valor más aceptado como mediana es la media aritmética de
x3 y x4.
Para 7 observaciones, x1<x2<x3<x4<x5<x6 <x7 se acepta como mediana es el valor central x4. sin
embargo, la proporción de datos menores que x4 vale 3/7 o 43% y los valores que son mayores que
x4 constituyen el 43%.
Por esta razón, para una serie de datos diferentes se acepta que :
Me = xn/2 +x1+n/2
Sean las calificaciones ordenadas 56,67, 70,74, 77,90 Me = (70+74)/2=72 se complica más aún
cuando algunos valores de la variable discreta se repiten no se dispone de una distribución de
frecuencias. En el siguiente ejemplo
En este ejemplo el dato que ocupa el lugar central (147+1)/2=74 es el 3, pero no es la mediana
puesto que la P(X<3)= (17+25)/147 = 0,286 y P(X 3) = 0,61 En consecuencia esta variable no tiene
mediana.
La mediana cumple con las condiciones 1, 2 y 4 puesto que está bien definida, se presta el cálculo y
es prácticamente insensible los No interviene en la mayoría de los datos. En las consideraciones
anteriores sólo intervienen las dos observaciones centrales, independientemente del valor de ella o
la naturaleza de la variable en consecuencia la mediana depende más de la cantidad de datos que
es su valor intrínseco. Goza de la propiedad de homogeneidad Me(cX) = c Me(X)
Para una variable continua agregada en una distribución de frecuencias, la Me existe pese a ser
aproximada. Por definición, la Me supera lo más a la mitad de los datos y está dentro un intervalo
que se identifiquen la distribución de frecuencias acumuladas aquel del que Ni es mayor o igual a
n/2, tal que: NI-1<n/2 Ni
Para deducir la fórmula de cálculo, en el segmento de la ojiva que corresponde al intervalo mediano,
se identifica Me y los triángulos semejantes abc y ade
Ejemplo: Una muestra de niños de último curso de primaria, proporciona la siguiente información
Calcular e interpretar la Mediana.
Para calcular la Me se identifica la clase que la contiene comparando n/2, en la fila están los datos
que se requieren, el ancho de clase y la frecuencia.
El valor n/2 identifica la clase mediana el intervalo 47 - 52 ancho de clase es 5 y la frecuencia de la
clase es 45, por lo tanto la mediana calculada es
Me = 47 + [(178/2) − 71 ]5/45 = 49 kg
Interpretación: el 50% de los estudiantes de 8o, básico tiene un peso menor o igual a 49 kg.
Ejercicios
MODA Mo
Es el valor de X que hace máximo el polígono de frecuencias g(x)>0. Es decir Mo es tal que g(Mo) =
max g(x). Se usa para variables con precio, renta, etcétera y otras ordinales.
El polígono de frecuencias se construye de la misma forma tanto que para variable discreta como
continua. Es el caso discreto el punto más alto ( xp,ap) identifica automáticamente el valor modal.
Si X es v. discreta Mo = xp l np = max ni . Es decir Mo es el valor más frecuente en el que se repite
más veces.
El valor modal es fácil de identificar es el representante de la segunda clase, es el que se repite más
veces si x es V continúa el intervalo modal proporciona un número infinito de valores que cumplen
la condición el valor más afectados se deduce de la construcción geométrica en el rectángulo de
mayor altura, resultando que la Mo es la proyección del punto en el que se intersectan las diagonales
hacia los intervalos adyacentes.
Los triángulos aoc y cod son semejantes por ser opuestos por el vértice.
Ejemplo: Calcular el valor modal de los pesos corporales de los niños de octavo básico.
Esta relación se usa para calcular aproximadamente el valor de la media para distribuciones de
frecuencia que tienen uno o dos extremos abiertos despejando. Despejando 𝑋
Ejemplo