Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SECUNDARIA EN MATEMÁTICA
Dossier de estadística
2° Año - 1° y 2° División
DOSSIER DE ESTADÍSTICA
En este dossier, se tratará de presentar a la estadística descriptiva, con los conceptos más
básicos y elementales, para la aplicación inmediata en situaciones problemáticas, para ello se
acude a definiciones y/o conceptos de diferentes autores, considerándoselos los aportadores
más didactas para este aprendizaje
Definición de Estadística
Los siguientes conceptos fueron tomados textualmente del libro digital de los autores David
Ruiz Muñoz y Ana María Sánchez Sánchez www.eumed.net/libros-gratis/2006a/rmss/00.htm
Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros
no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio
cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del
conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada, sin
embargo, es la de Minguez, que define la Estadística como “La ciencia que tiene por objeto
aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las
leyes que los rigen y hacer su predicción próxima”.
Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas,
una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la
palabra estadística, en primer término se usa para referirse a la información estadística;
también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para
Utilidad e Importancia
Historia de la Estadística
Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población
y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y
población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo
Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.
También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron
censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo
de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69
censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia
guerrera.
Pero fueron los romanos, maestros de la organización política, quienes mejor supieron
emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población
y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y
matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en
las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos
de la población bajo la autoridad del imperio.
Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas
operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes
a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC.
Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En
Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro
para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra.
Esa obra fue el primer compendio estadístico de Inglaterra.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico,
Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes
operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales
y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los
datos económicos.
Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que
Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a
los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste
que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadísticas
semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of
Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En
1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó
predicciones sobre el número de personas que morirían de varias enfermedades y sobre las
proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt,
condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality
(Observaciones Políticas y Naturales... Hechas a partir de las Cuentas de Mortalidad), fue un
esfuerzo innovador en el análisis estadístico.
Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los
recursos nacionales, comprensiva de datos sobre organización política, instrucciones
sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas
de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la
teoría Estadística.
Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica
como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía
estática.
En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban
conocer las riquezas monetarias y el potencial humano de sus respectivos países. El primer
empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a
cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se
propuso destruir la antigua creencia popular de que en los años terminados en siete moría
más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos
parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar
que en tales años no fallecían más personas que en los demás. Los procedimientos de
Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva
su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para
las tablas de mortalidad que hoy utilizan todas las compañías de seguros.
Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres,
Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto
tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el
siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.
Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la
teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del
principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero
en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las
diversas ramas de la ciencia.
Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población,
desarrolla los estudios industriales, de las producciones y los cambios, haciéndose
sistemáticos durante las dos terceras partes del siglo XIX.
División de la Estadística
Método Estadístico
El conjunto de los métodos que se utilizan para medir las características de la información,
para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo
de información, es lo que se llama métodos estadísticos. Los métodos de análisis para la
información cuantitativa se pueden dividir en los siguientes seis pasos:
1. Definición del problema.
2. Recopilación de la información existente.
3. Obtención de información original.
4. Clasificación.
5. Presentación.
6. Análisis.
Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores
así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen
nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos
errores son:
Datos no comparables: el establecer comparaciones es una de las partes más importantes del
análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan
entre datos que sean comparables.
Probabilidad
Conceptos Estadísticos
Muestreo estadístico: Es la técnica para la selección de una muestra a partir de una población.
Su función básica es determinar que parte de una realidad en estudio (población o universo)
debe examinarse con la finalidad de hacer inferencias sobre dicha población. Es decir se trata
de describir o pronosticar el comportamiento de la población con la base en la información
obtenida de una muestra representativa de la población.
Debe ser PROBABILISTICA: que todos los elementos que integran la población
deben tener misma PROBABILIDAD O POSIBILIDAD de ser seleccionada para
integrar la Muestra.
Debe ser ALEATORIA: que todos los elementos que integran la población deben ser
seleccionados al AZAR o en forma ALEATORIA.
Individuo, objeto, elemento o unidad estadística: Es cada uno de los elementos o individuo,
al que se le mide u observa una o más características, pueden ser atributos o variables
Variable: Es cada uno de los temas, características o cualidades que poseen los individuos
sobre los que se consulta a una determinada población y que varía de un elemento con
respecto a otro.
Valor: es cada uno de los distintos resultados que se pueden obtener en un estudio
estadístico.
Ejemplo: Se quiere estudiar las actividades deportivas que desarrollan, fuera del horario
escolar, algunos alumnos de una determinada institución y sus respectivas edades
Dato: Es uno de los valores que se puede realizar, ejemplo natación. Es la edad que tiene
actualmente
Valor: Son los distintos resultados que arroja hacer un deporte; (natación, posta, futbol, etc.).
Variables
Nominal Ordinal
Las variables cualitativas pueden ser nominal u ordinal. En ambos casos son no numéricas.
La nominal admite una característica ejemplo: sexo, estado civil, deporte, etc.
La ordinal admite un criterio de orden entre las categorías, ejemplo podio de medallas, nivel
de estudios cursados etc.
Nota: Cuando las observaciones se realizan sobre caracteres que no se pueden expresar
mediante un valor numérico (rendimiento académico, estado civil, se le suele hacer
Importante:
En el proceso de una investigación Estadística, se parte de los datos para que luego éstos sean
organizados y resumidos, también para que sean presentados a través de un procesamiento
de la información ( sea tablas, gráficos y mediciones descriptivas), a ese procesamiento, se
lo interpreta de la siguiente manera, si los datos corresponden a una población se realiza
directamente una conclusión a cerca de dicha población, mientras que, si los datos
corresponden a una muestra, primero se debe inferir estadísticamente y por último arribar a
una conclusión de la población.
En la estadística descriptiva, el método de recolección de datos, dependerá del tipo de
variable, para que se haga el procesamiento de la información y/o los cálculos de las medidas
estimativas, las cuales pueden ser a través de las medidas de posición o de las medidas de
dispersión y formas, las cuales serán analizadas más adelante.
SERIES ESTADÍSTICAS
Una serie estadística es un conjunto de observaciones o mediciones realizadas a partir de una
o varias características de interés, en una población o muestra.
Esto es, la información se organiza mediante series estadísticas, que según el número de datos
pueden clasificarse en simples (o no agrupadas) o en compuestas (o agrupadas).
Sobre el volumen de la información es subjetivo decir “pocos datos” y “muchos datos” esto
depende de diversos autores, para la primera situación se considera series simples, mientras
que, para los muchos datos se consideran series agrupadas.
Algunos autores, consideran pocos datos a los menores de 30 y muchos a los mayores o
iguales de 30 o por ejemplo para Reyes Castañeda considera mucho a los mayores o iguales
a 60 o Said Infante es mucho para los mayores o iguales a 200.
Aquí consideraremos para series simples a los 50 y para series agrupadas a los 50
Para las series agrupadas se necesitan otros conceptos como intervalos y otros, que en su
oportunidad serán analizados.
Antes de iniciar el análisis de las series estadísticas simples, es recomendable ordenar los
datos de menor a mayor o viceversa, con lo que será posible determinar los valores extremos
y los que más se repiten.
Pasos que sigue la estadística descriptiva para estudiar una población determinada
i=n i = 1,2,3,….. n
∑ fi = n
i=1
Nota:
Para la población se considera a N y para una muestra se considera a n
Frecuencia relativa (fr): Es el cociente entre la frecuencia absoluta y el número total de
observaciones. La suma de la frecuencia relativa es igual a 1.
fa
fr = n
i=n
∑ fr = 1
i=1
Ejemplo a
Sea la serie S1 = x1, x2, x3, x4, x5, x6, x7 Para a = x5 se tiene F(a=x5) = {xi S1/ xi
a} Fa fa
Es decir para a= x5 se tiene F(x5) = 5 quiere decir que es la cantidad de datos que fueron
contabilizados anteriormente e incluido x5
Frecuencia relativa acumulada (Fr): Cada una de ellas se obtienen sumando las
frecuencias relativas anteriores.
Importante:
La suma de las frecuencias absolutas es siempre igual al número total de
observaciones.
La suma de las frecuencias relativas es siempre igual a 1.
Las frecuencias absolutas son siempre números enteros positivos.
Las frecuencias relativas son siempre números fraccionarios comprendidos entre cero
y uno
0 fr 1
Frecuencia porcentual acumulada (Fp): Cada una de ellas se obtienen sumando las
frecuencias porcentuales anteriores
Ejemplo para serie simple: En un instituto, 20 alumnos de un curso fueron interrogados sobre
el número de hermanos que tienen cada uno
N° de Recuento fa Fa fa Fr fp Fp
fr = n
hermanos
(xi)
0 /// 3 3 0,15 0,15 15% 15%
1 //// / 6 9 0,3 0,45 30% 45%
2 //// // 7 16 0,35 0,80 35% 80%
3 /// 3 19 0,15 0,95 15% 95%
4 / 1 20 0,05 1 5% 100%
20 1 100%
Actividad:
Complete la siguiente tabla, en el esquema dado
xi recuento fa Fa fr Fr fp Fp
2 //
3 //// /
4 ////
5 //// ///
6 ////
Los datos se recopilan y resumen en forma apropiada en tablas y gráficos. A partir de ahora
se desarrollará una amplia variedad de medidas de resumen descriptivas, las cuales son útiles
para analizar e interpretar datos cuantitativos, ya sean recolectados en series simples o de
datos agrupados
Se presenta un esquema para visualizar la frecuencia adecuada que se debe emplear, según
el tipo de variables
Tipos de variables
Cualitativas Cuantitativas
fa Li
fa Fa Ls
fa
Fa fr Fa
fr
fr Fr fr
fp
Fr Fr
Se puede utilizar una gran variedad de medidas descriptivas que representan las propiedades
de posición, dispersión y forma para extractar y resumir las características sobresalientes del
conjunto de datos.
Si estas medidas de resumen descriptivas se calculan con una muestra de datos se llaman
estadísticos, si estas medidas descriptivas se calculan a partir de toda una población de datos
se llaman parámetros.
Las tres medidas primarias de posición o tendencia central, son la: media aritmética, la
mediana y el modo o moda.
Las medidas de tendencia central resumen en un número un aspecto relevante de los datos
que permiten interpretarlos o compararlos, en ese aspecto, con otros.
En los datos cuantitativos, la media aritmética es la medida más utilizada, pues todos los
datos influyen en su cálculo. Aunque, si en los datos, hay algunos demasiado alejados de los
otros, el promedio no es un buen indicador y, entonces, es necesario utilizar otra medida (la
de dispersión).
x̅ : Es la media aritmética
∑𝑛
𝑖=1 x𝑖.𝑓𝑖
x̅ =
N
La media actúa como punto de equilibrio o balanceo, de modo que las observaciones que son
mayores equilibran a las que son menores.
84+91+72+68+87+78
x̅ = =………………..
6
Propiedades
1
Se llama desviaciones respecto a la media aritmética a las diferencias entre cada valor de la variable (xi) y
la media aritmética (x̅).
Mediana (Me)
Dado que cualquier valor (o valores) extremos en un conjunto de datos distorsionan la media
aritmética, no es una buena medida de tendencia central en esas circunstancias. Por ello, es
apropiado usar la mediana ya que no se afecta con cualquier valor extremo.
La mediana es una medida de tendencia central que aparece en el medio de una sucesión
ordenada de valores. Es decir, la mitad de las observaciones en un conjunto de dato son
menores que ella y la otra mitad de las observaciones son mayores que ella.
Para su cálculo, primero se ordenan los valores preferentemente de menor a mayor, se puede
dar que el número de observaciones sea par o impar.
n+1
Si es impar, la mediana e representa Me = 2
N=6
68 – 72 – 78 – 84 – 87 – 91
xn xn+1
78+84
Me = = ……….
2
Si al ejemplo anterior, se agrega un hijo de uno de los 6 amigos, que tiene 12 kg de peso, se
tiene:
N = 7
12 – 68 – 72 – 78 – 84 – 87 – 91
Me
Me = 78
Propiedades de la Mediana
La medina se expresa en la mismas unidades que los datos de la serie, puede ser
positiva, cero o negativa
El cálculo del valor de la mediana se afecta por el número de observaciones y no por
la magnitud de cualquier extremo.
Cualquier observación seleccionada al azar es igual de fácil que exceda de la mediana
o que ésta exceda de aquella. La mediana supera al 50% de los datos ordenados de
una población y a la vez es superada por el 50% restante.
La suma de las diferencias absolutas entorno a la mediana, es un mínimo, es decir:
n
La moda es el valor que más se repite en un conjunto de datos, es decir el de mayor frecuencia
absoluta.
El ejemplo anterior no tiene moda, es decir cuando no se repiten los datos. Puede ocurrir que
haya una moda, entonces la distribución se llama unimodal. Si hay dos variables con igual
frecuencia máxima se llama bimodal.
Propiedades
Es la única medida de tendencia central que se puede utilizar con datos cualitativos.
Si el conjunto de datos tiene dos valores con la misma frecuencia y esta mayores y
distintas a otras, se dice que el arreglo o serie tiene 2 modas, es decir es bimodal.
Si el conjunto de datos no tiene moda, la distribución es uniforme, carece de valor
modal
La moda de una serie se expresa con las mismas unidades que la de los datos. Puede
ser un valor positivo, negativo o nulo
Actividad:
28°C 29°C 28°C 30°C 30°C 29°C 30°C 31°C 28°C 29°C 29°C 30°C
28°C 31°C 32°C 33°C 34°C 35°C 31°C 31°C 32°C 32°C 32°C 33°C
34°C 32°C 3°C 31°C 32°C 33°C 34°C 35°C 32°C 34°C 29°C 28°C
30°C 30°C 29°C 32°C 31°C
Gráficos Estadísticos
En la estadística también se puede usar gráficos, los más utilizados son:
Diagrama de barras.
Histogramas
Poligonal de frecuencias.
Diagrama circular.
Ojivas
Pictogramas
Cada gráfico estadístico informará: “La zona que identifica a cada valor será proporcional a
su frecuencia”
Diagrama de Barras
Es usado para variable cualitativas o cuantitativas no agrupadas en intervalos.
Las barras son rectángulos, donde la base indica los valores de la variable (asentadas sobre
el eje de las abscisas), mientras que la altura será proporcional a la frecuencia y esta, estaría
indicada sobre el eje de las ordenadas.
Histogramas
Es representativo para las variables agrupadas en intervalos.
Sobre el eje horizontal se marca los distintos intervalos, dibujando sobre cada uno de ellos
un rectángulo cuya área sea proporcional a la frecuencia que se esté visualizando (Si todos
los intervalos tienen la misma amplitud, bastará con que la altura de los rectángulos sea
proporcional a las frecuencias.
Polígono de frecuencias
Si la frecuencia representada no es acumulada, se enlaza los puntos medios, de los extremos
superiores de los rectángulos de los rectángulos.
Para frecuencias acumuladas, el polígono de frecuencias se obtiene de la forma indicada en
el gráfico.
N ___________ 360°
fa __________
360°
∝= fa
N
El ángulo de cada sector se calcula como 360º dividido por el total de sujetos (N) y
multiplicado por la frecuencia absoluta (fa), o bien el producto de la frecuencia relativa (fr)
por 360° como se indica a continuación:
La fórmula para calcular el ángulo de cada sector es la siguiente:
∝ = 360° . fr
También se puede calcular el ángulo en radianes:
2𝜋
∝= . 𝑓𝑎 = 2𝜋. 𝑓𝑟
𝑁
Gráfico de Ojiva
La ojiva apropiada para información que presente frecuencias mayores que el dato que se
está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la
que se asigna a valores menores, tendrá una pendiente positiva.
Existen las ojivas “mayor que” y las ojivas “menor que”. También existe dos diferencias
fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la
técnica es parcial):
Un extremo de la ojiva no se toca al eje horizontal, para la ojiva “mayor que” sucede
con el extremo izquierdo, para la ojiva “menor que”, con el derecho.
En el eje horizontal, en lugar de colocar las marcas de clase, se colocan las fronteras
de clase. Para el caso de la ojiva “mayor que” es la frontera menor, para la ojiva menor
que, la mayor.
La ojiva "mayor que" se le denomina de esta manera porque viendo el aspire que está sobre
el límite superior se ven las frecuencias que tienen por encima de ese límite superior. De
forma análoga, en la ojiva "menor que" la frecuencia que se representa en cada frontera de
clase son el número de observaciones menores que la frontera señalada (en caso de tiempos
sería el número de observaciones antes de la hora que señala la frontera).
[10, 20) [20, 30) [30, 40) [40, 50) [50, 60) [60, 70) [70, 80) [80, 90)
[10, 25) [25, 40) [40, 55) [55, 70) [70, 85) [85 90)
En teoría se establece que el número ideal de intervalos debe ser la raíz cuadrada del número
de observaciones disponibles:
Para N observaciones por el criterio de Kaiser N° de intervalos ≈ N
Por el criterio de Sturges N° de intervalos ≈ E(1,5 + 3,3 ln (N)) (E = parte entera)
Queda a conveniencia que extremo del intervalo será cerrado o abierto.
∑𝐧𝐢=𝟏 𝐱 𝐢 𝐟𝐚
𝐱̅ = xi = la marca de clase
𝐍
Mediana
Es el valor de la variable que ocupa la posición central. Para datos agrupados, la mediana se
encuentra en el intervalo dónde la frecuencia acumulada llega hasta la mitad de la suma de
𝑁
las frecuencias absolutas. Es decir, se encuentra el intervalo que contenga a 2
𝐍
− 𝐅𝐚−𝟏
𝐌𝐞 = 𝐋𝐢 + 𝟐 . 𝐚𝐢
𝐟𝐚
Ejemplo:
Calcule la mediana de una distribución estadística que viene dada por la siguiente tabla
fa Fa ai = 69 – 66 = 3
[60, 63) 5 5 𝑁 100
= = 50
[63, 66) 18 23 2 2
Moda o Modo
Es el valor de la variable correspondiente al intervalo de mayor frecuencia. Para su cálculo,
se emplea la siguiente fórmula
𝐟𝐚 − 𝐟𝐚−𝟏
𝐌𝐨 = 𝐋𝐢 + .𝐚
(𝐟𝐚 − 𝐟𝐚−𝟏 ) + (𝐟𝐚 − 𝐟𝐚+𝟏 ) 𝐢
𝐝𝟏
𝐌𝐨 = 𝐋𝐢 + .𝐚
𝐝𝟏 + 𝐝𝟐 𝐢
d1: (fa − fa−1 )
d2:(fa − fa+1 )
Ejemplo
Calcule la moda de una distribución estadística que viene dada por la siguiente tabla
fa
[60, 63) 5
[63, 66) 18
[66, 69) 42 Es la mayor frecuencia
[69, 72) 27
[72, 75) 8
100
ai = 69 – 66 = 3
42 − 18
Mo = 66 + . 3 ≅ 67,846 ≅ 67,85
(42 − 18) + (42 − 27)
fa-1 Mo fa+1
Cuantiles
Aparte de las medidas de tendencia central descriptas, existen otras medidas útiles para la
posición “no central” que se emplea a menudo al resumir o describir un conjunto de datos.
Estas medidas se llaman cuantiles.
Los cuantiles más familiares son los cuartiles, deciles y porcentiles. Para calcularlas es
necesario que los datos estén ordenados de menor a mayor.
Cuartiles
Son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro
partes iguales.
Q1; Q2; Q3 determinan los valores correspondientes al 25%, 50% y 75% de los valores
Q2 coincide con la mediana!
Para calcular se procede:
1. Se ordena los datos de menor a mayor
2. Se busca el lugar que ocupa cada cuartil mediante la expresión
k(N+1)
Q1 = siendo K = 1, 2, 3
4
k(N+1) 3(N+1)
Q3 = Q3 =
4 4
Ejemplos
Para N impares de datos
2; 5; 3; 6; 7; 4; 9
Q1 Q2 Q3
1 2 3 4 5 6 7 9
2,5 4,5 6,5
Q1 Q2 Q3
1(8+1)
Para k = 1 Q1 = = 2,25 se saca la media entre el valor del 2° y 3° lugar
4
2(8+1)
Para K = 2 Q2 = = 4,5 se saca la media entre el valor del 4° y 5° lugar
4
3(8+1)
Para k = 3 Q3 = = 6,75 se saca la media entre el valor del 6° y 7° lugar
4
frecuencia absoluta.
En la tabla de las frecuencias acumuladas
𝐤(𝐍+𝟏)
−𝐅𝐚−𝟏
𝟒
𝐐𝐤 = 𝐋𝐢 + . 𝐚𝐢 con k = 1, 2, 3
𝐟𝐚
Ejemplo
Calcule los cuartiles de la siguiente distribución de la tabla
fa Fa
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
Total 65
1(65+1)
Para k = 1 = 16,5 está contenido en Fa =18 que es el intervalo [60, 70)
4
16,5−8
Q1 = 60 + . 10 = 68,5
10
2(65+1)
Para k = 2 = 33 está contenido en Fa =34 que es el intervalo [70, 80)
4
33−18
Q2 = 70 + . 10 = 79,38
16
3(65+1)
Para k = 3 = 49,5 está contenido en Fa =58 que es el intervalo [90, 100)
4
49,5−48
Q3 = 90 + . 10 = 91,5
10
Deciles
Son los nueve valores que dividen a la serie de datos en diez partes iguales.
Los Deciles dan valores correspondientes al 10%, 20%, 30%, … y al 90% de los datos
1(65+1)
Para k = 1 = 6,6 está contenido en Fa =8 que es el intervalo [50, 60)
10
6,6−0
D1 = 50 + . 10 = 58,25
8
2(65+1)
Para k = 2 = 13,2 está contenido en Fa =18 que es el intervalo [60, 70)
10
13,2−8
D2 = 60 + . 10 = 65,2
10
3(65+1)
Para k = 3 = 19,8 está contenido en Fa =34 que es el intervalo [70, 80)
10
19,8 −18
D3 = 70 + . 10 = 71,13
16
4(65+1)
Para k = 4 = 26,4 está contenido en Fa =34 que es el intervalo [70, 80)
10
26,4−18
D4 = 70 + . 10 = 75,25
16
5(65+1)
Para k = 5 = 33 está contenido en Fa =34 que es el intervalo [70, 80)
10
33 −18
D5 = 70 + . 10 = 79,38
16
6(65+1)
Para k = 6 = 39,6 está contenido en Fa =48 que es el intervalo [80, 90)
10
39,6 −34
D6 = 80 + . 10 = 84
14
7(65+1)
Para k = 7 = 46,2 está contenido en Fa =48 que es el intervalo [80, 90)
10
46,2 −34
D7 = 80 + . 10 = 88,72
14
8(65+1)
Para k = 8 = 52,8 está contenido en Fa =58 que es el intervalo [90, 100)
10
52,8−48
D8 = 90 + . 10 = 94,8
10
9(65+1)
Para k = 9 = 59,4 está contenido en Fa =63 que es el intervalo [100, 110)
10
59,4 −58
D9 = 100 + . 10 = 102,8
5
Percentiles
Son los 99 valore que dividen la serie de datos en cien partes iguales.
Los percentiles dan los valores correspondientes al 1%, 2%, 3%,…99% de los datos
P50 coincide con la mediana y con D5
k(N+1)
Para su cálculo, en primer lugar se busca la clase donde se encuentra con k = 1, 2, 3,
100
𝐤(𝐍+𝟏)
−𝐅𝐚−𝟏
𝐏𝐤 = 𝐋𝐢 + 𝟏𝟎𝟎
. 𝐚𝐢 para k = 1, 2, 3, ….99
𝐟𝐚
Ejemplo:
Calcule el percentil 35 y 60 de la distribución anterior
35(65+1)
Para k = 35 = 23,1 está contenido en Fa = 34 que es el intervalo [70, 80)
100
23,1−18
P35 = 70 + . 10 = 73,19
16
60(65+1)
Para k = 60 = 39,6 está contenido en Fa =48 que es el intervalo [80, 90)
100
39,6−34
P60 = 80 + . 10 = 84
14
Medidas de Dispersión
Son las que indican la diferencia en la intensidad con que se dispersan o concentran los
valores observados con respecto a una medida de tendencia central.
Di = |𝐱 − 𝐱̅|
∑𝑛𝑖=1|xi − x̅|
Dx̅ =
N
∑𝑛𝑖=1|xi − x̅|𝑓𝑖
Dx̅ =
N
Ejemplo
Calcule la desviación media de la siguiente distribución
∑ 𝑥𝑖 𝑓𝑎 457,5
𝑥̅ = = = 21,79
𝑁 21
98,57
Dx̅ = = 4,69
21
Varianza
Es la media aritmética del cuadrado de las desviaciones respecto a la media de una
distribución estadística
2
(x1 − x̅)2 f1 + (x2 − x̅)2 f2 + ⋯ + (xn − x̅)2 fn
𝜎 =
N
∑ni=1(xi − x̅)2 fi
σ2 =
N
Para simplificar el cálculo también se emplea
n
2
xi 2
σ = [∑ − x̅ 2 ] . fi
N
i=1
Ejemplo
Calcule la varianza de la distribución de la tabla (complete la tabla)
xi fa xi . 𝑓𝑎 (𝑥𝑖 − 𝑥̅ )2 (𝑥𝑖 − 𝑥̅ )2 . 𝑓𝑎
[10, 20) 15 3
[20, 30) 25 9
[30, 40) 35 12
[40, 50) 45 10
[50, 60) 55 9
[60, 70) 65 5
[70, 80) 75 4
Total 52
Propiedades de la varianza
La varianza es siempre un valor positivo o cero
Si a todos los valores de la variable se les suma un número la varianza no varía
Si todos los valores de la variable se multiplican por un número la varianza queda
multiplicada por el cuadrado de dicho número.
∑ni=1(xi − x̅)2 fi
𝜎=√
N
x1 2 f1 + x2 2 f2 + ⋯ + xn 2 fn
𝜎=√ − x̅ 2
N
n
xi 2 . fi
𝜎 = √∑ − x̅ 2
N
i=1
Ejemplo:
Calcule la desviación típica de la distribución de la tabla (Complete la tabla)
xi fa xi . fa xi 2 . fa
[10, 20) 15 3
[20, 30) 25 9
[30, 40) 35 12
[40, 50) 45 10
[50, 60) 55 9
[60, 70) 65 5
[70, 80) 75 4
Total 52
La desviación típica será siempre un valor positivo o cero, en el caso de que las
puntuaciones sean iguales.
Si a todos los valores de la variable se les suma un número la desviación típica o
estándar no varía.
Si todos los valores de la variable se multiplican por un número, la desviación
estándar queda multiplicada por ese número.
Si tenemos varias distribuciones con la misma media y conocemos sus respectivas
desviaciones estándar se puede calcular la desviación estándar total.
Nota: En los casos que no se pueda hallar la media tampoco será posible hallar la deviación
típica.
La varianza tiene el inconveniente de que su unidad de medida es el cuadrado de la de los
datos. Esto se soluciona considerando la raíz cuadrada de la varianza. A ese número se lo
denomina desvío estándar.
El desvío estándar mide si los datos están concentrados alrededor de la media aritmética o si
están dispersos respecto de ella.
Cuanto menor sea el desvío estándar, más concentrados alrededor de la media están los datos.
La varianza y el desvío estándar indican si la media aritmética es o no representativa de los
datos.
Puntuaciones diferenciales
Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media
aritmética
xi = xi – x̅
Puntuaciones típicas
Las puntuaciones típicas son el resultado de dividir las puntuaciones diferenciales entre la
desviación típica. Este proceso se llama tipificación.
Las puntuaciones típicas se representan por Z
xi − x̅
Z=
σ
Nota:
La media aritmética de las puntuaciones típicas es cero.
La desviación típica de las puntuaciones típicas es uno.
Las puntuaciones típicas son adimensionales, es decir son independientes de las
unidades utilizadas.
Las puntuaciones típicas se utilizan para comparar las puntuaciones obtenidas en
distintas distribuciones.
Ejemplo
En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es 58,2 kg y el de
las alumnas es 52,4 kg. Las desviaciones típicas de los dos grupos son respectivamente 3,1
kg y 5,1 kg. El peso de José es de 70 kg y el de Ana es 65 kg. ¿Cuáles de ellos puede, dentro
del grupo de alumnos de su sexo, considerarse más pesado?
70 − 58,2
Z1 = = 3,81
3,1
65 − 52,4
Z2 = = 2,47
5,1
José es más pesado respecto de su grupo que Ana respecto al suyo.
Asimetrías
Asimetría por derecha
0 asimetría positiva
𝐱̅ − 𝐌𝐨
𝐊𝐩 = = 0 simetría
𝛔
0 asimetría negativa
fa Fa xi xi . fa (𝑥𝑖 − 𝑥̅ )2 . fa
[0, 2) 18
[2, 4) 24
[4, 6) 32
[6, 8) 16
[8, 10) 10
Total 100
𝑥̅ = __________
Mo= _______
= ________
El valor de KB es menor que cero, indica que la distribución es asimétrica negativa, ya que
la diferencia entre Q3 y Q2, es menor que la que hay entre Q2 y Q1.
Si la distribución es simétrica la distancia entre Q3 y Q2 es la misma que entre Q2 y Q1 en
cuyo casoel coeficiente de asimetría sería igual a cero.
Curtosis
Se refiere a la formación o deformación de una distribución respecto al eje de las ordenadas.
𝐦𝟒
𝐠𝟐 =
𝛔𝟒
g2: coeficiente de Curtosis
m4: momento centrado de orden 4 respecto a la media
4: desviación estándar elevado a la potencia 4
∑𝐤𝐢=𝟏(𝐱 𝐢 − 𝐱̅)𝟒 𝐟𝐚
𝐦𝟒 =
∑𝐤𝐢=𝟏 𝐟𝐚
Del ejemplo anterior se agrega las siguientes columnas
xi - x̅ (𝑥𝑖 − 𝑥̅ )4 (𝑥𝑖 − 𝑥̅ )4 . fa
- 3, 52 153,52 2763,40
- 1,52 5,34 128,11
0,48 0,05 1,70
2,48 37,83 605,24
4,48 402,82 4028,21
7526,66
m4 75,27
g2 = = = 2,2
σ4 34,91
Si la distribución es normal el valor de g2 es 3, 3ntonces para establecer una relación con
base a cero se puede obtener el coeficiente b1, tal que:
b1 = g2 – 3
b1 = 0 distribución normal o mesocúrtica
b1 0 distribución leptocúrtica o puntiaguda
b1 0 distribución placticúrtica o achatada
b1 = g2 – 3 = 2,16 – 3 = - 0, 84
Como g2 es menor que 3 o lo que es equivalente b1 0 se puede concluir que la distribución
es relativamente achatada.
Bibliografía