Está en la página 1de 49

PROBABILIDAD Y

ESTADÍSTICA
FACULTAD DE INGENIERÍA MECÁNICA
LICENCIATURA EN INGENIERÍA DE ENERGÍA Y AMBIENTE
GRUPO: 1EM121

Ing. Gabriela C. De La Guardia G.


Código de Idoneidad. No. 2002 – 022 – 018
MEDIDAS DE TENDENCIA CENTRAL O
POSICIÓN, DE DISPERSIÓN O
VARIABILIDAD Y MEDIDAS DE FORMA
(DATOS AGRUPADOS Y NO AGRUPADOS)
Módulo 4
Medidas de
tendencia
central o
posición
Una medida de tendencia central ubica e
identifica el punto alrededor del cual se
centran los datos
Medidas de la tendencia central a
partir de datos no agrupados
■ Los 3 principals métodos para identificar el centro del conjunto de datos y que
dependen de la definición de centro son:
– La media
– La mediana
– La moda
La media
■ La media o media aritmética es la medida de tendencia central que comúnmente
conocemos como promedio
■ La media poblacional es el parámetro . Si hay N observaciones en el conjunto de
datos de la población
𝜒1 + 𝜒2 + 𝜒3 + ⋯ + 𝜒𝑁 σ𝑁
𝑖=1 𝑥𝑖
𝜇= =
𝑁− 𝑁
■ La media de una muestra es un estadísitico 𝑥.ҧ Con n observaciones en el conjunto
de datos de la muestra, y se determina así:

𝑥1 + 𝑥2 + 𝑋3 + ⋯ + 𝑥𝑛 σ𝑛𝑖=1 𝑥𝑖
𝑥෤ = =
𝑛 𝑛
La mediana
■ Algunas veces llamada media posicional, porque se ubica exactamente en la mitad del
conjunto de datos después de que las observaciones se han colocado en serie ordena.
■ La mitad de las observaciones estará por encima de la mediana, la otra mitad por
debajo de ella.
■ Si el conjunto de datos tiene un número impar de observaciones, la mediana es:

𝑛+1
2
■ Con un conjunto de datos que contiene un número par de observaciones es necesario
promediar los dos valores medios.
– Ejemplo: 35, 45, 52, 56, 67, 67
– Posición de la mediana = (6+1)/2=3.5; Es decir (52+56)/2= 54
Medidas de tendencia central
La moda La media ponderada
■ Es la observación que ocurre con ■ 𝑥ҧ𝑤 =La media asume que cada
mayor frecuencia observación es de igual importancia
■ Sin embargo en ciertos casos se
quiere dar mayor peso a algunas de
las observaciones, esto es lo que
hace la media ponderada.
𝛴×𝑤
■ 𝑥ҧ𝑤 = σ𝑤
, donde
■ 𝑥ҧ𝑤 = media ponderada
■ W= peso o ponderación asignada a
cada observación
■ X= es la observación individual
La media geométrica
■ La media geométrica puede utilizarse para mostrar los cambios porcentruales en
una serie de números positivos. Por este motivo, tiene mucho uso en los negocios y
en la economía, ya que con frecuencia se está interesado en establecer el cambio
porcentual en las ventas, producto nacional bruto o en cualquier serie económica.
■ La media geométrica proporciona una medida precisa de un cambio porcentual
promedio en usa serie de números.
𝑛
𝑀𝐺 = 𝑥1 𝑥2 𝑥3 … 𝑥 𝑛

■ La media geométrica MG se halla tomando la raíz enésima del producto de n


números.
■ Se utiliza con más frecuencia para cualcular la tasa de crecimiento porcentual
promedio de algunos series dadas, a través del tiempo.
■ La media geométrica siempre será menor que la media aritmética salvo en el
extraño caso en el que todos los incrementos porcentuales seran igual. Entonces
ambas serán iguales.
Comparación entre la media, la
mediana y la moda
■ La media es la medida más común de tendencia central. Se presta para mayor
manipulación e interpretación algebraica. Sin embargo, se ve afectada por valores
extremos, o valores atípicos, y a diferencia de la mediana, puede ser sesgada por
las observaciones que están muy por encima o muy por debajo de ésta.
■ La moda también es menos afectada por unas pocas observaciones atípicas. Sin
embargo, si no hay moda, o si el conjunto de datos es bimodal, su uso puede ser
confuse.
Medidas de tendencia central con
datos agrupados
■ Al trabajar con datos que han sido agrupados en una distribución de frecuencia, no
se conoce cuáles son las observaciones individuales.
■ Por lo cual, los procedimientos la calculas las medidas descriptivas simplemente no
aplican.
■ Debe tomarse en cuenta que los cálculos hechos utilizando datos agrupados son
solo aproximaciones, por lo cual las observaciones individuales no agrupadas
deberían utilizarse cuando sea possible.
La media (datos agrupados)
■ Al calcular la media de datos agrupados, se supone que las observaciones en cada
clase son iguales al punto medio de la clase.
■ Dada esta suposición, se debe tener en cuenta la frecuencia y los puntos medios de
cada clase cuando se calcula la media utilizando datos agrupados
𝛴𝑓 𝑀 𝛴𝑓 𝑀
■ 𝑋𝑔 = =
𝑛 𝛴𝑓

■ Donde f es la frecuencia o número de observaciones en cada clase


M es el punto medio de cada clase
n es el tamaño de la muestra y es igual a las frecuencias sumadas en todas
las clases.
La mediana (datos agrupados)
■ Primero se debe hallar la clase de la mediana de la distribución de frecuencia.
■ La clase mediana es la clase cuya frecuencia acumulada es mayor que o igual a n/2
𝑛ȁ2 −𝐹
■ La mediana 𝐿𝑚𝑑 + 𝐶
𝑓𝑚𝑑

■ Donde Lmd es el límite inferior de la clase de la mediana


F es la frecuencia acumulada de la clase que antecede a la clase de la mediana
fmd es la frecuencia de la clase de la mediana
C es el interval de clase de la clase de la mediana
La moda (datos agrupados)
■ Por definición la moda es la observación con mayor frecuencia, se hallará en la clase que
tenga la frecuencia más alta, llamada clase modal.
𝐷𝑎
■ Moda para datos agrupados Moda = 𝐿𝑚𝑜 + 𝐶
𝐷𝑏+𝐷𝑎

■ Donde Lmo es el límite inferior de la clase modal


Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue
C es el intervalo de clase de la clase modal
Comparación entre
la media, la
mediana y la moda
■ Si la mediana = media = moda, la
distribución es simétrica
■ Si la media > mediana, la distribución es
asimétrica con cola a la derecha (sesgada
a la derecha)
■ Si la media < mediana, la distribución es
asimétrica con cola a la izquierda
(sesgada a la izquierda).
Otras medidas de posición (Cuartiles, deciles y
percentiles)
Cada conjunto de datos tiene tres Los deciles separan el conjunto de los
cuartiles que lo dividen en cuatro partes datos en 10 subconjuntos iguales, y los
iguales. percentiles en 100 partes.
•El primer cuartil es ese valor debajo del •El primer decil es la observación debajo
cual se clasifica el 25% de las de la cual se encuentra el 10% de las
observaciones, y sobre el cual puede observaciones, mientras que el 90%
encontrarse el 75% restante restante se encuentra encima de éste.
•El segundo cuartil es justo la mitad. La •El primer percentil es el valor debajo del
mitad de las observaciones están por cual se encuentra el 1% de las
debajo y la mitad por encima. En este observaciones, y el resto está por
sentido, es lo mismo que la mediana. encima de éste.
•El tercer cuartil es el valor debajo del
cual está el 75% de las observaciones y
encima del cual se puede encontrar el
25% restante.
•La determinación de cuartiles con
frecuencia es de utilidad.
Estadísticos de posición
En datos sin tabular:
■ Primero se ordenan de menor a mayor los n datos.
■ Calcular el valor

■ Si A es entero, entonces el percentil k corresponde al valor medio de las


observaciones ubicadas en las posiciones A y A+1.
■ Si A no es un entero, el percentil k corresponde a la observación ubicada en la
posición entera siguiente, es decir, [A+1].
Determinar los percentiles
25 y 60 de los siguientes
datos:
• 3, 5, 5, 8, 12, 15, 21, 23, 25, 26,
29, 35

P25: A= 12 x 25 /100 = 3
• A resulta un entero, por tanto el
P25 corresponde al promedio de
las observaciones en las posiciones Ejemplo
3º y 4º, es decir, P25= (5+8)/2 =
6.5

P60: A = 12 x 60 / 100 = 7.2


• En este caso A no es un entero, nos
movemos al entero siguiente. Es
decir, P60 = 23 (observación en la
8ª posición).
PERCENTILES, CUARTILES Y DECILES
para datos no agrupados
■ El lugar o posición donde se encuentran los cuartiles para n datos ordenados es:

Cuartel Q1 = P 25% Q2 = P 50% Q3 = P 75%


Posición 25 (n + 1) 50 (n + 1) 75 (n + 1)
100 100 100
Ejemplo
■ Determine los cuartiles y el decil 8 de los 13 datos ordenados siguientes:
10 11 11 12 12 13 13 13 14 15 17 18 20

Percentil Posición Valor del cuartel


Q1 = P25 0.25 (13 + 1) = 3.5 Q1 = 11 + (12-11) 0.5 = 11.5
Q2 = P50 0.50 (13 + 1) = 7 Q2 = 13
Q3 = P75 0.75 (13 + 1) = 10.5 Q3 = 15 + (17-15) 0.5 = 16
D8 = P80 0.80 (13 + 1) = 11.2 D8 = 17 + (18-17) 0.2 = 17.2
PERCENTILES, CUARTILES Y DECILES
para datos agrupados
■ Percentiles: Son 99 valores que dividen a un conjunto de datos en 100 partes iguales
Ejemplo
Intervalo de Marca de clase Frecuencia Frecuencia Frecuencia Frecuencia
clase (Xi) absoluta (fi) relativa (hi) Acum Abs (Fi) Acum Rel (Hi)

5.2 – 6-1 5.65 3 0.094 3 0.094


6.1 – 7.0 6.55 5 0.156 8 0.250
7.0 – 7.9 7.45 9 0.281 17 0.531
7.9 – 8.8 8.35 7 0.219 24 0.750
8.8 – 9.7 9.25 5 0.156 29 0.906
9.7 – 10.6 10.15 3 0.094 32 1.000
TOTAL 32 1.000
Medidas de
dispersión o
variabilidad
Las medidas de dispersión indican el
punto hasta el cual las observaciones
individuales se esparcen alredero de un
punto central. Miden la dispersión o
variabilidad de los datos y reflejan la
tendencia de las observaciones
individuales a desviarse de dicho punto
central.
Medidas de dispersión: miden qué tanto se
dispersan las observaciones alrededor de su media.

■ Para tratar de describir el conjunto de números se ubica el centro del conjunto de


los datos. Pero usar las medidas de tendencia central rara vez es suficiente.
■ Una descripción más completa del conjunto de los datos puede obtenerse si de
mide qué tan dispersos éstos están de los datos alrededor de dicho punto central.
■ Esto es lo que hacen las medidas de dispersión. Indican cuánto se desvían las
observaciones alrededor de su media.
■ Los tres grupos tienen una media
Ejemplo 1 de 5
■ Por ende, ¿son similares los datos?
■ Un análisis sería la comparación el
grado en el cual se dispersaron las
■ Conjunto de datos 1 observaciones individuales de cada
conjunto o se expandieron
0 5 10 alrededor de la media
■ Conjunto de datos 2 ■ El primer conjunto están muy
4 5 6 dispersas por encima y debajo de la
media
■ Conjunto de datos 3
■ En el segundo grupo están
5 5 5 comparativamente cerca de la
media
■ El primer grupo tiene una medida
de dispersión mayor que el segundo
y el tercero no tiene dispersión.
La medida de dispersión más simple (y la
menos útil) es el rango o recorrido.

El rango es simplemente la diferencia entre la


observación más alta y la más baja
El rango
Su ventaja es que es fácil de calcular

Su desventaja es que considera sólo dos de


todas las observaciones que hay en el
conjunto de datos
Varianza y desviación estándar de una
población
■ La varianza y su raíz cuadrada, y la desviación estándar son medidas de dispersión mucho más
útiles.
■ Proporcionan una medida más significativa sobre el punto hasta el cual se dispersan las
observaciones alrededor de la media.
■ La varianza es el “promedio de las desviaciones respecto a su media elevadas al cuadrado” 2
𝑥, −𝜇 2 + 𝜒2 − 𝜇 2 + 𝑥3 − 𝜇 2 + ⋯ + 𝑥𝑁 − 𝜇 2
𝜎2 =
𝑁
■ Donde X son las observaciones
෌ 𝑥𝑖 − 𝜇 2
■  es la media poblacional 𝜎2 =
𝑁
■ N es el número de observaciones
𝜎 = 𝜎2
desviación estándar poblacional

Note que debido a que se está trabajando con una población, la media es  y no 𝑋,
ത como para una muestra, y el
número de observaciones es N y no n, como para una muestra
Varianza y desviación estándar para
una muestra
■ La varianza y la desviación estándar para una muestra representan medidas de
dispersión alrededor de la media.
■ Se calculan de manera parecida a aquellas para una población. La varianza de la
muestra s2 es
෌ 𝑋𝑖 − 𝑋ത 2
■ Varianza de la muestra 𝑠2 =
𝑛−1

■ Desviación estándar de la muestra 𝑠 = 𝑠 2


Varianza y desviación estándar para
datos agrupados
■ Si los datos están agrupados en una tabla de frecuencia, la varianza y la desviación
estándar pueden calcularse de la siguiente manera:

■ Varianza de la muestra de datos agrupados

𝛴𝑓𝑀2 − 𝑛𝜒෤ 2
𝑠2 =
𝑛−1

■ Desviación estándar muestral para datos agrupados


𝑠 = 𝑠2
Coeficiente de Variación
■ Si bien la desviación estándar sirve como medida de dispersión, ésta tiene ciertas
limitaciones.
– Cuando se consideran dos o más distribuciones que tienen medias
significativamente diferentes, o que están medidas en unidades distintas, es
peligroso sacar conclusiones respecto a la dispersión sólo con base a la
desviación estándar.
– Por lo cual, con frecuencia se considera el Coeficiente de Variación (CV), el
cual sirve como medida relativa de dispersión.
– El CV determina el grado de dispersión de un conjunto de datos relativo a su
media.
– Se calcula dividiendo la desviación estándar de una distribución por su media
y multiplicando por 100
𝑠
𝐶𝑉 = 100
𝑋ത
Rango o recorrido intercuartílicos RIQ
■ Así como el promedio es una medida de tendencia central que no es resistente a las
observaciones extremas, la desviación estándar, que usa el promedio en su
definición, tampoco es una medida de dispersión resistente a valores extremos.
■ El RIQ es la diferencia entre el tercer cuartil y el primer cuartil
■ La mitad de las observaciones se clasifican dentro de este rango. Consta del 50%
de la mitad de las observaciones y corta el 25% inferior y el 25% superior de los
puntos de datos
■ El RIQ proporciona una medida de dispersión que no está muy influenciada por
unas cuantas observaciones extremas.
■ Rango entre cuartiles
– La diferencia entre el tercer cuartil y el primer cuartil se llama rango entre
cuartiles, denotado por RQ = Q3 - Q1
– El rango entre cuartiles mide la variabilidad de la mitad central de los datos.
Usos de la desviación
estándar
■ El teorema de Chebyshev (algunas veces escrito
como teorema de Tchebysheff) fue formulado por
el matemático ruso P.I. Chebyshev (1821-1894)
■ Establece que para todo conjunto de datos, por lo
menos 1 – 1/K2 % de las observaciones están
dentro de K desviaciones estándar de la media, en
donde K es cualquier número mayor que 1
1
■ 1−
𝐾2

■ Si se forma un intervalo de K=tres desviaciones


estándar por encima de la media hasta tres
desviaciones estándar por debajo de la media,
entonces
■ 1 - 1 = 88.89%, de todas las observaciones
32
estarán dentro de dicho intervalo
Usos de la desviación
estándar
■ La desviación estándar y la regla
empírica
– La desviación estándar puede
utilizarse para sacar ciertas
conclusiones si el conjunto de
datos en cuestión está
distribuido normalmente.
Se asume que se tiene un número grande de observaciones.
– Una distribución normal es una Si los datos están distribuidos normalmente, una gráfica de
distribución de datos continuos frecuencia tomará la forma de la figura.
(no discretos) que produce una Las observaciones en cada extremo ocurrirán relativamente de
curva simétrica en forma de forma poco frecuente, pero las observaciones que están más cerca
campana. de la mitad ocurrirán con una frecuencia más alta, por lo tanto se
produce la curva simétrica en forma de campana.
– En una distribución normal, la La observación modales la que ocurre con mayor frecuencia, por lo
media, la mediana y la moda tanto está en el pico de la distribución.
son todas iguales. La mitad de las observaciones deben estar por encima de la media
y la otra mitad por debajo.
■ La regla empírica dice que si se
incluyen todas las observaciones
que están a una desviación
estándar de la media (1 por encima
y una por abajo) estas serán el
68.3% de todas.
■ Si se mueve más de una desviación
estándar por encima y por debajo
de la media, se comprenderá un
porcentaje más grande de
observaciones.
■ La regla empírica especifica que:
– 68.3% de las observaciones
están dentro de más o menos – 99.7% de las observaciones
una desviación estándar de la están dentro de más o menos
media
tres desviaciones estándar de la
– 95.5% de las observaciones media
están dentro de más o menos
dos desviaciones estándar de
la media
■ Si las observaciones están
altamente dispersas, la curva en
forma de campana se aplanará y se
esparcirá.
■ Esta dispersión mayor se reflejará
en una curva de distribución normal
más extensa.
Medidas de forma
■ Las medidas de forma permiten comprobar si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de datos
y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
■ Las medidas de forma son necesarias para determinar el comportamiento de los
datos y así, poder adaptar herramientas para el análisis probabilístico.
– Medidas de forma:
■ Son indicadores estadísticos que permiten identificar si una distribución de
frecuencia presenta uniformidad.
■ Dos medidas de forma:
– Coeficiente de asimetría
– Curtosis
Medidas de ■ Las medidas de la asimetría, al igual que la curtosis, van a ser
medidas de la forma de la distribución, es frecuente que los
valores de una distribución tiendan a ser similares a ambos
simetría lados de las medidas de centralización.
■ La simetría es importante para saber si los valores de la variable
se concentran en una determinada zona del recorrido de la
variable.
■ Para medir la asimetría se puede realizar atendiendo
básicamente a dos criterios:
– Comparando la Media y la Moda.
– Comparando los valores de la variable con la media.
Comparando la Media y la Moda:

■ Si la diferencia x − 𝑀𝑜 es positiva, diremos que hay asimetría positiva o a la


derecha, en el caso de que sea negativa diremos que hay asimetría negativa o a la
izquierda.
■ No obstante, esta medida es poco operativa al no ser una medida relativa, ya que
esta influida por la unidad en que se mida la variable, por lo que se define el
coeficiente de Asimetría como:
As = x − 𝑀𝑜
x
Asimetría o Sesgo
■ Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos
respecto a su valor promedio tomado como centro de gravedad
■ No todas las distribuciones son normales. Algunas están sesgadas a la izquierda o a
la derecha.

■ En ambos casos, la moda es por definición la observación que ocurre con mayor
frecuencia. Por tanto, está en el pico de la distribución.
■ Sin embargo, por su sola naturaleza, la media se ve más afectada por las
observaciones extremas. Por lo tanto, es halada en la dirección del sesgo, más de lo
que está la mediana, la cual está en algún sitio entre la media y la moda.
Asimetría o Sesgo
La asimetría presenta las siguientes formas:
■ Asimetría Negativa o a la Izquierda.
– Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la media. Este
tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de
los datos tiene a la izquierda una cola más larga que a la derecha. También se dice que una
distribución es simétrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmética
es menor que la mediana y éste valor de la mediana a su vez es menor que la moda, en símbolos
x < Md < Mo
■ Simétrica.
Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a
ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal
en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) También se dice que
una distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en
símbolos x = Md = Mo
■ Asimetría Positiva o a la Derecha.
– Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media
aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la
distribución de los datos tiene a la derecha una cola más larga que a la izquierda.
– También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor
de la media aritmética es mayor que la mediana y éste a valor de la mediana a su vez es mayor que
la moda, en símbolos
x > Md > Mo
Coeficiente de Karl Pearson
■ Coeficiente de sesgo
3 𝑋ത − mediana
As =
𝑠
■ Donde:
■ 𝑋ത = media aritmética.
■ Md = Mediana.
■ s = desviación típica o estándar.

■ Nota:
■ El Coeficiente de Pearson varía entre -3 y 3
■ Si As < 0 la distribución será asimétrica negativa.
■ Si As = 0 la distribución será simétrica.
■ Si As > 0 la distribución será asimétrica positiva.
Medida de Yule Bowley o Medida
Cuartílica

■ Donde:
■ Q1= Cuartil uno; Q2= Cuartil dos = Mediana; Q3= Cuartil tres.

■ Nota:
■ La Medida de Bowley varía entre -1 y 1
■ Si As < 0 la distribución será asimétrica negativa.
■ Si As = 0 la distribución será simétrica.
■ Si As > 0 la distribución será asimétrica positiva.
Medida de Fisher
■ Para datos sin agrupar se emplea la siguiente fórmula:

■ Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:

■ Para datos agrupados en intervalos se emplea la siguiente fórmula:

■ Donde:
xi= cada uno de los valores; n = número de datos; x = media aritmética; f = frecuencia absoluta
3= cubo de la desviación estándar poblacional; xm = marca de clase
■ Nota:
■ Si As < 0 Indica que existe presencia de la minoría de datos en la parte izquierda de la media, aunque
en algunos casos no necesariamente indicará que la distribución sea asimétrica negativa
■ Si As = 0 la distribución será simétrica
■ Si As > 0 Indica que existe presencia de la minoría de datos en la parte derecha de la media, aunque
en algunos casos no necesariamente indicará que la distribución sea asimétrica positiva
CURTOSIS O APUNTAMIENTO
■ La curtosis mide el grado de agudeza o achatamiento de una distribución con
relación a la distribución normal, es decir, mide cuán puntiaguda es una
distribución.
■ TIPOS DE CURTOSIS
■ La curtosis determina el grado de concentración que presentan los valores en la
región central de la distribución. Así puede ser:
– Leptocúrtica.- Existe una gran concentración.
– Mesocúrtica.- Existe una concentración normal.
– Platicúrtica.- Existe una baja concentración.
Medida de Fisher
■ Para datos sin agrupar se emplea la siguiente fórmula:

■ Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:

■ Para datos agrupados en intervalos se emplea la siguiente fórmula:

■ Donde: xi = cada uno de los valores; n = número de datos; x = media aritmética; 4=
Cuádruplo de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca
de clase
■ Si a < 3 la distribución es platicúrtica
■ Si a = 3 la distribución es normal o mesocúrtica
■ Si a > 3 la distribución es leptocúrtica
ADICIONAL
Más conocimiento
Diagrama de tallo /
hoja (steam & leaf)
■ El diagrama "tallo y hojas" (Stem-and-Leaf
Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su
representación gráfica. Para construirlo basta This Photo by Unknown Author is licensed under CC BY-SA

separar en cada dato el último dígito de la


derecha (que constituye la hoja) del bloque de
cifras restantes (que formará el tallo).
■ Esta representación de los datos es semejante a
la de un histograma pero además de ser fáciles
de elaborar, presentan más información que
estos.

This Photo by Unknown Author is licensed under CC BY-SA


■ Supongamos la siguiente distribución de frecuencias que
representan la edad de un colectivo de N = 20 personas y que
vamos a representar mediante un diagrama de Tallos y Hojas.
Ejemplo 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40
33 24 34 40
■ Comenzamos seleccionando los tallos que en nuestro caso
son las cifras de decenas, es decir 3, 2, 4, que reordenadas
son 2, 3 y 4.
■ A continuación efectuamos un recuento y vamos «añadiendo»
cada hoja a su tallo

■ Reordenando queda:
Valores extremos o anómalos (outliers): son observaciones que
se alejan del conjunto der datos.

¿Qué son los Una regla para determinar si un dato es outliers es:

outliers? Si un dato es < Q1 – 1.5(Q3-Q1) Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de las


siguientes causas:
La observación es correcta
La observación se registra La observación proviene de
pero representa un suceso
incorrectamente. una población distinta.
poco común (fortuito).

También podría gustarte