PEF Cap02 (2.2 2.3) PDF

Probabilidad y Estadística Fundamental
Resumen y descripción de datos de una variable

Martín Macías
Esquema para la sección 1
1. Medidas descriptivas de centro, localización, dispersión y forma

1.1 Medidas de tendencia central
1.2 Medidas de dispersión
1.3 Medidas de posición relativa
1.4 Medidas de forma
2. Datos atípicos
2.1 Resumen de cinco números
2.2 Diagrama de cajas
1/61
Medidas descriptivas de
centro, localización,
dispersión y forma
2/61
Descripción de un conjunto de medidas numéricas
Las gráficas pueden ayudar a describir la forma básica de una

distribución de datos. Las medidas numéricas que se pueden calcular
para una muestra o una población de mediciones complementan la
descripción gráfica. Estas mediciones se llaman parámetros cuando
se asocian con la población y se denominan estadísticas cuando se
calculan a partir de mediciones muestrales.
3/61
Medidas de tendencia central
4/61
Media aritmética
Promedio aritmético, media o promedio
Definición
Es el valor “alrededor del cual” la variable tiende preferencialmente
a agruparse; implica que los elementos del colectivo o de la muestra
presentaron para la variable, valores que están alrededor del
promedio.
Fórmula de cálculo para datos originales

Dado un conjunto de datos numéricos x1 , x2 , ..., xn
n
∑︀
xi
x1 + x2 + ... + xn i=1
M(x) = x̄ = =
n n
5/61
Media aritmética
Promedio aritmético, media o promedio
Fórmula de cálculo para datos discretos agrupados
Para datos discretos agrupados, se denomina xj a los valores distintos de la variable
y fj a sus frecuencias relativas respectivas, el cálculo de la media se efectúa con:
k
∑︁
M(x) = x̄ = xj fj
j=1
Fórmula de cálculo para datos agrupados en clases

Suponiendo que todos los datos de cada clase son idénticos a la marca de clase, mj
y con fj como la frecuencia relativa de la clase j, la fórmula se reduce a:
k
∑︁
M(x) = x̄ = mj fj
j=1
6/61
Media aritmética
Propiedades
1. −∞ ≤ M(x) ≤ ∞
2. M(x − x̄) = 0
3. M(x − x̄)2 = mn
(︃ = k)︃
4. M(k)
m m
xj = M(xj )
∑︀ ∑︀
5. M
j=1 j=1
6. M(xk) = M(x)k
7. M(kx) = kM(x)
(︃1 k2 x))︃= k1 k2 M(x)
8. M(k
m m
xj = M(xj ) si las variables son independientes
∏︀ ∏︀
9. M
j=1 j=1
10. Sea x sobre un conjunto particionado en m subconjuntos y sean: nj y Mj (x) la parte de
datos y la media aritmética de la variable en cada parte de la partición, entonces:
m
∑︁ nj
MT (x) = Mj (x)
j=i
n
7/61
Media aritmética
Las fórmulas de la media aritmética poblacional y muestral son
iguales, difiriendo exclusivamente de sobre qué conjunto se mide.
Media poblacional
N
1 ∑︁
μ= xi
N i=1
Media muestral
n
1 ∑︁
x̄ = xi
n i=1
8/61
Media aritmética
La media como punto de equilibrio
Como ejemplo la media de 3, 8 y 4 es 5. De esta manera:
n
∑︁ 3
∑︁
M(x − x̄) = (xi − x̄) = (xi − 5) = (3 − 5) + (8 − 5) + (4 − 5) = 0
i=1 i=1
Imagine una regla con los números 1, 2, 3, ..., 9 uniformemente espaciados. Suponga
que se colocarán tres barras del mismo peso sobre la regla en los números 3, 4 y 8 y
que el punto de equilibrio se colocara en 5, la media de los tres números. Descubrirá
que la regla se equilibra perfectamente. Las desviaciones debajo de la media (-3)
son iguales a las desviaciones por encima de la media (+3). El esquema es:
9/61
Media aritmética
Características
• Se trata de un valor dentro del recorrido de la variable mas no

necesariamente hace parte de uno de sus valores
• Ser una medida de tendencia central (en el sentido de centro de
equilibrio) de base matemática, susceptible por tanto de
tratamiento algebraico.
• Tener un sentido claro como valor de tendencia del
agrupamiento de los datos.
• Requerir, para su calculo, de todos los valores de la variable.
• Verse afectada por valores extremos o “raros”, lo cual puede
distorsionar el concepto de regularidad o tendencia.
10/61
Otras medidas de centro
Media geométrica
Es la raíz n-ésima del producto de todos los números, es recomendada para datos
de progresión geométrica, para promediar razones, interés compuesto y números
índices. ⎯
⎸ n
⎸∏︁ p
G(x) = ⎷n
xi = n x1 · x2 · · · xn
i=1
Media armónica
Es el recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores
y es recomendada para promediar velocidades.
n n
H(x) = =
∑︀n 1 1 1
i=1
+ ···+
xi x1 xn
11/61
Mediana
Datos originales
La mediana m de un conjunto de n mediciones es el valor de x que cae en la
posición media cuando las mediciones son ordenadas de menor a mayor.
Definición
Sean x(1) , x(2) , ..., x(n) una muestra acomodada en orden creciente de magnitud;
esto es, x(1) denota la observación más pequeña, x(2) es la segunda observación más
pequeña, y así sucesivamente hasta x(n) que denota la observación más grande.
Entonces, la mediana x̃ se define como la parte media o la ([n + 1] / 2)-ésima
observación si n es impar, o el promedio entre las dos observaciones intermedias [la
(n/ 2)-ésima y la ([n/ 2] + 1)-ésima] si n es par.
⎧
⎪
⎪ x([n+1] / 2) si n es impar
⎨
x̃ =
x + x([n/ 2]+1)
⎩ (n/ 2)
⎪
si n es par
⎪
2 12/61
Mediana
Datos agrupados discretos y continuos agrupados en intervalos
Mediana para datos agrupados discretos

Para datos agrupados discretos se toma como mediana el valor xm tal que
f(x < xm ) < 0, 5 pero f(x ≤ xm ) ≥ 0, 5. Es decir, si ordenamos los valores
de la variable antes de xm tenemos menos del 50% de los datos, pero al
incluir xm tenemos al menos el 50%.
Mediana para datos continuos agrupados en intervalos

Para datos continuos agrupados en intervalos se toma como mediana el
centro del "intervalo central" (xa , xb ) que verifica:
f(x ≤ xa ) < 0.5
f(x ≤ xb ) > 0.5

13/61
Moda
Definición
Definición
La moda es la categoría que se presenta con más frecuencia o el
valor de x que se presenta con más frecuencia. Cuando las
mediciones en una variable continua se han agrupado como
histograma de frecuencia o de frecuencia relativa, la clase con el pico
más alto o frecuencia se llama clase modal, y el punto medio de esa
clase se toma como la moda. Si la moda se repite dos veces se habla
de que los datos son bimodales y si se repite más veces son
multimodales.
14/61
Sobre el uso de medidas de tendencia central
Conviene calcular las medidas de tendencia central sobre datos

homogéneos, ya que comparar los valores de poblaciones
heterogéneas puede ser muy engañoso.
En consecuencia, es siempre recomendable calcular la media y la
mediana: ambas medidas diferirán mucho cuando la distribución sea
muy asimétrica, lo que sugiere heterogeneidad en los datos.
15/61
Medidas de dispersión
16/61
Varianza
Motivación
La tendencia generalizada de los datos se ha representado por el

promedio. Vale la pena observar la diferencia que hay entre los datos
(representados) con su media (representante), para tener alguna
idea de que tan buena es tal representación. Si en suma tales
diferencias son pequeñas, se deberá a buena representación o sea
que los datos realmente tienen alguna tendencia. En caso contrario,
esto último deberá descartarse.
17/61
Varianza
Suponga que usted es el encargado de compras de una empresa grande y
que con regularidad envía órdenes de compra a dos proveedores. Después
de algunos meses de operación, se percata de que el número promedio de
días que ambos proveedores requieren para surtir una orden es 10 días.
Aunque en ambos casos este número promedio de días es igual, ¿muestran
los dos proveedores el mismo grado de confiabilidad en términos de
tiempos para surtir los productos? Observe la dispersión, o variabilidad, de
estos tiempos en ambos histogramas. ¿Qué proveedor preferiría usted?
18/61
Varianza
Definición
Definición
Se define el promedio de la suma de los cuadrados de las diferencias entre los datos
y su media.
Varianza para datos originales

n n
1 ∑︁ 1 ∑︁
V(x) = (xi − x̄)2 = xi2 − x̄2
n i=1 n i=1
19/61
Varianza
Definición
Fórmula de cálculo para datos discretos agrupados
Para datos discretos agrupados, se denomina xj a los valores distintos de la variable
y fj a sus frecuencias relativas respectivas, el cálculo de la media se efectúa con:
k
1 ∑︁
V(x) = (xj − x̄)2 nj
n j=1
Fórmula de cálculo para datos agrupados en clases

Suponiendo que todos los datos de cada clase son idénticos a la marca de clase, mj
y con fj como la frecuencia relativa de la clase j, la fórmula se reduce a:
k
1 ∑︁
V(x) = (mj − x̄)2 nj
n j=1
20/61
Varianza
Propiedades
1. V(x) ≥ 0
2. V(k) = 0
(︃ )︃
m m
xj = V(xj ) si las variables son independientes.
∑︀ ∑︀
3. V
j=1 j=1
4. V(x ± k) = V(x)
5. V(kx) = k2 V(x)
6. V(k1 ± k2 x) = k2 V(x)
7. Sea x sobre un conjunto particionado en m subconjuntos y sean: nj , Mj (x) y
Vj (x) la parte de datos y la media aritmética y la varianza de la variable en
cada parte de la partición, entonces:
m
∑︁ nj ∑︁ nj
VT (x) = Vj (x) + (Mj (x) − MT (x))2
j=1 n n
21/61
Varianza
Descomposición elemental de la varianza
Al promedio de las varianzas se le denomina INTRAVARIANZA y a la

varianza de las medias INTERVARIANZA o sea que:
Varianza del total = Intravarianza + Intervarianza
Como cada varianza mide la dispersión dentro de cada subgrupo, la

intravarianza es una medida promedio de la variación DENTRO de los
mismos. La media de cada subgrupo, representa su tendencia, por lo
que la intervarianza mide la dispersión entre ellas y por tanto ENTRE
aquellos, de tal manera que la dispersión del total de datos se debe
en parte a la dispersión dentro de los subgrupos y en parte a la
dispersión entre ellos.
22/61
Varianza
Las fórmulas de la varianza poblacional y la varianza de la muestra son ligeramente

diferentes.
Varianza poblacional
n
1 ∑︁
σ2 = (xi − μ)2
N i=1
Varianza muestral
n
1 ∑︁
s2 = (xi − x̄)2
n−1 i=1
23/61
Desviación estándar
Para obviar el problema de interpretación tangible de la varianza, se define una
medida adicional de dispersión, denominada desviación estándar o tipo o típica.
Datos originales
⎯
⎸ n
⎸ ∑︀
⎸ (xi − x̄)2
⎷ i=1
s=
n−1
Datos agrupados discretos

⎯
⎸
⎸ 1 ∑︁ k
s =⎷ (xj − x̄)2 nj
n − 1 j=1
Para datos agrupados en intervalos, la fórmula es idéntica a la anterior sustituyendo

24/61
xj por la marca de clase (centro del intervalo), mj .
Interpretación y usos de la desviación estándar
La desviación estándar normalmente se utiliza como medida para

comparar la dispersión de dos o más conjuntos de observaciones.
Teorema de Chebyshev
En cualquier conjunto de observaciones (muestra o población), la
proporción de valores que se encuentran a k desviaciones
estándares de la media es de por lo menos 1 − 1/ k2 , siendo k
cualquier constante mayor que 1.
25/61
Ejemplo del Teorema de Chebyshev

La media aritmética de la suma quincenal que aportan los
empleados de Dupree Saint al plan de reparto de utilidades de la
compañía es de $51.54 y la desviación estándar, de $7.51. ¿Por lo
menos qué porcentaje de las aportaciones se encuentra en más 3.5
desviaciones estándares y menos 3.5 desviaciones de la media?
Alrededor de 92%, que se determina de la siguiente manera:
1 1 1
1− =1− =1− = 0.92
k2 (3.5)2 12.25
26/61
Interpretación y usos de la desviación estándar
La regla empírica
En cualquier distribución de frecuencias simétrica con forma de campana,
aproximadamente 68% de las observaciones se encontrarán entre más y menos una
desviación estándar de la media; cerca de 95% de las observaciones se encontrarán
entre más y menos dos desviaciones estándares de la media y, de hecho todas
(99.7%), estarán entre más y menos tres desviaciones estándares de la media.
27/61
Ejemplo de regla empírica

Una muestra de tarifas de renta de los departamentos University
Park se asemeja a una distribución simétrica con forma de campana.
La media de la muestra es de $500; la desviación estándar de $20.
De acuerdo con la regla empírica conteste las siguientes preguntas:
1. ¿Entre qué dos cantidades se encuentra aproximadamente 68%
de los gastos mensuales en alimentos?
2. ¿Entre qué dos cantidades se encuentra alrededor de 95% de
los gastos mensuales en alimentos?
3. ¿Entre qué dos cantidades se encuentran casi todos los gastos
mensuales en alimentos?
28/61
Ejemplo de regla empírica
1. Cerca de 68% se encuentra entre $480 y $520, calculado de la

siguiente manera: x̄ ± 1s = 500 ± 1(20).
2. Aproximadamente 95% se encuentra entre $460 y $540,
calculado de la siguiente manera: x̄ ± 2s = 500 ± 2(20).
3. Casi todas (99.7%) se encuentra entre $440 y $560, calculado
de la siguiente manera: x̄ ± 3s = 500 ± 3(20).
29/61
Coeficiente de variación
Es una medida de variabilidad de la relación entre el tamaño de la media y la
variabilidad de la variable. En ingeniería se usa mucho el coeficiente inverso, |x̄|s , y se
conoce como coeficiente señal-ruido.
Definición
Se denomina coeficiente de variación al cociente:
s
CV =
|x̄|
bajo el hecho de que x̄ 6= 0 y |x̄| es el valor absoluto de x̄, luego CV > 0
Interpretación
• Cuando CV < 0.1 se habla de una varianza de los datos "pequeña"

• Si CV > 1.5 hay que investigar posibles fuentes de heterogeneidad en los
datos
30/61
Rango
Una medida sencilla de variabilidad es el rango de la muestra,

definido como la diferencia entre las observaciones más grande y
más pequeña.
r = max(xi ) − min(xi )
• Es claro que entre más grande sea el rango, mayor será la

variabilidad de los datos.
• El rango ignora toda la información que hay en la muestra entre
las observaciones más grande y más pequeña
31/61
Medidas de posición relativa
32/61
Puntos z
Las medidas de posición relativa ayudan a determinar qué tan lejos

de la media se encuentra un determinado valor.
Punto z
Dada una muestra de n observaciones de la variable X, x1 , x2 , ..., xn
con sus respectivas media muestral x̄ y desviación estándar muestral
s. Para cada valor xi existe otro valor llamado punto z.
xi − x̄
zi =
s
donde zi suele denominarse el punto z para xi
33/61
Puntos z
Interpretación
Al punto z también se le suele llamar valor estandarizado y se interpreta
como el número de desviaciones estándar a las que xi se encuentra de la
media x̄.
Ejemplo
• Si z1 = 1.2 ⇒ x1 es 1.2 desviaciones estándar mayor que la media

muestral.
• Si z2 = 0.5 ⇒ x2 es 0.5 o media desviación estándar mayor que la
media muestral.
• Si z3 = −1.5 ⇒ x3 es 1.5 desviaciones estándar menor que la media
muestral.
• Si z4 = 0 ⇒ x4 es la media muestral. 34/61
Cuartiles, deciles y percentiles
Definición
Son medidas de posición relativa que dividen un conjunto de observaciones en
tantas partes iguales como se indique.
Cuartiles
• Q1 es el valor debajo del cual se presenta 25% de las observaciones.
• Q2 es el valor debajo del cual se presenta 50% de las observaciones, es decir,
es la misma mediana.
• Q3 es el valor debajo del cual se presenta 75% de las observaciones.
35/61
Definición
Percentiles El percentil p es un valor de la variable X, es decir cierto xi tal
que por lo menos p% de las observaciones son menores o iguales que este
valor y por lo menos (100 − p)% de las observaciones son mayores o
iguales que este valor.
Ejemplo
Por lo tanto, si su promedio general en la universidad se encuentra en el
octavo decil, usted podría concluir que 80% de los estudiantes tuvieron un
promedio general inferior al suyo y un 20%, un promedio superior.
Un promedio general ubicado en el trigésimo tercer percentil significa que
33% de los estudiantes tienen un promedio general más bajo y 67% un
promedio general más alto
36/61
Proceso de cálculo
1. Ordene los datos de menor a mayor
2. Ubique el valor central (mediana o Q2 ) teniendo en cuenta si el número de
observaciones es par o impar.
3. Dependiendo de la posición requerida (cuartil, decil, quintil, etc.) convierta
ese valor a un percentil.
4. Calcule el percentil con la fórmula
Fórmula
P
Lp = (n + 1)
100
donde Lp es la ubicación de cierto percentil relacionado con P que es el percentil
que busca. n es el tamaño de la muestra. 37/61
Cuartiles, deciles, percentiles
Ejemplo
En seguida aparecen las comisiones que ganó el último mes una
muestra de 15 corredores de bolsa de la oficina de Salomon Smith
Barney’s Okland.
Localice la mediana, el primer y el tercer cuartil de las comisiones

ganadas.
38/61
Cuartiles, deciles, percentiles
Ejemplo con datos pares

Suponga que un conjunto de datos contiene los seis valores:
91, 75, 61, 101, 43, 104
Localice el primer cuartil.
39/61
Rango intercuartil
Definición
El rango intercuartil (IQR) para un conjunto de mediciones es la
diferencia entre los cuartiles superior e inferior; esto es,
IQR = Q3 − Q1
40/61
Medidas de forma
41/61
Medidas de simetría, curtosis y sesgo
Estas medidas informan sobre dos aspectos importantes de la forma

de la distribución: su grado de asimetría y su grado de
homogeneidad. Al ser medidas de forma, no dependen de las
unidades de medida de los datos.
42/61
Simetría
Intuición
43/61
Simetría
Hay cuatro formas de distribuciones:

• Simétrica: media y mediana coinciden y los valores de datos se
dispersan uniformemente en torno a estos valores.
• Sesgada positivamente: existe un solo pico y los valores se
extienden mucho más allá a la derecha del pico que a la
izquierda de éste. Media > Mediana
• Sesgada negativamente: las observaciones se extienden más a
la izquierda, en dirección negativa. Media < Mediana
• Bimodal: Una distribución bimodal tendrá dos o más picos. Con
frecuencia éste es el caso cuando los valores provienen de dos o
más poblaciones
44/61
Simetría
Figure 1: Formas distribucionales
45/61
Simetría
Medidas
Coeficiente de sesgo de Pearson
3(x̄ − Mediana)
sk1 =
s
Propiedades:
1. Si SK1 > 0 ⇒ la distribución tiene sesgo negativo
2. Si SK1 = 0 ⇒ la distribución es simétrica
3. Si SK1 < 0 ⇒ la distribución tiene sesgo positivo
46/61
Simetría
Medidas
Coeficiente de simetría de Fisher
n
(xi − x̄)3
∑︀
i=1
SK2 =
ns3
Si SK2 > 0, la distribución tiene sesgo positivo. Si SK2 = 0, la
distribución es simétrica. Si SK2 < 0, la distribución tiene sesgo
negativo.
47/61
Coeficientes de asimetría
Ejemplos
48/61
Figure 2: Dos distribuciones asimétricas y sus coeficientes de asimetría
Curtosis
La curtosis analiza el grado de concentración que presentan los

valores alrededor de la zona central de una distribución simétrica.
Se definen 3 tipos de distribuciones según su grado de curtosis:
1. Distribución mesocúrtica: presenta un grado de concentración
medio alrededor de los valores centrales de la variable (el
mismo que presenta una distribución normal).
2. Distribución leptocúrtica: presenta un elevado grado de
concentración alrededor de los valores centrales de la variable.
3. Distribución platicúrtica: presenta un reducido grado de
concentración alrededor de los valores centrales de la variable.
49/61
Coeficiente de curtosis
Figure 3: Curtosis de distribuciones simétricas
50/61
Coeficiente de curtosis
Fórmula
n
(xi − x̄)4
∑︀
i=1
Kr = −3
ns4
Kr > 0 (distribución leptocúrtica).
Kr = 0 (distribución mesocúrtica).
Kr < 0 (distribución platicúrtica).
51/61
Esquema para la sección 2
1. Medidas descriptivas de centro, localización, dispersión y forma

1.1 Medidas de tendencia central
1.2 Medidas de dispersión
1.3 Medidas de posición relativa
1.4 Medidas de forma
2. Datos atípicos
2.1 Resumen de cinco números
2.2 Diagrama de cajas
52/61
Datos atípicos
Definición
Son observaciones que contienen errores de medida o de transcripción o
que son heterogéneas con el resto porque se han obtenido en
circunstancias distintas.
Características:
1. Aparecen entre un 1 y un 3% de observaciones atípicas en la muestra.
Sin embargo, sin un cuidado especial, la proporción de datos atípicos
puede llegar al 5% y ser incluso mayor.
2. Se identifican fácilmente con un histograma o diagrama de barras de
los datos, porque aparecerán separados del resto de la distribución
3. Considerar sospechosas aquellas observaciones alejadas de la media
más de tres desviaciones estándar
4. Valores de x tales que x < Q1 − 1.5(Q3 − Q1 ) o x > Q3 + 1.5(Q3 − Q1 ) 53/61
Resumen de cinco números
En el resumen de cinco números se usan los cinco números

siguientes para resumir los datos.
1. El valor menor
2. El primer cuartil (Q1 )
3. La mediana (Q2 )
4. El tercer cuartil (Q3 )
5. El valor mayor
54/61
Diagrama de caja
Definición
Un diagrama de caja es una representación gráfica, basada en
cuartiles, que ayuda a presentar un conjunto de datos. Para construir
un diagrama de caja, sólo necesita las cinco estadísticas.
55/61
Diagrama de cajas
Propiedades
1. Brinda información sobre la forma general de la curva: simetría,

curtosis (curvas más “afinadas” o más “aplanadas”), el punto de
la mediana, la distribución de las observaciones a ambos lados
de los valores centrales y la presencia de valores atípicos.
2. Amplitud de la caja:
IQR = Q3 − Q1
Indica la dispersión del 50% central de los datos y permite ver

como varían los datos con respecto a la mediana
56/61
Diagrama de cajas
Propiedades
3. Brinda información respecto a la forma de acuerdo a la forma

de la caja y lo largo de la distribución de los bigotes.
57/61
Diagrama de cajas
Propiedades
4. Compara muestras o poblaciones
58/61
Diagrama de caja
Construcción
1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer

cuartiles.
2. En el punto donde se localiza la mediana se traza una línea vertical en
la caja.
3. Usando el rango intercuartílico, IQR = Q3 − Q1 , se localizan los límites.
Los datos que quedan fuera de estos límites se consideran
observaciones atípicas.
4. A las líneas punteadas se les llama bigotes. Los bigotes van desde los
extremos de la caja hasta los valores menor y mayor de los límites
calculados en el paso 3.
5. Por último mediante un asterisco se indica la localización de las
observaciones atípicas. 59/61
Diagrama de caja
Ejemplo
Pizzería Sara Valentina ofrece entregas gratuitas de pizza a 15 metros a la redonda.
Alex, el propietario y padre de Sara Valentina, desea información relacionada con el
tiempo de entrega. ¿Cuánto tiempo tarda una entrega regularmente? ¿En qué
margen de tiempo deben completarse la mayoría de las entregas? En el caso de una
muestra de 20 entregas, Alex recopiló la siguiente información:
• Valor mínimo = 13 minutos
• Q1 = 15 minutos
• Mediana = 18 minutos
• Q3 = 22 minutos
• Valor máximo = 30 minutos
Elabore un diagrama de caja de los tiempos de entrega. ¿Qué conclusiones deduce
sobre los tiempos de entrega?
60/61
Diagrama de caja
Ejemplo
Figure 4: Diagrama de caja para los tiempos de entrega de Pizzería Sara Valentina
El diagrama de caja muestra que el valor medio de las entregas, 50%, consume
entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el
rango intercuartil. Este rango, que es la distancia entre el primer y el tercer cuartiles,
muestra la propagación o dispersión de la mayoría de las entregas.
61/61

PEF Cap02 (2.2 2.3) PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PEF Cap02 (2.2 2.3) PDF

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadística Fundamental

Resumen y descripción de datos de una variable

1. Medidas descriptivas de centro, localización, dispersión y forma

Las gráﬁcas pueden ayudar a describir la forma básica de una

Fórmula de cálculo para datos originales

Fórmula de cálculo para datos agrupados en clases

• Se trata de un valor dentro del recorrido de la variable mas no

Mediana para datos agrupados discretos

Mediana para datos continuos agrupados en intervalos

f(x ≤ xa ) < 0.5

f(x ≤ xb ) > 0.5

Conviene calcular las medidas de tendencia central sobre datos

La tendencia generalizada de los datos se ha representado por el

Varianza para datos originales

Fórmula de cálculo para datos agrupados en clases

Al promedio de las varianzas se le denomina INTRAVARIANZA y a la

Varianza del total = Intravarianza + Intervarianza

Como cada varianza mide la dispersión dentro de cada subgrupo, la

Las fórmulas de la varianza poblacional y la varianza de la muestra son ligeramente

Datos agrupados discretos

Para datos agrupados en intervalos, la fórmula es idéntica a la anterior sustituyendo

La desviación estándar normalmente se utiliza como medida para

Ejemplo del Teorema de Chebyshev

Alrededor de 92%, que se determina de la siguiente manera:

Ejemplo de regla empírica

Ejemplo de regla empírica

1. Cerca de 68% se encuentra entre $480 y $520, calculado de la

bajo el hecho de que x̄ 6= 0 y |x̄| es el valor absoluto de x̄, luego CV > 0

• Cuando CV < 0.1 se habla de una varianza de los datos "pequeña"

Una medida sencilla de variabilidad es el rango de la muestra,

• Es claro que entre más grande sea el rango, mayor será la

Las medidas de posición relativa ayudan a determinar qué tan lejos

• Si z1 = 1.2 ⇒ x1 es 1.2 desviaciones estándar mayor que la media

Localice la mediana, el primer y el tercer cuartil de las comisiones

Ejemplo con datos pares

91, 75, 61, 101, 43, 104

Localice el primer cuartil.

Estas medidas informan sobre dos aspectos importantes de la forma

Hay cuatro formas de distribuciones:

Figure 1: Formas distribucionales

Coeﬁciente de sesgo de Pearson

Coeﬁciente de simetría de Fisher

La curtosis analiza el grado de concentración que presentan los

Figure 3: Curtosis de distribuciones simétricas

1. Medidas descriptivas de centro, localización, dispersión y forma

En el resumen de cinco números se usan los cinco números

1. Brinda información sobre la forma general de la curva: simetría,

Indica la dispersión del 50% central de los datos y permite ver

3. Brinda información respecto a la forma de acuerdo a la forma

4. Compara muestras o poblaciones

1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer

También podría gustarte