Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes de Estadística Descriptiva Ic
Apuntes de Estadística Descriptiva Ic
Observación:
El valor del Parámetro es único, en cambio, el del Estimador es variable porque
depende de la muestra seleccionada.
Inferencia Estadística:
Consiste en describir y/ó obtener conclusiones acerca de la población a partir de la
información proporcionada por una muestra aleatoria.
POBLACIÓN
Parámetro
Inferencia
Estadística
MUESTRA Estimador
Variable: Corresponde al conjunto de todos los valores que podría obtener en una
población. Se denota con letras mayúsculas tales como: X, Y, Z, …
Una Variable Cualitativa, se identifica porque sus valores miden una cualidad.
Una Variable Nominal, se identifica porque no puedo establecer una relación de orden
entre los valores obtenidos.
Ejemplos:
a.) La variable cualitativa “color de ojos” con las posibles modalidades (castaño, azul,
etc..) es una variable cualitativa nominal.
b.) La variable cualitativa “partidos políticos” con las posibles modalidades
(conservador, liberal, independiente y socialista) es una variable cualitativa
nominal.
Una Variable Ordinal, se identifica porque puedo establecer una relación de orden entre
los valores obtenidos.
Ejemplos:
a.) La variable cualitativa “clase social” con las posibles modalidades (bajo, medio,
alto), es una variable cualitativa ordinal.
b.) La variable cualitativa “estudio” con las posibles modalidades (básica, media,
superior) es una variable cualitativa ordinal.
Una Variable Discreta, se identifica porque podemos enumerar todos sus resultados
posibles, ó porque sus valores pertenecen a los números Naturales ó a los números
Enteros.
Ejemplos:
a.) Número de monedas que una persona lleva en su bolsillo.
b.) Número de admisiones en un hospital durante un día determinado.
c.) Número de accidentes automovilísticos que se producen dentro de los límites de
una ciudad durante un mes.
Ejemplos:
a.) Estatura de los estudiantes de la Universidad de Talca.
b.) Nivel de colesterol de ciertos pacientes del Hospital de Talca.
Nominal
Cualitativa
Ordinal
Variable
Discreta
Cuantitativa
Continua
Los datos recopilados deben ser resumidos en una distribución de frecuencias, y para
ello, se pueden representar mediante una Tabla de Distribución de Frecuencias ó
mediante un Gráfico.
Este tipo de tablas es útil para resumir la información recopilada de una variable y
mostrar su respectiva distribución, para posteriormente analizar la información
resumida. El formato de la tabla es el siguiente:
Título de la tabla.
Nombre de la variable Tipo de frecuencia
: :
: :
: :
Categorías observadas Frecuencias observadas
: :
: :
: :
El título de la tabla debe responder al menos a las siguientes preguntas: QUÉ variable
se está resumiendo, CUÁNDO se recopiló la información y DÓNDE se obtuvo los
datos. En el caso de que el título de la tabla resulte ser muy extenso, parte del título
se puede enviar a un pie de página.
Algunas notaciones y definiciones:
N: Tamaño de la población.
∑ ni = N
i=1
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.
∑ fi = 1 (100%)
i=1
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.
Frecuencia Acumulada (Ni): Para este tipo de frecuencias, se requiere que la variable
estudiada sea del tipo Ordinal, Discreta ó Continua. Representa la cantidad de veces
que se observa una determinada categoría de la variable observada y el de una
categoría de orden inferior, donde:
𝑁1 = 𝑛1 𝑦 𝑁𝑘 = 𝑁
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.
Frecuencia Acumulada Relativa (Fi): Para este tipo de frecuencias, se requiere que la
variable estudiada sea del tipo Ordinal, Discreta ó Continua. Representa el porcentaje
de veces que se observa una determinada categoría de la variable observada y el de
una categoría de orden inferior, es decir:
Ni
Fi = ∗ 100%
N
donde:
𝐹1 = 𝑓1 𝑦 𝐹𝑘 = 1 (100%)
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.
Ejemplo:
En un conjunto de 20 pequeñas empresas, se observa el número de trabajadores por
empresa. Con estos datos, determinar la distribución (tabla de frecuencia) de las
empresas según el número de trabajadores.
Aquí los tres elementos básicos serán:
Población: 20 empresas (N=20).
Variable: X=Número de trabajadores por empresa.
Datos: Xi (i = 1, 2, 3, … , 20).
Lo que significa que habrán 20 datos cuyos valores son:
X1=6; X2=5; X3=4; X4=4; X5=3; X6=3; X7=4; X8=4; X9=5; X10=5;
X11=4; X12=5; X13=6; X14=2; X15=4; X16=3; X17=4; X18=6; X19=5; X20=3.
Para la construcción de la Tabla de Frecuencia, tal como se indicó anteriormente,
primero se clasifican o determinan los distintos valores de Xi y luego se tabulan.
i) La Clasificación: en este caso se identifican los distintos valores que tiene
Xi, primero se ubican el mayor y menor valor de Xi como son Xmínimo=2 y
Xmáximo=6, o sea, los valores de la variable van de 2 a 6 que al final da la serie:
2, 3, 4, 5, 6 empleados; la variable original Xi tiene cinco valores distintos.
ii) La Tabulación: consiste en determinar cuántas empresas hay en cada una de
las cinco categorías, es decir, cuántas veces se repite cada valor de la variable
Xi. El número de veces que se repite cada Xi se llamará Frecuencia Absoluta,
que se denota por ni.
La construcción de una tabla de frecuencia, en ninguno de los casos, supone pérdida
de información, al final la suma de las repeticiones o frecuencias debe ser igual al
número total de observaciones o datos originales.
¿Cómo agrupar los datos en una tabla de frecuencia para una variable Continua?
En este ejemplo:
Población: Choferes de la locomoción colectiva de Talca.
Variable: X = ingreso mensual (miles de pesos).
Datos: Xi = ingreso mensual del i-ésimo chofer.
Cantidad de observaciones: N = 60 choferes.
En este caso es fácil advertir algunos datos:
X1 = 440,5; X10 = 393,6; X29 = 591,3; X44 = 471,0; X60 = 382,2.
Li - Ls
[320 – 370)
[370 – 420)
[420 – 470)
[470 – 520)
[520 – 570)
[570 – 620)
[620 – 670]
II). La Tabulación, definidos los intervalos de clase o categorías, se distribuyen los
choferes según el sueldo en cada uno de los intervalos, es decir, contabilizar
(tabulación) cuántos elementos o choferes se encuentran comprendidos en cada
intervalo. Tabulando los 60 valores se puede construir el siguiente cuadro:
Li - Ls Valores de la variable Número de casos (ni)
(ingreso de cada chofer). Número de choferes.
[320 – 370) 321,5 335,2 340,7 364,8 4
[370 – 420) 376,3 380,2 382,5 382,2 8
393,6 400,9 407,1 409,8
[420 – 470) 424,3 428,7 430,2 432,1 440,5 440,9 12
450,5 450,3 453,2 460,3 462,7 466,7
[470 – 520) 470,0 470,3 471,0 480,7 492,5 500,8 11
500,2 501,3 507,4 512,4 518,6
[520 – 570) 526,3 528,9 530,1 537,2 550,7 558,4 10
560,4 560,0 560,3 565,3
[570 – 620) 570,2 574,4 580,1 587,2 591,3 9
600,0 607,2 613,3 618,2
[620 – 670] 634,8 645,7 625,5 6
650,1 667,9 660,5
K=7 N = 60
GRÁFICO DE BARRAS.
Este tipo de gráfico, sirve para representar una distribución de frecuencias para una
variable cualitativa ó para una variable cuantitativa discreta. Su construcción consiste
en dibujar dos ejes, donde en el eje horizontal queda representado por el nombre de la
variable y sus respectivas categorías observadas; en cambio, en el eje vertical, queda
representado por el tipo de frecuencia (frecuencia absoluta ó frecuencia absoluta
relativa). Para cada categoría observada, se levantan barras paralelas y separadas,
cuya altura depende de la frecuencia observada. Además, al igual que en la tabla de
distribución de frecuencias, debe ser acompañado por su respectivo título.
Ejemplo:
Número de
empresas
Cantidad de
2 3 4 5 6
trabajadores
HISTOGRAMA.
Este tipo de gráficos sirve para representar una distribución de frecuencias de una
variable cuantitativa continua, y su construcción es similar al gráfico de barras, salvo
que acá las barras deben quedar unidas.
Ejemplo:
Número de
choferes
12
Sueldo
320 370 420 470 520 570 620 670
(miles de $)
MEDIDAS DE TENDENCIA CENTRAL.
MODA:
MEDIANA:
Para esta medida, se requiere que los datos sean ordenados según su magnitud. Esta
medida divide al grupo de datos en dos partes iguales dejando bajo esta medida el
50% de los datos y sobre esta medida el 50% restante de los datos.
Si se tiene una cantidad impar de datos, la Mediana corresponde a un único término
central, en cambio, si se tiene una cantidad par de datos, la Mediana corresponde a los
dos términos centrales (salvo que los dos términos sean iguales), es decir:
X N+1 si N es impar
( )
2
Mediana(X) = {
X N y X N si N es par
( ) ( +1)
2 2
X N+1 si N es impar
( )
2
Mediana(X) = {X N + X N
( ) ( +1)
2 2
si N es par
2
Observación:
Si los datos se extraen desde una muestra, se conoce como promedio muestral (𝑥̅ ), y
se define como la suma de los valores observados en la muestra dividido por el
tamaño de la muestra, es decir:
n
Xi
𝑥̅ = ∑
n
i=1
Ejemplo:
Considere las edades de 20 sujetos:
45 41 51 46 47 42 43 50 39 32
41 44 47 49 45 42 41 40 45 37
Moda: 41 y 45.
Interpretación:
Lo más frecuente es que un sujeto tenga 41 ó 45 años de edad.
Mediana:
Sugerencia:
Se recomienda ordenar los datos según su magnitud:
32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)
Se tienen 20 datos, es decir, una cantidad par de datos, luego la mediana es la media
de los dos términos centrales:
X(10) + X(11) 43 + 44
Mediana (X) = = = 43,5
2 2
Interpretación:
El 50% de los sujetos tiene 43,5 años ó menos, y el 50% restante de los sujetos tiene
43,5 años ó más.
Media Aritmética:
32 + 37 + 39 + ⋯ + 51 867
μ= = = 43,35
20 20
Interpretación:
En término medio, cada sujeto tiene 43,35 años de edad.
En este ejemplo, si suponemos que los datos provienen de una muestra aleatoria de
tamaño 20, debemos determinar el promedio muestral x̅:
32 + 37 + 39 + ⋯ + 51 867
𝑥̅ = = = 43,35
20 20
RELACIÓN ENTRE LAS MEDIDAS DE TENDENCIA CENTRAL.
Cuando la curva de frecuencias está inclinada ó alargada hacia la derecha (figura 1), se
llama asimetría a la derecha ó positiva, y si está alargada ó inclinada hacia el lado
izquierdo (figura 2), se denomina asimetría a la izquierda ó negativa.
Observaciones:
La Moda no se usa a menudo como medida de tendencia central para datos
cuantitativos. Sin embargo la Moda es LA medida de tendencia central que puede ser
calculada en datos cualitativos.
Si la distribución es sesgada, vamos a querer usar una medida que sea más
resistente para mostrar el centro. La medida de tendencia central que es más
resistente a los valores extremos es la mediana.
La media aritmética es sensible a las observaciones extremas, por tanto, si la
distribución es simétrica, la medida de tendencia central más representativa es la
media aritmética.
Las medidas de tendencia central sólo nos proporcionan una cantidad limitada de
información. Para describir en forma más completa es necesario también contar con
una información acerca de la dispersión ó variabilidad de los datos con respecto a
alguna medida de tendencia central.
Dos distribuciones pueden tener igual media aritmética y ser muy distintas entre sí:
=24 26
Ejemplo:
Considere las edades de 20 sujetos:
45 41 51 46 47 42 43 50 39 32
41 44 47 49 45 42 41 40 45 37
Sugerencia:
Se recomienda ordenar los datos según su magnitud:
32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)
RANGO (R):
Definición:
Se define como la distancia entre el máximo y el mínimo valor observado, es decir:
Rango = Xmáximo – Xmínimo.
Xmínimo Xmáximo
Rango
En el ejemplo:
Rango = 51 – 32 = 19.
Interpretación:
La diferencia de edad entre el mayor y el menor de los sujetos es de 19 años.
CUARTILES:
Definición:
Son tres y dividen al conjunto de datos en cuatro partes iguales, siendo los siguientes:
Primer Cuartil = Q1 = Significa que el 25% de los valores observados son menores ó
iguales a este cuartil, y el 75% restante de los valores observados son mayores ó
iguales a este cuartil.
Segundo Cuartil = Q2 = Significa que el 50% de los valores observados son menores
ó iguales a este cuartil, y el 50% restante de los valores observados son mayores ó
iguales a este cuartil. El Segundo Cuartil = Mediana.
Tercer Cuartil = Q3 = Significa que el 75% de los valores observados son menores ó
iguales a este cuartil, y el 25% restante de los valores observados son mayores ó
iguales a este cuartil.
Q1 Q2 Q3
En el ejemplo:
X(10) + X(11) 43 + 44
Q2 = Mediana = = = 43,5
2 2
Interpretación:
El 50% de los sujetos tiene 43,5 años ó menos, y el 50% restante de los sujetos tiene
43,5 años ó más.
X(5) + X(6) 41 + 41
Q1 = Primer Cuartil = = = 41
2 2
Interpretación:
El 25% de los sujetos tiene 41 años ó menos, y el 75% restante de los sujetos tiene
41 años ó más.
X(15) + X(16) 46 + 47
Q3 = Tercer Cuartil = = = 46,5
2 2
Interpretación:
El 75% de los sujetos tiene 46,5 años ó menos, y el 25% restante de los sujetos tiene
46,5 años ó más.
RANGO ENTRE CUARTILES (RQ):
Definición:
Se define como la distancia entre el primer cuartil y el tercer cuartil de una
distribución, es decir, mide la variabilidad de sólo el 50% central de los datos no
considerando el 25% de los datos de cada extremo de la distribución:
RQ = Q3 – Q1.
Q1 Q2 Q3
RQ
En el ejemplo:
RQ = 46,5 – 41 = 5,5.
Interpretación:
La dispersión del 50% central de las edades de los sujetos es de 5,5 años.
VARIANZA (σ2):
Definición:
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media dividida por el tamaño de la población:
N
x
2
i
2 i 1
Las unidades en que está medida la Varianza aparecen al cuadrado, por este motivo se
utiliza poco y es preferible trabajar con otra medida muy relacionada que es la
Desviación Estándar.
En el ejemplo:
En primer lugar, debemos determinar la media aritmética :
32 + 37 + 39 + ⋯ + 51 867
μ= = = 43,35
20 20
Ahora calculamos la varianza σ2:
1
σ2 = [(32 − 43,35)2 + (37 − 43,35)2 + (39 − 43,35)2 + ⋯ + (51 − 43,35)2 ]
20
= 19,8275 𝑎ñ𝑜𝑠 2
DESVIACIÓN ESTÁNDAR (σ):
Definición:
Es la raíz cuadrada positiva de la Varianza, por lo tanto, es decir:
N
x
2
i
i 1
En el ejemplo:
σ = +√19,8275 = 4,4528
Interpretación:
La dispersión de las edades de los sujetos es de 4,4528 años.
Observación:
Si los datos provienen de una muestra aleatoria de tamaño n, se tiene que:
Definición:
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto al promedio muestral dividida por el tamaño de la muestra menos uno:
x
n 2
i x
S2 i 1
n 1
Las unidades en que está medida la Varianza aparecen al cuadrado, por este motivo se
utiliza poco y es preferible trabajar con otra medida muy relacionada que es la
Desviación Estándar Muestral.
En el ejemplo:
En el ejemplo anterior, si suponemos que los datos provienen de una muestra aleatoria
de tamaño 20, debemos determinar el promedio muestral x ̅:
32 + 37 + 39 + ⋯ + 51 867
𝑥̅ = = = 43,35
20 20
Ahora calculamos la varianza S2:
1
S2 = [(32 − 43,35)2 + (37 − 43,35)2 + (39 − 43,35)2 + ⋯ + (51 − 43,35)2 ]
19
= 20,8711 𝑎ñ𝑜𝑠 2
Definición:
Es la raíz cuadrada positiva de la Varianza, por lo tanto, es decir:
x
n 2
i x
S i 1
n 1
En el ejemplo:
S = +√20,8711 = 4,5685
Interpretación:
La dispersión de las edades de los sujetos es de 4,5685 años.
Ejemplo:
Si la distribución del tiempo original empleado en resolver una prueba de Estadística se
obtuvo una media de 58,39 minutos y una varianza de 356,72 (minutos)2.
Sea Xi = tiempo original que emplea el alumno i-ésimo en resolver la prueba de
Estadística.
Sea Zi = nuevo tiempo que emplea el alumno i-ésimo en resolver la prueba de
Estadística.
Suponga las siguientes situaciones:
Ejemplo:
Se tienen las siguientes distribuciones A y B:
A B
10 11
9 6
7 5
9 9
4 12
12 8
6
¿Cuál de ellas tienen una menor variabilidad?
Solución:
A = 8,5 B = 8,1429
σA = 2,5 σB = 2,4744.
CV(A) = 0,2941 CV(B) = 0,3039.
Luego, la distribución A tiene una menor variabilidad porque tiene el menor coeficiente
de variación.
En resumen, para determinar medidas representativas de una cierta base de datos,
debemos considerar el siguiente cuadro resumen:
Cuando queremos describir una variable, usamos alguna medida de posición central y
una medida de dispersión. El par de medidas más comúnmente usado, es la media
aritmética y la desviación estándar. Pero vimos que cuando la distribución de las
observaciones es sesgada, la media aritmética no es una buena medida de posición
central y preferimos la mediana. La mediana en general va acompañada del rango
como medida de dispersión. Pero cuando observamos valores extraños (extremos) el
rango se ve muy afectado, por lo que preferimos usar el rango entre cuartiles.
Definición
Valores extremos (outliers): son valores que se alejan del conjunto de datos.
donde xi∗ serán las primeras y últimas observaciones en la serie ordenada de los datos.
En el ejemplo de la edad de los 20 sujetos:
32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)
Q1 = 41 Q2 = 43,5 Q3 = 46,5
Análisis de valores extremos:
xi∗ < Q1 – 1,5 * (Q3-Q1) = 41 – 1,5*(46,5 – 41) = 32,75
ó xi∗ > Q3 + 1,5 * (Q3-Q1) =46,5 + 1,5*(46,5 – 41) = 54,75
32 es un valor extremo, puesto que 32<32,75.
Luego, existe un único valor extremo que es 32.
3. Por último se extienden las líneas, llamadas bigotes, saliendo de la caja hasta el
mínimo y el máximo valor observado (salvo en la presencia de valores extremos).
Si existen valores extremos, estos deben quedar representado por algún símbolo
tal como: ■, ▲,◆,●, etc… En la presencia de valores extremos, los "bigotes" se
extienden hasta el valor observado anterior al valor extremo.
Q1 = 41 Q2 = 43,5 Q3 = 46,5
Solución: