Está en la página 1de 21

ESTADÍSTICA DESCRIPTIVA.

Algunos conceptos importantes:

Universo: Corresponde al conjunto de elementos ó sujetos motivo de nuestro estudio.

Población: Corresponde al conjunto de respuestas proporcionadas por los elementos ó


sujetos pertenecientes al Universo.

Parámetro: Es la medida que caracteriza a una población.

Muestra: Corresponde a un subconjunto de valores que pertenecen a la Población.

Estimador: Es la medida que caracteriza a una población a partir de la información


proporcionada por una muestra.

Observación:
El valor del Parámetro es único, en cambio, el del Estimador es variable porque
depende de la muestra seleccionada.

Inferencia Estadística:
Consiste en describir y/ó obtener conclusiones acerca de la población a partir de la
información proporcionada por una muestra aleatoria.

POBLACIÓN
Parámetro

Inferencia
Estadística

MUESTRA Estimador
Variable: Corresponde al conjunto de todos los valores que podría obtener en una
población. Se denota con letras mayúsculas tales como: X, Y, Z, …

Una variable se puede clasificar en Cualitativa ó en Cuantitativa.

Una Variable Cualitativa, se identifica porque sus valores miden una cualidad.

Según su nivel de medición, una variable cualitativa se puede clasificar en Nominal ó


en Ordinal.

Una Variable Nominal, se identifica porque no puedo establecer una relación de orden
entre los valores obtenidos.

Ejemplos:
a.) La variable cualitativa “color de ojos” con las posibles modalidades (castaño, azul,
etc..) es una variable cualitativa nominal.
b.) La variable cualitativa “partidos políticos” con las posibles modalidades
(conservador, liberal, independiente y socialista) es una variable cualitativa
nominal.

Una Variable Ordinal, se identifica porque puedo establecer una relación de orden entre
los valores obtenidos.

Ejemplos:
a.) La variable cualitativa “clase social” con las posibles modalidades (bajo, medio,
alto), es una variable cualitativa ordinal.
b.) La variable cualitativa “estudio” con las posibles modalidades (básica, media,
superior) es una variable cualitativa ordinal.

Una Variable Cuantitativa, se identifica porque sus valores corresponden a números.

Según su nivel de medición, una variable cuantitativa se puede clasificar en Discreta ó


en Continua.

Una Variable Discreta, se identifica porque podemos enumerar todos sus resultados
posibles, ó porque sus valores pertenecen a los números Naturales ó a los números
Enteros.

Ejemplos:
a.) Número de monedas que una persona lleva en su bolsillo.
b.) Número de admisiones en un hospital durante un día determinado.
c.) Número de accidentes automovilísticos que se producen dentro de los límites de
una ciudad durante un mes.

Una Variable Continua, se identifica porque no podemos enumerar todos sus


resultados posibles, ó porque sus valores pertenecen a un intervalo en los números
Reales.

Ejemplos:
a.) Estatura de los estudiantes de la Universidad de Talca.
b.) Nivel de colesterol de ciertos pacientes del Hospital de Talca.
Nominal

Cualitativa
Ordinal

Variable

Discreta

Cuantitativa

Continua

Los datos recopilados deben ser resumidos en una distribución de frecuencias, y para
ello, se pueden representar mediante una Tabla de Distribución de Frecuencias ó
mediante un Gráfico.

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS.

Este tipo de tablas es útil para resumir la información recopilada de una variable y
mostrar su respectiva distribución, para posteriormente analizar la información
resumida. El formato de la tabla es el siguiente:

Título de la tabla.
Nombre de la variable Tipo de frecuencia
: :
: :
: :
Categorías observadas Frecuencias observadas
: :
: :
: :

El título de la tabla debe responder al menos a las siguientes preguntas: QUÉ variable
se está resumiendo, CUÁNDO se recopiló la información y DÓNDE se obtuvo los
datos. En el caso de que el título de la tabla resulte ser muy extenso, parte del título
se puede enviar a un pie de página.
Algunas notaciones y definiciones:

N: Tamaño de la población.

n: Tamaño de la muestra (n≤N).

Frecuencia Absoluta (ni): Representa la cantidad de veces que se observa una


determinada categoría de la variable observada, donde:
k

∑ ni = N
i=1
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.

Frecuencia Absoluta Relativa (fi): Representa el porcentaje de veces que se observa


una determinada categoría de la variable observada, es decir:
ni
fi = ∗ 100%
N
donde:
k

∑ fi = 1 (100%)
i=1
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.

Frecuencia Acumulada (Ni): Para este tipo de frecuencias, se requiere que la variable
estudiada sea del tipo Ordinal, Discreta ó Continua. Representa la cantidad de veces
que se observa una determinada categoría de la variable observada y el de una
categoría de orden inferior, donde:
𝑁1 = 𝑛1 𝑦 𝑁𝑘 = 𝑁
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.

Frecuencia Acumulada Relativa (Fi): Para este tipo de frecuencias, se requiere que la
variable estudiada sea del tipo Ordinal, Discreta ó Continua. Representa el porcentaje
de veces que se observa una determinada categoría de la variable observada y el de
una categoría de orden inferior, es decir:
Ni
Fi = ∗ 100%
N
donde:
𝐹1 = 𝑓1 𝑦 𝐹𝑘 = 1 (100%)
Siendo k la cantidad de categorías diferentes observadas en la variable analizada.
Ejemplo:
En un conjunto de 20 pequeñas empresas, se observa el número de trabajadores por
empresa. Con estos datos, determinar la distribución (tabla de frecuencia) de las
empresas según el número de trabajadores.
Aquí los tres elementos básicos serán:
Población: 20 empresas (N=20).
Variable: X=Número de trabajadores por empresa.
Datos: Xi (i = 1, 2, 3, … , 20).
Lo que significa que habrán 20 datos cuyos valores son:
X1=6; X2=5; X3=4; X4=4; X5=3; X6=3; X7=4; X8=4; X9=5; X10=5;
X11=4; X12=5; X13=6; X14=2; X15=4; X16=3; X17=4; X18=6; X19=5; X20=3.
Para la construcción de la Tabla de Frecuencia, tal como se indicó anteriormente,
primero se clasifican o determinan los distintos valores de Xi y luego se tabulan.
i) La Clasificación: en este caso se identifican los distintos valores que tiene
Xi, primero se ubican el mayor y menor valor de Xi como son Xmínimo=2 y
Xmáximo=6, o sea, los valores de la variable van de 2 a 6 que al final da la serie:
2, 3, 4, 5, 6 empleados; la variable original Xi tiene cinco valores distintos.
ii) La Tabulación: consiste en determinar cuántas empresas hay en cada una de
las cinco categorías, es decir, cuántas veces se repite cada valor de la variable
Xi. El número de veces que se repite cada Xi se llamará Frecuencia Absoluta,
que se denota por ni.
La construcción de una tabla de frecuencia, en ninguno de los casos, supone pérdida
de información, al final la suma de las repeticiones o frecuencias debe ser igual al
número total de observaciones o datos originales.

Distribución del número de personas que trabajan en 20 pequeñas empresas.


(Xi) (ni) (fi) (Ni) (Fi)
Número de Número de Porcentaje de Número Porcentaje
trabajadores empresas empresas acumulado de acumulado de
empresas empresas
2 1 5% 1 5%
3 4 20 % 5 25 %
4 7 35 % 12 60 %
5 5 25 % 17 85 %
6 3 15 % 20 100 %

Observación: Las expresiones que están entre paréntesis no deben aparecer en la


tabla definitiva a presentar.
Ejemplo:
Los sueldos mensuales (en miles de pesos) de 60 choferes que trabajan en la
locomoción colectiva de la ciudad de Talca, en Agosto del año 2019 son los siguientes:
440,5 560,4 335,2 587,2 613,3 400,9 424,3 466,7 565,3 393,6
453,7 650,1 407,1 376,3 470,0 560,0 321,5 500,8 528,9 526,3
570,2 430,2 618,2 537,2 409,8 600,0 550,7 432,1 591,3 428,7
440,9 340,7 558,4 460,3 560,3 607,2 382,5 667,9 512,4 492,5
450,5 530,1 501,3 471,0 660,5 470,3 364,8 634,8 580,1 450,3
574,4 500,2 462,7 380,2 518,6 480,7 625,5 507,4 645,7 382,2

¿Cómo agrupar los datos en una tabla de frecuencia para una variable Continua?
En este ejemplo:
Población: Choferes de la locomoción colectiva de Talca.
Variable: X = ingreso mensual (miles de pesos).
Datos: Xi = ingreso mensual del i-ésimo chofer.
Cantidad de observaciones: N = 60 choferes.
En este caso es fácil advertir algunos datos:
X1 = 440,5; X10 = 393,6; X29 = 591,3; X44 = 471,0; X60 = 382,2.

I). La Clasificación, en este caso se trata de definir el número y amplitud de los


intervalos de clase. Se sugiere seguir los siguientes pasos:
Xmáx = 667,9 y Xmín = 321,5, de donde:
R = Xmáximo – Xmínimo = 667,9-321,5 = 346,4 mil pesos.
Elegir el número de intervalos de clase (k). Si aplicamos la fórmula de Sturges, se
tiene:
K = 1 + 3,322 log n = 1 + 3,322 log 60 = 6,9  7 intervalos de clase.
Determinar la amplitud de los intervalos de clase. Dado que k = 7:
X máx  X mín 667,9  321,5 346,4
ci     49,4857
k 7 7
Como este cociente no es exacto, se recomienda redondear, por ejemplo a 50, esto
implica ampliar ligeramente el recorrido R de manera que la amplitud c i pueda ser un
“número sencillo”. Entonces, el recorrido se puede ampliar a 350, que provoca una
modificación en los extremos.
Luego se construyen los intervalos de clase, donde el extremo inferior del primer
intervalo es 320 y el extremo superior del último intervalo es 670. Luego, los
intervalos quedan de la siguiente manera:

Li - Ls
[320 – 370)
[370 – 420)
[420 – 470)
[470 – 520)
[520 – 570)
[570 – 620)
[620 – 670]
II). La Tabulación, definidos los intervalos de clase o categorías, se distribuyen los
choferes según el sueldo en cada uno de los intervalos, es decir, contabilizar
(tabulación) cuántos elementos o choferes se encuentran comprendidos en cada
intervalo. Tabulando los 60 valores se puede construir el siguiente cuadro:
Li - Ls Valores de la variable Número de casos (ni)
(ingreso de cada chofer). Número de choferes.
[320 – 370) 321,5 335,2 340,7 364,8 4
[370 – 420) 376,3 380,2 382,5 382,2 8
393,6 400,9 407,1 409,8
[420 – 470) 424,3 428,7 430,2 432,1 440,5 440,9 12
450,5 450,3 453,2 460,3 462,7 466,7
[470 – 520) 470,0 470,3 471,0 480,7 492,5 500,8 11
500,2 501,3 507,4 512,4 518,6
[520 – 570) 526,3 528,9 530,1 537,2 550,7 558,4 10
560,4 560,0 560,3 565,3
[570 – 620) 570,2 574,4 580,1 587,2 591,3 9
600,0 607,2 613,3 618,2
[620 – 670] 634,8 645,7 625,5 6
650,1 667,9 660,5
K=7 N = 60

La frecuencia absoluta representa el número de choferes en cada intervalo según el


sueldo.
En definitiva, la tabla de distribución de frecuencias queda completa de la siguiente
manera:

Distribución del ingreso mensual de los choferes que trabajan en la locomoción


colectiva de la ciudad de Talca durante Agosto del año 2019.
(Xi) (ni) (fi) (Ni) (Fi)
Ingreso mensual Número de Porcentaje de Número Porcentaje
(miles de pesos) choferes choferes acumulado de acumulado de
choferes choferes
320 – 370 4 6,67% 4 6,67%
370 – 420 8 13,33% 12 20,00%
420 – 470 12 20,00% 24 40,00%
470 – 520 11 18,33% 35 58,33%
520 – 570 10 16,67% 45 75,00%
570 – 620 9 15,00% 54 90,00%
620 - 670 6 10,00% 60 100,00%
GRÁFICOS.

GRÁFICO DE BARRAS.

Este tipo de gráfico, sirve para representar una distribución de frecuencias para una
variable cualitativa ó para una variable cuantitativa discreta. Su construcción consiste
en dibujar dos ejes, donde en el eje horizontal queda representado por el nombre de la
variable y sus respectivas categorías observadas; en cambio, en el eje vertical, queda
representado por el tipo de frecuencia (frecuencia absoluta ó frecuencia absoluta
relativa). Para cada categoría observada, se levantan barras paralelas y separadas,
cuya altura depende de la frecuencia observada. Además, al igual que en la tabla de
distribución de frecuencias, debe ser acompañado por su respectivo título.

Ejemplo:

Distribución del número de personas que trabajan en 20 pequeñas empresas.

Número de
empresas

Cantidad de
2 3 4 5 6
trabajadores
HISTOGRAMA.

Este tipo de gráficos sirve para representar una distribución de frecuencias de una
variable cuantitativa continua, y su construcción es similar al gráfico de barras, salvo
que acá las barras deben quedar unidas.

Ejemplo:

Distribución del ingreso mensual de los choferes que trabajan en la locomoción


colectiva de la ciudad de Talca durante Agosto del año 2019.

Número de
choferes

12

Sueldo
320 370 420 470 520 570 620 670
(miles de $)
MEDIDAS DE TENDENCIA CENTRAL.

La Moda, la Mediana y la Media Aritmética, se conocen como medida de tendencia


central, es decir, muestran el centro de la distribución de datos.

MODA:

Se define como el valor de la variable que se observa con mayor frecuencia.

MEDIANA:

Para esta medida, se requiere que los datos sean ordenados según su magnitud. Esta
medida divide al grupo de datos en dos partes iguales dejando bajo esta medida el
50% de los datos y sobre esta medida el 50% restante de los datos.
Si se tiene una cantidad impar de datos, la Mediana corresponde a un único término
central, en cambio, si se tiene una cantidad par de datos, la Mediana corresponde a los
dos términos centrales (salvo que los dos términos sean iguales), es decir:
X N+1 si N es impar
( )
2
Mediana(X) = {
X N y X N si N es par
( ) ( +1)
2 2

En variables cuantitativas, si se tiene una cantidad par de elementos, la Mediana es la


media de los dos términos centrales, es decir:

X N+1 si N es impar
( )
2
Mediana(X) = {X N + X N
( ) ( +1)
2 2
si N es par
2

MEDIA ARITMÉTICA (µ):

Se define como la suma de los valores observados en la población dividido por la


cantidad de valores observados en la población, es decir:
N
Xi
μ=∑
N
i=1

Observación:
Si los datos se extraen desde una muestra, se conoce como promedio muestral (𝑥̅ ), y
se define como la suma de los valores observados en la muestra dividido por el
tamaño de la muestra, es decir:
n
Xi
𝑥̅ = ∑
n
i=1
Ejemplo:
Considere las edades de 20 sujetos:
45 41 51 46 47 42 43 50 39 32
41 44 47 49 45 42 41 40 45 37

Moda: 41 y 45.

Interpretación:
Lo más frecuente es que un sujeto tenga 41 ó 45 años de edad.

Mediana:

Sugerencia:
Se recomienda ordenar los datos según su magnitud:
32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)

Se tienen 20 datos, es decir, una cantidad par de datos, luego la mediana es la media
de los dos términos centrales:
X(10) + X(11) 43 + 44
Mediana (X) = = = 43,5
2 2
Interpretación:
El 50% de los sujetos tiene 43,5 años ó menos, y el 50% restante de los sujetos tiene
43,5 años ó más.

Media Aritmética:

32 + 37 + 39 + ⋯ + 51 867
μ= = = 43,35
20 20
Interpretación:
En término medio, cada sujeto tiene 43,35 años de edad.

En este ejemplo, si suponemos que los datos provienen de una muestra aleatoria de
tamaño 20, debemos determinar el promedio muestral x̅:
32 + 37 + 39 + ⋯ + 51 867
𝑥̅ = = = 43,35
20 20
RELACIÓN ENTRE LAS MEDIDAS DE TENDENCIA CENTRAL.

Cuando la curva de frecuencias está inclinada ó alargada hacia la derecha (figura 1), se
llama asimetría a la derecha ó positiva, y si está alargada ó inclinada hacia el lado
izquierdo (figura 2), se denomina asimetría a la izquierda ó negativa.

Figura 1: Moda < Mediana < Media Aritmética.

Figura 2: Moda > Mediana > Media Aritmética.

Si la distribución no se encuentra inclinada hacia ningún lado (figura 3), existe


simetría.

Figura 3: Moda = Mediana = Media Aritmética.

Observaciones:
La Moda no se usa a menudo como medida de tendencia central para datos
cuantitativos. Sin embargo la Moda es LA medida de tendencia central que puede ser
calculada en datos cualitativos.
Si la distribución es sesgada, vamos a querer usar una medida que sea más
resistente para mostrar el centro. La medida de tendencia central que es más
resistente a los valores extremos es la mediana.
La media aritmética es sensible a las observaciones extremas, por tanto, si la
distribución es simétrica, la medida de tendencia central más representativa es la
media aritmética.

MEDIDAS DE DISPERSIÓN Ó DE VARIABILIDAD.

Las medidas de tendencia central sólo nos proporcionan una cantidad limitada de
información. Para describir en forma más completa es necesario también contar con
una información acerca de la dispersión ó variabilidad de los datos con respecto a
alguna medida de tendencia central.
Dos distribuciones pueden tener igual media aritmética y ser muy distintas entre sí:

=24 26

Observemos las distribuciones dadas A y B. En ambas, la media aritmética es 24, pero


el valor 26 puede considerarse muy alto en la distribución B y regular en la
distribución A, ya que hay muchos elementos del grupo con puntajes superiores a el.
En la distribución A los elementos están más dispersos entre sí, decimos que el grupo
es heterogéneo.
En el grupo B, los elementos están todos estrechamente distribuidos alrededor de la
media, entonces decimos que la distribución es homogénea.
Todas las medidas de dispersión indican distancias y cuanto mayor sean estas, más
heterogéneo es el grupo, ó mayor será la variabilidad ó dispersión en los puntajes.
MEDIDAS DE DISPERSIÓN:
Rango.
Rango entre Cuartiles.
Varianza.
Desviación Estándar.

Ejemplo:
Considere las edades de 20 sujetos:
45 41 51 46 47 42 43 50 39 32
41 44 47 49 45 42 41 40 45 37

Sugerencia:
Se recomienda ordenar los datos según su magnitud:
32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)

RANGO (R):

Definición:
Se define como la distancia entre el máximo y el mínimo valor observado, es decir:
Rango = Xmáximo – Xmínimo.

Xmínimo Xmáximo

Rango

En el ejemplo:
Rango = 51 – 32 = 19.
Interpretación:
La diferencia de edad entre el mayor y el menor de los sujetos es de 19 años.
CUARTILES:

Definición:
Son tres y dividen al conjunto de datos en cuatro partes iguales, siendo los siguientes:
Primer Cuartil = Q1 = Significa que el 25% de los valores observados son menores ó
iguales a este cuartil, y el 75% restante de los valores observados son mayores ó
iguales a este cuartil.
Segundo Cuartil = Q2 = Significa que el 50% de los valores observados son menores
ó iguales a este cuartil, y el 50% restante de los valores observados son mayores ó
iguales a este cuartil. El Segundo Cuartil = Mediana.
Tercer Cuartil = Q3 = Significa que el 75% de los valores observados son menores ó
iguales a este cuartil, y el 25% restante de los valores observados son mayores ó
iguales a este cuartil.

25% 25% 25% 25%

Q1 Q2 Q3

En el ejemplo:
X(10) + X(11) 43 + 44
Q2 = Mediana = = = 43,5
2 2
Interpretación:
El 50% de los sujetos tiene 43,5 años ó menos, y el 50% restante de los sujetos tiene
43,5 años ó más.

X(5) + X(6) 41 + 41
Q1 = Primer Cuartil = = = 41
2 2
Interpretación:
El 25% de los sujetos tiene 41 años ó menos, y el 75% restante de los sujetos tiene
41 años ó más.

X(15) + X(16) 46 + 47
Q3 = Tercer Cuartil = = = 46,5
2 2
Interpretación:
El 75% de los sujetos tiene 46,5 años ó menos, y el 25% restante de los sujetos tiene
46,5 años ó más.
RANGO ENTRE CUARTILES (RQ):

Definición:
Se define como la distancia entre el primer cuartil y el tercer cuartil de una
distribución, es decir, mide la variabilidad de sólo el 50% central de los datos no
considerando el 25% de los datos de cada extremo de la distribución:
RQ = Q3 – Q1.

Q1 Q2 Q3

RQ

En el ejemplo:
RQ = 46,5 – 41 = 5,5.
Interpretación:
La dispersión del 50% central de las edades de los sujetos es de 5,5 años.

VARIANZA (σ2):

Definición:
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media dividida por el tamaño de la población:
N

 x  
2
i
2  i 1

Las unidades en que está medida la Varianza aparecen al cuadrado, por este motivo se
utiliza poco y es preferible trabajar con otra medida muy relacionada que es la
Desviación Estándar.

En el ejemplo:
En primer lugar, debemos determinar la media aritmética :
32 + 37 + 39 + ⋯ + 51 867
μ= = = 43,35
20 20
Ahora calculamos la varianza σ2:
1
σ2 = [(32 − 43,35)2 + (37 − 43,35)2 + (39 − 43,35)2 + ⋯ + (51 − 43,35)2 ]
20
= 19,8275 𝑎ñ𝑜𝑠 2
DESVIACIÓN ESTÁNDAR (σ):

Definición:
Es la raíz cuadrada positiva de la Varianza, por lo tanto, es decir:
N

 x  
2
i
  i 1

En el ejemplo:
σ = +√19,8275 = 4,4528
Interpretación:
La dispersión de las edades de los sujetos es de 4,4528 años.

Observación:
Si los datos provienen de una muestra aleatoria de tamaño n, se tiene que:

VARIANZA MUESTRAL (S2):

Definición:
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto al promedio muestral dividida por el tamaño de la muestra menos uno:

 x 
n 2
i x
S2  i 1

n 1

Las unidades en que está medida la Varianza aparecen al cuadrado, por este motivo se
utiliza poco y es preferible trabajar con otra medida muy relacionada que es la
Desviación Estándar Muestral.

En el ejemplo:
En el ejemplo anterior, si suponemos que los datos provienen de una muestra aleatoria
de tamaño 20, debemos determinar el promedio muestral x ̅:
32 + 37 + 39 + ⋯ + 51 867
𝑥̅ = = = 43,35
20 20
Ahora calculamos la varianza S2:
1
S2 = [(32 − 43,35)2 + (37 − 43,35)2 + (39 − 43,35)2 + ⋯ + (51 − 43,35)2 ]
19
= 20,8711 𝑎ñ𝑜𝑠 2

DESVIACIÓN ESTÁNDAR MUESTRAL (S):

Definición:
Es la raíz cuadrada positiva de la Varianza, por lo tanto, es decir:
 x 
n 2
i x
S i 1

n 1

En el ejemplo:
S = +√20,8711 = 4,5685
Interpretación:
La dispersión de las edades de los sujetos es de 4,5685 años.

PROPIEDADES DE LA MEDIA ARITMETICA Y LA VARIANZA:

Sean X y Z variables, a constante:


a. Si Zi = a, entonces  Z  a y  Z2  0 .
b. Si Zi = a + Xi, entonces  Z  a   X y  Z2   2X .
c. Si Zi = a Xi, entonces  Z  a  X y  Z2  a2  2X .

Ejemplo:
Si la distribución del tiempo original empleado en resolver una prueba de Estadística se
obtuvo una media de 58,39 minutos y una varianza de 356,72 (minutos)2.
Sea Xi = tiempo original que emplea el alumno i-ésimo en resolver la prueba de
Estadística.
Sea Zi = nuevo tiempo que emplea el alumno i-ésimo en resolver la prueba de
Estadística.
Suponga las siguientes situaciones:

a. Si cada alumno demoró 71 minutos en resolver la prueba de Estadística,


determine el tiempo medio en resolver la prueba y su respectiva varianza.
Solución:
Tenemos que: Zi = 71.
Luego,  Z  71 min utos y  Z2  0 (min utos)2 .

b. Si a cada alumno se debe aumentar 5 minutos en el tiempo empleado en


resolver la prueba (dado que al inicio de la prueba se utilizó 5 minutos para leer el
planteamiento y resolver dudas), determine el tiempo medio en resolver la prueba y su
respectiva varianza.
Solución:
Tenemos que: Zi = Xi + 5.
Entonces,  Z   X  5  58,39  5  63,39 minutos y
 Z2   X2  356,72 (minutos)2 .

c. Si a cada alumno se aumenta en un 10% su tiempo empleado en resolver la


prueba de Estadística, determine el tiempo medio en resolver la prueba y su respectiva
varianza.
Solución:
Sea Xi = tiempo original que emplea el alumno i-ésimo en resolver la prueba de
Estadística.
Sea Zi = nuevo tiempo que emplea el alumno i-ésimo en resolver la prueba de
Estadística.
Tenemos que: Zi = Xi + 0,10 Xi = 1,10 Xi.
Entonces,  Z  1,10  X  1,10 ( 58,39)  64,229 minutos y
 Z2  (1,10)2  X2  (1,10)2 356,72  1,21(356,72)  431,6312 (minutos)2 .

COEFICIENTE DE VARIACIÓN (CV):


La dispersión ó variación real determinada por la desviación estándar es aplicable sólo
a la población de la cual se extrae. Si nosotros deseamos comparar variabilidades
entre dos poblaciones en que:
a. las medias son desiguales.
b. Las unidades de las poblaciones son desiguales.
Las medidas de variabilidad respectiva no nos entregarán una información
satisfactoria.
Esto se resuelve mediante el uso del coeficiente de variación que es la razón entre la
desviación estándar y la media aritmética de una población:
X
CV ( X ) 
X

Alternativamente, este coeficiente de variación nos permite clasificar a una


determinada distribución de la siguiente manera:
Si CV(X) ≤ 5%, entonces la distribución es muy homogénea.
Si 5% < CV(X) ≤ 20%, entonces la distribución es relativamente homogénea.
Si 20% < CV(X) ≤ 50%, entonces la distribución es relativamente heterogénea.
Si CV(X) > 50%, entonces la distribución es muy heterogénea.

Ejemplo:
Se tienen las siguientes distribuciones A y B:
A B
10 11
9 6
7 5
9 9
4 12
12 8
6
¿Cuál de ellas tienen una menor variabilidad?
Solución:
A = 8,5 B = 8,1429
σA = 2,5 σB = 2,4744.
CV(A) = 0,2941 CV(B) = 0,3039.
Luego, la distribución A tiene una menor variabilidad porque tiene el menor coeficiente
de variación.
En resumen, para determinar medidas representativas de una cierta base de datos,
debemos considerar el siguiente cuadro resumen:

Medida de Medida de Uso en


tendencia dispersión Distribuciones Ventajas Desventajas
central
Promedio Desviación Simétricas Buenas Sensible a valores
estándar propiedades, extremos.
muy usados.
Mediana Rango Sesgadas, sin Mediana robusta Rango sensible a
valores extremos a valores valores extremos.
extremos.
Rango muy
conocido, fácil
de entender.
Mediana Rango entre Sesgadas con Medidas El rango entre
Cuartiles valores extremos robustas a cuartiles no es
valores muy conocido.
extremos.

Cuando queremos describir una variable, usamos alguna medida de posición central y
una medida de dispersión. El par de medidas más comúnmente usado, es la media
aritmética y la desviación estándar. Pero vimos que cuando la distribución de las
observaciones es sesgada, la media aritmética no es una buena medida de posición
central y preferimos la mediana. La mediana en general va acompañada del rango
como medida de dispersión. Pero cuando observamos valores extraños (extremos) el
rango se ve muy afectado, por lo que preferimos usar el rango entre cuartiles.

Definición

Valores extremos (outliers): son valores que se alejan del conjunto de datos.

Regla para identificar valores o datos extremos:

Vamos a definir una observación xi∗ como extrema si:

xi∗ < Q1 – 1,5 * (Q3-Q1) ó xi∗ > Q3 + 1,5 * (Q3-Q1)

donde xi∗ serán las primeras y últimas observaciones en la serie ordenada de los datos.
En el ejemplo de la edad de los 20 sujetos:
32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)

Q1 = 41 Q2 = 43,5 Q3 = 46,5
Análisis de valores extremos:
xi∗ < Q1 – 1,5 * (Q3-Q1) = 41 – 1,5*(46,5 – 41) = 32,75
ó xi∗ > Q3 + 1,5 * (Q3-Q1) =46,5 + 1,5*(46,5 – 41) = 54,75
32 es un valor extremo, puesto que 32<32,75.
Luego, existe un único valor extremo que es 32.

Diagrama de caja con bigotes (boxplot):

El diagrama de caja se construye de la siguiente manera:

1. Dibujar la caja que empieza en el primer cuartil y termina en el tercer cuartil.

2. Dibujar la mediana con una línea dentro de la caja.

3. Por último se extienden las líneas, llamadas bigotes, saliendo de la caja hasta el
mínimo y el máximo valor observado (salvo en la presencia de valores extremos).
Si existen valores extremos, estos deben quedar representado por algún símbolo
tal como: ■, ▲,◆,●, etc… En la presencia de valores extremos, los "bigotes" se
extienden hasta el valor observado anterior al valor extremo.

En el ejemplo de la edad de los 20 sujetos:


32 37 39 40 41 41 41 42 42 43
X(1) X(2) X(3) X(4) X(5) X(6) X(7) X(8) X(9) X(10)
44 45 45 45 46 47 47 49 50 51
X(11) X(12) X(13) X(14) X(15) X(16) X(17) X(18) X(19) X(20)

Q1 = 41 Q2 = 43,5 Q3 = 46,5

Construya el Diagrama de Cajas con Bigotes para los datos anteriores.

Solución:

Distribución de las edades de los 20 sujetos.

30 32 34 36 38 40 42 44 46 48 50 52 Edad (en años)

También podría gustarte