Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADISTICA DESCRIPTIVA
HA/LR
Tipos de Variables
Variables Cualitativas o Categóricas: Son las que presentan una característica observada de
un atributo o cualidad, y tienen por valores cantidades no numéricas. Se clasifican en
ordinal (el orden de las categorías es importante, ej: nivel de estudios, rendimiento
académico,..) y nominal (los nombre o etiquetas de la categoría no denota jerarquía, ej:
color de ojos, religión,..). Para variables cualitativas se pueden elaborar tablas de
distribución de frecuencias en categorías con frecuencias absolutas y relativas, añadiendo
gráficos de barras y circular.
Variables Cuantitativas: Son las que tienen por valores cantidades numéricas a cada
característica de una unidad de observación. Se clasifican en discretas (si los valores es un
conjunto finito o infinito numerable, ej: número de fallas de una máquina, cantidad de sillas
en el aula,.. ) y continuas (los valores que la componen es un subconjunto de la recta real,
ej: tiempo de vida de una ampolleta, largo de una mesa,..). Para variables cuantitativas se
pueden elaborar tablas de distribución de frecuencias para datos agrupados en intervalos de
clase; complementadas con representaciones gráficas de histograma, box plot, polígono de
frecuencias, entre otros, y la utilización de las medidas de tendencia central, de posición y
de dispersión.
2
Escala de Medición: Son cuatro los niveles de medición: nominal, ordinal, de intervalo y
de razón. El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad
adicional de que la diferencia entre los valores de datos cualesquiera tiene un significado y
las razones no tienen un significado. Sin embargo, los datos en este nivel no tienen un
punto de partida inherente (natural) desde cero (donde nada de la cantidad está presente).
El nivel de medición de razón tiene las mismas propiedades de las escalas de intervalos,
pero las razones, diferencias si tienen sentido. Tiene un punto de partida o cero inherente
(donde cero indica que nada de la cantidad está presente)
Distribución de frecuencias
Una vez definida la variable de interés es necesario clasificar y ordenar los elementos de la
población. Así, una distribución de frecuencias lista valores de datos u observaciones, ya
sea de manera individual o por grupos de intervalos, junto con sus frecuencias
correspondientes.
Primero a cada valor de la variable se le identifica por xi siendo el i-ésimo resultado
perteneciendo a una clase. Los resultados agrupados en cada una de estas clases se
resumen en una tabla de frecuencias, la cual contiene la siguiente información:
n n
ni
Se cumple que la ∑ ni = N ; fi =
i =1 N
; ∑f
i =1
i =1
Debe tener presente en las variables Cuantitativas que si el número de datos poblacionales
distintos entre sí es grande podemos obtener un gran número de clases con frecuencia
absoluta igual a 1 que estadísticamente no resulta relevante; en tal situación podemos
agrupar las clases en intervalos. Se recomienda entre 5 y 20 intervalos de clase o utilizar la
regla de Sturge. Los elementos que conforman la elaboración de la distribución de
frecuencias por intervalos son los siguientes:
mi : Marca de clase del intervalo i (punto medio del intervalo i), en cálculos
estadísticos es considerada como el valor más representativo de las clases.
Fronteras: Es el punto medio entre el límite superior de la clase de un intervalo y el límite
inferior del intervalo siguiente.
Ejercicio 1: Un Ingeniero Civil visita 15 condominios en una ciudad y en cada una registró
el número de casas que han sufrido daños ocasionados por un aluvión el invierno recién
pasado. Se obtuvo la siguiente información:
15 15 18 16 17 18 18 18
17 19 16 17 17 16 19
Gráfico de Barra 25
Es usado en observaciones cualitativas o 20
N°alumnos
Histograma
Se utiliza en variables cuantitativas cuyas 8
1a5
observaciones han sido divididas en intervalos 6 5 a 15
de clases. Consiste en un conjunto de
4 15 a 33
rectángulos cada uno de los cuales representa
33 a 50
un intervalo de agrupación o clase. Sus bases 2
50 a 60
son iguales a la amplitud del intervalo y la 0 60 a 72
altura se determinan de manera que su área EDAD
sea proporcional a la frecuencia de cada clase.
Eje horizontal: intervalo de frontera FI-FS
Eje vertical: frecuencias absolutas
Polígono de Frecuencias
25
El tipo de representación es un gráfico de
línea. Se construye uniendo con segmentos de 20
N° alumnos
recta los puntos medios (marca de clase) de 15
los intervalos adyacentes. Se utiliza para 10
determinar la forma que sigue la distribución
5
de frecuencias de las observaciones con el
propósito de ajustarle alguna función 0
probabilística determinada. 1 3 4
Notas 6 7
Medidas Estadísticas
iii) Para datos agrupados en intervalos de clase: Sea m1 , m2 ,....., mk las marcas de clase y
n1 , n2 ,....., nk las frecuencias absolutas de una distribución de frecuencias, entonces
k
∑ mi ⋅ ni
i =1
x= N
La Mediana: La media aritmética no resulta ser adecuado cuando existe una concentración
de valores en algunos de los extremos. En este caso es preferible utilizar la mediana como
estadígrafo de posición, este valor divide a la distribución de frecuencia en dos partes
iguales cada una conteniendo el 50% de los datos. Se denota por Me.
Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical
que divide un histograma en dos partes de áreas similares.
i) Para datos individuales los datos son ordenados en forma creciente o decreciente.
Si el número de datos N es impar, la mediana corresponde al valor que ocupa el centro de la
ordenación. Si el número de datos N es par, la mediana corresponde a la media aritmética
de los dos valores que ocupan el centro de la ordenación. Es decir, la mediana de un
conjunto de números ordenados en magnitud X (1) ≤ X (2 ) ≤ ...... ≤ X ( N ) es o el valor central
X (N +1) si N es impar
2
2
( )
Me = X N + X N
+1
2
si N es par
2
ii) Para datos en intervalos de clases: Primero se debe identificar el intervalo donde se
encuentra y enseguida aproximar el valor de la mediana a este intervalo llamado “Intervalo
Mediano” cuya frecuencia acumulada supere o sea igual al cuociente N/2. La mediana se
obtiene después de la siguiente expresión.
N
− N i −1
Me = FI i + 2 ⋅ A
ni
FI i Frontera inferior del intervalo mediano
8
La Moda: Para datos aislados, la moda es el valor (o valores) que tiene la mayor
frecuencia relativa en una muestra extraída de cierta población. Se utiliza cuando la
distribución de frecuencias presenta una alta inestabilidad; existen agrupaciones de datos en
ciertas clases. Se define como el valor más común o más frecuente de todo el conjunto de
datos. Es posible que una población tenga dos o más modas. En esos casos se suelen llamar
distribuciones bimodales o multimodales.
ni +1
Para datos agrupados en intervalos de clases: Mo = FI i +
n +n
⋅ A
i −1 i +1
Las medidas de tendencia central nos proporcionan una idea de la forma de la distribución.
Una distribución de datos está sesgada si no es simétrica y se extiende más hacia un lado
que hacia el otro. Una distribución de datos es simétrica si la mitad izquierda de su
histograma es aproximadamente una imagen en espejo de su mitad derecha.
a) Sesgada a la izquierda (sesgo negativo): La media y la mediana están a la izquierda de la
moda.
b) Simétrica (sesgo cero): La media, la moda y la mediana son iguales.
c) Sesgada a la derecha (sesgo positivo): La media y la Me están a la derecha de la Mo.
Medidas de Dispersión
La media aritmética es la más representativa como medida de tendencia central en
distribuciones simétrica, sin embargo no es suficiente si queremos comparar dos
distribuciones. Las medidas estadísticas de variabilidad cuantifican la dispersión de los
datos en torno al centro de los datos. Mide cuán esparcidos se encuentran éstos o qué tan
heterogéneos son. Las más usuales son: el recorrido, el rango intercuartílico, la varianza,
desviación estándar y el coeficiente de variación.
V ( X ) = ∑ (xi − x ) ⋅ ni / N
2
ii) Para datos agrupados en clases individuales:
K
∑ mi 2 ⋅ ni
V ( X ) = ∑ (mi − x ) ⋅ ni / N = i =1
2
2
iii) Para datos en intervalos de clases: −X
N
k
∑ (mi − X )
3
ni
Para datos agrupados, el coeficiente de sesgo i =1
Nσ 3
∑ [X i − X ] 4
N
Cuantiles: Particionan el área bajo el polígono de frecuencias en más de dos partes, siendo
los usuales en cuatro, diez y cien partes.
x % N − N i −1
C = FI i +
⋅ A
ni
Denotemos por nij al número de observaciones (o frec. absoluta) que pertenecen a la clase:
X i - Y j y su frecuencia relativa se define por f ij = nij / N
r s r s
Se cumple que ∑∑n i j =N ; ∑∑ f i j =1 donde,
i j i j
nij es la frecuencia absoluta para los individuos que representan la modalidad conjunta xi
de X e yj de Y.
fij es la frecuencia relativa para los individuos que representan la modalidad conjunta xi de
X e yj de Y.
Las frecuencias absolutas (o relativas) se resumen en una tabla de frecuencias
bidimensional llamada también “Tabla de Contingencia” o tabla de doble entrada. En total
hay r ⋅ s clases.
Y
X Y1 Y2 Yj Ys Totales
_______________________________________________
X1 n11 n12 n1s n1•
X2 n21
Xi nij nis ni •
Observación:
a) Si las variables son independientes entre sí la covarianza es cero. El inverso no siempre
se cumple.
b) Si la Covarianza es distinto de cero entonces las variables son dependientes.
c) Si la Covarianza es positiva la dependencia es directa, es decir el aumento o
disminución en una variable provoca el mismo efecto en la otra variable.
d) Si la Covarianza es negativa la dependencia es inversa
Cov ( X , Y )
r=
[V ( X )V (Y )]1 2
El Coeficiente de correlación mide la intensidad de una relación lineal entre dos variables.
En general podemos decir: (para interpretar)
r=0 no hay correlación lineal (no están relacionadas linealmente)
0 < rXY ≤ 0.5 existe correlación lineal débil
0.5 < rXY ≤ 0.8 hay correlación lineal aceptable
0.8 < rXY < 1 existe correlación lineal fuerte (altamente correlacionadas)
rXY = 1 correlación lineal perfecta.
6,000
5,000
No sectores de la comuna
4,000
3,000
2,000
1,000
0,000
<= 300 (300|350] (350|400] (400|450] (450|500] > 500
Cantidad de residuos sólidos
b)
X ni mi ∑ mi ⋅ ni 10.8
X = ( X / 350 < Y < 400 ) = = = 1 .8
0.8 – 1.3 1 1.05 N 6
1.3 – 1.8 2 1.55
1.8 – 2.3 2 2.05
2.3 – 2.8 1 2.55
Interprete Usted:
2.8 – 3.3 0 3.05
6
14
c) N i ≥ N = 5 .5
2
X Ni
ni 5 .5 − 5
0.8 – 1.3 2 2 M e = 1 .8 + ⋅ 0,5 = 1,925 km
2
1.3 – 1.8 3 5
2
1.8 – 2.3 2 7
2.3 – 2.8 2 9
2.8 – 3.3 2 11
11
3177500
Y mi ni d) V (Y ) = − (395) 2 = 2,850
20
300 – 350 325 5
350 – 400 375 6
400 – 450 425 5
se pide
450 – 500 475 4
V (1,03Y ) = (1,03) V (Y ) = 3,0236 ton 2
2
20
Tamaño de familia 3 6 5 6 6 3 4 4 5 3
Gastos en alimentos US$ 99 104 151 129 142 111 74 91 119 91
a) Construir una tabla de doble entrada. Considere la variable cantidad gastada en alimentos
dividida en tres intervalos de clases.
b) Interprete los valores de n21 , f12 , n. 2 y n3.
c) Calcular e interpretar el coeficiente de variación de gastos en alimentos.
d) Obtener la distribución condicional de los gastos en alimentos dado que el tamaño
familiar lo componen cuatro personas.
e) Calcular e interpretar el promedio de los gastos en alimentos dado que el tamaño
familiar lo componen cinco personas.
f) Determinar la varianza del tamaño familiar dada la cantidad gastada en alimentos.
g) Determine si existe relación entre la cantidad gastada por semana en alimentos y el
tamaño de una familia.