Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIDAD 1
ESTADÍSTICA DESCRIPTIVA
Autores:
Mg. María Cristina Kanobel
Lic. Andrea Álvarez
Lic. Luis Alberto Garaventa
1
UNIDAD 1: Estadística descriptiva 2
Como toda disciplina científica la Estadística tiene un lenguaje que le es propio. En el texto que
sigue encontrarán los conceptos básicos de estadística que necesitan para afrontar el estudio
de la materia.
Esperamos que al finalizar la lectura del siguiente texto puedan diferenciar los conceptos
población de muestra, variable cualitativa de variable cuantitativa y censo de muestreo
¿QUÉ ES LA ESTADÍSTICA?
POBLACIÓN y MUESTRA
Una población puede ser finita o infinita. Si podemos listar a los miembros de una población,
entonces la población es finita. En caso contrario decimos que es infinita.
Los términos población y muestra son relativos. Por ejemplo, todos los habitantes de
Córdoba constituyen una población respecto de Córdoba. En cambio, son una muestra cuando
la población en estudio son los habitantes de la Argentina.
Para obtener conclusiones sobre una población infinita o cuando el estudio de una población
finita es costoso, es conveniente trabajar con muestras.
VARIABLES ESTADÍSTICAS
Cuando los valores que toma una variable cuantitativa pertenecen a un conjunto finito o infinito
numerable decimos que la variable es discreta. En caso contrario, decimos que es continua.
Cuando en una variable cualitativa podemos ordenar los datos, decimos que la variable es
ordenable. En caso contrario decimos que es no ordenable.
Las variables generadas por la ausencia o presencia de una categoría se denominan
dicotómicas o binarias.
UNIDAD 1: Estadística descriptiva 4
PARÁMETRO Y ESTADÍSTICO
MATRICES DE DATOS
TABLAS DE FRECUENCIAS
Las tablas de frecuencias permiten ordenar los datos de una muestra para que
se pueda leer la información en forma más clara. Se definen distintos tipos de
frecuencias:
Se simboliza f
UNIDAD 1: Estadística descriptiva 5
Se calcula como:
f
fr =
n
Determina en términos de porcentajes qué parte del total de los datos corresponde
al dato determinado. Esto es:
f % = fr . 100
Es decir:
F1 = f1
Fi = Fi −1 + f i i 1
Siempre que sea posible, agrupamos los datos en tablas simples, que son aquellas que toman
un solo valor por categoría, en caso contrario, debemos utilizar tablas agrupadas por intervalos,
en las cuales cada categoría se representa con un intervalo numérico.
Por ejemplo
X 0 1 2 3 4 5
Frecuencia 8 12 20 5 4 1
UNIDAD 1: Estadística descriptiva 6
LABORATORIO DE INFORMÁTICA
Para construir la tabla iremos siguiendo el procedimiento frente a la computadora, a partir del
siguiente ejemplo:
Una revista de la construcción realizó un relevamiento por encuesta para observar los hábitos de
las familias que construyeron una casa nueva en el último año. Al grupo de encuestados se les
consultó cuántos presupuestos, además del de el estudio contratado, solicitaron antes de cerrar el
contrato.
1 2 5 0 3 2 6 3 2 5
4 2 3 5 6 6 7 3 5 2
2 3 5 0 0 1 3 5 3 4
Es posible resumir la información anterior en una tabla de frecuencias. Para ello sigan los pasos
detallados en la siguiente imagen:
Luego de aceptar necesitamos copiar la fórmula en toda la tabla de frecuencias. Para ello:
UNIDAD 1: Estadística descriptiva 7
Para realizar en Excel una tabla de frecuencias con datos agrupados, procedemos de igual
forma que en la anterior sólo que los datos de la variable los separamos en dos columnas: en
una anotamos los extremos inferiores de los intervalos y en la otra los extremos superiores.
Cuando asignamos la función frecuencia para armar la tabla, seleccionamos como grupo
sólo la columna de los extremos superiores
GRÁFICOS ESTADÍSTICOS
Gráfico circular:
DITRIBUCIÓN DE LOS EMPLEADOS
SEGÚN SEXO
Se puede aplicar para todo tipo de
30% variables y permite ver la distribución de
los datos en relación proporcional al área
que ocupa cada sector. Una restricción
fem enino para el uso de este tipo de gráfico es
m asculino
que las categorías de la variable deben
ser excluyentes.
70%
60 50
unidades
43
40 Cuando la variable representada es cualitativa, se
23
20
20
pueden utilizar barras horizontales (esto permite una
mejor lectura de las categorías), cuando los datos
0
2 am b 3 am b 4 am b duplex otros están agrupados en intervalos se suelen utilizar
Años
histogramas que son gráficos de columnas una a
Fuente: Departamento de ventas continuación de la otra
300
analizada es temporal.
225
200 198 En este caso no deben confundirse con
100 gráficos de funciones continuas, dado que
0 los valores de la variable son discretos y se
2000 2001 2002 2003 2004 unen los puntos solo para facilitar la
Años lectura.
Fuente: Departamento de ventas
a) Medidas de posición central o tendencia central: que informan sobre los valores medios
de la serie de datos.
centradas
deciles
No centradas
cuartiles
mo = xk
a) En la muestra
25 36 25 36 29 25 15
x f
1 5
2 10
3 15
4 15
Las modas son 3 y 4 porque corresponden a los valores de la variable que tienen mayor
frecuencia.
En ese caso decimos que la muestra es bimodal (tiene dos modas)
LABORATORIO DE INFORMÁTICA
• Si el total n de datos es impar, entonces la mediana es el valor central. Esto es,el dato
n −1
+ 1 − ésimo
2
Por ejemplo:
Para los datos de la muestra
2 2 4 4 4 7 7 7 9 10 10
n = 11
n −1
+1 = 6 → la mediana es el 6°dato →
2
me = 7
2 2 4 4 4 7 7 7 9 10 10
50% 50%
me
Significa que los datos que forman la primera mitad (50% de los más chicos), no superan 7 y
los datos que forman la segunda mitad (50% de los más grandes) no son superados por 7.
n
• Si el total n es par, entonces la mediana es el promedio de los datos − ésimo y
2
n
+1 − ésimo
2
Por ejemplo, si los datos de la muestra son: 2 2 4 4 4 7 7 9 10 10
Entonces será:
n = 10
UNIDAD 1: Estadística descriptiva 11
n n
=5y + 1 = 6 → la mediana es el promedio entre el 5° dato y el 6°dato →
2 2
4+7
me = = 5,5
2
2 2 4 4 4 7 7 9 10 10
50% 50%
Me =5,5
Esto significa que los datos que forman la primera mitad (50% de los más chicos), no superan
5,5 y los datos que forman la segunda mitad (50% de los más grandes) no son superados por
5,5.
LABORATORIO DE INFORMÁTICA
x i siendo x i un dato
x= i =1
n
UNIDAD 1: Estadística descriptiva 12
Por ejemplo
7 + 9 + 12 + 16
a) el promedio de los siguientes números: 7, 9, 12, 16 es x =
4
x f
0;10 ) 20
10;20 ) 15
20;30 ) 10
30;40 ) 25
40;50 ) 5
En este caso decimos que el intervalo modal es 30;40 ) o bien, que aproximamos la moda
en 35.
En distribuciones representadas mediante histogramas la mediana es el valor que divide al
gráfico en dos partes de igual área
60
50
40
30
20
10
Me
D1 = P10
D2 = P20
.......... .........
D9 = P90
Q1 = P25
Q2 = P50 = me
Q3 = P75
x f F
0 4 4
1 7 11
2 4 15
3 3 18
4 2 20
0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 3 3 3 4 4
0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 3 3 3 4 4
Q4 = 4
Q1 = 1 Q2 = 1 Q3 = 2,5
1 1 2 3 3 4 4 5 5 5 5 6 7 7 8 8 8 8 8 9 9 9 10 11 12
P40 Q3
40%
El percentil 40 ( P40 ) es el valor que deja a la izquierda el 40% de los valores. El 40% de 25 es
10 por lo tanto el Percentil es 5.
El tercer cuartil Q 3 es equivalente al Percentil 75, por lo tanto, el 75% de 25 es 18,75. Por lo
que aproximaremos como Q 3 al valor que se encuentra en la posición 19 que es 8.
Simbólicamente escribiremos P40 = 5 y Q 3 = 8
Las técnicas para calcular percentiles y cuartiles son varias, y las diversas bibliografías proponen
fórmulas distintas de cálculo para aproximarlos.
Nosotros trabajaremos con el concepto y aplicando la proporcionalidad directa aproximaremos
los percentiles o, en la mayoría de los casos, recurriremos a la planilla de cálculo.
LABORATORIO DE INFORMÁTICA
P40
Los locales A y B tienen 3 empleados cada una que ganan en promedio $8000 por
semana. Ambos negocios están uno al lado del otro en un shopping center y
UNIDAD 1: Estadística descriptiva 15
venden el mismo tipo de ropa. A simple vista pareciera que ambas tiendas tienen la misma
política salarial, pero veamos el detalle:
Local A Local B
Laura gana $90000.- (es la encargada) Diego gana $12000.- (es el encargado)
Inés gana $8000.- (es vendedora) Susana gana $8000.- (es la vendedora)
Pedro gana $7000.- (es el cadete) Emiliano es el cadete (cuánto gana?)
Dieg o
La ura Inés $
Susa na
$
$ Ped ro $
$
$
Em ilia no
En el caso A los tres sueldos están próximos a la recta promedio. En el caso B no lo están. Con
lo que se hace evidente que la media por sí sola no es una buena síntesis de las características
de la muestra.
Se hace necesario buscar un valor para medir esa dispersión ya que en este caso es muy
evidente que no son iguales pero hay casos en los que se hace muy difícil ver cuál es la
muestra en la que los datos están más dispersos.
Una forma de aproximar a esta medida podría ser promediar las diferencias entre cada valor y
el promedio:
S2 =
(9000 − 8000)2 + (8000 − 8000)2 + (7000 − 8000)2 =6666,67
3
El inconveniente con el uso de la varianza es que queda expresada en unidades cuadradas. Por
ejemplo para el caso del local A la varianza da 6666,67 pesos al cuadrado.
Para evitar esto y trabajar con una medida que esté expresada en la misma unidad de medida
que la media definimos el desvío estándar que es la raíz cuadrada de la varianza.
MEDIDAS DE DISPERSIÓN
(x − x)
2
i
s2 = i =1
Si los datos están organizados según una tabla de frecuencias, la varianza es el promedio
ponderado de los cuadrados de los desvíos de los valores de la variable respecto de la media
aritmética, siendo la frecuencia absoluta ( f ) la que proporciona el peso a cada valor.
Su fórmula es la siguiente:
(x − x ) fi
2
i
s2 = i =1
Es decir:
s = s2
Cuando las muestra observada es pequeña, podríamos tener algún error para sacar
conclusiones a partir de los valores obtenidos, por esa razón conviene trabajar con una formula
modificada de la varianza, la llamamos varianza insesgada, o varianza para muestras pequeñas
(x − x)
2
i
s* = i =1
2
n −1
UNIDAD 1: Estadística descriptiva 17
Si los datos están organizados según una tabla de frecuencias, su fórmula es la siguiente:
(x − x ) fi
2
i
s* = i =1
2
n −1
Es decir:
s* = s 2
Es una especie de “desvío promedio”; representa de alguna forma a todos los
desvíos sin contemplar su signo.
LABORATORIO DE INFORMÁTICA
Se expresa en porcentaje y expresa qué parte de la media representa el desvío. Esto es:
s
c.v.% = . 100
x
UNIDAD 1: Estadística descriptiva 18
El coeficiente de variación es una medida que relaciona la media y el desvío de una muestra y
permite comparar muestras en función de la homogeneidad. Dadas dos muestras será más
homogénea aquella que tenga el menor coeficiente de variación.
Media acotada
Respecto del coeficiente de variación hay una cuestión que se hace muy importante
para tener en cuenta: cuando una muestra tiene una gran dispersión, la media no
es una medida adecuada como síntesis de información de la muestra y se deben
recurrir a otras medidas como la mediana o la moda para representarla.
Otra estrategia cuando las muestras no son pequeñas cuando se observa una gran dispersión
relativa, es trabajar con los valores centrales y para ello se usa la MEDIA ACOTADA.
Por ejemplo una media acotada al 80% se calcula despreciando el 10% de los valores menores
y el 10% de los valores superiores para evitar que los extremos modifiquen el valor de la media
En la muestra:
LABORATORIO DE INFORMÁTICA
Se llama marca de clase al punto medio del intervalo de clase. A este valor
se lo designa como xi