Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO INSTRUCCIONAL
ESTADÍSTICA DESCRIPTIVA
Trujillo – Venezuela
2001
Tema 1: sesiones 2, 3 y 4
ÍNDICE
Página
Presentación 3
Introducción 4
Usuarios 6
Orientaciones 6
Objetivos 7
Estadística descriptiva 8
Distribuciones de frecuencias 9
Distribución de frecuencias para variables cualitativas 11
Distribución de frecuencias para variables cuantitativas 12
Medidas de centralidad o tendencia central 21
Media aritmética 22
Mediana 22
Moda 23
Relaciones entre las medidas de tendencia central 29
Medidas de variabilidad o dispersión 30
Rango 30
Varianza 30
Desviación típica 31
Coeficiente de variación 31
Auto evaluación 35
Bibliografía 37
Básica 42
Complementaria 42
2
Tema 1: sesiones 2, 3 y 4
PRESENTACIÓN
3
Tema 1: sesiones 2, 3 y 4
INTRODUCCIÓN
4
Tema 1: sesiones 2, 3 y 4
5
Tema 1: sesiones 2, 3 y 4
USUARIOS O AUDIENCIAS
ORIENTACIONES
6
Tema 1: sesiones 2, 3 y 4
7
Tema 1: sesiones 2, 3 y 4
ESTADÍSTICA DESCRIPTIVA
8
Tema 1: sesiones 2, 3 y 4
DISTRIBUCIONES DE FRECUENCIA
El procedimiento más sencillo para ordenar sistemáticamente los datos es formar una
distribución, es decir, un agrupamiento de ellos. Una distribución de frecuencia es un cuadro
o tabla resumen de datos, en el que se presentan el conjunto de categorías o valores en que
se divide la variable que se estudia, asociada con sus respectivas frecuencias.
2 8 8 6 1 3 8 1 1 7
1 7 3 3 7 4 4 5 4 3
5 5 3 6 7 2 7 5 7 4
En este conjunto de datos se observa, por ejemplo, que 3 de las empresas llevan 8 años compitiendo
en el mercado (dichas casos están encuadrados en el conjunto de datos). El valor 3 es el número de
veces que se repite el dato 8 años y representa la frecuencia de este dato.
datos n Æ ∑fi = n
9
Tema 1: sesiones 2, 3 y 4
La suma de todas las frecuencias relativas debe ser igual a la unidad Æ ∑hi = 1
10
Tema 1: sesiones 2, 3 y 4
Todas las frecuencias pueden ser calculadas y presentadas mediante tablas que
muestren las principales características de su distribución tanto para variables cualitativas
como para variables cuantitativas, aspectos que serán desarrollados en este módulo.
OP BP OP BP OF BP BP OP BP BP Donde:
OF BP BP OP OP OF BP BP BP OP BP: Banca Privada
OP OP BP BP OF OF BP BP OP OF OP: Organismos públicos
OF: Otra Fuentes
11
Tema 1: sesiones 2, 3 y 4
Tabla 1
Fuentes de financiamiento de las empresas comerciales en el Estado Trujillo
Las frecuencias presentadas en la Tabla 1 fueron obtenidas aplicando las fórmulas para
el cálculo de frecuencias estudiadas en la clasificación de frecuencias.
En la columna de la frecuencia absoluta simple (fi) se muestra que 9 empresas reciben
financiamiento de Organismos Públicos, 15 de la Banca Privada y las restantes 6 empresas
obtienen su financiamiento de Otras Fuentes.
En la columna de la frecuencia absoluta acumulada (Fi), se observa que para la primera
opción, Organismos Públicos, sólo está acumulada la frecuencia para esta misma opción, por
ser la primera. Por otra parte, 24 empresas son financiadas tanto por Organismos Públicos
como por la Banca Privada y finalmente se acumulan las 30 empresas encuestadas con todas
sus opciones de financiamiento. Es importante recalcar que el último valor de la columna de
frecuencias acumuladas siempre deberá coincidir con el número total de datos (n).
La siguiente columna muestra la frecuencia relativa simple (hi) presenta el peso,
proporción o importancia de cada opción de financiamiento para las empresas, de manera
que la proporción de empresas financiadas por Organismos Públicos es 0.3, es decir, de las
30 empresas 9 son financiadas por estos organismos (9/30), mientras que 0.5 y 0.2 son las
proporciones de empresas financiadas por la Banca Privada y por Otras Fuentes
respectivamente.
Una interpretación de uso muy frecuente en todos los campos, particularmente en los
negocios, es el porcentaje (%), el cual se ilustra en la última columna de la Tabla 1; de
12
Tema 1: sesiones 2, 3 y 4
manera que podemos afirmar que un 50% de las empresas son financiadas por la Banca
Privada, un 30% por los Organismos Públicos y el 20% restante por Otras Fuentes.
Gráfico 1
Fuentes de financiamiento de las empresas
del Estado Trujillo
Otras
Fuentes Organismo
20% s Públicos
30%
Banca
Privada
50%
Fuente: Tabla 1
13
Tema 1: sesiones 2, 3 y 4
b) Gráfico de barras.
Gráfico 2
Fuentes de financiamiento de las empresas
del Estado Trujillo
Número de empresas
16
14
12
10
8
6
4
2
0
Organismos Banca Privada Otras Fuentes
Públicos
Fuentes de financiamiento
Fuente: Tabla 1
14
Tema 1: sesiones 2, 3 y 4
datos; sin embargo una regla práctica que puede ser útil es agrupar en clases cuando el
número de valores diferentes de la variable es numeroso, por ejemplo mayor que 10.
La tabla de distribución de frecuencias para este caso será ilustrado con la Actividad 3,
el cual utiliza los datos de la actividad 1.
15
Tema 1: sesiones 2, 3 y 4
16
Tema 1: sesiones 2, 3 y 4
Gráfico 3
Número de empresas
Tiempo en el mercado del Estado Trujillo
7
1
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00
Fuente: Tabla 2
17
Tema 1: sesiones 2, 3 y 4
Actividad 4. Otra pregunta del cuestionario aplicado a las empresas del Estado Trujillo está
relacionada con el beneficio obtenido al finalizar el ejercicio económico del año 1999, expresado en
porcentaje sobre las ventas. Los resultados se muestran a continuación:
25 65 0,8 0,5 0,7 41 39 12 0,4 0,5
0,5 19 0,8 24 24 0,1 49 0,2 0,4 11
0,3 0,3 0,4 31 0,5 0,4 0 0,7 0,7 25
18
Tema 1: sesiones 2, 3 y 4
Una evaluación superficial de estos datos nos permite determinar que, aunque son
sólo 30, casi todos son diferentes, es decir, se repiten poco; argumento válido para decidir
que es conveniente diseñar una distribución por clases o intervalos para la variable
porcentaje de beneficio, de manera que se aplicarán los pasos señalados en su construcción.
19
Tema 1: sesiones 2, 3 y 4
siempre se considera cerrado. Esto permite ubicar con precisión cada dato en una y sólo
una clase, evitando así cualquier ambigüedad.
6. Se calculan las demás frecuencias aplicando las fórmulas estudiadas
Tabla 3
Porcentaje de beneficios obtenido por las empresas comerciales
en el Estado Trujillo. Año 1999
Limite Limite %
inferior superior fi Fi hi % Hi acumulado Xm
0 - 11 18 18 0,6000 60,00 0,6000 60,00 5,5
11 - 22 3 21 0,1000 10,00 0,7000 70,00 16,5
22 - 33 5 26 0,1667 16,67 0,8667 86,67 27,5
33 - 44 2 28 0,0667 6,67 0,9333 93,33 38,5
44 - 55 1 29 0,0333 3,33 0,9667 96,67 49,5
55 - 66 1 30 0,0333 3,33 1,0000 100,00 60,5
30 1 100
Fuente: Encuesta aplicada a las empresas del Estado Trujillo, año 2000
20
Tema 1: sesiones 2, 3 y 4
Gráfico 4
Porcentaje de Beneficios de las empresasen el
Estado Trujillo. Año 1999
Número de empresas
20
18
16
14
12
10
8
6
4
2
0
0 - 11 11 - 22 22 - 33 33 - 44 44 - 55 55 - 66
Porcentaje de beneficios
21
Tema 1: sesiones 2, 3 y 4
Media aritmética: X
La media aritmética representa el punto de equilibrio o centro de gravedad en la
distribución de frecuencias de una variable.
La media aritmética de un conjunto de n medidas x1, x2, ... xn, es la suma de estas
medidas dividas por número total de ellas n.
X=
∑X i i
; si se trata de toda la población: µ =
∑X
i i
es la Media poblacional
n N
donde: n tamaño de la muestra y N tamaño de la población.
Características:
La media está afectada por cada valor del conjunto, principalmente por los valores
extremos.
Es fácil de calcular y se presta a manipulaciones algebraicas, por esto es el
promedio más usado; pero no se puede calcular en clases abiertas (esto constituye
una desventaja).
Propiedades:
1.- La suma de las desviaciones a partir de la media aritmética es cero: ∑( X
i
i − X) =0
X 1n1 + X 2 n 2 + .... X k n k
..... nk tienen media X k entonces la media general es: X g =
n1 + n 2 + .... + n k
Mediana Md o Me
La mediana de un conjunto de datos de una variable es el valor que divide en dos
partes iguales a su distribución de frecuencias, cuando los datos están ordenadas en forma
ascendente.
22
Tema 1: sesiones 2, 3 y 4
Características:
No se ve afectada por valores extremos.
Se puede calcular en intervalos abiertos.
En distribuciones muy asimétricas es una medida de centralidad más representativa
que la media.
Tiene las desventajas de no prestarse a manipulaciones algebraicas y no tomar en
consideración, para su cálculo, toda la información disponible.
Moda o Modo Mo
Es el valor de la variable que más se repite en una distribución de frecuencias (el valor
con mayor frecuencia). Una distribución puede tener más de un modo pudiendo ser:
Unimodal (si tiene sólo 1), Bimodal (si tiene 2) o multimodal o n-modal (si tiene n modos).
Características:
La moda no siempre ocurrirá como un valor central, sino que por lo general es un
valor extremo.
No se ve afectada por valores extremos, puede calcularse en intervalos abiertos,
siempre que la clase modal no esté abierta.
No se presta a manipulaciones algebraicas ni toma en cuenta, para su cálculo, toda
la información disponible.
1. Para variables cualitativas la única medida de tendencia central que puede calcularse es
la moda, dado que el cálculo de las demás medidas requiere que la variable sea numérica.
23
Tema 1: sesiones 2, 3 y 4
2. Para variables cuantitativas puede presentarse varios casos dependiendo del tipo de
distribución que se esté utilizando, así:
Actividad 6. Los registros de ventas totales diarias (en millones de Bs.) durante una semana
en una empresa son los siguientes:
lunes martes miércoles jueves viernes sábado
1,5 2 2,7 0,8 3,5 4
En esta Actividad cada valor aparece una sola vez, no se repite ninguno. Y deseamos calcular e
interpretar sus medidas de tendencia central.
X=
∑X
i i
=
1,5 + 2 + 2,7 + 0,8 + 3,5 + 4
= 2,071428 millones de bolívares
n 7
Por tanto, esta empresa muestra un promedio de ventas diarias de 2.071.428 bolívares
en la referida semana
24
Tema 1: sesiones 2, 3 y 4
Para el cálculo de las medidas de tendencia central se requiere los valores de la variable
Xi, las frecuencias absolutas simples fi, las frecuencias absolutas acumuladas Fi, valores
que trasladamos de la Tabla 2 a la Tabla 4.
Tabla 4
Tabla de cálculos para la determinación de las medidas de tendencia central para la
variable Tiempo (en años cumplidos).
Tiempo fi Fi Xifi
Xi
1 4 4 4
2 2 6 4
3 5 11 15
Mediana 4 4 15 16
5 4 19 20
6 2 21 12
Moda 7 6 27 42
8 3 30 24
Total empresas 30 137
Media. Para facilitar los cálculos agregamos a la tabla 4 la columna Xifi y luego se aplica la
siguiente fórmula: X =
∑Xi i fi
=
137
= 4,57 años
n 30
Es así como el tiempo promedio que llevan las empresas encuestadas en el mercado de
Trujillo es de 4,57 años
25
Tema 1: sesiones 2, 3 y 4
Para el cálculo de las medidas de tendencia central se requiere los valores medios de las
clases Xm, las frecuencias absolutas simples fi y las frecuencias absolutas acumuladas
Fi, valores que trasladamos de la Tabla 3 a la Tabla 5.
Tabla 5
Tabla de cálculos para la determinación de las medidas de tendencia central para la
variable Porcentaje de Beneficio.
26
Tema 1: sesiones 2, 3 y 4
Li Ls fi Fi Xm Xmfi
Clase medianal 0 11 18 18 5,5 99,00
y 11 22 3 21 16,5 49,50
Clase modal 22 33 5 26 27,5 137,50
33 44 2 28 38,5 77,00
44 55 1 29 49,5 49,50
55 66 1 30 60,5 60,50
30 473,00
Media. Para facilitar los cálculos agregamos a la tabla 5 la columna Xmfi y luego se aplica
la siguiente fórmula: X =
∑X i mi fi
=
473
= 15,77 % de beneficios durante el año 1999
n 30
Es así como el porcentaje promedio de beneficios que obtienen las empresas encuestadas
durante el año 1999 15,77%.
27
Tema 1: sesiones 2, 3 y 4
a.- Si se observa perfecta simetría respecto de un eje central, las tres medidas coinciden:
X = Md = Mo
28
Tema 1: sesiones 2, 3 y 4
fi
Variable
b.- Si la distribución está más extendida hacia valores mayores de la variable, la asimetría es
positiva o de cola derecha: X > Md > Mo
fi
Variable
c.- Si la distribución está más extendida hacia valores menores de la variable, la asimetría es
negativa o de cola izquierda: X < Md < Mo
fi
Variable
d.- Situaciones intermedias darán diferentes grados de asimetría positiva o negativa.
Las medidas de dispersión a variabilidad son valores que indican que tan concentrados
o dispersos se distribuyen un conjunto de observaciones o datos de una variable. Estas
medidas tienen carácter comparativo; así cuando comparamos un conjunto de datos, aquel
29
Tema 1: sesiones 2, 3 y 4
donde estas medidas sean más elevadas reflejará mayor variabilidad o dispersión, lo
contrario es igualmente válido.
Rango o recorrido R
Es la medida de dispersión más simple, representa la variabilidad total de los datos, no
indica la dispersión respecto a un valor central. Es muy afectada por valores extremos.
R = Xmáx - Xmín
∑( X i − X )2
La varianza de n medidas X1, X2, ...... Xn es: V ( X ) = i
n
Si se trata de toda la población de tamaño N:
∑( X i − µ )2
V (X ) = σ 2 = i
Varianza poblacional
N
∑( X i − X )2
Para cualquier muestra: V ( X ) = S 2 = i
es la varianza muestral insesgada.
n −1
Características:
La varianza es siempre positiva: V(X) ≥ 0
Tiene carácter comparativo y está medida en unidades originales al cuadrado.
Propiedades:
30
Tema 1: sesiones 2, 3 y 4
V(X) ≥ 0
V(K) = 0 ; si K es una constante
V(X ± K) = V(X); si K es una constante
V(KX) = K²V(X); si K es una constante
V(X ± Y) = V(X) + V(Y); si X y Y son variables independientes.
Desviación típica
La varianza dá origen a una medida que tiene gran utilidad e interpretación práctica: la
desviación típica o estándar.
Este valor mide la dispersión o variabilidad en las mismas unidades que se mide la
variable original. Su utilidad se centra en el cálculo de variables estandarizadas normales
para la inferencia estadística.
Coeficiente de variación CV
Se define como la relación entre la desviación típica y la media aritmética medido
porcentualmente:
σ S
CV = 100 CV poblacional y CV = 100 CV muestral
µ X
31
Tema 1: sesiones 2, 3 y 4
1. Para variables cualitativas las medidas de dispersión no pueden calcularse, dado que su
cálculo requiere que la variable sea numérica.
3. Para variables cuantitativas puede presentarse varios casos dependiendo del tipo de
distribución que se esté utilizando, así:
∑ (X i − X )2
∑X 2
− nX 2
V (X ) = S = =
2 i i i
Varianza:
n −1 n −1
V (X ) = S 2
=
∑X
i i
2
− nX 2
=
1,5 2 + 2 2 + 2,7 2 + 0,8 2 + 3,5 2 + 4 2 − 7(2,071428)
= 2,06572
n −1 7 −1
Actividad 10. Utilizando la distribución de la actividad 3 (Tabla 2), calcular e interpretar las
medidas de dispersión para la variable tiempo (en años cumplidos) que llevan las empresas
comerciales compitiendo en el mercado del Estado Trujillo.
32
Tema 1: sesiones 2, 3 y 4
Tabla 6
Tabla de cálculos para la determinación de las medidas de dispersión o variabilidad
para la variable Tiempo (en años cumplidos)
Tiempo (Xi) fi Xi2fi
1 4 4
2 2 8
3 5 45
4 4 64
5 4 100
6 2 72
7 6 294
8 3 192
Total 30 779
Varianza:
∑ (X i − X )2 fi
∑X 2
f i − nX 2 779 − 30(4,67)
V (X ) = S = = = = 4,3011
2 i i i
n −1 n −1 30 − 1
S 2,0739
Coeficiente de variación CV = 100 = 100 = 44,41%
X 4,67
Actividad 11. Utilizando la distribución de la actividad 4 (Tabla 3), calcular e interpretar las
medidas de variabilidad para la variable porcentaje beneficio obtenido al finalizar el ejercicio
económico del año 1999, expresado en porcentaje sobre las ventas de las empresas comerciales
compitiendo en el mercado del Estado Trujillo.
33
Tema 1: sesiones 2, 3 y 4
Tabla 7
Tabla de cálculos para la determinación de las medidas de dispersión o variabilidad
para la variable Porcentaje de Beneficio.
Li Ls fi Xm Xm2fi
0 11 18 5,5 544,50
11 22 3 16,5 816,75
22 33 5 27,5 3781,25
33 44 2 38,5 2964,50
44 55 1 49,5 2450,25
55 66 1 60,5 3660,25
30 14217,50
Varianza:
∑ ( Xm i − X )2 fi
∑ Xm 2
f i − nX 2 14217,50 − 30(15,77) 2
V (X ) = S = = = = 232,99
2 i i i
n −1 n −1 30 − 1
S 15,26
Coeficiente de variación CV = 100 = 100 = 96,79%
X 15,77
AUTO EVALUACIÓN
Usted como investigador requiere realizar un estudio sobre la situación financiera de las
empresas en el Estado Trujillo y su relación con la actividad a la cual se dedican y su tamaño, con
este fin planifica un estudio y entre Febrero y Marzo del año 1999, entrevista a los gerentes de una
muestra de estas empresas. La base de datos siguiente presenta sus resultados.
34
Tema 1: sesiones 2, 3 y 4
Variables consideradas:
IDEN_EMP Identificación (enumeración) de las empresas
SECTOR Actividad principal a la cual se dedica la empresa; 1: Construcción; 2: Comercio; 3
Alimentos; 4: Inmobiliaria; 5: Servicios públicos
VTAS1999 Ventas durante el año 1999, en miles de Bs.
BEN1997 % de beneficios antes del ISR (sobre las ventas) durante el año 1997
BEN1998 % de beneficios antes del ISR (sobre las ventas) durante el año 1998
N_TRABAJ Número de trabajadores. 1: de 5 a 20 (pequeña EMP); 2: de 21 a 100 (mediana EMP.); 3
más de 100 (gran EMP.)
Datos recolectados:
IDEN_EMP SECTOR VTAS1999 BEN1997 BEN1998 N_TRABAJ
1 3 191244,0 12 25 3
2 2 53539,0 63 65 3
3 2 147291,0 0.7 0.8 2
4 4 22957,0 0.6 0.5 1
5 3 40049,0 0.2 0.7 1
6 3 9624,0 0.7 41 1
7 2 28448,0 38 39 3
8 3 11425,0 11 12 1
9 1 33386,0 0.3 0.4 1
10 3 43253,0 0.4 0.5 1
11 1 53662,0 0.5 0.5 1
12 3 37438,0 17 19 2
13 3 34703,0 10 0.8 1
14 3 38067,0 20 24 2
15 5 1094,0 99 24 1
16 2 360252,0 0.1 0.1 1
17 3 59397,0 43 49 3
18 3 56661,0 -0.2 0.2 1
19 3 407013,0 0.4 0.4 3
20 3 144822,0 0.3 11 1
21 3 211385,0 0.3 0.3 2
22 3 410137,0 0.4 0.3 3
23 3 30887,0 0.4 0.4 1
24 4 58115,0 0.9 31 1
25 3 199485,0 0.6 0.5 2
26 3 6054,0 -0.4 0.4 1
35
Tema 1: sesiones 2, 3 y 4
27 2 671051,0 0.1 00 1
28 3 407808,0 0.7 0.7 3
29 3 231054,0 0.7 0.7 3
30 3 19656,0 25 25 1
36
Tema 1: sesiones 2, 3 y 4
BIBLIOGRAFÍA
BÁSICA
COMPLEMENTARIA
BRYMAN, A. Y CRAMER, D. (1990). Quantitative data analysis for social scientistis.
Routledge. London.
MARTINEZ B., C. (1998). Estadística y muestreo. Ecoediciones. Colombia
MORLES, Víctor. (1994). Planeamiento y análisis de investigaciones. Eldorado
Ediciones. Caracas. Venezuela.
MULLER, R. Y FAJARDO, M. D. (2000). Manual practico de estadística aplicada a
las ciencias sociales. Ariel Practicum. Barcelona.
PAGANO, R.R. (1999). Estadística para las Ciencias del Comportamiento. Thomson
editores. México
RITCHEY, F. J. (2000). Estadística para las Ciencias Sociales. El potencial de la
imaginación estadística. McGraw-Hill. México.
37