Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Descriptivo
Análisis Descriptivo
3.1. ANLISIS
DESCRIPTIVO
DE DATOS
ESTADSTICOS
MEDIANTE
TCNICAS
TABULARES Y GRFICAS
ordenacin, si existe la categora Otro(a), sta deber aparecer como la ltima de las
categoras.
En la segunda columna, bajo el encabezado Nmero de casos se colocan las
frecuencias correspondientes de cada categora; en la ltima fila, fila del total, se pone
la suma de todas las frecuencias y es igual al nmero total de datos.
En la tercera columna se calculan y se ponen los porcentajes. El nmero de cifras
decimales en los porcentajes puede ser de uno o dos.
Ejemplo
resulte ser ms conveniente para el objetivo al que sirve. Los programas como
EXCEL presenta las categoras en un orden alfabtico, a partir del cual se
pueden reordenar con otros criterios: forma ascendente o descendente de las
frecuencias, por ejemplo. En el ejemplo se presenta de acuerdo al orden
descendente de las frecuencias.
En la Tabla 01 podemos observar que algo ms de las tras cuartas partes, 76%, de los
encuestados residen en el distrito de Chiclayo seguido mientras que el 10% residen en
otros distritos.
REPRESENTACIN GRFICA
Una distribucin de frecuencias puede representarse grficamente. Si no se cuenta con
un programa, los grficos se construyen manualmente empleando papel milimetrado,
regla, lpices de colores y, para los grficos circulares usando un transportador. Los
programas especiales, entre ellos EXCEL, permiten construir grficas de manera
cmoda.
Tipos de grficos.
Existe una amplia gama de grficos posibles para representar los datos de una variable
cualitativa.
La mayora de los grficos se construyen en el primer cuadrante del sistema
cartesiano. En este caso, en el eje horizontal (eje X) se ubica la variable con sus
respectivas categoras y en el eje vertical (eje Y) las frecuencias, absolutas o
porcentajes.
Una tabla que se construye para ver el comportamiento combinado de dos variables se
denomina tabla de contingencia, esta es una tabla de distribucin de frecuencias
conjunta de dos variables (otras denominaciones son: tablas bidimensionales,
bivariadas, tablas cruzadas, etc.).
Este tipo de tabla es la que se usa cuando la investigacin tiene como objetivo
determinar la relacin entre dos variables, pues permite calcular las medidas de
correlacin que cuantifican el grado o intensidad de la relacin entre dos variables y la
significacin de dicha relacin.
Consideremos dos variables cualitativas, una de las variables, simbolizada con la letra
A, que tiene r categoras (A1, A2,, Ai , , Ar ) que se encuentran en las filas. La otra
variable simbolizada por B posee c categoras (B1, B2 ,, Bj , , Bc ) que se
encuentran en las columnas.
La estructura general de una tabla de contingencia para las variables A y B es la
siguiente:
Esta es una tabla que slo muestra las frecuencias absolutas y en la mayora de los
casos no es la ms apropiada para presentar en un informe de investigacin, son ms
apropiadas las tablas que presenten las frecuencias absolutas acompaadas con las
frecuencias porcentuales o las tablas que contienen slo las frecuencias porcentuales;
ms adelante ilustraremos estos casos.
Distribuciones marginales
Una tabla de contingencia muestra tambin las frecuencias marginales. En la Tabla 02
tenemos dos distribuciones marginales.
Obsrvese que este grfico es idntico al grfico 02, la nica diferencia es que en el eje
vertical (eje Y) se han colocado los porcentajes.
Porcentajes respecto a los totales marginales. Esta manera de calcular los porcentajes se
presenta cuando una de las variables es considerada como independiente y la otra como
variable dependiente. La regla es calcular los porcentajes con los totales de las categoras
de la variable independiente, ejemplo.
- Se quiere una tabla que contenga la informacin que permita comparar, en trminos
absolutos y relativos, el Grado de Satisfaccin de los estudiantes mujeres con el de los
hombres respecto a la formacin proporcionada por la USAT.
Lectura: Se observa que las dos terceras partes, 66%, de los encuestados
provienen de hogares integrados de 4 a 6 miembros, se aprecia adems que no hay
hogares con ms de 9 personas.
Para ilustrar el significado de cada una de las frecuencias que aparecen en la tabla
anterior evaluemos las cifras de la quinta fila, que corresponde al valor 6 de la variable:
El valor 9 expresa que 9 estudiantes encuestados provienen de hogares con 6
miembros.
El valor 18 expresa que el 18% los encuestados provienen de hogares con 6 miembros.
El valor 41 expresa que 41 encuestados provienen de hogares con 2 a 6 miembros.
El valor 82 significa que el 82% de encuestados provienen de hogares 2 a 6 miembros.
Representacin grfica.
Para representar grficamente las tablas de frecuencias simples (no las acumuladas),
se usan las opciones que se tienen para las variables cualitativas, por ejemplo las
barras.
En la clase 2,
frecuencias slo conserva los aspectos ms importantes de los datos. Una distribucin
que tiene muy pocas clases ocasionar mayor prdida de informacin, por su parte,
una distribucin con un gran nmero de clases conservar informacin muy detallada
que podra ser innecesaria para los objetivos que se persiguen con la investigacin.
Cuntas clases usar? No existen reglas nicas ni rgidas en cuanto al nmero de
clases a emplear para la distribucin de un conjunto de datos; algunos autores
sugieren el uso de ciertas frmulas para calcular el valor del nmero de clases m. Es
conocida la frmula de Sturges:
m = 1 + 3.3xlog(n) siendo n el nmero total de datos.
En todo caso, el resultado de sta o cualquier otra frmula se tomar como un valor
referencial, el nmero de clases a emplear podra ser mayor o menor que el dado por
la frmula.
La mayora de los autores recomiendan usar un 5 < m < 15, de acuerdo a este criterio
no es conveniente usar menos de 5 ni mas de 15 clases, sin embargo pueden haber
situaciones en las que, excepcionalmente, podra usarse un nmero de clases fuera de
este rango.
En general, el agrupamiento de datos en clases ocasiona siempre una prdida de
informaron, si se emplean muy pocas clases ocasiona una mayor la prdida de
informacin, y muchas clases pueden conservar informacin con un grado de detalle
innecesario.
Otro criterio, ms intuitivo y prctico es el de buscar simultneamente dos valores m y
c, que resulten adecuados, ms adelante ilustraremos esta alternativa por medio de un
ejemplo.
Amplitud (o ancho) de clase. Cada clase o categora tiene una determinada amplitud
y se define como la diferencia entre el lmite superior e inferior de dicha clase:
La amplitud de la clase 1 est dada por c1 = L1 L0
La amplitud de de la clase 2 est dada por c 2 = L2 L2 - 1, en general, la amplitud de la
clase i est dada por ci = Li Li 1 .
Se pueden construir distribuciones con amplitudes diferentes, sin embargo se prefieren
clases de amplitud constante, esto es, c1 = c2 = = cm = c.
Construccin de una tabla de distribucin de frecuencias para variable continua.
1- Calcular el rango R.
R = X mayor X menor
Donde x mayor es el mayor valor de los datos y x menor es el menor valor.
2- Decidir respecto al nmero de clases m, y la amplitud de clase c.
3- Construir las clases y determinar las frecuencias de cada clase
Al igual que en los casos anteriores, se puede elaborar una tabla de frecuencias en
forma manual o usando un paquete especializado. Presentaremos ejemplos de ambos
casos.
Ejemplo de distribucin de frecuencias para una variable cuantitativa continua
1 Propsito especfico: Mostrar la distribucin de las estaturas de los estudiantes
encuestados.
2 Diseo de la tabla. La tabla deber mostrar tanto las frecuencias absolutas (el
nmero de estudiantes que caen encada categora o clase), porcentajes. El formato
adecuado es el siguiente:
Punto
medio
1.475
1.525
1.575
1.625
1.675
1.725
1.775
Frecuencia
2
8
12
13
7
4
4
50
Porcentaje
4.0
16.0
24.0
26.0
14.0
8.0
8.0
100.0
Acumulativa
Frecuencia Porcentaje
2
4.0
10
20.0
22
44.0
35
70.0
42
84.0
46
92.0
50
100.0
Y GRFICAS
ESTADSTICAS
En la presentacin en Power Point se explica el ptrecedimiento para construir tablas
para una variable cualitativa usando el complemento MegaStat de EXCEL
Menor Dispersin
(Ms homogneos)
Mayor Dispersin
(Ms heterogneos)
Algunas de las diversas formas que puede tomar una distribucin de frecuencias de los datos de una
variable cuantitativa se muestran a continuacin:
( a ) Distribucin unimodal
Simtrica
( b )Distribucin unimodal
con Asimetra negativa
( d ) Distribucin unimodal
Mesocrtica
( e ) Distribucin unimodal
Leptocrtica
( g ) Distribucin bimodal
unimodal asimtrica
( i ) Distribucin
2) Clculo
3) Interpretacin
En los que sigue proporcionaremos una breve descripcin de los conceptos. En
principio, el clculo de cualquier medida estadstica descriptiva se puede realizar
manualmente, con la ayuda de una calculadora de bolsillo o mediante el uso de
programas especiales de cmputo.
En esta ocasin usaremos una vez ms las funciones especiales y el complemento
MegaStat del programa EXCEL de Microsoft. De modo que las frmulas, que
atemorizan a no pocos se presentarn para ser conocidas, pero dejaremos que EXCEL
use las frmulas, haga los clculos y nos muestre los resultados para centrar nuestra
atencin en las interpretaciones.
BASE DE DATOS PARA EJEMPLOS
Para ilustrar el clculo y la interpretacin de las medidas de tendencia central usaremos
dos bases de datos que se encuentran en el Aula Virtual
1) La base de datos correspondiente a la encuesta de estudiantes y egresados de
educacin secundaria
2) La base de datos Trabajo
MODA (Mo)
Concepto
La moda, que simbolizaremos por Mo, de un conjunto de datos estadsticos es el valor
que se presenta con mayor frecuencia. Un conjunto de datos puede no tener moda,
tener una moda (unimodal), tener dos modas (bimodal) o poseer ms de dos modas
(multimodal). La moda puede hallarse tambin para datos de variables cualitativas.
Clculo de la moda de un conjunto de datos.
1) Clculo de la moda de datos no agrupados
Si X1, X2, X3,, Xn son n valores de una variable cuantitativa X, y n relativamente
pequeo, entonces la moda o modas se determina por simple inspeccin de los
datos.
Ejemplo.
2 Ubquese una celda vaca de Excel, en la cual deseamos que aparezca la moda
de los datos, en nuestro caso, nos ubicamos en la columna V y la fila 10
3 escriba el signo = escriba de la palabra moda y dentro del parntesis seleccionar
el rango de los datos que contienen los datos del ingresa familiar mensual. Vase la
figura:
4 Presionar Enter. Como resultado aparece en la celda V10 el valor 1450, que es la
moda que se quera conocer.
Interpretacin: El ingreso familiar tpico o ms frecuente de los encuestados es
1450 nuevos soles.
Observacin, Si un conjunto de datos posee ms de dos modas, la funcin Moda
de EXCEL slo detecta la una de ellas.
Para ilustrar este hecho consideremos el siguiente conjunto de datos respecto al
nmero de mensajes de texto recibidos por 20 personas en un da:
5
10
10
13
10
0 12 10
Este conjunto de datos posee dos modas, los valores 6 y 10; sin embargo, si
usamos la funcin moda de EXCEL slo detecta la moda Mo = 10, obsrvese que
este valor aparece antes que 6 en el conjunto de datos. Si hacemos un pequeo
cambio en el orden de los datos de modo que el 6 aparezca antes que el 10, por
ejemplo permutando los valores de 8 y 6, como se muestra en seguida
5
10
10
13
10
0 12 10
d1
d1 d 2
Mo Li 1
Donde
Li 1 : lmite inferior de la clase modal
Frecuencia
(ni)
12
20
30
24
18
10
8
122
Solucin
-
Li 1 : 1500
d 1 ni ni 1 = 30 20 = 10
d 2 ni ni 1 = 30 24 = 6
d1
10
c 1500
x500
10 6
d1 d 2
Mo Li 1
Mo = 1812.5
El ingreso ms frecuente de los jefes de hogar encuestados es S/. 1812.50 nuevos
soles.
MEDIANA (Me)
Concepto
La mediana, que simbolizaremos por Me, de un conjunto de datos estadsticos es el
valor que se ubica en el centro de los datos ordenados en forma creciente (o
decreciente), este valor divide al conjunto de datos en dos grupos, de modo que 50%
de los datos sern menores o iguales que ma mediana y 50% mayores o iguales que la
mediana. Un conjunto de datos siempre tiene mediana y es nica.
Clculo de la mediana de un conjunto de datos.
1) Clculo de la Mediana de datos no agrupados
Si X1, X2, X3, , Xn son n valores de una variable cuantitativa X, para calcular la
mediana de estos datos proceda como sigue:
1. Ordene los datos de acuerdo a su magnitud, de menor a mayor. La
representacin simblica de los datos ordenados es:
X(1), X(2), ... , X(n)
2. Determine el valor de la mediana usando los siguientes criterios
a) Si el nmero de datos, n, es impar, la mediana es el dato que est en el
centro de los datos ordenados, esto es,
Me X
n 1
)
2
n
( )
2
n
( 1)
2
Ejemplo
Calcular e interpretar la mediana del ingreso familiar mensual de los encuestados.
Solucin
Clculo de la mediana usando la funcin Mediana de EXCEL.
4 Presionar Enter, como resultado aparece en la celda V11 el valor 1410, que es la
mediana que se quera conocer.
Interpretacin: El ingreso familiar mediano de los encuestados es 1410 nuevos
soles. El 50% de los encuestados tienen ingreso familiar menor o igual a 1410
nuevos los y los restantes 50% tienen ingresos mayores o iguales a 1410 nuevos
soles.
2) Clculo de la mediana para datos agrupados
1 Hallar las frecuencias absolutas acumuladas Identificar la clase mediana
(intervalo mediano), que es aquella que contiene al dato que ocupa la posicin n/2,
Me Li 1
n
N i 1
2
ni
c.
mediana
Frecuencia
Frecuencia Acumulada
(ni)
(Ni)
12
12
20
32
30
62
24
86
18
104
10
114
8
122
122
Solucin
-
Li 1 : 1500
N i 1 32
ni 30
c =20001500 = 500
Me Li 1
n
N i 1
2
ni
122
32
2
c 1500
x500
30
Me = 1983.33
El ingreso mediano de los jefes de hogar encuestados es S/. 1983.33 nuevos soles.
MEDIA ARITMTICA ( X )
Concepto
La mediana aritmtica o brevemente media, que se simboliza con X , de un conjunto
de datos estadsticos es el valor que expresa el centro de gravedad de la masa de
x
i 1
x
i 1
n x
i 1
n x
i 1
N
n
Donde las xi son las marcas de clase (puntos medios) y las n i son las frecuencias
absolutas simples y N y n son los tamaos de poblacin y de la muestra,
respectivamente.
Ejemplo. La tabla que sigue es la distribucin de los ingresos de una muestra de
122 jefes de hogar. Calclese e interprtese la mediana
Ingreso
mensual
500 - 1000
1000 - 1500
1500 - 2000
2000 - 2500
2500 - 3000
3000 - 3500
3500 - 4000
Total
Frecuencia
(ni)
12
20
30
24
18
10
8
122
Marca de
clase (Xi)
750
1250
1750
2250
2750
3250
3750
Xi.ni
9000
25000
52500
54000
49500
32500
30000
252500
Solucin
Para calcular la media aritmtica de datos agrupados solo requerimos las marcas
de clase o puntos medios y las frecuencias simples, calculamos la suma de los
productos de las marcas de clase por sus respectivas frecuencias simples y
remplazamos en la frmula
n
n x
i i
i 1
n x
i
i 1
252500
2069.67213
122
_
1
Xi X
n 1
2
i
X i / n
2
n 1
Clculo de la Varianza.
Como puede observarse, la varianza es el valor de la desviacin estndar elevada al cuadrado. La
frmula para calcularla es:
_
1
S
Xi X
n 1
2
i
X i / n
2
n 1
= Var(rango de datos)
B Clculo de la desviacin estndar y la varianza para datos agrupados
Cuando los datos estn agrupados en una tabla de distribucin de frecuencias, la desviacin
estndar y la varianza se calcula con estas frmulas:
Clculo de la Desviacin estndar
_
1
Xi X
n 1
S2
ni
1
xi2 ni ( xi n.i ) 2 / n
n 1
Clculo de la Varianza
S2
_
1
Xi X
n 1
ni
1
xi2 ni ( xi n.i ) 2 / n
S2
n 1
Desviacin estndar
S
x100
x100
X
Mediaaritmtica
MEDIDAS DE DISTRIBUCIN
ASIMETRA
Algunas de las diversas formas que puede tomar una distribucin de frecuencias de los datos de una
variable cuantitativa se muestran a continuacin:
( a ) Distribucin unimodal
Simtrica
( b )Distribucin unimodal
con Asimetra negativa
g1
(1 / n)( ( xi x ) 3
i 1
g1
(1 / n)( ( xi x ) 3 ni
i 1
s3
Solucin:
CURTOSIS
La curtosis hace referencia al apuntamiento o elevacin de la distribucin de frecuencias de una variable
cuantitativa
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor
de la zona central de la distribucin.
g2
(1 / n)( ( xi x ) 4
i 1
g2
(1 / n)( ( xi x ) 4 ni
i 1
s4
g2 = 0 (distribucin mesocrtica).
( d ) Distribucin unimodal
Mesocrtica
( e ) Distribucin unimodal
Leptocrtica