Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad I PDF
Unidad I PDF
Estadística Descriptiva.
ESTADÍSTICA DESCRIPTIVA
Definición
De estadística descriptiva consisten procedimientos usados para resumir y escribir
las características importantes de un conjunto de mediciones.
Ejemplos:
x i
x i 1
n
donde:
x = media aritmética
xi = dato i
Ejemplos:
Solución:
_
26.5 24.8 25.3 30.5 21.4
x 25.7 grs
5
Solución:
_
12.3 12.28 12.27 12.3 12.24 15.01 76.4
x 12.73%Cu
6 6
Solución:
Solución:
_
20 18 18 19 18 19 20 18 18 19 187
x 18.7años
10 10
L a s me d i d as d e p o s ic i ó n di vi d e n u n
co n ju n t o d e d a t o s e n gr u p o s con e l
mi s mo n ú me r o d e i n di vi du o s.
Pa r a cal cul ar l a s me d i da s d e p o s ic ió n
es n e ce sar io q ue los d a to s e sté n
o r d e n ad o s d e me no r a ma yo r .
L a me d i d as d e po s i c ió n so n :
Cua rt i l e s
L o s c ua rt i l e s so n lo s t re s va l o re s d e
l a v a ri a bl e q u e d i vi d e n a u n c o nj unt o
d e d at o s o rd e nad o s e n c ua t ro p a rte s
i g ua l e s .
Q 1 , Q 2 y Q 3 d e t e r mi n a n l o s val ore s
co r r e spo n di e n te s al 2 5 %, a l 5 0 % y a l
7 5 % d e l o s d at o s.
Q 2 co i n ci d e co n l a me d ia na .
Si las frecuencias descienden más lentamente por la izquierda que por la derecha
diremos que la distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Una de
ellas es el Coeficiente de Asimetría de Pearson:
Un a d i st ri b u ci ó n d e f re cu e n ci a s o t a b la d e fr e cu e n ci a s e s u n a
o r d e n a ci ón e n f or ma d e t a b l a d e l o s d a t o s e st a dí sti co s , a si g na n d o
a ca d a d at o su fr e cu e n cia co rr e sp o ndi e n te .
T ip o s d e fr e cu en ci a
F r e cu en ci a a b solu t a
L a f r e cu e n ci a ab sol u t a e s el n ú me r o d e ve ce s q ue
a p a r e ce u n d e te r mi n a d o val or e n u n e st u di o e st ad í s ti co .
Se r e p r e sen t a p or f i .
L a su ma d e l a s fr e cu en ci a s a b so lu t as e s ig u al al n ú me r o
t o t al d e da t o s, q ue se re p r e se n t a po r N.
Pa r a in di ca r r e su mi d a me n t e e st a s su ma s se u t i li za la
l e tr a gri e g a Σ ( si g ma ma yú scu l a ) que se lee su ma o
su ma t o r i a .
F r e cu en ci a r el at i va
L a f r e cue n ci a r el a ti va e s el co ci e nt e e n t r e la f r e cu e n ci a
a b so lu t a de u n de t e r mi n a d o va lo r y el n ú me r o t o t a l d e d a to s .
Se p u e d e e xp r e sa r e n t an t o s p or cien t o y se r e p re se n t a
por ni.
L a su ma d e l a s fr e cu e n ci a s r el a ti va s e s i gu al a 1 .
Total 40 1.000
_
Media ( x ).
x * f i i
( 6.075 )( 2 ) ( 6.295 )( 5 ) ... ( 7.175 )( 6 ) 12.15 31.475 ... 43.05
x i 1
n 40 40
268.52
= 6.713 pu lg adas
40
Donde:
k = número de clases
xi = marca de clase i
fi = frecuencia de la clase i
k
f
i 1
i
n= número de datos en la muestra
Mediana.
Mediana (Xmed).
n / 2 Fme 1 40 / 2 14
Xmed Li A 6.625 ( 0.22 ) 6.7265
fme 13
Donde:
A = LRS-LRI
Moda.
Moda (Xmod).
d1 6
X mod Li A 6.625 ( 0.22 ) 6.735 pu lg adas
d1 d 2 6 6
Donde:
fmo fmo 1 13 7 6
d1 = =
fmo fmo 1 13 7 6
d2 = =
A = LRS – LRI
Ejemplo
Consideramos una tabla estadística relativa a una variable continua, de la que nos
dan los intervalos, las marcas de clase ci, y las frecuencias absolutas, ni.
Intervalos ci ni
0 -- 2 1 2
2 -- 4 3 1
4 -- 6 5 4
6 -- 8 7 3
8 - 10 9 2
Para calcular la media podemos añadir una columna con las cantidades . La
suma de los términos de esa columna dividida por n=12 es la media:
Intervalos ci ni Ni
0 -- 2 1 2 2 2
2 -- 4 3 1 3 3
4 -- 6 5 4 7 20
6 -- 8 7 3 10 21
8 - 10 9 2 12 18
12 64
La mediana es el valor de la variable que deja por debajo de sí a la mitad de las n
observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas
acumuladas, Ni, y vemos que eso ocurre en la modalidad tercera, es decir,
Las medias de tendencia central o posición nos indican donde se sitúa un dato
dentro de una distribución de datos. Las medidas de dispersión, variabilidad o
variación nos indican si esos datos están próximos entre sí o sí están dispersos,
es decir, nos indican cuán esparcidos se encuentran los datos. Estas medidas de
dispersión nos permiten apreciar la distancia que existe entre los datos a un
cierto valor central e identificar la concentración de los mismos en un cierto sector
de la distribución, es decir, permiten estimar cuán dispersas están dos o más
distribuciones de datos.
Estas medidas permiten evaluar la confiabilidad del valor del dato central de un
conjunto de datos, siendo la media aritmética el dato central más utilizado. Cuando
existe una dispersión pequeña se dice que los datos están dispersos o
acumulados cercanamente respecto a un valor central, en este caso el dato
central es un valor muy representativo. En el caso que la dispersión sea grande el
valor central no es muy confiable. Cuando una distribución de datos tiene poca
dispersión toma el nombre de distribución homogénea y si su dispersión es alta se
llama heterogénea.
1. ASIMETRÍA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes, cada uno de los cuales define de forma concisa como están
distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es
positiva cuando la mayoría de los datos se encuentran por encima del valor de la
media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores
menores que la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.
2. CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la
región central de la distribución. Por medio del Coeficiente de Curtosis, podemos
identificar si existe una gran concentración de valores (Leptocúrtica), una
concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción
a las principales medidas de Estadística Descriptiva; es de gran importancia que
los lectores profundicen en estos temas ya que la principal dificultad del paquete
SPSS radica en el desconocimiento de los conceptos estadísticos.
Las definiciones plasmadas en este capítulo han sido extraídas de los libros
Estadística para administradores escrito por Alan Wester de la editorial McGraw-
Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe
editores (Octava edición). No necesariamente tienes que guiarte por estos libros
ya que en las librerías encontraras una gran variedad de textos que pueden ser de
bastante utilidad en la introducción a esta ciencia.
Los gráficos más usuales para representar variables de tipo nominal son los
siguientes:
Diagramas de barras:
1.3.3 Histogramas
Un hi s t o g ra ma es u na
re p re s e nt a c i ó n g rá fi c a de u na
va ri a b l e e n f o r ma d e b a rra s .
Se u t ili zan p ar a va ri a b l es
c o nt i nua s o p ar a va ri a b l es
d i s c re t a s, co n u n gr a n n ú me r o d e
d a t o s, y q u e se h a n a g r u p a do e n
clases.
En el e je a b sc i s a s se
co n st r u ye n unos re ct á ng ul o s q ue
t i e ne n p or ba s e la a mp l it ud de l
i nt e rva l o , y por a l t ura , la
f re c ue nc i a a b s o l ut a de ca da
i nt e rva l o .
L a s up e rf i c i e d e ca d a b a rra e s
p ro p o rc io na l a l a f re c ue nc i a d e lo s
va l o re s r e p r e se n t a d o s.
Po l í g o no d e f re c ue nc i a
Pa r a co n st ru ir el po l íg o no de
f re c ue nc i a se t o ma l a ma rc a d e
clase qu e coin cid e con el p unt o
me d i o d e ca d a re c tá ng ul o .
Ej e mp l o
El p e so d e 6 5 p e r so n a s a d ul ta s
vi e n e d a d o p o r l a sig ui e n t e t a bl a :
ci fi Fi
[ 5 0 , 6 0) 55 8 8
[ 6 0 , 7 0) 65 10 18
[ 7 0 , 8 0) 75 16 34
[ 8 0 , 9 0) 85 14 48
[ 9 0 , 1 00 ) 95 10 58
[ 1 0 0 , 11 0 ) 110 5 63
[ 1 1 0 , 12 0 ) 115 2 65
65
Hi s t o g ra ma y p o lí g o no d e f re c ue nc i a s a c umul a d a s
Si se r e pr e se n t an la s
f re c ue nc i a s a c umul a d a s de u na
tabla de d a to s ag rup a d o s se
o b t ie n e el hi s to g ra ma de
f re c ue nc i a s a c umul a d a s o su
co r r e spo n di e n te po l í go no .
1.3.4 Ojivas
Va r i a ble s di scr e ta s
L o s p o l íg o n o s d e f r e cue n ci a s se
r e ali za n t ra za n d o lo s p unt o s q ue
r e p r e se n t a n las f re c ue nc i a s y
u n i én d ol o s me d i a n te s eg me nt o s .
Ej e mp l o
L a s t e mp e r a t u r a s e n u n d í a d e
o t o ñ o d e u n a ci u da d h a n su f ri d o la s
si g ui en t e s var ia ci o n e s:
Ho ra T e mp e ra t ura
6 7º
9 12°
12 14°
15 11°
18 12°
21 10°
24 8°
Va ri a b l e s c o nt i nua s o d a to s ag rup ad o s
L o s p o l íg o n o s d e f r e cue n ci a s se
r e ali za n tr a za n do los p unt o s
f o r ma d o s l a s ma rc a s d e c l a s e y la s
f re c ue nc i a s , y u n ié n d ol o s me d i a n te
s e g me nt o s .
T a mb i é n se p u e d e co n st r uir el
p o l íg o no de f re c ue nc i a u ni e n do lo s
p unt o s me d io s de cad a re c tá ng ul o
d e u n hi s to g ra ma .
Ej e mp l o
El p e so d e 6 5 p e r so n a s a d ul ta s
vi e n e d a d o p o r l a sig ui e n t e t a bl a :
ci fi Fi
[ 5 0 , 6 0) 55 8 8
[ 6 0 , 7 0) 65 10 18
[ 7 0 , 8 0) 75 16 34
[ 8 0 , 9 0) 85 14 48
[ 9 0 , 1 00 ) 95 10 58
[ 1 0 0 , 11 0 ) 110 5 63
[ 1 1 0 , 12 0 ) 115 2 65
65
1.3.6 Diagrama de Caja y Ejes
+-----+-+
* o |-------| | |---|
+-----+-+
+---+---+---+---+---+---+---+---+---+---+---+---+
0 5 10 12
Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y
Q3 y el Rango Inter Cuartilico (RIC)
En el ejemplo:
Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que
calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores
atípicos.
Para ello se calcula cuándo se consideran atípicos los valores. Son
aquellos inferiores a Q1-1.5*RIC o superiores a Q3+1.5*RIC.
En el ejemplo:
inferior: 7-1.5*2=4
superior: 9+1.5*2=12
Ahora se buscan los últimos valores que NO son atípicos, que serán los
extremos de los bigotes.
En el ejemplo: 5 y 10
Marcar como atípicos todos los datos que están fuera del
intervalo (Li, Ls).
En el ejemplo: 0.5 y 3.5
inferior: 7-3*2=1
superior: 9+3*2=15
1.3.7 Diagrama de Sectores
También conocido como gráfico de torta o gráfico circular.
Se representan los datos en un círculo, de modo que la frecuencia de cada valor
viene dada por un trozo de área del círculo. Así, el círculo queda dividido en
sectores cuya amplitud es proporcional a las frecuencias de los valores. Sirve para
representar cualquier tipo de variable.
EJEMPLO:
N° de alumnos 15 9 6 30
Ángulo sector Misterio = 360° X 15 alumnos / 30 alumnos = 180° (la mitad del
círculo)
Si sumamos la amplitud de los tres sectores nos tiene que dar el círculo completo: