Está en la página 1de 24

MEDIDAS DE

CONCENTRAC
IÓN DE
DATOS
MEDIDAS DE
DEFORMACIÓ
N

La deformación o asimetría
La deformación consiste en estadística se deduce
analizar la simetría o comparando la distribución
asimetría (no simetría) de las con la forma de la “curva
distribuciones. normal” que corresponde a
una distribución simétrica.
COEFICIENTE DE ASIMETRÍA DE
PEARSON (AS)
(Propuesto por Karl Pearson)

AS > 0: Tiene asimetría positiva. La


distribución extiende la cola hacia los
valores grandes de la variable. (hacia la
derecha)
AS < 0: Tiene asimetría negativa. La
distribución extiende la cola hacia los
valores pequeños de la variable. (hacia la
izquierda)
AS = 0: Tiene la forma de una curva
normal, es simétrica

o 
XX 3( X  X )
AS1  AS 2 
S S
ASIMETRÍA ASIMETRÍA
SIMÉTRICA
NEGATIVA POSITIVA
La distribución La distribución
es asimétrica representa La distribución
negativa o una curva es asimétrica
alargada normal, es positiva o
(sesgada) a la simétrica: alargada
izquierda: AS=0 (sesgada) a la
AS<0 derecha: AS>0
 o
 o o 
XXX XXX XXX

25 0

15 15
20 0

Recuento
15 0
10 10

10 0

5 5

50

0 0
20 25 30 35 40 20 25 30 35 40 20 40 60 80

Edad Edad Edad del encuestado


Ejemplo: En la distribución de los sueldos de 80 trabajadores,
se conoce:
 o
X  174.4, X  174, X  167, Q1  140.8, Q3  208.2

Hallar los coeficientes de asimetría:

o
X X 174.40  167
AS1    0.170  0
S 43.60

3( X  X ) 3(174.40  174)
AS 2  AS 2    0.028  0
S 43.60
Q3  2Q2  Q1 208.20  2(174)  140.80
AS    0.00015  0
Q3  Q1 208.20  140.80
Interpretación: Las AS son positivas, tienen asimetría
positivas, hay un ligero predominio de sueldos menores.
Existen muchos trabajadores que ganan poco y pocos
trabajadores que ganan bien.
MEDIDAS DE
KURTOSIS

La curtosis es una forma de


medir la dispersión o la
concentración de los datos de
una distribución, se compara la
dispersión de los datos
observados cercanos al valor
central con la dispersión de los
datos cercanos a ambos
extremos de la distribución. La
curtosis se mide en comparación
a la curva simétrica normal o
mesokurtica.
COEFICIENTE DE CÚRTOSIS
PERCENTILICO

Q3  Q1
K 
2( P90  P10 ))

K<0.263; la K=0.263; la K>0.263; la


distribución es distribución es distribución es
achatada, es normal, es punteaguda, es
platicúrtica mesocúrtica leptocúrtica
DATOS ATÍPICO
(OUTLIERS)

Los casos atípicos son observaciones con características


diferentes de las demás. Este tipo de casos no pueden ser
caracterizados categóricamente como benéficos o
problemáticos sino que deben ser contemplados en el
contexto del análisis y debe evaluarse el tipo de información
que pueden proporcionar. Su principal problema radica en
que son elementos que pueden no ser representativos de la
población pudiendo distorsionar seriamente el
comportamiento de los contrastes estadísticos. Por otra
parte, aunque diferentes a la mayor parte de la muestra,
pueden ser indicativos de las características de un segmento
válido de la población y, por consiguiente, una señal de la
falta de representatividad de la muestra.
TIPOS DE DATOS
ATIPICOS

Los casos atípicos surgen


de un error de Otro caso atípico es la
procedimiento, tales observación que ocurre
como la entrada de datos como consecuencia de un
o un error de codificación. acontecimiento
Estos casos extraordinario real en el
atípicos deberían estudio. En este caso, el
subsanarse en el filtrado outlier no representa
de los datos, y si no se ningún segmento
puede, deberían válido de la población y
eliminarse del análisis o puede ser eliminado del
recodificarse como datos análisis
ausentes.
GRAFICO DE CAJAS
El grafico de cajas se caracteriza por:
- Centralización de los datos (con la mediana)
- La dispersión (con el rango intercuartil)
- La simetría (observando la posición de la mediana)
- La longitud de la colas (con los segmentos que parten de los lados laterales)
En la caja observamos:
- Un dato atípico denotado por un circulo.
- Un dato extremo denotado por un asterisco, siempre es el dato mas lejano.
- Tiene asimetría negativa porque la longitud de la cola izquierda es más larga
que la otra.
- La mediana esta al centro de la caja, pero no significa que sea simétrica.
- El 50% del total de los datos representa la caja.
- El 25 % del total de los datos representa cada cola.

50%
25% 25% Dato Atípico

X min X max Dato Extremo


Q1  Q3
X
DIAGRAMA DE TALLOS Y
HOJAS

El diagrama de tallos y hojas es una representación


grafica de los datos de forma del histograma. Tiene la
misma interpretación que el histograma
El grafico de tallos y hojas, se construye, partiendo las
cifras que forman al dato en dos grupos: Uno con las
primeras cifras para formar el tallo y el otro con las cifras
restante para formar las hojas.
Si tenemos el dato 68; 6 es el tallo y 8 es la hoja.
Si tenemos el dato 331; 33 es el tallo y 1 es la hoja.
Si tenemos el dato 4.12; 41 es el tallo y 2 es hoja.
Si tenemos el dato 41.2; 41 es el tallo y 2 es la hoja
Ejemplo: Construir un diagrama de tallos y hojas de los pesos de
maíz de 35 bolsas producidos en una zona agrícola.

Solución:
Dato menor: 33,1 Dato
mayor: 36,5
Tallos posibles: 33, 34, 35 y
36
Hojas: 1, 4, 7, 7, 9, 8, 6, 2, 2,

Sólo existen 4 tallos,
debiendo ser el mínimo 5
tallos, entonces los tallos
propuestos se desdoblan, de
la siguiente manera: Interpretación:
33 (del 33,0 al 33,4) - Son 35 casos.
- La menor observación es de 33,1 cm
33 (del 33,5 al 33,9)
- La mayor observación es de 36,5 cm
34 (del 34,0 al 34,4) - Tiene distribución asimétrica positiva
34 (del 34,5 al 34,9) porque la distribución de datos está
35 (del 35,0 al 35,4) sesgada (sesgo positivo), es decir, hay
35 (del 35,5 al 35,9) mayor concentración de datos a la
Ejemplo: Se entrevistaron a 474 empleados y se le preguntaron
sobre el sector donde trabajan, obteniéndose los siguientes
resultados utilizando el SPSS 22:

Categoría Laboral

En este ejemplo, trabajamos Frecuencia Porcentaje


Válido Administrativo 360 75,9
con una variable cualitativa Seguridad 27 5,7
nominal (Categoría Laboral), Directivo 83 17,5
Total 470 99,2
realizando un análisis Perdidos Sistema 4 ,8
exploratorio de datos Total 474 100,0

observamos que hay datos


perdidos llamados datos
ausentes, porque al verificar
la vista de datos del SPSS 22
hay 4 celdas vacías.
Ejemplo: Se recolectó información sobre los salarios de 20
jóvenes, antes de realizar un estudio descriptivo se hizo un
análisis exploratorio univariado sobre dicha variable.
170 200 200 210 210 210 210 220 220 220 220 220 220 230
230 230 230 240 240 240
HISTOGRAMA: En el
histograma,
observamos que hay
un joven cuyo salario
esta muy por debajo
del restante, este dato
es considerado dato
atípico, que ha sido
originado por error de
digitación o se ha
entrevistado a un
joven cuyo sueldo no
esta asociado al
grupo. En algunos
casos se elimina ese
dato o se recolecta
nuevamente la
información.
GRAFICO Q-Q: En el grafico observamos que la distribución no
es normal por que hay un dato que esta muy separado de la
línea, ese dato es considerado dato atípico
GRAFICO DE CAJAS: En el grafico observamos que existe un
dato que esta muy separado de la caja, ese dato es
considerado dato atípico. Son considerados datos atípicos los
datos que están por encima de U y por debajo de L.
 o
X  220, X  167, Q1  210, Q3  230, X min  200, X max  240
L  Q1  1.5(Q3  Q1 )  180, U  Q3  1.5(Q3  Q1 )  260

50%
25% 25%
Dato Atípico

X min X max

Q1 X Q3

L U
NORMALIDAD

Muchos métodos
estadísticos se basan en la
Existen varios métodos
hipótesis de normalidad de
para evaluar la normalidad
la variable
de un conjunto de datos
objeto de estudio. De
que
hecho, si la falta de
pueden dividirse en dos
normalidad de la variable
grupos: - Métodos
es suficientemente
gráficos: Histograma
fuerte, muchos de los
diagramas de cuantiles (Q-
contrastes utilizados en los
Q plots), Diagrama de
análisis estadístico -
cajas
inferenciales no son
Contrastes de
válidos. El investigador
Hipótesis:
debería evaluar la
Test de Kolmogorov-
normalidad de todas las
Smirnov
variables
Ejemplo: Se recolectó información sobre los salarios (en
dólares) de 16 empleados administrativos, en el estudio se
realizó un analisis de normalidad con los siguientes datos:
1200 1210 1210 1220 1220 1220 1230 1230 1230 1230 1240
1240 1240 1250 1250 1260

HISTOGRAMA: Los
salarios de los
administrativos siguen
una distribución
normal.

N Válido 16
Perdidos
0
Media 1230,00
Mediana 1230,00
Moda 1230
Asimetría ,000
GRAFICO DE CAJAS: En el grafico observamos que las líneas en
forma de bigotes que están hacia el lado derecho e izquierdo son
iguales, la mediana esta al centro de la caja, no hay datos
atípicos; entonces podemos afirmar que los datos siguen una
 distribución normal.
X  1220, Q1  1230, Q3  1240, X min  1200, X max  1260

50%

25% 25%

X min X max

Q1 Q3
X

L U
GRAFICO Q-Q: En el grafico observamos que los datos están
muy cerca a la línea por lo tanto siguen una distribución normal
ANÁLISIS
ESTADÍSTICO
BIDIMENSIONAL
Es un gráfico donde se
presentan una variable
en el eje horizontal y la
otra en el vertical. El
patrón de los puntos
representa la relación
entre las variables.

DIAGRAMA DE DISPERSIÓN
Se denomina diagrama de dispersión o nube
de puntos a la grafica de los valores (xi, yi) de
las variables X e Y en el sistema cartesiano.
En el diagrama de dispersión se visualiza el
tipo de relación existente entre dos variables.
DIAGRAMA DE DISPERSIÓN

CORRELACI CORRELACI
ÓN ÓN CORRELACI
DIRECTA INDIRECTA ÓN NULA
POSITIVA NEGATIVA
Ejemplo: En el siguiente ejemplo, se realiza un grafico de
dispersión entre
El grafico las variables “salario inicial “y “salario actual”
de dispersión
del archivo “DATOS EMPLEADOS.SAV”.
muestra a las variables
“salario inicial “ (eje X) y
“salario actual” (eje Y) del
archivo “DATOS
EMPLEADOS.SAV”:
- En el grafico se observa que
los datos muestran un
comportamiento lineal
positivo.
- El diagrama no asegura
tener una alta correlación
lineal, eso lo confirmaremos
con el coeficiente de
correlación (r), en el tema de
análisis de regresión.
- En el diagrama observamos
un dato que esta bastante
separado del grupo, puede
MUCHAS
GRACIAS

También podría gustarte