Está en la página 1de 46

Unidad 5.

Parámetros para el
análisis descriptivo
Contenido

Medidas de tendencia Central


Medidas de dispersión
Medidas de posición
Medidas de forma
Distribución de Frecuencia
Analisis Univariado
Analisis Bivariado
Analisis Multivariado
Las medidas estadísticas pretenden "resumir" la
información de la "muestra" para poder tener así un
mejor conocimiento de la población. Se clasifican en:
 Centralización o Tendencia central o promedios
 Indican valores con respecto a los que los datos parecen
agruparse.
 Media, mediana y moda
 Dispersión o Variabilidad
 Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
 Desviación típica, coeficiente de variación, rango, varianza
 Posición o localizacion
 Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
 Cuantiles, percentiles, cuartiles, deciles, quintiles...
 Forma o Simetria
 Asimetría
 Apuntamiento o curtosis
Medidas de tendencia
central
 El examen estadístico de estas medidas, debidamente sentencia,
la investigación de parámetros sobre los cuales se pueda obtener
un atributo de toda la información recabada; es decir las medidas
de tendencia central, advierten y resumen el comportamiento de
un conjunto de datos. No obstante su importancia, su análisis no
debe hacerse separadamente de las medidas de dispersión, ya
que están asociadas con el grado de concentración de la
información.
 Las principales medidas de tendencia central son:
 media aritmética.
 mediana,
 moda.
La media aritmética
[=promedio(rango)]
La media aritmética de una variable se define
como la suma ponderada de los valores de la
variable por sus frecuencias relativas y lo
denotaremos por
x
y se calcula mediante las expresiones, según el caso:

Los valores extremos afectan la media


La media como punto de equilibrio
La mediana
[=mediana(rango)]
La mediana de un conjunto de números ordenados en magnitud
es o el valor central o la media de los dos valores centrales.

Cálculo de la mediana en el caso de variables discretas

Tendremos en cuenta el tamaño de la muestra.


n +1
X
Si N es Impar, hay un término central, el término 2
que será el valor de la mediana.

Ejemplo: El conjunto de números :


3,4,4,5,6,8,8,8 y 10 La mediana es 6 que esta en
la posición 5 de esta lista ordenada de dato.
La mediana
Cálculo de la mediana en el caso de variables discretas

Si N es Par, hay dos términos centrales,


la mediana será la media de esos dos valores

Ejemplo:
El conjunto de números
5,5,7,9,11,12,15 y18
tiene mediana 10
La moda
[=moda(rango)]

La moda es el valor de la variable que tenga


mayor frecuencia absoluta, la que más se repite, Edad FA
es la única medida de centralización que tiene 3 1
sentido estudiar en una variable cualitativa, pues 4 2
no precisa la realización de ningún cálculo. 5 1
6 1
Por su propia definición, la moda no es única,
8 3
pues puede haber dos o más valores de la variable
10 1
que tengan la misma frecuencia siendo esta
Total 9
máxima. En cuyo caso tendremos una
distribución bimodal o polimodal según el caso.

Ejemplo: El conjunto de números :


3,4,4,5,6,8,8,8 y 10
La moda
Medidas de Posición o centralización

Indican en torno a que valores


están los datos.
Media Aritmética: El promedio
de los datos, que es la suma de
todos los valores divida por el
numero de ellos es decir:
Medidas de Posición o centralización

Mediana: Valor de la variable con


frecuencia acumulada de 50%, es
decir el percentil 50, el valor situado
en el centro cuando se ordenan los
datos menor a mayor valor

Moda: Es el valor mas frecuente de


la variable, el mas repetido.
Medidas de dispersión
Las medidas de dispersión, tienen como
propósito estudiar lo concentrada o dispersa
que está la distribución de los datos con
respecto a la media aritmética.
Para medir el grado de dispersión de una
variable, se utilizan principalmente los
siguientes indicadores:
rango o recorrido,
varianza y
desviación típica o estándar
Medidas de Dispersión

Dan la idea de lo agrupado o


dispersado que están entre si los datos.
Todas son medidas de cantidades que
indican la dispersión de los valores
respecto a la media aritmética.
Rango
Varianza
Desviación estándar
Medidas de Dispersión

Rango o amplitud: Es la diferencia entre


el valor máximo y el valor mínimo de una
serie de datos. Dice entre que mínimo y
máximo están los valores de la variable.

Ejemplo: El conjunto de números :


3,4,4,5,6, 8,8,8 y 10

Rango: 10-3 es igual a 7


Medidas de Dispersión

La varianza: es el cociente entre la


suma de los cuadrados de la
diferencia entre cada valor y el
promedio , y el número de valores
observados.
Mide la desviación promedio de los
valores individuales con respecto a
la media.
Medidas de Dispersión

 Desviación estándar o típica: Es la raíz cuadrada de la


varianza, es decir la raíz cuadrada de la media de los
cuadrados de las desviaciones. Tiene un valor
promedio próximo a la desviación media y nos
informa como aquella, de cuanto, por termino medio
se aleja de la media aritmética. Para resumir en un
solo numero el alejamiento de los valores respecto a
la media.
 Por ejemplo, las tres poblaciones (0, 0, 14, 14), (0, 6, 8,
14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus
desviaciones estándar poblacionales son 7, 5 y 1,
respectivamente. La tercera población tiene una
desviación mucho menor que las otras dos porque sus
valores están más cerca de 7.
Pasos para el Cálculo de la
Varianza
1. Calcular la media aritmética en la serie de
datos.

2. Para cada observación, calcular el valor


menos la media aritmética (“la diferencia de
la media”)

3. Cuadrar todas las diferencias

4. Sumar las diferencias cuadradas

5. Dividir la suma entre el número total de las


observaciones menos uno
Ejemplo de Cálculo de Varianza

Id xi xi - x (xi - x ) 2
1 23 (23 – 40) = -17 289
2 29 (29 - 40) = -11 121
__
3
4
31
32
(31 – 40) = -9
(32 – 40) = -8
81
64 s 2
=
 (x i − x) 2

5 36 (36 - 40) = -4 16 n −1
6 36 (36 - 40) = -4 16
7 50 (50 – 40) = 10 100
8 51 (51 – 40) = 11 121
9 54 (54 – 40) = 14 196
56 (58 – 40) = 18 324
1328
∑ 398 0 1328 s =
2
= 147.9
9
X = 40
Desviación Estándar-
Variables continuas
También es una medida de desviación o
dispersión de valores alrededor de la
media
La raíz cuadrada positiva de la varianza
Desviación Estándar =
√ Suma de diferencias cuadradas
Número de observaciones – 1
__

 i
√ − 2
s = (x x )
n −1
Ejemplo de Desviación
Estándar __

s 2
=
 (x i − x) 2

n −1
1328
s =
2
= 147.9
9
__

s=
 i
(x − x ) 2

n −1

s = 147.9 = 12.1
Desviación Estándar de la
Media
La desviación estándar y la media
pueden ser usadas juntas para resumir
los datos.

La media nos dice en dónde están


centrados los datos

La desviación estándar nos indica la


dispersión alrededor del centro
Reportando la Desviación
Estándar de la Media


La media de edad de los casos de sífilis fue de
40 con una desviación estándar de 12.2
años.


El promedio de edad de los casos con sífilis
fue de 40 años, más o menos, alrededor de
12 años.
x ± s ≈ 68 % de observaciones
Medidas de posición

 Las medidas de posición permiten conocer otros


puntos característicos de la distribución que no
son los valores centrales.
Se denominas cuantíles: Se dividen en “m” de
partes.
 Entre otros indicadores, se suelen utilizar una serie
de valores que dividen la muestra en tramos
iguales, tales como los
 cuartiles, m= 4 partes
 deciles y , m= 10 partes
 percentiles. M=100 partes
 Cuartiles (Q): Dividen a la muestra en 4 grupos con frecuencias similares.
 Primer cuartil = Percentil 25 = Cuantil 0,25
 Segundo cuartil = Percentil 50 = Cuantil 0,50 = mediana
 Tercer cuartil = Percentil 75 = Cuantil 0,75

 Quintiles (K): Dividen a la muestra en 5 grupos con frecuencias similares.


 Primer quintil = Percentil 20 = Cuantil 0,20
 Segundo quintil = Percentil 40 = Cuantil 0,40
 Tercer quintil = Percentil 60 = Cuantil 0,60
 Cuarto quintil = Percentil 80 = Cuantil 0,80

 Deciles (D): Dividen a la muestra en 10 grupos con frecuencias similares.


 Tercer decil = Percentil 30 = Cuantil 0,30
 Quinto decil = Percentil 50 = Cuantil 0,50 = mediana
 Séptimo decil = Percentil 70 = Cuantil 0,70

 Percentiles (P) : Dividen a la muestra en 100 grupos con frecuencias


similares.
 La mediana es el percentil 50
 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por
encima queda el 85%
Ejemplo

 ¿Qué peso no llega a alcanzar el 25% de los


individuos?
 Primer cuartil = percentil 25 = 60 Kg.

 ¿Qué peso es superado por el 25% de los


50%
individuos?
 Tercer cuartil= percentil 75= 80 kg.

 ¿Entre qué valores se encuentra el 50% de los


individuos con un peso “más normal”? 100

 Entre el primer y tercer cuartil = entre 60 y 80 kg.


 Obsérvar que indica cómo de dispersos están los
90

individuos que ocupan la “parte central” de la


muestra. Ver más adelante rango intercuartílico. 80

 Los diagramas de caja (‘boxplot’) sintetizan esta


información (y algo más).
70

Estadísticos 60

PESO
Percentiles 25 60,00 50

50 70,00
40
75 80,00
Medidas de forma.
Asimetría y Curtosis
En los temas anteriores hemos visto las medidas de
tendencia central, de posición y las medidas de
variabilidad.
Si bien la obtención de tales medidas es clave para
describir una muestra y efectuar inferencias sobre la
población de origen, es también fundamental saber
obtener una caracterización adecuada de los datos.
Asimetría
Si bien es fácil tener una idea de si la distribución es
simétrica o no tras ver la representación gráfica, es
importante cuantificar la posible asimetría de una
distribución.
Cuando la distribución de los datos es simétrica, la media,
la mediana y la moda coinciden. (Y la distribución tiene la
misma forma a la izquierda y la derecha del centro)
1. Índice de asimetría de Pearson

2. Índice de asimetría de Fisher


3. Expresión en Excel
Asimetría
Asimetría hacia la derecha Asimetría hacia la izquierda
(asimetría positiva) (asimetría negativa)

Al ser positiva significa que la Al ser negativa significa que la


gráfica es asimétrica por la gráfica es asimétrica por la
derecha de la media y por izquierda de la media y por
tanto los valores mayores que tanto los valores menores que
ella están más dispersos que ella están más dispersos que
los menores. los mayores.
Curtosis o apuntamiento
La curtosis representa la elevación o achatamiento de una
distribución, comparada con la distribución normal. Una
curtosis positiva indica una distribución relativamente
elevada, mientras que una curtosis negativa indica una
distribución relativamente plana.
El estándar es la distribución normal: distribución
mesocúrtica.
Si la distribución es más apuntada que la distribución
normal tenemos una distribución leptocúrtica.
Si la distribución es más achatada que la distribución
normal tenemos una distribución platicúrtica.
Curtosis
Leptocúrtica Platicúrtica

Al ser negativa significa


Al ser positiva significa que que la gráfica es menos
la gráfica es más apuntada apuntada que la gráfica de
que la gráfica de la la distribución normal y por
distribución normal y por tanto los valores alrededor
tanto los valores alrededor de la media están menos
de la media están mas concentrados que en la
concentrados que en la Distribución Normal.
Distribución Normal.
Estadística Descriptiva

Resumir el comportamiento de cada


una de las variables en le grupo
estudiado y en subgrupos de interés.
Este resumen se hará dependiendo
del tipo de variables
 Se pueden calcular distribuciones de
frecuencias y en las cuantitativas,
medias y desviaciones.
Estadística Descriptiva e Inferencia
estadística
En el Análisis Estadístico de los Datos se distinguen dos
fases claramente diferenciadas y complementarias:
La Estadística Descriptiva describe las
relaciones de interés en la muestra que
estamos explorando, calculando medias y
proporciones con ellas.
La Inferencia Estadística valora en que
medida las relaciones encontradas en
nuestros datos ocurren también en la
población general. Se basa en calculo de
probabilidades.
Estadística Descriptiva

Distribución de frecuencia (DF): Resumen el


comportamiento de una variable
cualitativa. Consiste en anotar cantidad de
individuos que tiene cada valor de la
variable.
DF Absoluto: Numero de individuos en cada
categoría.
DF Relativa: Indican la Frecuencia relativa de
inidividuo por cada valor de la variable.
Frecuencia Acumulada: Indica la cantidad o FR
de individuos con valor igual o menor que uno
dado.
Distribución de la variable Numero de
caries en estudiante del cuarto año de
básica, Escuela X, Diciembre 2019

Numero de observaciones es 200


Análisis de los datos
generados en las variables
 Análisis univariado: usualmente es el inicial. Descripción de los
resultados de cada variable. Cuantitativos y cualitativos.
 Media, frecuencia para una variable (cada variable).
 Ej: Proporción de personas de una muestra con DM II.

 Análisis bivariado: cruces, por lo general, mostrando el


comportamiento de cada variable independiente según las
categorías de la dependiente.
 Frecuencia de variables independientes y dependientes, cualitativas (dicotómica o
politómica) en dos o mas grupos relacionados: tablas cruzadas o tablas de
contingencia.
 Ej: Frecuencia que tienen o no demencia, y que tienen o no hipertensión arterial.
 Evaluación de dos variables cuantitativas en un grupo: correlación y relación
 Ej: Edad y cifras de HTA en una población.

 Análisis estratificado y multivariado: técnicas más sofisticadas.


Análisis descriptivo: univariado

 Evaluación general de los datos:


-Identificación de datos atípicos, extremos, perdidos
-Descripción
-Chequeo de supuestos para análisis posteriores
-Identificar diferencias entre sub-grupos

 El análisis exploratorio ayuda en la determinación


de las técnicas estadísticas a emplear luego,
además puede indicar si es necesaria la
transformación de alguna variable.
ANALISIS UNIVARIADO
 Variables cualitativas:
-Proporciones: Porcentaje de población que es mujer.
-Razones: Razón hombre: mujer
-Tasas: Tasa de incidencia de tuberculosis.
 Variables cuantitativas:
-Medidas de tendencia central: media, moda,
mediana.
-Medidas de dispersión
-Medidas de localización o posición
-Distribuciones de frecuencia (datos agrupados):
gráficos
Relación entre dos variables
(Analisis Bivariado)
Analizar la relación de dos variables es estudiar el
comportamiento de una de ellas en los distintos
niveles de la otra
 Variable Independiente: Cuando el comportamiento
de una variable es el mismo en los distintos niveles de
la otra, se dice que los valores de la primera no
depende de la segunda.
 Variable Dependiente: Cuando el comportamiento
de una variable NO es el mismo en los distintos niveles
de la otra, se dice que los valores de la primera
dependen de la segunda.
Relación entre dos variables

Si las dos variables son cualitativas:


Tablas de contingencia (Distribuciones de
frecuencias conjuntas, marginales y
condicionadas)
Si una es cualitativa y la otra cuantitativa
compararemos las medias y desviaciones
de la cuantitativa para cada categoría de
la cualitativa.
Si las dos variables con cuantitativa haremos
nubes de puntos y cálculos de regresión y
correlación.
Relación entre dos variables
cualitativas.

N= 2000 pacientes
con CA de
pulmón.
2000 pacientes con CA de
pulmón.
Relación entre una variables
cualitativa y cuantitativa
Relación entre dos variables
cuantitativas

Podemos verificar si existe relación proporcional o NO.

También podría gustarte