Está en la página 1de 49

Unidad III.

- Estadística
descriptiva

Ricardo Ruiz de Adana Pérez


Conceptos de estadística
• N Población.- Conjunto de individuos u objetos
sobre los cuales se desea conocer el
comportamiento de las características de interés. Se
utiliza la letra N para designar el numero de
elementos de la población.

• n Muestra.- Subconjunto o parte de la población


sobre los que realizamos realmente las mediciones
con la idea de obtener conclusiones que se
generalizan a la población. Se utiliza la letra n para
designar el numero de elementos de la muestra (p.
ej., n = 56).
Conceptos de estadística
• Variable.- Característica que deseamos
conocer de un población.
• Datos.- Valores de las variables que
medimos.
• Muestreo.- Técnicas estadísticas que
permiten proporcionar una muestra
representativa de la población y conocer el
numero de elementos que tenemos que
estudiar.
Conceptos de estadística
• Parámetro.- Medida que resume los datos obtenidos
sobre el conjunto de la población. Ejem: Media (µ),
Desviación típica (σ)
• Estadístico.- Medida que resume los datos
obtenidos sobre los elementos de una muestra.
Ejem: Media (X), Desviación típica (S)
• Estimador.- Cuando un estadístico se utiliza para
aproximarnos al valor de un parámetro, se le llama
Estimador.
Población
Conjunto de individuos u objetos
sobre el que se desea conocer
una/s característica/s

Muestreo Inferencia

Muestra
Subconjunto de individuos u
objetos realmente estudiados
Tipo de variables
• Cualitativas.
– Miden una característica o “cualidad” que no se
pueden representar numéricamente. (sexo,
estado civil, profesión, nivel de estudios).
– Si solo tiene dos posibles valores se denominan
dicotómicas.
Tipo de variables cualitativas
• Nominal: Los datos se ajustan a categorías
que no tienen relación de orden entre sí (el
sexo, la profesión el estado civil, presencia o
no de una patología).
• Ordinal: Existe una jerarquía, una relación de
orden entre las categorías (nivel de estudios,
grado de satisfacción: mucho, normal, poco).
Tipo de variables
• Cuantitativas.
– Son aquellas cuyos valores pueden ser
expresados numéricamente y esta numeración no
es una simple codificación, sino que existe una
correspondencia entre el valor de la variable y la
representación numérica de la misma.
Tipo de variables cuantitativas
• Discretas: entre dos valores consecutivos no
podemos encontrar ningún otro valor (nº finito
de valores: números naturales/enteros). Ej.:
nª de hijos.
• Continuas: entre dos valores consecutivos
hay un número infinito de valores (números
reales). Ej.: peso, talla.
Una variable cuantitativa debiera ser
recogida como norma como cuantitativa, ya
que aporta más información. Posteriormente
pueden hacerse las categorizaciones o
recodificaciones deseadas
Descripción variables
cualitativas
a)Frecuencia absoluta (fa) (Fa): número de veces
que se ha observado el valor de cada categoría
de la variable.
b)Frecuencia relativa (fr) (Fr): es la frecuencia
absoluta dividida por el número de casos
estudiados (n) (N). Es sinónimo de probabilidad,
y se expresa como proporción (x 100) o tanto por
uno.
fr = fa / n Porcentaje = fr x 100
• EJEMPLO .- En un servicio de traumatología con
objeto de realizar una correcta planificación, interesa
saber la localización de la patología en una muestra
de 186 pacientes atendidos durante los últimos seis
meses n=186
• La variable de interés es la zona afectada, es una
variable cualitativa dividida en 5 modalidades (rodilla,
cadera, tobillo, cráneo, otras).
ZONA AFECTADA fa fr %
RODILLA 30 0.161 16.1
CADERA 28 0.151 15.1
TOBILLO 41 0.220 22.0
CRÁNEO 34 0.183 18.3
OTRAS 53 0.285 28.5
TOTAL Σfa=186 Σfr=1
Medidas descriptivas
variables cuantitativas
-MEDIA
TENDENCIA CENTRAL
-MEDIANA
-MODA

DISPERSIÓN -RANGO O AMPLITUD


-VARIANZA
-DESVIACIÓN ESTÁNDAR
-COEFICIENTE DE VARIACIÓN
-PERCENTILES

-COEFICIENTE DE ASIMETRÍA
FORMA
-COEFICIENTE DE KURTOSIS
Media aritmética
• Aquel valor que es “promedio” de todos los valores
de la variable, representa el centro de gravedad de la
distribución.
• La media aritmética de los datos es la suma de los
valores de una variable dividido por el número total
de datos. X=Σxi/n
• Debe distinguirse entre la media obtenida en una
muestra (X) o (M) y la autentica media poblacional
(µ).
• Ejem.:La media aritmética de los datos siguientes: 2,
4, 6, 8, 9. es:X=Σxi/n =(2+4+6+8+9)/5 =29/5 = 5.8
Media aritmética

• Es una buena medida de tendencia central


porque fluctúa menos entre varias muestras
de la misma población que la mediana o la
moda.
• Sus inconvenientes:
– Resulta poco representativa cuando existen
valores extremos. En estos casos se recomienda
usar la MEDIANA que aporta información mas
fiable.
– No se debería utilizar en variables cualitativas
nominales ni ordinales.
Mediana
• La mediana de un conjunto de n datos
ordenados es el valor central.
• La mediana divide a un conjunto de
datos ordenados en dos partes iguales
en cuanto al numero de datos.
• EJEMPLO.- Calcular la mediana de los
conjuntos de datos siguientes :
– 2, 4, 6, 8, 9, 10, 11, 12, 13, 14, 20.
• El conjunto de datos anterior tiene un número impar de
datos y el número total de datos es 11 por lo tanto la
mediana es el valor central es decir el sexto Md=10.
– 3, 6, 8, 12, 17, 28, 32, 34.
• El conjunto de datos anterior consta de 8 datos es par
por lo tanto la mediana es la media aritmética de los dos
valores centrales Md=(12+17)/2=14.5.
Moda
• Es aquel valor de la variable que mas
frecuentemente se repite en la serie
estadística.
• Según la moda, las distribuciones de
las variables se pueden clasificar en
unimodales y multimodales (bimodales,
trimodales, etc).
• En el caso particular de las variables
continuas se habla de intervalo modal.
Medidas de dispersión

• Aportan información de la variabilidad


de los valores de la variable.
Rango, amplitud o recorrido
• Es la diferencia entre el valor máximo y
el valor mínimo de los datos
observados.
– Rango=Máximo-Mínimo
• Nos informa sobre la amplitud del
recorrido observado de la variable.
Rango o amplitud o recorrido
• EJEMPLO.- La medida de la presión arterial
sistólica en mm de mercurio, sobre un grupo
de pacientes arroja los siguientes resultados:
• 120,135, 160, 100, 155, 115, 165, 125, 130.
• Calcular el Rango.
• Máximo=165; Mínimo=100; Rango=165-
100=65.
• Esto nos indica que en un intervalo de 65 mm
de mercurio están todos los valores medidos.
Desviación media

• Es la media aritmética de las


diferencias en valores absolutos de
todos los datos respecto a la media
aritmética .
– DM=Σ(xi-X)/n
Desviación media
• EJEMPLO.- Las tallas en cm de un grupo de
personas se detallan a continuación: 180, 165, 160,
175.
• Calcular la desviación media.
– X=(180+165+160+175)/4 =170.
– Dm= Σ (Xi-X)/n =[ (180-170)+(165-170)+(160-170)+(175-
170)]/4
– Dm= (10+5+10+5)/4 =7.5.
• Se utilizan valores absolutos, ya que si no fuera así,
las diferencias se contrarrestarían y seria cero
Varianza
• Otra manera de eliminar la anulación del
resultado en la formula Σ(xi-X)/n es elevando
(xi-X) al cuadrado. Σ(xi-X)2/n.
• En caso de que nos refiramos a la varianza
poblacional la representaremos por:
σ2= Σ(xi- µ)2/N
• La varianza muestral la representaremos por:
S2= Σ(xi-X)2/n-1
Varianza

• La varianza representa unidades


cuadráticas, por tanto NO es adecuada
cuando se quiere expresar la dispersión
en unidades originales
Desviación típica o estándar

• La desviación estándar es la raíz


cuadrada de la varianza.

ó= ó 2

S= S 2
Desviación típica o estándar

• El objetivo de la desviación estándar es volver a


unidades originales.
• Son las medidas de dispersión más informativas,
pues se basan en todas las observaciones, teniendo
en cuenta el valor de cada una.
• Están muy influidas por valores extremos. En estos
casos, aportan mejor información los percentiles.
• Se utilizan ampliamente a causa de las propiedades
de la curva normal de Gaus, y por la importancia de
la varianza en la estadística inferencial
Propiedades de la curva normal
en la distribución de una variable
en una población

• Una variable con distribución normal:


• µ ± 1σ incluye el 68% de las observaciones.
• µ ± 2σ incluye el 95 % de los datos (exactamente es 1,96 en vez de 2, como se verá
en temas posteriores).

µ ± 3σ incluye prácticamente el 100%.


Propiedades de la curva normal
en la distribución de una variable
en una muestra
• También en una muestra que se distribuya
normalmente se cumplen las siguientes propiedades:

– X ± 1 S incluye el 68% de las observaciones.


– X ± 2 S incluye el 95 % de los datos (exactamente es 1,96
en vez de 2, como se verá en temas posteriores).
– X ± 3 S incluye prácticamente el 100%.
Ejemplo

• En una población con media de 40 años y desviación


estándar de 10 años, aunque no sepamos su
distribución, podemos afirmar que:
• -Entre 30 y 50 años (40±1 x 10) se encuentra
aproximadamente el 68% de la población,
• -Entre 20 y 60 (40±2 x 10) años se encuentra
aproximadamente el 95% de la población, y
• -Entre 10 y 70 (40±3 x 10) años se encuentra
prácticamente toda la población.
Resumen
• Para las variables cuantitativas, la
información obtenida de una muestra se
resume mediante:
– Tamaño de la muestra.
– La media aritmética.
– La desviación típica.
• Para las variables cualitativas, la información
obtenida de una muestra se resume
mediante:
– Tamaño de la muestra.
– Frecuencia relativa.
Percentiles: medida de posición
• El percentil es el valor que deja por debajo de sí un
determinado porcentaje de las observaciones, estando
estas ordenadas de menor a mayor, es decir, el percentil
20 corresponde al valor que deja por debajo al 20% de los
datos.
• A los percentiles 10, 20, 30, 40, 50, 60, 70, 80, 90 se les
llama DECILES.
• A los percentiles 25, 50, 75 se les llama CUARTILES.
• La mediana es el percentil 50
• A la distancia entre los cuartiles 25 y 75 se le llama
INTERVALO INTERQUARTÍLICO.
Resumen

• Los valores muy alejados de la media tienen


mucho peso en los cálculos tanto de la media
como de la desviación estándar. A estos
valores "extraños" se les suele llamar valores
extremos "Outliers“.
• Una de las formas que hay para definir
cuando un valor es un extremo, es
considerarlo cuando está alejado más de 3 S
de la media, es decir, por fuera del intervalo
X± 3 S
Resumen

• Cuando la distribución contiene valores


extremos se recomienda utilizar, para resumir
los datos de la misma, la mediana y el
intervalo interquartílico.
Representaciones gráficas
• Diagrama de barras
• Histograma
• Sectores circulares (tarta)
• Polígono de frecuencias
• Diagrama de dispersión
• Diagrama de cajas
Diagrama de barras
• En el eje de las x se colocan
los valores de las variables y
en el eje de las y las 2500

frecuencias absolutas o 2000


relativas. 1500
• Adecuado para variables
1000
cualitativas.
500
• Cuando se utiliza el diagrama
de barras para comparar dos 0
grupo A Grupo B Grupo C Grupo D
variables cualitativas de dos
poblaciones diferentes, se
debe utilizar las frecuencias Distribución de sujetos de estudio por grupos
relativas.
Histograma
• Es un diagrama de barras en el que las barras están
unidas
• Es la representación gráfica más utilizada
• En el eje de las x se colocan los valores de las variables
y en el de las y las frecuencias absolutas o relativas
• Es el más adecuado para variables cuantitativas y
cualitativas ordinales.
Histograma
• Números de metástasis en los sujetos incluidos en el
estudio
200

100

Desv. típ. = 1.08


Media = 1.5
0 N = 393.00
0.0 1.0 2.0 3.0 4.0

número de metástasiss
Sectores circulares (tarta)
• Se trata de un círculo en el que a cada
clase o categoría de la variable se le
asigna un sector proporcional a su
frecuencia absoluta o relativa.
• No resulta adecuada cuando las variables
tiene muchas categorías ( Ideal para 3 – 5
categorías)
Sectores circulares (tarta)

hom bre
m uje r

Distribución de sexos en un estudio


Polígono de frecuencias
• Se realiza a partir del histograma,
buscando el punto medio (marca de clase)
de la parte superior de los intervalos de
clase.
Polígono de frecuencias

200

100
Frecuencia

0
Omitido 0 1 2 3 4

número de metástasiss
Diagrama de dispersión
• Nos permite comprobar gráficamente si
existe correlación entre dos variables
cuantitativas. Se confrontan en el eje
horizontal una variable (x) y en el vertical
la otra (y).
Diagrama de dispersión

Diagrama de dispersión entre la talla y el peso de una muestra de individuos


Diagrama de caja y bigotes
• Supone un resumen de cinco parámetros
importantes de las variables cuantitativas: la
mediana (valor central de la serie), el primer y el
tercer cuartil (los cuartiles delimitan los borde
de la caja), los valores mínimo máximo no
atípicos (delimitan los bigotes)
• Valores atípicos: Q1-1,5*RIC o Q3+1,5*RIC
(amplitud recorrido intercuartilico)
• Valores extremos: Q1-3*RIC o Q3+3RIC
Diagrama de caja

Descripción de la edad en los sujetos de estudio


Medidas de forma

• Coeficiente de asimetría

• Coeficiente de curtosis
Medidas de forma
• Coeficiente de asimetría.- Nos informa si las
colas de la curva asociadas a los datos son mas
alargadas hacia alguno de los lados
• Si V= 0 curva simétrica
• Si V< 0 curva asimetría hacia la izquierda
• Si V> 0 curva asimetría a la derecha
Medidas de forma
• Coeficiente de curtosis.- Nos informa del
grado de apuntamiento de la curva
• Si Ѓ = 0 curva mesocurtica
• Si Ѓ < 0 planicurtica (aplanada)
• Si Ѓ > 0 leptocurtica (estilizada)

También podría gustarte