Está en la página 1de 97

Encargada

de:
Clasificar, Calcular
Representar medidas que
agrupar y
dichos datos resuman la
ordenar los
(gráficos, información
datos de
tablas) que contiene la
la muestra muestra
(estadísticos
muestrales)
Parámetro vs Estadístico
• Parámetro: cantidad numérica calculada
sobre la población, con el fin de resumir
la información.
Ej.: altura media de los individuos de un país.

• Estadístico (estadígrafo): similar al


anterior pero calculado sobre una
muestra (“estimador”).
Ej.: altura media de los alumnos de un aula.
Clasificación

Ordenar los valores Ordenar los valores en


obtenidos de menor a clases (intervalos) y
mayor ordenar dichas clases
de menor a mayor.
• Atributos • Variables discretas (con
• Variables discretas (con muchos valores diferentes)
pocos valores diferentes) • Variables continuas
x = Estatura Clasificar
x = Estatura Frecuencias

3 2 2
Frecuencias muestrales
Dada una muestra de tamaño “n” de una
variable “x”, para cada valor de la variable
observado en la muestra (xi), se define:
• Frecuencia absoluta (ni): nro de individuos
de la muestra que presentan el valor xi.
• Frecuencia relativa (fi): proporción de
individuos de la muestra que presentan el
valor xi (fi = ni/n)
Frecuencias muestrales
Dada una muestra de tamaño n de una
variable X, para cada valor de la variable
observado en la muestra (xi), se define:
• Frecuencia absoluta acumulada (Ni): nro
de individuos de la muestra que presentan
un valor menor o igual que xi.
Ni = n1 + · · · + ni
Frecuencias muestrales
Dada una muestra de tamaño n de una
variable X, para cada valor de la variable
observado en la muestra (xi), se define:
• Frecuencia relativa acumulada (Fi):
proporción de individuos de la muestra
que presentan un valor menor o igual que
xi. (Fi = Ni/n)
Conjunto de
Suele
valores
representarse
observados en
mediante una
la muestra junto
a sus respectivas
frecuencias
Tabla de Frecuencias
Tabla de Frecuencias
Ejemplo de datos sin agrupar
• Encuesta a 25
matrimonios sobre el
número de hijos que
tenían, obteniéndose
los siguientes datos:
1, 2, 4, 2, 2, 2, 3, 2,
1, 1, 0, 2, 2,0, 2, 2, 1,
2, 2, 3, 1, 2, 2, 1, 2
• La tabla de
frecuencias asociada
a esta muestra es:
Tabla de Frecuencias
Ejemplo de datos sin agrupar
• Encuesta a 25
matrimonios sobre el
número de hijos que
tenían, obteniéndose
los siguientes datos:
1, 2, 4, 2, 2, 2, 3, 2,
1, 1, 0, 2, 2,0, 2, 2, 1,
2, 2, 3, 1, 2, 2, 1, 2
• La tabla de
frecuencias asociada fi = ni = 2 = 0.08
a esta muestra es: n 25
Tabla de Frecuencias
Ejemplo de datos sin agrupar
• Encuesta a 25
matrimonios sobre el
número de hijos que
tenían, obteniéndose
los siguientes datos:
1, 2, 4, 2, 2, 2, 3, 2,
1, 1, 0, 2, 2,0, 2, 2, 1,
2, 2, 3, 1, 2, 2, 1, 2
• La tabla de
frecuencias asociada Fi = Ni = 8 = 0.32
a esta muestra es: n 25
Tabla de Frecuencias
Ejemplo de datos agrupados
• Se ha medido la estatura (en cm) de 30 universitarios
obteniendo: 179, 173, 181, 170, 158, 174, 172, 166,
194, 185, 162, 187, 198, 177, 178, 165, 154, 188,
166, 171, 175, 182, 167, 169, 172, 186, 172, 176,
168, 187

Clases
(intervalos)

Cada intervalo
de agrupación Centro del
de datos intervalo
Construcción de las clases
Nro de intervalos

El nro de intervalos no debe ser muy grande ni


muy pequeño Nro intervalos
Regla: tomar un nro de intervalos próximo a la √n = √30 ≈ 5
raíz cuadrada del tamaño muestral (√n)
Construcción de las clases

Los intervalos no deben solaparse y deben cubrir


todo el rango de valores. Es indiferente si se abren
por la izquierda y se cierran por la derecha o al
revés
Construcción de las clases

El valor más pequeño debe caer dentro del primer


intervalo y el más grande dentro del último
En este caso:
Min. : 154 cm Max. : 198 cm
Tabla de Frecuencias
Ejemplo de atributos
• Grupos sanguíneos
de una muestra de 30
personas:
A, B, B, A, AB, 0, 0, A,
B, B, A, A, A, A, AB, A,
A, A, B, 0, B, B, B, A,
A, A, 0, A, AB, 0
• La tabla de En tablas de frecuencias
frecuencias de esta de atributos, no se
muestra: incluyen Ni y Fi
Representaciones gráficas
• Permiten representar gráficamente a la
distribución muestral
• La elección de un tipo de gráfico depende de:
– Tipo de variable (atributo, discreta, continua)
– Clasificación de los datos (no agrupados, agrupados)
• Tipos de gráficos:
– Diagrama de barras
– Histograma
– Diagrama de sectores
Representaciones gráficas
Diagrama de barras
• Diagrama sobre el plano cartesiano:
–Eje X: valores de la variable
–Eje Y: frecuencias
• Sobre cada valor de la variable se
levanta una barra de altura
correspondiente a la frecuencia
• Utilidad: variables discretas no
agrupadas.
Nro de hijos:
variable cuantitativa
discreta no agrupada
Polígono de
frecuencias
Representando
Ni
Polígono de
frecuencias
Representaciones gráficas
Histograma
• Similar a diagrama de barras:
–Eje X: clases en las cuales se agrupan los
valores de la variable
–Eje Y: frecuencias
• Se levantan barras sobre todo el intervalo.
Las barras están pegadas unas a otras
• Utilidad: variables discretas agrupadas y
variables continuas.
Polígono de
frecuencias
Representando
Ni
Polígono de
frecuencias
Representaciones gráficas
Diagrama de sectores
• Círculo dividido en sectores cuya
área es proporcional a la
frecuencia de cada valor de la
variable.

• Utilidad: atributos.
Dristribución según género

Satisfecha Insatisfecha ND

Grado de satisfacción
en consulta médica
Datos atípicos
Valores de la variable que se diferencian
mucho del resto de los valores.
Datos atípicos
Es importante su detección antes de
realizar cualquier análisis de los datos

Distorsionar los resultados
Datos atípicos
Aparecen siempre en los extremos de la
distribución
Manejo de datos atípicos
• En muestras grandes, los datos atípicos tienen
menor influencia y pueden incluirse en la muestra.
• En muestras pequeñas:
– Eliminarlo: siempre que estemos seguros de que se
trata de un error de medida.
– Sustituirlo: si se trata de un individuo real pero que no
concuerda con el modelo de distribución de la
población. Se suele reemplazar por el mayor o menor
dato no atípico.
– Incluirlo: si se trata de un individuo real aunque no
concuerde con el modelo de distribución.
Diagrama de caja y bigotes

• Permiten Datos atípicos


identificar datos
atípicos

• Útiles para
representar
“dispersión” de
una variable
Diagrama de caja y bigotes
Caja:
• Borde inferior: Datos atípicos
1er cuartil
• Borde superior:
3er cuartil
• Ancho:
rango inter cuartílico
Bigotes:
Extremos que marcan el
intervalo de normalidad
de los datos
Clasificar, Calcular
Representar medidas que
agrupar y
dichos datos resuman la
ordenar los
(gráficos, información
datos de
tablas) que contiene la
la muestra muestra
(estadísticos
muestrales)
Estadísticos. Clasificación:
• Posición: miden en torno a qué valores
se agrupan los datos y cómo se reparten
en la distribución.
• Dispersión: miden la heterogeneidad de
los datos.
• Forma: miden aspectos de la forma que
tiene la distribución de los datos
(simetría, apuntamiento).
Estadísticos de posición:
• Tendencia central: valores alrededor de
los cuales se agrupa la distribución.
Suelen utilizarse como valores
representativos de la muestra.
– Media aritmética
– Mediana
– Moda
• Otros: dividen la distribución en partes
con el mismo nro de observaciones.
– Cuantiles: cuartiles, deciles, percentiles.
Media aritmética
• Definición: suma de los valores observados
en la muestra dividida por el tamaño
muestral

• A partir de la tabla de frecuencias: Producto valor


de la variable
x frec. relativa
Media aritmética

En la mayoría de los casos, es la


medida que mejor representa a
la muestra.

¡Ojo! No puede calcularse para


atributos.
Media aritmética. Cálculo
Ej.: datos no agrupados
• Nro de hijos: 1, 2, 4, 2, 2, 2, 3, 2, 1, 1,
0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2, 2, 1, 2

• Suma de valores observados: 44


• Tamaño muestral: 25
• X = 44/25 = 1.76 hijos
Media aritmética. Cálculo
Ej.: datos no agrupados
En tabla de frecuencias:
Media aritmética. Cálculo
Ej.: datos no agrupados
En tabla de frecuencias:

x
Media aritmética. Cálculo Producto valor
de la variable
Ej.: datos agrupados x frec. absoluta
Media aritmética. Cálculo Producto valor
de la variable
x frec. relativa
Ej.: datos agrupados
Media ponderada
• En algunos casos, los valores de la
muestra no tienen la misma
importancia
• En este caso la media aritmética no es
una buena medida de
representatividad (en ella todos los
valores de la muestra tienen el mismo peso)
Media ponderada

• Definición: (xp) dada una muestra


de n valores, en la que cada valor xi
tiene asociado un peso pi, la media
ponderada muestral de la variable X
es la suma de los productos de cada
valor observado en la muestra por
su peso, dividida por la suma de
todos los pesos
Media ponderada
• A partir de la tabla de frecuencias:
Media ponderada. Cálculo
Ej.: un alumno quiere calcular la nota
media de las asignaturas de un curso.
Media ponderada. Cálculo
Ej.: sin embargo . . .
La nota media obtenida no representa bien el
rendimiento académico del alumno ya que en
ella han tenido igual peso todas las
asignaturas, cuando la química debería tener
más peso que lengua al tener más créditos
Media ponderada. Cálculo
• Ej.: es más lógico calcular la media
ponderada, tomando como pesos los
créditos de cada asignatura:
Mediana muestral (Me)
• Definición: valor de la variable que, una
vez ordenados los valores de la muestra
de menor a mayor, deja el mismo número
de valores por debajo y por encima de
él.
• Su cálculo se realiza de forma distinta
según se hayan agrupado los datos o no.
No puede calcularse para
atributos nominales
Mediana muestral. Cálculo
Datos no agrupados
• Tamaño muestral impar: la mediana
es el valor que ocupa la posición
n+1/2
Mediana muestral. Cálculo
Datos no agrupados
• Tamaño muestral par: la mediana es
la media de los valores que ocupan las
posiciones n/2 y n/2+1
Mediana muestral. Cálculo
Datos no agrupados
Ej.: en nro. de hijos por matrimonio:
4, 1, 2, 1, 3, 1, 1, 2, 1, 2, 2, 2 , 3, 2, 2, 2,
2, 2, 2, 2, 2, 1, 2, 0
• Al ser el tamaño muestral 25 (impar), se
deben ordenar los datos de menor a
mayor y buscar el que ocupa la posición
“n+1/2” (25+1/13)
0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2 , 2, 2, 2, 2,
2, 2, 2, 2, 2, 3, 3, 4
Mediana muestral. Cálculo
Datos no agrupados
• Ej.: en tabla de frecuencias:
• Buscar el primer valor cuya frecuencia
absoluta acumulada (Ni) sea ≥ a 13, o el
primer valor cuya frecuencia relativa
acumulada (Fi) sea ≥ a 0.5
Mediana muestral. Cálculo
Datos agrupados
• La mediana se calcula interpolando en el
polígono de frecuencias absolutas
acumuladas (Ni) el valor n/2.
Moda muestral (Mo)
• Definición: valor de la variable más frecuente en la
muestra
• En datos agrupados se toma como clase modal la clase
con mayor frecuencia en la muestra.
• En ocasiones puede haber más de una moda.
¿Qué estadístico de tendencia central
usar?
• Media: utiliza más información que el resto ya
que para calcularla se tiene en cuenta la
magnitud de los datos.
• Mediana: utiliza menos información que la
media, pero más que la moda, ya que para
calcularla se tiene en cuenta el orden de los
datos.
• Moda: es la que menos información utiliza ya
que para calcularla sólo se tienen en cuenta las
frecuencias absolutas.
¿Qué estadístico de tendencia central
usar?
• Media No para atributos

No para atributos
• Mediana nominales

• Moda
¡Ojo! la media es muy sensible a los
datos atípicos
Cuantiles

Valores de la variable que dividen


la distribución, supuesta ordenada
de menor a mayor, en partes que
contienen el mismo número de
datos.
Cuantiles
• Cuartiles: dividen la distribución en 4
partes iguales.
Hay tres cuartiles:
C1 (25% acumulado)
C2 (50% acumulado)
C3 (75% acumulado).
Cuantiles

• Deciles: dividen la distribución en


10 partes iguales.
Hay 9 deciles:
D1 (10% acumulado)
...
D9 (90% acumulado)
Cuantiles

• Percentiles: dividen la distribución


en 100 partes iguales.
Hay 99 percentiles:
P1 (1% acumulado)
...
P99 (99% acumulado).
Cuantiles. Cálculo
• Se calculan de forma • En datos agrupados se
similar a la mediana. interpola sobre el
• En el caso de los polígono de
cuartiles se buscan los frecuencias
valores que tienen acumuladas.
frecuencias absolutas
acumuladas: n/4 (C1),
n/2 (C2) y 3n/4 (C3).
Buscar el valor del cuartil
Cuantiles. Cálculo determinado en relación
a frecuencia relativa
acumulada (Fi)
Estadísticos de dispersión
• Recogen información respecto a la
heterogeneidad de la variable y a la
concentración de sus valores en torno a algún
valor central.
• Los más empleadas son:
– Recorrido.
– Rango Intercuartílico.
– Varianza.
– Desviación Típica.
– Coeficiente de Variación.
Recorrido muestral (Re)
(Rango, amplitud)
• Definición: diferencia entre el valor máximo y el
mínimo de la muestra.
• Da una idea de la máxima variación que hay
entre los datos muestrales.
• Es muy sensible a datos atípicos, siendo de esta
forma poco utilizado.
Rango intercuartílico (RI)
• Definición: diferencia entre el tercer (C3) y el
primer cuartil (C1) de la muestra.
• Para evitar el problema de los datos atípicos
del recorrido, utiliza C1 y C3 en lugar del valor
mínimo y máximo.
• Da una idea de la variación que hay en el 50%
de los datos centrales.
Rango intercuartílico
• Medida de dispersión
• Recorrido que hace la variable desde el cuartil 1
(Q1) hasta el cuartil 3 (Q3)
– Recordar . . . Q1=P25 y Q3=P75
Rq = Q3 – Q1
• Puede calcularse para cualquier variable que pueda
ser ordenada (variables ordinales, de intervalo, de
razón)
• Excluye a los valores menores al 25% (Q1) y mayores
al 75% (Q2)
• Poco sensible ante valores atípicos, útil ante la
presencia de éstos últimos
Desviaciones respecto de la media
• Definición: distancia de cada valor a la media

• Si las desviaciones son grandes la media no será


tan representativa como cuando la desviaciones
sean pequeñas:
Varianza (s2)
• Definición: promedio del cuadrado de las
desviaciones de los valores de la muestra
respecto de la media muestral.

• También puede calcularse de manera más


sencilla:
Varianza (s2)
• La varianza tiene las unidades de
la variable al cuadrado

• Para facilitar su interpretación se


suele utilizar su raíz cuadrada,
definiéndose así la desviación
típica
Desviación típica (s)

• Definición: raíz cuadrada positiva


de la varianza muestral.
Interpretación de la varianza y la
desviación típica
• Ambas sirven para cuantificar la dispersión de
los datos en torno a la media.
Cálculo de la varianza y la desviación
típica. Ejemplo con datos no agrupados
• Para nro de hijos por
matrimonio, se puede
calcular la varianza a
partir de la tabla de
frecuencias añadiendo
una columna con los
cuadrados de los valores:
Cálculo de la varianza y la desviación
típica. Ejemplo con datos no agrupados
• La desviación típica es

• Este valor no es demasiado grande por


lo que se puede concluir que no hay
mucha dispersión y en consecuencia la
media de 1,76 hijos representa bien a
los matrimonios de la muestra.
Coeficiente de variación (cv)
• Definición: cociente entre la
desviación típica muestral y el valor
absoluto de su media muestral.
Coeficiente de variación (cv)
• Mide la dispersión relativa de los valores de
la muestra en torno a la media muestral.
• Como no tiene unidades, es muy sencillo de
interpretar: cuanto mayor sea, mayor será la
dispersión y menos representativa será la
media.
• También se utiliza para comparar la dispersión
entre muestras distintas, incluso si las variables
tienen unidades diferentes.
Coeficiente de variación (cv)
Ejemplo
• En el caso del nro de hijos por matrimonio, con x = 1.76
hijos y s = 0,8616 hijos:

• En el caso de las estaturas, x = 174.67 cm y s = 10.1cm:

• La dispersión relativa en la muestra de estaturas es menor


que en la del nro de hijos, por lo que la media de las
estaturas será más representativa que la media del nro de
hijos.
Estadísticos de forma
• Medidas que tratan de caracterizar aspectos
de la forma de la distribución de una muestra.
• Simetría: miden la simetría de la distribución
de frecuencias en torno a la media.
Coeficiente de Asimetría de Fisher (más utilizado).
• Apuntamiento: miden el apuntamiento de la
distribución de frecuencias.
Coeficiente de Apuntamiento o Curtosis.
Coeficiente de asimetría (g1)
• Definición: promedio de las desviaciones
de los valores de la muestra respecto de
la media muestral, elevadas al cubo,
dividido por la desviación típica al cubo.
Coeficiente de asimetría (g1)
• Mide el grado de simetría de los valores de la
muestra con respecto a la media muestral, de
manera que:
• g1 = 0 → hay el mismo nro de valores a la
derecha y a la izquierda de la media
(simétrica).
• g1 < 0 → la mayoría de los valores son
mayores que la media (asimétrica a la izquierda).
• g1 > 0 → la mayoría de los valores son
menores que la media (asimétrica a la derecha).
Coeficiente de asimetría. Cálculo
Datos agrupados

Interpretación: al estar tan próximo a 0, este valor


indica que la distribución es prácticamente simétrica
con respecto a la media.
Coeficiente de apuntamiento o
curtosis (g2)
• Definición: promedio de las desviaciones
de los valores de la muestra respecto de la
media muestral, elevadas a la cuarta,
dividido por la desviación típica a la cuarta
y al resultado se le resta 3.
Coeficiente de apuntamiento o
curtosis (g2)
Mide el grado de apuntamiento de los valores de
la muestra con respecto a una distribución normal
de referencia, de manera que:
• g2 = 0 → la distribución tiene un apuntamiento
normal (mesocúrtica).
• g2 < 0 → la distribución tiene menos
apuntamiento de lo normal (platicúrtica).
• g2 > 0 → indica que la distribución tiene más
apuntamiento de lo normal (leptocúrtica).
Coeficiente de apuntamiento. Cálculo
Datos agrupados

Interpretación: al estar tan próximo a 0, este valor


indica que la distribución es ligeramente platicúrtica

También podría gustarte