Está en la página 1de 67

Estadística en la Investigación

Resumiendo

Ma. Antonieta Zuloaga Garmendia


tony@cimat.mx
Objetivo General

Proporcionar a los participantes


herramientas estadísticas para el análisis
exploratorio de información.
Objetivos Específicos

• Que los participantes aprendan a realizar


el análisis de la información, los gráficos
convenientes para cada uno de ellos
según su tipo.
• Que los participantes sepan obtener las
estadísticas descriptivas básicas para
diversos tipos de datos.
Bibliografía

SABINA, Carlos: El Proceso de


Investigación, editorial PANAPO, Caracas
1992.
Temario Análisis Exploratorio de la Información
1.1 Introducción.
Escalas cualitativas.
Escalas cuantitativas.
Tipos de variables.
Toma de información.

1.2 Estadística descriptiva.


Agrupación de datos y distribución de frecuencias.
Frecuencias relativas e histogramas.
Medidas de tendencia central.
Medidas de dispersión.
Cuartiles, deciles y percentiles.

1.3 Métodos Gráficos.


Diagrama de puntos.
Diagrama de Caja y Bigote.
Barra, pie, área, etc.
Histograma.
Diagrama de dispersión.
Diagrama de caja y bigote múltiple.
Análisis Exploratorio de la Información
Introducción

Investigación científica

• La metodología científica se compone de un conjunto de postulados, conceptos


y reglas que norman y guían la investigación científica.
• Crear conceptos precisos.
• Formular preguntas claras.
• Imponer limitaciones claras al problema, (tiempo y recursos disponibles).
• Formación y habilidades de los investigadores participantes.
Introducción

Estadística en la Investigación

• Estructura de la investigación:
– Diseño.
– Análisis.
– Interpretación de los resultados.
Introducción

•La estadística proporciona métodos para adquirir


conocimiento acerca de los fenómenos naturales y
mantiene una estrecha relación con en Método
científico.

•Método científico permite a los investigadores adquirir


conocimientos, de manera objetiva tanto de procesos,
como de fenómenos de la naturaleza.
Introducción

• Métodos estadísticos exploratorios: Son métodos


descriptivos y gráficos que permiten estudiar las
características generales de los datos obtenidos

• Métodos estadísticos confirmatorios: Son


procedimientos muy útiles para obtener decisiones
y/o conclusiones finales (inferencias estadísticas).
Introducción

• La exactitud de las inferencias o conclusiones


depende de la corrección y precisión, éstas a su vez
dependen de la formulación del problema.

• Las técnicas estadísticas, por muy refinadas y


precisas que sean, no pueden ayudar a alcanzar
conclusiones o decisiones correctas si se aplican a
datos inapropiados.
Introducción

• Primera etapa del método científico


– Captación de información
• Experimentación
• Observación
– Determinar cuantas y cuales unidades son necesarias observar o emplear para la
experimentación
– Precisión
– Grado de consistencia de los datos
– Resumen y análisis de datos
– Postulación de hipótesis o teorías que expliquen los hechos observados
(proceso inductivo)
• Causas
• Efectos
Introducción

• Segunda etapa

– Predicción
– A través de modelos probabilísticos
– Contrastación de hipótesis para probar
predicciones
– Concordancia entre lo observado y lo esperado
Modelación

27 9
3 5
0 6

Inferir
Población ... -1 0 1 ...

Observar Probabilidad

Estadística descriptiva
x2
x1 x x4 Datos
3 ___ ___ ___
. . . xi Estadística ___ ___ ___
___ ___ ___
Muestra

...
...

...
___ ___ ___
Introducción
• Población (‘population’) es el conjunto sobre el
que estamos interesados en obtener conclusiones
(hacer inferencia).
– Normalmente es demasiado grande para poder
abarcarlo.

• Muestra (‘sample’) es un subconjunto de la


población al que tenemos acceso y sobre el que
realmente hacemos las observaciones
(mediciones)
– Debería ser “representativo”
– Esta formado por miembros “seleccionados” de
la población (individuos, unidades
experimentales).
Introducción
• Parámetro: Es una cantidad numérica calculada sobre una población
– La altura media de los individuos de un país
– La idea es resumir toda la información que hay en la población en
unos pocos números (parámetros).

• Estadístico: Es una cantidad numérica calculada sobre una muestra de la


población
– La altura media de los que estamos en este aula.
• Somos una muestra (¿representativa?) de la población.
– Si un estadístico se usa para aproximar un parámetro también se le
suele llamar estimador.

Normalmente
. nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a
*TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean
próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente”
pequeño.
VALOR

VARIABLE

Promedio = 3.81
x-barra
ESTADÍSTICO
Muestra

Promedio=3.7
PARÁMETRO 
Población
Variables y Escalas de Medición
• Una variable es una característica observable que varía entre los
diferentes individuos de una población. La información que
disponemos de cada individuo es resumida en variables.
• En los individuos de la población mexicana, de uno a otro es variable:

– El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa
– Su nivel de felicidad “declarado”
• {Deprimido, Indiferente, Feliz}  Var. Ordinal
– El número de hijos
• {0,1,2,3,...}  Var. Numérica discreta
– La altura
• {1’62 ; 1’74; ...}  Var. Numérica continua
Tipos de Variables
• Cualitativas: Si sus valores (modalidades) no se pueden asociar
naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos).

– Nominales: Si sus valores no se pueden ordenar


• Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

– Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

• Cuantitativas o Numéricas: Si sus valores son numéricos (tiene sentido hacer


operaciones algebraicas con ellos).

– Discretas: Si toma valores enteros


• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

– Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, Presión intraocular, Dosis de medicamento administrado, edad.
Tipos de Variables

DATOS
(escalas)

Discretas
CATEGÓRICAS
NUMÉRICAS

Métricos
No Métricos
Continuas
CUALITATIVAS CUANTITATIVAS

Nominales Ordinales

Intervalo
Razón
Estadística Descriptiva

Sirve como herramienta para describir o resumir a la


muestra.

Comprende la tabulación, representación y descripción de


una serie de datos que pueden ser cuantitativos o
cualitativos.
Objetivo del Análisis Exploratorio

• Tratar de reconocer cualquier patrón no aleatorio o


estructura que requiera explicación.
• Generar posibles hipótesis interesantes.
• No existen modelos rígidos.
• Se da importancia al despliegue visual y
representaciones gráficas.

Encontrar la pregunta, frecuentemente es más


interesante que buscar la respuesta.
Instrumentos de captación

• Existen varios tipos de instrumentos de captación de


información, cada uno de ellos tienen sus propios alcances y
limitaciones.

• Los instrumentos de captación apropiados serán


seleccionados de acuerdo a los objetivos y el tipo de estudio
que se realiza.

• Dependiendo del tipo de estudio o investigación, existen


diversas maneras de obtener información.
Instrumentos de captación
• Ejemplo: la investigación por encuesta que consiste en un
determinado número de entrevistas aplicadas a una
muestra seleccionada de la población objetivo;

• Por observación directa, ya sea en un experimento (en


condiciones controladas) o en estudios observacionales
(en condiciones sin intervención del investigador);
Instrumentos de captación

• Ejemplo, un experimento permite observar la


temperatura de fusión de dos metales para formar
una amalgama, controlando otros factores como la
humedad, la presión, etc.

• Medir el nivel de oxigeno disuelto en el agua, a través


de un instrumento electromecánico, considerando
otros factores como la presión y temperatura al
momento de la medición.
Instrumentos de captación

• Por otro lado, un ejemplo de un estudio


observacional sería la medición de la precipitación
anual en Tijuana, donde no es posible manipular otros
factores que posiblemente influyan (como el
fenómeno de El niño, por ejemplo).
Instrumentos de captación

• Entrevistas

• Observación directa
• Observacional
• Experimental

• Revisión documental
Codificación de Datos

• Una vez captada la información por los diversos


instrumentos como son los cuestionarios, las entrevistas
y otros; es necesario la traducción de la información para
la construcción de una base de datos, a este proceso se
le llama codificación.
Codificación de Datos
• Es buena idea codificar las variables como números para poder procesarlas con facilidad
en una computadora.
• Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué
significan los códigos numéricos.
• Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
• Raza (Cualit: Códigos arbitrarios)
• 1 = Blanca
• 2 = Negra,...
• Felicidad Ordinal: Respetar un orden al codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz

• Se pueden asignar códigos a respuestas especiales como


• 0 = No sabe
• 99 = No contesta...

• Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos


(‘missing data’)
Codificación de Datos

• Aunque se codifiquen como


números, debemos recordar
siempre el verdadero tipo
de las variables y su
significado cuando vayamos
a usar programas de cálculo
estadístico.
• No todo está permitido con
cualquier tipo de variable.
• Los posibles valores de una variable suelen denominarse modalidades.
• Las modalidades pueden agruparse en clases (intervalos)
• Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
• Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos
• Las modalidades/clases deben forman un sistema exhaustivo y excluyente:

• Exhaustivo: No podemos olvidar ningún posible valor de la variable


• Mal: ¿Cuál es su color del pelo: (Rubio, negro)?
• Bien: ¿Cuál es su grupo sanguíneo?

• Excluyente: Nadie puede presentar dos valores simultáneos de la variable


• Estudio sobre el ocio
• Mal: De los siguientes, qué le gusta: (deporte, cine)
• Bien: Le gusta el deporte: (Sí, No)
• Bien: Le gusta el cine: (Sí, No)
• Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
Caso de las variables cualitativas

• Los grupos se pueden formar con los nombres de las


categorías o con números, pero estos números asignados
son etiquetas de grupo y no deberán ser utilizados en los
cálculos;

• Por ejemplo, para la variable sexo podrían utilizarse los códigos 1


= femenino y 2 = masculino, como etiquetas de grupo.
Caso de las variables cualitativas

• Se requieren de instrumentos de medición que


asignen valores numéricos sobre las características
en estudio; adicionalmente, se debe establecer el
grado de precisión en los dígitos decimales a
considerar.
• Las variables numéricas se pueden agrupar en categorías, para
esto es necesario especificar los criterios de formación de grupos
(categorización).

• Este proceso implica un cambio de una variable numérica de


cualquier tipo de escala, a una variable categórica ordinal; desde
el punto de vista estadístico esto representa una pérdida de
información.

No es posible transformar las variables categóricas en


numéricas.
Estructura de las Bases de Datos

• Una vez captada y codificada la información, el


siguiente paso es la captura y almacenamiento de
dicha información en una base de datos por
computadora.

• La definición de las características de las variables


involucradas y su codificación son de vital
importancia
Matriz de Datos
• Consiste en un arreglo tabular donde cada j-ésima columna
representa una de las k variables obtenidas y cada i-ésimo
renglón representa uno de los elementos obtenidos de los N que
contiene la población.

• Este arreglo nos lleva a una matriz rectangular con N renglones y


k columnas MN x k; en el caso de que se tenga una muestra de la
población, que es lo que encontramos comúnmente en la
práctica, entonces se reemplaza la letra mayúscula N por n
elementos que contiene la muestra (N > n).
Ejemplo de Base de Datos
FUENTE: Jobson, J.D., (1992) Applied Multivariate Data Analysis Volume II: Categorical and
Multivariate Methods. Springer-Verlang.

DESCRIPCIÓN: Este conjunto de datos contiene observaciones de automóviles seleccionados del


Fuel Consumption Guide 1985 publicado por Transport Canada. Este muestreo consiste de
observaciones en 20 diferentes automóviles con respecto a algunas de sus características.

NOMBRE DE LAS VARIABLES


1. TIPO: Nombre del automóvil
2. MOTOR: Tamaño del motor
3. CILIND: Numero de cilindros.
Para 4,6 y 8 cilindros corresponde 1,2 y 3 respectivamente
4. RENDIM: Porcentaje o proporción por el consumo de combustible.
Si esta entre: 64-71=1, 74-84=2, 93-97=3, 104-110=4
5. PESO: Peso del automóvil.
Si esta entre (2000,2250)=1, (2500,2750)=2, 3000=3, 3500=4, 4000=5
6. MANUF: Manufacturero;
1=manufacturero extranjero, 0=manufacturero norteamericano
Ejemplo de Base de Datos
TIPO MOTOR CILIND RENDIM PESO MANUF
1 PONTIAC 5 3 4 5 0
2 HONDA CI 1 1 1 1 1
3 BUICK CE 4 2 4 3 0
4 SUBARUGL 1 1 1 2 1
5 VOLVO 74 2 1 2 3 1
6 PLYMOUTH 2 1 2 3 0
7 HONDA AC 1 1 2 2 1
8 CHEV CA 3 2 3 4 0
9 PLYMOUT1 2 1 2 2 0
10 CHRYSLER 2 1 2 3 0
11 CADDILLA 4 3 4 5 0
12 FORD MU 5 3 4 4 0
13 TOYOTA1 2 1 2 2 1
14 FORD ES 1 1 2 2 0
15 TOYOTA T 1 1 1 1 1
16 TOYOTA C 2 1 1 2 1
17 MERCURY 5 3 4 4 0
18 TOYOTA2 3 2 3 4 1
19 NISSAN 3 3 2 4 4 1
20 NISSAN M 3 2 4 4 1
Algunos de los objetivos que se plantean en el análisis
de los datos son:

• ¿Qué caracteriza a los datos? (¿Cuál es la información


sobresaliente?).
• ¿Qué tanto varían los datos?
• ¿Cómo están distribuidos los datos?
• ¿Qué relación existe entre las variables?
• ¿Qué estimaciones y predicciones resultarán de los datos?
• ¿Qué diferencia existe entre grupos y variables?
• ¿Qué variables causan variación en otras?
• Etc. ...
Agrupación de Datos

Para datos cualitativos: Distribuciones de frecuencias ·

Para datos cuantitativos: Agrupación en intervalos de clase

•·Frecuencias relativas.
• Frecuencias acumuladas y distribuciones porcentuales
acumulativas.
• Tablas ‘cruzadas’.
Presentación ordenada de Datos
7
Género Frec. 6

5
Hombre 4 4
3
2
Mujer 6 1
0
Hombre Mujer

Las tablas de frecuencias y las representaciones gráficas son


dos maneras equivalentes de presentar la información. Las dos
exponen ordenadamente la información recogida en una
muestra.
Tablas de Frecuencias
• Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).
• Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad
• Frecuencias relativas (porcentajes): Idem, pero dividido por el total
• Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas
• Muy útiles para calcular cuantiles (ver más adelante)
• ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
• ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%

Sexo del encuestado Número de hijos

Porcentaje Porcentaje Porcentaje


Frecuencia Porcentaje válido Frecuencia Porcentaje válido acumulado
Válidos Hombre 636 41,9 41,9 Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1 1 255 16,8 16,9 44,7
Total 1517 100,0 100,0 2 375 24,7 24,9 69,5
3 215 14,2 14,2 83,8
Nivel de felicidad 4 127 8,4 8,4 92,2
Porcentaje Porcentaje 5 54 3,6 3,6 95,8
Frecuencia Porcentaje válido acumulado 6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1 7 23 1,5 1,5 98,9
Bastante feliz 872 57,5 58,0 89,0 Ocho o más 17 1,1 1,1 100,0
No demasiado feliz 165 10,9 11,0 100,0 Total 1509 99,5 100,0
Total 1504 99,1 100,0 Perdidos No contesta 8 ,5
Perdidos No contesta 13 ,9 Total 1517 100,0
Total 1517 100,0
Datos desordenados y ordenados en tablas
• Variable: Género
• Modalidades:
Género Frec. Frec. relat.
• M = Mujer
• H = Hombre porcentaje
Hombre 4 4/10=0,4=40%

Mujer 6 6/10=0,6=60%
• Muestra: 10=tamaño
muestral
MHHMMHMMMH

• equivale a
HHHH MMMMMM
Ejemplos
Número de hijos
• ¿Cuántos individuos tienen
menos de 2 hijos? Porcent. Porcent.
Frec. (válido) acum.
0 419 27,8 27,8
• Frec. indiv. sin hijos 1 255 16,9 44,7
+ Frec. indiv. con 1 hijo
= 419 + 255= 674 individuos 2 375 24,9 69,5 ≥50%
3 215 14,2 83,8
4 127 8,4 92,2
• ¿Qué porcentaje de individuos 5 54 3,6 95,8
tiene 6 hijos o menos? 6 24 1,6 97,3
• 97,3% 7 23 1,5 98,9
Ocho+ 17 1,1 100,0
Total
• ¿Qué número de hijos tiene a lo 1509 100,0
más el 50% de la población?
• 2 hijos
Gráficos para variables cualitativas
• Diagramas de barras
• Alturas proporcionales a las
frecuencias (abs. o rel.).
• Se pueden aplicar también a
variables discretas.

• Diagramas de sectores (tartas,


polares)
• No usarlo con variables
ordinales.
• El área de cada sector es
proporcional a su frecuencia
(abs. o rel.).

• Pictogramas
• Fáciles de entender.
• El área de cada modalidad debe
ser proporcional a la frecuencia.
Gráficos para variables numéricas
419
400 375

300

255
Son diferentes en función de que las variables sean
Recuento

200
215 discretas o continuas. Valen con frec. absolutas o
127
relativas.
100

54
24 23 17

0 1 2 3 4 5 6 7 Ocho o más
• Diagramas barras para variables discretas
Número de hijos
• Se deja un hueco entre barras para indicar los valores
que no son posibles
250

200
• Histogramas para variables continuas
• El área que hay bajo el histograma entre dos puntos
Recuento

150

cualesquiera indica la cantidad (porcentaje o


100
frecuencia) de individuos en el intervalo.
50

20 40 60 80

Edad del encuestado


Diagramas Integrales
• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se
realizan a partir de las frecuencias acumuladas.
• Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que
poseen un valor inferior o igual al mismo. Se pasan de los diferenciales a los integrales
por integración y a la inversa por derivación.
Resumen sobre estadísticos
Resumen sobre estadísticos
• Posición
• Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...

• Centralización
• Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda

• Dispersión
• Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
• Asimetría
• Apuntamiento o curtosis
Estadísticos de posición
• Se define el cuantil de orden a como un valor de la variable por
debajo del cual se encuentra una frecuencia acumulada a.

• Casos particulares son los percentiles, cuartiles, deciles,


quintiles,...
Estadísticos de posición

• Percentil de orden k = cuantil de orden k/100


• La mediana es el percentil 50
• El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

• Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.


• Primer cuartil = Percentil 25 = Cuantil 0,25
• Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
• Tercer cuartil = Percentil 75 = cuantil 0,75
Ejemplos

El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera
“demasiado bajo”?
• Percentil 5 o cuantil 0,05
• ¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75
• El colesterol se distribuye simétricamente en la población. Se considera
patológico los valores extremos. El 90% de los individuos son normales
¿Entre qué valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95
• ¿Entre qué valores se encuentran la mitad de los individuos “más normales”
de una población?
• Entre el cuartil 1º y 3º
• ¿Qué peso no llega a alcanzar el 25% de los individuos?
• Primer cuartil = percentil 25 = 60 Kg.
50%
• ¿Qué peso es superado por el 25% de los individuos?
• Tercer cuartil= percentil 75= 80 kg.

• ¿Entre qué valores se encuentra el 50% de los individuos con un


peso “más normal”? 100

• Entre el primer y tercer cuartil = entre 60 y 80 kg.


90
• Observar que indica cómo de dispersos están los individuos que
ocupan la “parte central” de la muestra. Ver más adelante rango
80
intercuartílico.
• Los diagramas de caja (‘boxplot’) sintetizan esta información (y algo 70
más).
Estadísticos
60
PESO
Percentiles 25 60,00
50
50 70,00
75 80,00 40
Centralización
Añaden unos cuantos casos particulares a las medidas de posición. En este caso son medidas que buscan
posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

• Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por
el tamaño muestral.
• Media de 2,2,3,7 es (2+2+3+7)/4=3,5
• Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a
valores extremos.
• Centro de gravedad de los datos.

• Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos
(percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales.
• Mediana de 1,2,4,5,6,6,8 es 5.
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5.
• Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

• Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.


Media Aritmética Ponderada

Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es
valido asignar "pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.
Si en una serie de datos aparecen los números; pero cada uno con diferente frecuencia. Si
cada uno de estos datos se multiplica por su respectiva frecuencia o ponderación y se
suman estos productos, se obtendrá la misma suma que si se hubieran sumado uno por
uno.

Sin ponderar Cálculo ponderado


Número x Número x Frecuencia Producto (fx)
10 10 4 40
13 13 3 39
14 14 1 14
15 15 1 15
Suma = 52 9 108
52/4 = 13 108/9 = 12
Variabilidad o dispersión
• Los estudiantes de la Especialidad reciben diferentes calificaciones en la asignatura (variabilidad). ¿A
qué puede deberse?

• Diferencias individuales en el conocimiento de la materia.

• ¿Podría haber otras razones (fuentes de variabilidad)?

• Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿Las notas
serían las mismas en todos? Seguramente No.

• Dormir poco el día del examen, el croissant estaba envenenado...


• Diferencias individuales en la habilidad para hacer un examen.

• El examen no es una medida perfecta del conocimiento.


• Variabilidad por error de medida.

• En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige la mala
• Variabilidad por azar, aleatoriedad.
Medidas de dispersión

Miden el grado de dispersión (variabilidad) de los


datos, independientemente de su causa.

• Rango intercuartílico (‘interquartile range’):


• Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
• Parecida al rango, pero eliminando las
observaciones más extremas inferiores y
superiores.

• No es tan sensible a valores extremos.


• Amplitud o Rango (‘range’):
La diferencia entre las observaciónes extremas.
• 2,1,4,3,8,4. El rango es 8-1=7
• Es muy sensible a los valores extremos.
Medidas de dispersión

Varianza S2 (‘Variance’):

• Mide el promedio de las desviaciones (al cuadrado) de las observaciones con


respecto a la media.

1
S   ( xi  x ) 2
2

n i

• Es sensible a valores extremos (alejados de la media).


• Sus unidades son el cuadrado de las de la variable.
Medidas de dispersión
50

Desviación típica (‘standard deviation’)


Es la raíz cuadrada de la varianza 40

• Tiene las misma dimensionalidad (unidades) que la 30


variable.

• Cierta distribución que veremos más adelante (normal o 20

gaussiana) quedará completamente determinada por la


media y la desviación típica.
10
Desv. típ. = 568,43
Media = 2023
• A una distancia de una desv. típica de la media tendremos 68%
observaciones. 0 1. 1 2 2. 2
N = 407,00
3
50 90 30 . 70 . 10 50 . 90 . 30
0 0 0 0 0 0 0 0
• A una distancia de dos desv. típica de la media tendremos 95%
observaciones.
Peso recién nacidos en partos gemelares

S S2
Medidas de dispersión

• Centrado en la media y a una desviación típica de distancia tenemos más de la


mitad de las observaciones (izq.)

• A dos desviaciones típicas las tenemos a casi todas (dcha.)


Medidas de dispersión
Coeficiente de variación
S
Es la razón entre la desviación típica y la media.
• Mide la desviación típica en forma de
CV 
“qué tamaño tiene con respecto a la media” x
• También se la denomina variabilidad relativa.

• Es frecuente mostrarla en porcentajes


• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa).

• Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.


• Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que
en altura.

• No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad
fijada arbitrariamente
• Por ejemplo 0ºC ≠ 0ºF
Medidas de forma
Asimetría o sesgo

• Una distribución es simétrica si la mitad izquierda de su


distribución es la imagen especular de su mitad
derecha.

• En las distribuciones simétricas media y mediana


coinciden. Si sólo hay una moda también coincide

• La asimetría es positiva o negativa en función de a qué


lado se encuentra la cola de la distribución.

• La media tiende a desplazarse hacia las valores


extremos (colas).

• Las discrepancias entre las medidas de centralización


son indicación de asimetría.
Medidas de forma
Apuntalamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto
a la distribución normal o gaussiana. Es adimensional.
400
300
160

140 300

200
120

200
100

100
80
100
Frecuencia

Frecuencia
Frecuencia

60

0
40 0
27 37 45 53 61 69 77 85 93
45 48 51 54 57 60 63 66 69 72 75 78 81 84 3 27 37 47 57 67 77 87 97 108
32 41 49 57 65 73 81 89 99
16 32 42 52 62 72 82 92 102 138
Platicúrtica
Mesocúrtica
Leptocúrtica
Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0

Estos gráficos poseen la misma media y desviación típica, pero con diferente grado de
apuntamiento. En el curso serán de especial interés las mesocúrticas y simétricas (parecidas
a la normal).
Medidas Descriptivas
Medidas descriptivas, dependiendo de la escala de medición
Medidas de Medidas de la
centro de una variabilidad de
Clasificación Medidas Gráficas distribución una distribución
Gráfica de barras o Varianza Binomial o
La Moda
Gráficas de pastel Multinomial
Nominal
Las de arriba más
Las de arriba más Las de arriba más
Rango y
Histogramás Mediana
Ordinal Porcentiles
Las de arriba más Las de arriba más
Las de arriba más
Histogramas con Desviación
Media
Intervalo áreas medibles estándar
Las de arriba más Las de arriba más Las de arriba más
Histogramas con Media Geométrica Coeficiente de
Razón áreas medibles y Media Armónica Variación
Exploración de Datos
Escala Centralidad Dispersión Gráfico

Nominal Moda, Varianza binomial Barras,


Proporción o multinomial Sectores o pastel
Las anteriores y en
Ordinal Las anteriores y Anteriores, rango y algunos casos
mediana rango intercuartil histograma
Histograma, polígono
Intervalo Las anteriores y Las anteriores y de frecuencias,
media desviación estándar cajas, etc.

Razón Las anteriores Las anteriores Las anteriores

¿Qué hay en los datos?


(¿Qué los caracteriza? ¿Cuál es la información sobresaliente?)
Exploración de Datos
Escala Centralidad Dispersión Gráfico

Nominal Moda, Varianza binomial Barras,


Proporción o multinomial Sectores o pastel
Las anteriores y en
Ordinal Las anteriores y Anteriores, rango y algunos casos
mediana rango intercuartil histograma
Histograma, polígono
Intervalo Las anteriores y Las anteriores y de frecuencias,
media desviación estándar cajas, etc.

Razón Las anteriores Las anteriores Las anteriores

¿Qué tanto varían los datos?


(¿Cuán distintos puede uno esperar los posibles resultados?)
Exploración de Datos

Escala Centralidad Dispersión Gráfico

Nominal Moda, Varianza binomial Barras,


Proporción o multinomial Sectores o pastel
Las anteriores y en
Ordinal Las anteriores y Anteriores, rango y algunos casos
mediana rango intercuartil histograma
Histograma, polígono
Intervalo Las anteriores y Las anteriores y de frecuencias,
media desviación estándar cajas, etc.

Razón Las anteriores Las anteriores Las anteriores

¿Cómo están distribuidos los datos?


(¿Cómo se comporta en general la característica que estamos estudiando?)

También podría gustarte