Documentos de Académico
Documentos de Profesional
Documentos de Cultura
información
Plan de tabulación de datos
Tres grandes
etapas:
Formulación
I. Diseño Presentación
de
II. Descripción de resultados
III. Inferencia
conclusiones
I. Diseño
Define cómo se desarrollará la investigación con el fin de responder las
preguntas que le dieron origen. Un mal diseño o con datos
incorrectamente recolectados o registrados puedes ser incapaz de
responder las preguntas de la investigación.
Mecanismo de
Población objetivo
selección de individuos
Criterios de inclusión y
exclusión
Variables que se
Tamaño de muestra
medirán
II. Descripción
La estadística descriptiva o análisis exploratorio
de datos, ayudan a presentar los datos de tal
manera que sobresalga su estructura.
Orientación
Orientación verticaly orden
vertical y ordenpor
porfrecuencias
frecuencias Orientación
Orientaciónhorizontal y orden
horizontal alfabético
y orden alfabético
Alemania
Alemania
España
España
Francia
Francia
Grecia
Grecia
Países Bajos
Países Bajos
Portugal
Portugal
Rumanía
Países Alemania España Francia Portugal Grecia Rumanía
PaísesBajos Rumanía
Alemania España Francia Portugal Grecia Rumanía
Bajos Continúa Inicio
• Comparar magnitudes de
varias categorías.
Compara magnitudes de varias Evolución en el tiempo de una
categorías magnitud concreta
España Francia Italia Portugal
Producción de cereales. 2008 6 / 28
Millones de toneladas Producción de cereales en España
Millones de toneladas
• Ver la evolución en el
tiempo de una magnitud
concreta.
España Francia Italia Portugal
Producción de cereales en España
o de barras 7 / 28
Alumnado que terminó Bachillerato por su opción académica
Miles de alumnos
e gráficos de barras: Centros Públicos Centros Privados
ncillo: Sencillo
tiene una única serie de datos. Ciencias de la Humanidades
Artes Tecnología
Naturaleza y de la y Ciencias
Salud Sociales
rupado:
tiene varias series de datos
Agrupado
da una se representa por un
de barra de un mismo color o Artes Ciencias de la Humanidades Tecnología
ura. Naturaleza y de la y Ciencias
Salud Sociales
ilado:
Apilado
tiene varias series de datos. La
a se divide en segmentos de
entes colores o texturas y cada
Artes Ciencias de la Humanidades Tecnología
de ellos representa una serie. Naturaleza y de la y Ciencias
Salud Sociales
•Bi-direccional:
orientación horizontal y contiene dos series de datos cuyas barras de frecuencias crecen
TieneBi-direccional:
en sentidos
Tiene orientación Las más comunes
opuestos.horizontal y contiene son
dos las pirámides
series de datosde población
cuyas de frecuencias
barras de las que hablaremos
crecen en
más adelante.
sentidos opuestos.
Consumo de tabaco según sexo y grupos de edad
Fumadores diarios (porcentajes)
75 y más
De 65 a 74 Varones Mujeres
De 55 a 64
De 45 a 54
De 35 a 44
De 25 a 34
De 16 a 24
50 40 30 20 10 0 10 20 30 40
Continúa Inicio
Se suelen usar para presentar tendencias Miles de personas
temporales. 5.000
Gráfico de líneas
En el eje horizontal se ha de posicionar la 4.000
neas variable que indica las unidades de tiempo y en 3.000
13 / 28
el vertical se introduce la escala de la variable 2.000
cuya variación en el tiempo queremos ver. 1.000
Es una representación gráfica en un eje cartesiano de la relación
as es una representación gráfica en un eje cartesiano de la relación
0
que
os variables reflejando con claridad los cambios producidos. Pueden aparecer varias variables para compararlas.
existe entre dos variables reflejando con claridad los cambios2005 2006 2007 2008 2009
producidos. Parados en España por nivel de formación alcanzada
Índice de precios al consumo Miles de personas Analfabetos
Base 2006 2.000
110 Educación Primaria
109 1.500
108 Educación Secundaria 1ª etapa y formación e
107 1.000 inserción laboral correspondiente
106 Educación Secundaria 2ª etapa y formación e
105 500 inserción laboral correspondiente
jul- ago- sep- oct- nov- dic- ene- feb- mar- abr- may- jun- jul- Educación superior, excepto doctorado
09 09 09 09 09 09 10 10 10 10 10 10 10 0
Fuente: IPC. INE 2005 2006 2007 2008 2009 Doctorado
Un gráfico de Pareto es un tipo de gráfico de barras vertical ordenado por frecuencias
de forma descendente que identifica y da un orden de prioridad a los datos.
Causas externas de mortalidad Defunciones % % acumulados
Gráfico de Pareto
1 Suicidio y lesiones autoinfligidas 3.457 23 23
2 Accidentes de tráfico de vehículos de motor 3.030 20 43
3 Ahogamiento, sumersión y sofocación accidentales 2.258 15 58
4 Otros accidentes 2.212 14 72
Es un tipo de gráfico de barras vertical ordenado por frecuencias de
5 Caídas accidentales 1.845 12 84
6 Envenenamiento accidental por psicofármacos y drogas de abuso 599 4 88
forma descendente que identifica
7
Gráficoy dadeunPareto
Otros accidentes de transporte orden de prioridad a los 476 3 91
8
datos. 9
Complicaciones de la atención médica y quirúrgica
Agresiones (Homicidios)
404
378
3
2
94
96
10 Otros envenenamientos accidentales 281 2 98
Muestra el Principio de Pareto,
11 formulado
Un gráfico por
de Pareto es Vilfredo
Accidentes por fuego, humo y sustancias calientes Pareto:
un tipo de gráfico de barras vertical orde
202 1 99
12 Otras causas externas y sus efectos tardíos 147 1 100
Total de forma
Pocos vitales, descendente
muchos que identifica y da un orden de priorida
triviales 15.289 100
4.000 100
En elCausas
ejeexternas se representan las catego
de mortalidad
horizontal Defuncion
3.500 1 Suicidio y lesiones autoinfligidas 3.
80 variable que queremos estudiar
2 Accidentes de tráfico de vehículos de motor (diferentes ca
3.
3.000
externas de sumersión
3 Ahogamiento, mortalidad). En el eje vertical der
y sofocación accidentales 2.
2.500 60 4 Otros accidentes 2.
muestra la escala
5 Caídas accidentales
de porcentajes y en el eje v
1.
2.000
40
izquierdo la escala
6 Envenenamiento depsicofármacos
accidental por frecuencias (número
y drogas de abuso d
1.500 7 Otros accidentes de transporte
defunciones).
1.000 8 Complicaciones de la atención médica y quirúrgica
20 Las9 Agresiones muestran las frecuencias de las c
barras(Homicidios)
500
la variable y la línea
10 Otros envenenamientos representa el porcentaje
accidentales
0 0
de11
Accidentes por fuego, humo y sustancias calientes
1 2 3 4 5 6 7 8 9 10 11 12
dichas frecuencias respecto el total. Con
12 Otras causas externas y sus efectos tardíos
Frecuencia Frecuencia absoluta
Gráfico de pastel relativa =
Suma de todas las
18 / 28
frecuencias absolutas
Es una representación circular de las frecuencias elativas de una
cular de las frecuencias relativas de una
variable
una manera cualitativa
sencilla o discreta.
y rápida, su comparación.
Viajeros hospedados en hoteles españoles Porcentaje = Frecuencia relativa X 100
por categoría del establecimiento. 2009
Una estrella
Cinco estrellas
4%
6%
Dos estrellas
9% Ángulo = Frecuencia relativa X 360 (grados que tiene
una circunferencia)
Cuatro estrellas
Tres estrellas
46%
35%
Gráfico de dispersión
Gráfico de dispersión
Gráfico de dispersión
23 / 28
23 / 2
Muestra Un gráfico
en eje cartesiano
de dispersión la
muestra relación que la relación
existe
en un eje cartesiano entrequedos
existevariables.
entre dos variables.
Un gráfico de dispersión muestra en un eje cartesiano la relación que existe entre dos variables.
País Fertilizantes Nitrogenados* Produccion agrícola**
País Fertilizantes Nitrogenados* Produccion agrícola**
Alemania 1.779.455 106.041
Alemania
Austria
1.779.455
110.512
106.041
10.40710.407
Gráfico de
Gráfico dedispersión
dispersión
Correlación lineal
Correlación no lineal
Cartograma
Es un mapa en el que se representan datos estadísticos por regiones,
coloreando las distintas zonas en función del dato que represente.
Medidas de Medidas de
posición dispersión
La mayor parte de los conjuntos de datos
Permiten ver la distancia de los valores
muestran una tendencia a agruparse
de la variable a un cierto valor central.
alrededor de un punto central.
Se trata de un coeficiente para las
Es posible elegir un valor que describa el
variables cuantitativas.
conjunto de datos
Promedio
Armónico Cuadrático
El objetivo del
promedio
El tipo de La distribución
variable a Promedio de la frecuencia
promediar de los datos
El tipo de escala
de medición
utilizada
s como promedio. Entonces la media es la suma
las observaciones, dividida entre el número de
.
Promedio La media aritmética es la medida de
muestra que contiene tendencia
a las observaciones x , utilizada y es
central más
aritmético
s la media aritmética, x igual
1
es: a lo que conocemos como
promedio.
𝑛n
∑
𝑋x𝑖i Es la suma de los valores de todas las
observaciones, dividida entre el
x= i =1
𝑖=1
Med= X (n+1)/2
Mediana
Marca Frecuencia
No. de Frecuencia Frecuencia
Tiempo invertido en de relativa
clientes relativa acumulada
atender al cliente clase acumulada
La mediana no es sensible a
La suma de las distancias (valor valores extremos. Pueden
absoluto) de los datos a la ocurrir errores por exceso o por
mediana, es mínimo. defecto sin que el valor de la
mediana cambie
Cuándo utilizar la mediana
a) Cuando la distribución de los datos es asimétrica.
b) Cuando hay valores extremos que distorsionarían el
significado del promedio.
c) Cuando se tienen distribuciones con valores sin
determinar, por ejemplo cuando la primera clase es
“menos de X” y la última “mas de Y”.
d) Cuando los valores extremos no están definidos.
que se repita más que otro, todos tienen frecuencia 3.
5 5 5 6 6 6 10 10 10
Frecuencia relativa
Frecuencia relativa
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
Frecuencia relativa
Frecuencia relativa
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
punto_ particular (medición), entonces la desviación de esa
(xi – x). Las mediciones a la derecha de la media producen
Desviación de la de la izquierda, negativas.
Si xi es un punto Los(medición),
particular x y las ladesviaci
valores deentonces
media detallandesviación
en las columnas primeradesde
de esa medición y segunda deesla(xitabla
la media – _x).2.1.
TA B LA 2 .1 C á lcu lo d e S(x i x )2
●
x (xi x) (xi x )2
5 1.2 1.44
7 3.2 10.24
1 2.8 7.84
2 1.8 3.24
4 .2 .04
19 0.0 22.80
poblacional
para se denota
una varianza con s yLa
de población. está
2
dada por
varianza la fórmula
será relativamente
De la suma
variables y relativamente de desviaciones
pequeña para datos menos variables.
oS(xi – m)
2
cuadradas, se calcula una s _________
2 sola
Independientemente de la forma de
Teorema de distribución , la proporción de valores que se
Chebyshev encuentran a k desviaciones estándares de la
media es al menos
Cuartiles
tos, cada uno conteniendo un número igual de mediciones. Veinticinco por ciento de las
fica para describir conjuntos de datos.
mediciones serán menores que el cuartil inferior (primero), 50% serán menores que la me-
diana (el segundo cuartil) y 75% serán menores que el cuartil superior (tercero). De este
modo, la mediana y los cuartiles inferior y superior están ubicados en puntos en el eje x
de modo que el área bajo el histograma de frecuencia relativa para los datos está dividida
Si a un conjunto de datos
MIse ordena de mayor PERSONAL
ENTRENADOR a menor, el
en cuatro áreas iguales, como se muestra en la figura 2.15.
valor central es la mediana, este valor divide el grupo, en
15
¿Cómo
dos subgrupos cada uno con el 50 % decalculo cuartiles muestra
los datos.
●
artiles
1. Acomode el conjunto de datos en orden de
Frecuencia relativa
gráfica de caja se Q
Una Límite
inferior
muestra
1 Límites
en lamfigura
Q3 2.17. Límite
superior
●
En la sección 2.6, el puntaje z dio fronteras para hallar mediciones extraordinaria-
mente grandes o pequeñas. Buscamos puntajes z mayores a 2 o 3 en valor absoluto. La
gráfica de caja usa el IQR para crear “límites” imaginarios para separar resultados atípi-
cos del resto del conjunto de datos:
Q1
Límite
D ET EC inferior
C IÓ N D E R ES U LT A mD OQS3 A T ÍPsuperior
Límite
IC O S .
O B S ER V A C IO N ES Q U E ES T Á N A M A Y 2.6 O RMEDICIONES
D IS T ADENPOSICIÓN
C IA :RELATIVA
En la sección 2.6, el puntaje z dio fronteras para Rango intercuartil
hallar mediciones (IQR). Es
extraordinaria-
• mente
Límite inferior:
grandes Q1 1.5(IQR)
o pequeñas. la diferencia
Buscamos puntajes z mayores a 2 o 3 enentre
valorlos cuartiles
absoluto. La
D•egráfica
fi n ició
Límite n usa ElQ
desuperior:
caja elrango
3
intercuartil
IQR1.5(IQR)
para (I QR)
crear “límites” para un
imaginarios superior
separare resultados
conjunto
para inferior: atípi-
de mediciones es
rencia entre
cos del restolos
delcuartiles
conjunto desuperior
datos: e inferior; esto es, IQR Q3 Q1.
Los límites superior e inferior se muestran con líneas interrumpidas en la figura 2.17,
Para Dlos
ETdatos
EC Cdel
IÓ Nejemplo
D E R ES 2.13,
U LT A D O SQA
IQR QIC
3 T ÍP 1 O 18.50
S. 8.75 9.75. Usar
necesario conocer la posición de una observación respecto a otras de un
datos. Por ejemplo, si usted se examina con un total de 35 puntos, podría
Resultados atípicos
cómo se compara su calificación de 30 con las calificaciones de los otros
del grupo. La media y desviación estándar de las calificaciones se pueden
Un resultado atípico aparece al trasponer dígitos cuando se
lcular un puntaje z, que mide la posición relativa de una medición en un
datos. registra una medición, al leer incorrectamente la caratula
de un instrumento, por el mal funcionamiento de una pieza
de equipo o por otros problemas.
Percentiles
la distribución de datos que es mayor a 60% de las mediciones y menor que las otras.
Esto es, 60% de las mediciones son menores que el 60avo percentil y 40% son mayores
(véase la figura 2.14). Como el área total bajo la distribución es 100%, 60% del área está
a la izquierda y 40% del área está a la derecha del 60avo percentil. Recuerde que la me-
diana, m, de un conjunto de datos es la medición central; esto es, 50% de las medicio-
nes son más pequeñas y 50% son más grandes que la mediana. Entonces, ¡la mediana
Un percentil es otra medida de posición relativa y se
es igual que el 50avo percentil!
usa con más frecuencia para conjuntos grandes de
datos. (Los percentiles no son muy útiles para
FIG U R A 2 .1 4
●
conjuntos pequeños de datos.)
El 60avo percentil mostrado
en el histograma de frecuencia
relativa para un conjunto de
Frecuencia relativa
datos
60% 40%
60avo percentil
se encuentra en (n+1)/2; es decir en (8+1)/2 = 4.5. La mediana es el
valor que corresponde a la posición 4.5, es decir el promedio de los
valores correspondientes a la posición 4 y a la posición 5. La mediana es
(11+12)/2= 11.5.
Generalizando, observamos las expresiones para
localizar los percentiles, deciles y cuartiles
Generalizando, obtenemos las expresiones para localizar los percentiles,
deciles y cuartiles, respectivamente:
Consideremos
30 55 38 34 30 24 45 28 51 51
ahora los
III. Inferencia
Hace referencia a un conjunto de métodos que permiten hacer predicciones
acerca de características de un fenómeno sobre la base de información parcial
acerca del mismo.
El fin último de cualquier estudio es aprender sobre las poblaciones.
Estimación
Test de hipótesis
Estadística
descriptiva
Puntual
Estimación
Intervalos
Inferencia
Contraste
Univariado
• Variables cualitativas:
- Distribuciones de frecuencias
- Proporciones
- Razones
- Tasas
• Variables cuantitativas:
- Medidas de tendencia central
- Medidas de dispersión
- Medidas de localización
- Distribuciones de frecuencia (datos agrupados)
Bivariable
Variables cuantitativas sin
Variables cuantitativas con
distribución normal y
Situación distribución normal
cualitativas
Exposición a
dietilbestrol?
Si No Total
Casos 7 1 8
Controles 0 32 32
Total 87 33 40
en que el bolso tiene 7 pares rojos nos dará la probabilidad de que el azar por si sólo produciría la
situación en que hayas empacado 7 pares de medias rojas. Esta probabilidad es el “valor p” de la
Supongamos que tú tienes 40 pares de medias – 7 pares de medias rojas y
prueba de significancia de la relación entre el adenocarcinoma de la vagina y el diestilbestrol de la
tabla anterior. n1 n0
formaque sin
teórica, de
C mirar
manera
C
33 pares de medias azules. Quieres empacar 8 pares de medias en tu valija,
Afortunadamente, la distribución del número de pares rojos en la valija ya ha sido desarrollada en
de manera j que la probabilidad
tomas(m 81 –pares
exacta al azar
j) ser calculada
puede y las
sin tener n1!n
que pones
llevar !m0!loen tu bolso.
0!ma1cabo
Pr(A=j)
¿Cuántos pares = rojos
que en este ––––––––––––––––––––––––
caso = viaje?
sería un número MUY importante de ensayos.
has empacado para tu –––––––––––––––––––––––––––
La fórmula de la distribución
(hipergeométrica) es:
n n! j! (n1 – j)! (m1 – j)! (n0 – m1 –j)!
C
n1 n0
j
C C
m1
(m1 – j) n1!n0!m1!m0!
Pr(A=j) = –––––––––––––––––––––––– = –––––––––––––––––––––––––––
Donde Pr(A=j) es la probabilidad den obtener j paresn!rojos en la valija y m0, m1,
j! (n1 – j)! (m1 – j)! (n0 – m1 –j)!
n0, n1, y n son los
C
totales de las filas y las columnas de la tabla:
m1
Donde Pr(A=j) es la probabilidad de obtener j pares rojos en la valija y m0, m1, n0, n1, y n son los
totales de las filas y las columnas de la tabla:
Color
Rojo Azul Total
Valija j Color m1 – j m1
Rojo Azul Total
En cajón nj 1 – j n0 – m1 – j m0
Valija m1 – j m1
Total
En cajón n1 –nj1 n0 – m1 – j n0 m0 n
n
Rojo(
DES) Azul Total
Empacados(casos) 7 1 8
En cajón (controles) 0 32 32
Total 78 33 40
Posibles resultados
(Colores de los pares Probabilidad
_____________________________________________________________________________
t, © Victor J. Schoenbach de 14.
medias en laevalija)
Análisis de cada
interpretación de datos – 465
26/1999, 12/26/1999, trad. 7.7.2004 Rojo Azul resultado
0 8 .181
1 7 .389
2 6 .302
3 5 .108
4 4 .019 7! 33! 8! 32!
5 3 .0015 { ––––––––––––
6 2 .00005 40! 5! 2! 3! 30!
7 1 4.3 x 10-7
8 0 0 } Valor-p
1.0000
Pruebas de hipótesis
• ¿Se debe al azar la asociación observada?
• ¿Qué tan probable es que la asociación observada se deba al azar?
• El resultado de una prueba de significancia es una probabilidad (el
valor p) que da una respuesta cuantitativa a esta pregunta
intermedia.
La hipótesis que se prueba es generalmente una “hipótesis nula” (habitualmente
indicada como H0). H0 es el modelo de probabilidad que hará́ el rol del azar (por
ejemplo, el modelo de las medias rojas). En el contexto actual, ese modelo se basará
en la premisa de que no hay asociación. Si hay suficiente evidencia numérica que nos
lleve a rechazar la H0, decidiremos que lo contrario es verdadero, que hay una
asociación. La inversa es llamada la “hipótesis alternativa” (HA). La regla de toma de
decisión es de rechazar la H0, a favor de la HA, si el valor de p es suficientemente
pequeño, y sino, aceptar H0 .
E rror T ipo I : Rechazar erroneamente H0 (i.e., concluir, incorrectamente, que los datos no
son consistentes con el modelo)
E rror T ipo I I No rechazar erróneamente H0 (i.e., concluir, incorrectamente, que los datos
son consistentes con el modelo)
(El creador de estos términos debe haber sido más prosaico que el que creó los términos
“significancia”, “potencia”, “precisión”, y “eficiencia”). Tradicionalmente, la probabilidad de error
Interpretación de resultados