Está en la página 1de 79

Procesamiento de la

información
Plan de tabulación de datos

Sujeto Edad Sexo Fecha de Fecha Causa de Tratamiento Etc.


(Ficha de hospitalización de hospitalización
identificación) egreso
Estadística
Método de razonamiento que permite interpretar datos cuyo carácter
esencial es la variabilidad.
La rama del saber que trata del desarrollo y aplicación de métodos
eficientes de recolección, elaboración, presentación, análisis e
interpretación de datos numéricos. Ligia Moya (1989)
Estudia los métodos científicos para recoger, organizar, resumir y
analizar datos, así como para sacar conclusiones válidas y tomar
decisiones razonables basadas en tal análisis. Spiegel (1992)
Etapas del método estadístico

Recopilación Organización Análisis de


de datos de datos datos

Tres grandes
etapas:
Formulación
I. Diseño Presentación
de
II. Descripción de resultados
III. Inferencia
conclusiones
I. Diseño
Define cómo se desarrollará la investigación con el fin de responder las
preguntas que le dieron origen. Un mal diseño o con datos
incorrectamente recolectados o registrados puedes ser incapaz de
responder las preguntas de la investigación.
Mecanismo de
Población objetivo
selección de individuos
Criterios de inclusión y
exclusión
Variables que se
Tamaño de muestra
medirán
II. Descripción
La estadística descriptiva o análisis exploratorio
de datos, ayudan a presentar los datos de tal
manera que sobresalga su estructura.

Resumiendo en uno, dos o mas números


Gráficos que caractericen el conjunto de datos
con fidelidad

Permite detectar datos erróneos o inesperados y nos ayuda a


decidir qué métodos estadísticos pueden ser empleados en
etapas posteriores
Tablas de frecuencias
• Sirve para resumir información de variables discretas o continuas, de
manera particular, permite transformar una variable continua en
discreta definida por el número de intervalos y su frecuencia.
• Para construirla hay que definir:
Rango= valor mayor – valor menor.
Número de clases o intervalos, se recomienda que sea >5 y <20.
En general con menos de 30 datos se usa una tabla de frecuencias con
5 clases.
Ancho de cada intervalo= Rango/número de intervalos.
Se preguntó a derechohabientes el grado de satisfacción con los servicios de
salud. Con una escala de 1 al 9, siendo 1 total desacuerdo y 9 total acuerdo.
Frecuencias acumuladas
Frecuencias Relativas
Tablas de frecuencias
Gráficos
Un gráfico es una representación visual de una serie de datos, Puede
ser:
1. Histograma
2. Gráfico de barras
3. Gráfico de líneas Capta la atención del lector
4. Gráfico de Pareto Presenta la información en forma sencilla,
5. Grafico de pastel clara y precisa
6. Grafico de dispersión No induce a error
7. Cartograma
Facilita la comprensión de datos
Ilustra el mensaje
M ED I DAS D E TEN D EN CI A CEN TRAL Y D I SPERSI ÓN

Histograma Suponga que le pedimos a un grupo de estudiantes de la asignatura de


estadística que registren su peso en kilogramos. Con los datos del peso
de los estudiantes obtenemos el histograma de los pesos para el grupo
Se usa para representar las frecuencias de una variable cuantitativa
de estudiantes y un histograma para el peso de las mujeres y uno para
continua. No
el deexiste separación entre las barras.
los hombres.
Gráfico de barras
4 / 28
Es una representación gráfica en un eje cartesiano de las frecuencias
fica en de
un una
eje cartesiano de las frecuencias
variable cualitativa o discreta.de una
Producción de cereales en España. 2007
Millones de toneladas
La orientación del gráfico puede ser:

• Vertical: las distintas categorías están


situadas en el eje horizontal y las barras
de frecuencias crecen verticalmente.
• Horizontal: las categorías se sitúan
en el eje vertical y las barras crecen
horizontalmente.
Trigo Cebada Avena Centeno
usuarios internetdeldelaño
usuariosdedeinternet año2007 países(Fuente:
2007 por países UniónInternacional
(Fuente:Unión Internacional . .
de Telecomunicaciones)
de Telecomunicaciones)

Orientación
Orientación verticaly orden
vertical y ordenpor
porfrecuencias
frecuencias Orientación
Orientaciónhorizontal y orden
horizontal alfabético
y orden alfabético

Alemania
Alemania
España
España
Francia
Francia
Grecia
Grecia
Países Bajos
Países Bajos
Portugal
Portugal
Rumanía
Países Alemania España Francia Portugal Grecia Rumanía
PaísesBajos Rumanía
Alemania España Francia Portugal Grecia Rumanía
Bajos Continúa Inicio
• Comparar magnitudes de
varias categorías.
Compara magnitudes de varias Evolución en el tiempo de una
categorías magnitud concreta
España Francia Italia Portugal
Producción de cereales. 2008 6 / 28
Millones de toneladas Producción de cereales en España
Millones de toneladas

• Ver la evolución en el
tiempo de una magnitud
concreta.
España Francia Italia Portugal
Producción de cereales en España
o de barras 7 / 28
Alumnado que terminó Bachillerato por su opción académica
Miles de alumnos
e gráficos de barras: Centros Públicos Centros Privados

ncillo: Sencillo
tiene una única serie de datos. Ciencias de la Humanidades
Artes Tecnología
Naturaleza y de la y Ciencias
Salud Sociales
rupado:
tiene varias series de datos
Agrupado
da una se representa por un
de barra de un mismo color o Artes Ciencias de la Humanidades Tecnología
ura. Naturaleza y de la y Ciencias
Salud Sociales

ilado:

Apilado
tiene varias series de datos. La
a se divide en segmentos de
entes colores o texturas y cada
Artes Ciencias de la Humanidades Tecnología
de ellos representa una serie. Naturaleza y de la y Ciencias
Salud Sociales
•Bi-direccional:
orientación horizontal y contiene dos series de datos cuyas barras de frecuencias crecen
TieneBi-direccional:
en sentidos
Tiene orientación Las más comunes
opuestos.horizontal y contiene son
dos las pirámides
series de datosde población
cuyas de frecuencias
barras de las que hablaremos
crecen en
más adelante.
sentidos opuestos.
Consumo de tabaco según sexo y grupos de edad
Fumadores diarios (porcentajes)

75 y más
De 65 a 74 Varones Mujeres
De 55 a 64
De 45 a 54
De 35 a 44
De 25 a 34
De 16 a 24

50 40 30 20 10 0 10 20 30 40

Fuente: Encuesta Nacional de Salud 2006. INE

Continúa Inicio
Se suelen usar para presentar tendencias Miles de personas
temporales. 5.000

Gráfico de líneas
En el eje horizontal se ha de posicionar la 4.000
neas variable que indica las unidades de tiempo y en 3.000
13 / 28
el vertical se introduce la escala de la variable 2.000
cuya variación en el tiempo queremos ver. 1.000
Es una representación gráfica en un eje cartesiano de la relación
as es una representación gráfica en un eje cartesiano de la relación
0
que
os variables reflejando con claridad los cambios producidos. Pueden aparecer varias variables para compararlas.
existe entre dos variables reflejando con claridad los cambios2005 2006 2007 2008 2009
producidos. Parados en España por nivel de formación alcanzada
Índice de precios al consumo Miles de personas Analfabetos
Base 2006 2.000
110 Educación Primaria
109 1.500
108 Educación Secundaria 1ª etapa y formación e
107 1.000 inserción laboral correspondiente
106 Educación Secundaria 2ª etapa y formación e
105 500 inserción laboral correspondiente
jul- ago- sep- oct- nov- dic- ene- feb- mar- abr- may- jun- jul- Educación superior, excepto doctorado
09 09 09 09 09 09 10 10 10 10 10 10 10 0
Fuente: IPC. INE 2005 2006 2007 2008 2009 Doctorado
Un gráfico de Pareto es un tipo de gráfico de barras vertical ordenado por frecuencias
de forma descendente que identifica y da un orden de prioridad a los datos.
Causas externas de mortalidad Defunciones % % acumulados

Gráfico de Pareto
1 Suicidio y lesiones autoinfligidas 3.457 23 23
2 Accidentes de tráfico de vehículos de motor 3.030 20 43
3 Ahogamiento, sumersión y sofocación accidentales 2.258 15 58
4 Otros accidentes 2.212 14 72
Es un tipo de gráfico de barras vertical ordenado por frecuencias de
5 Caídas accidentales 1.845 12 84
6 Envenenamiento accidental por psicofármacos y drogas de abuso 599 4 88
forma descendente que identifica
7
Gráficoy dadeunPareto
Otros accidentes de transporte orden de prioridad a los 476 3 91
8
datos. 9
Complicaciones de la atención médica y quirúrgica
Agresiones (Homicidios)
404
378
3
2
94
96
10 Otros envenenamientos accidentales 281 2 98
Muestra el Principio de Pareto,
11 formulado
Un gráfico por
de Pareto es Vilfredo
Accidentes por fuego, humo y sustancias calientes Pareto:
un tipo de gráfico de barras vertical orde
202 1 99
12 Otras causas externas y sus efectos tardíos 147 1 100
Total de forma
Pocos vitales, descendente
muchos que identifica y da un orden de priorida
triviales 15.289 100

4.000 100
En elCausas
ejeexternas se representan las catego
de mortalidad
horizontal Defuncion
3.500 1 Suicidio y lesiones autoinfligidas 3.
80 variable que queremos estudiar
2 Accidentes de tráfico de vehículos de motor (diferentes ca
3.
3.000
externas de sumersión
3 Ahogamiento, mortalidad). En el eje vertical der
y sofocación accidentales 2.
2.500 60 4 Otros accidentes 2.
muestra la escala
5 Caídas accidentales
de porcentajes y en el eje v
1.
2.000
40
izquierdo la escala
6 Envenenamiento depsicofármacos
accidental por frecuencias (número
y drogas de abuso d
1.500 7 Otros accidentes de transporte
defunciones).
1.000 8 Complicaciones de la atención médica y quirúrgica
20 Las9 Agresiones muestran las frecuencias de las c
barras(Homicidios)
500
la variable y la línea
10 Otros envenenamientos representa el porcentaje
accidentales
0 0
de11
Accidentes por fuego, humo y sustancias calientes
1 2 3 4 5 6 7 8 9 10 11 12
dichas frecuencias respecto el total. Con
12 Otras causas externas y sus efectos tardíos
Frecuencia Frecuencia absoluta
Gráfico de pastel relativa =
Suma de todas las
18 / 28
frecuencias absolutas
Es una representación circular de las frecuencias elativas de una
cular de las frecuencias relativas de una
variable
una manera cualitativa
sencilla o discreta.
y rápida, su comparación.
Viajeros hospedados en hoteles españoles Porcentaje = Frecuencia relativa X 100
por categoría del establecimiento. 2009
Una estrella
Cinco estrellas
4%
6%
Dos estrellas
9% Ángulo = Frecuencia relativa X 360 (grados que tiene
una circunferencia)

Cuatro estrellas
Tres estrellas
46%
35%
Gráfico de dispersión
Gráfico de dispersión
Gráfico de dispersión
23 / 28
23 / 2
Muestra Un gráfico
en eje cartesiano
de dispersión la
muestra relación que la relación
existe
en un eje cartesiano entrequedos
existevariables.
entre dos variables.
Un gráfico de dispersión muestra en un eje cartesiano la relación que existe entre dos variables.
País Fertilizantes Nitrogenados* Produccion agrícola**
País Fertilizantes Nitrogenados* Produccion agrícola**
Alemania 1.779.455 106.041
Alemania
Austria
1.779.455
110.512
106.041
10.40710.407
Gráfico de
Gráfico dedispersión
dispersión

Producción agrícola (miles de toneladas)


Austria 110.512

Producción agrícola (miles de toneladas)


Bulgaria
Chipre
Bulgaria 138.464
7.982
138.464 13.29413.294
239
Año 2008
Año 2008
Chipre 7.982 239
Dinamarca 205.829 19.361 140.000
Eslovaquia Dinamarca 91.673 205.829 7.35019.361 140.000
Eslovenia Eslovaquia 53.907 91.673 1.051 7.350 120.000
España
Estonia
Eslovenia 983.409
33.500
53.907 55.739
1.830
1.051 120.000
100.000
Finlandia España 161.159 983.409 9.18655.739
Francia Estonia 2.395.024 33.500 135.819 1.830 100.000
80.000
Grecia
Finlandia 201.549
161.159 12.507
9.186 60.000
Hungría
Francia
316.520
2.395.024
26.130
135.819
80.000
Irlanda 312.655 5.133 40.000
Italia
Letonia
Grecia 729.420
83.301
201.549 48.63412.507
4.04526.130
60.000
20.000
Hungría 316.520
Lituania 153.797 7.309
Países Bajos Irlanda 261.493 312.655 13.255 5.133 40.000
0
Polonia Italia 1.080.261 729.420 59.86048.634 0 500 1.000 1.500 2.000 2.500 3.000
Portugal Letonia 76.250 83.301 2.694 4.045 20.000
Fertilizantes nitrogenados (miles de toneladas métricas
Reino Unido 1.048.100 54.754
República ChecaLituania 153.797 16.840 7.309
Rumanía Países Bajos
289.063
240.880 261.493 31.27313.255
0
Suecia
Suiza
Polonia 190.838
50.844
1.080.261 11.01259.860
3.111
0 500 1.000 1.500 2.000 2.500 3.000
Portugal 76.250 2.694
* Tonelada métrica de elemento nutritivo consumido
Reino Unido 1.048.100 54.754 Fertilizantes nitrogenados (miles de toneladas métricas)
** Miles de toneladas
República Checa referidos a 2008289.063 16.840
Fuente: Eurostat; datos Continúa In
Rumanía 240.880 31.273
Correlación nula

Correlación lineal

Correlación no lineal
Cartograma
Es un mapa en el que se representan datos estadísticos por regiones,
coloreando las distintas zonas en función del dato que represente.
Medidas de Medidas de
posición dispersión
La mayor parte de los conjuntos de datos
Permiten ver la distancia de los valores
muestran una tendencia a agruparse
de la variable a un cierto valor central.
alrededor de un punto central.
Se trata de un coeficiente para las
Es posible elegir un valor que describa el
variables cuantitativas.
conjunto de datos

Media, mediana, moda, cuartiles,


Desviación, desviación estándar, varianza
quintiles, deciles, percentiles.
Aritmético Geométrico

Promedio

Armónico Cuadrático
El objetivo del
promedio

El tipo de La distribución
variable a Promedio de la frecuencia
promediar de los datos

El tipo de escala
de medición
utilizada
s como promedio. Entonces la media es la suma
las observaciones, dividida entre el número de
.
Promedio La media aritmética es la medida de
muestra que contiene tendencia
a las observaciones x , utilizada y es
central más
aritmético
s la media aritmética, x igual
1
es: a lo que conocemos como
promedio.
𝑛n


෍ 𝑋x𝑖i Es la suma de los valores de todas las
observaciones, dividida entre el
x= i =1
𝑖=1

n número de observaciones realizadas.

, indica un número de conteo para identificar


a, uso
el 9146,
de entre el número de datos, nos da el
se pueden Suponga que la información que
los datos tenemos es la siguiente Tabla que
se justifica muestra el tiempo que tardaron 50
Si tenemos tablas de frecuencias podemos
El cálculo anterior lo podemos sistematizar obteniendo una colum
clientes en una caja bancaria y
onstruir la
ealizados
cias. Sin
podemos
Promedio
deseamos escribir
adicional
conocer en
cuál eslala
calcular
el expresión
el
Tabla
tiempopromedio para
de distribución la
aritmético.
de frecuencias. La colum
promedio que tardaron. los productos
expresará para cada clase.
ir de los datos agrupados en la Tabla de
aritmético
s. que en la primera clase 2 clientes tardaron en la
mplo, No. de Marca de
Tiempo invertido en
casi 157 segundos. No sabemos con exactitud cuánto clientes clase
atender al cliente
de ellos, sólo sabemos que tardaron un tiempo
e éstos dos límites. Para efectuar el cálculo 141
de –la157 2 149 298
supondremos que un valor representativo de la157
clase
– 173 13 165 2145
se ó punto medio, x i 173 – 189 18 181 3077
189 – 205 14 197 2758
205 – 221 3 213 639
221 - 237 1 229 229
Totales 50 9146
“-“ Indica a menos de:
ispersión
http://www.cuautitlan.unam.mx
Cuándo utilizar el promedio
aritmético
a) Cuando la distribución sea simétrica o aproximadamente
simétrica.
b) Cuando se quiere hacer una análisis inferencial o se
requieran otros estadísticos complementarios como la
desviación estándar o el coeficiente de correlación.
c) Cuando las escalas de datos sean de intervalo o de razón
y no sea recomendable otro promedio.
d) Cuando la distribución de los datos sea uniforme.
La mediana es un valor promedio por debajo
del cual se encuentra el 50% de los datos.
Su valor no es único.
Mediana

Med= X (n+1)/2

Med= (X n/2 + X n/2 + 1)/2


173 – 189 18 181 0.34 32 0.64
189 – 205 14 197 0.28 46 0.92
205 – 221 3 213 0.06 49 0.98
Si tenemos tablas de frecuencia podemos
221 - 237 1 229 0.02 50 1.00
Totales 50
calcular la mediana.
“-“ Indica a menos de:

Mediana

Marca Frecuencia
No. de Frecuencia Frecuencia
Tiempo invertido en de relativa
clientes relativa acumulada
atender al cliente clase acumulada

141 – 157 2 149 0.04 2 0.04


157 – 173 13 165 0.26 15 0.30
173 – 189 18 181 0 .3 4 32 0 .6 4
189 – 205 14 197 0.28 46 0.92
205 – 221 3 213 0.06 49 0.98
221 - 237 1 229 0.02 50 1.00
Totales 50
“-“ Indica a menos de:
Propiedades de la mediana

La mediana no es sensible a
La suma de las distancias (valor valores extremos. Pueden
absoluto) de los datos a la ocurrir errores por exceso o por
mediana, es mínimo. defecto sin que el valor de la
mediana cambie
Cuándo utilizar la mediana
a) Cuando la distribución de los datos es asimétrica.
b) Cuando hay valores extremos que distorsionarían el
significado del promedio.
c) Cuando se tienen distribuciones con valores sin
determinar, por ejemplo cuando la primera clase es
“menos de X” y la última “mas de Y”.
d) Cuando los valores extremos no están definidos.
que se repita más que otro, todos tienen frecuencia 3.

5 5 5 6 6 6 10 10 10

¿En una gráfica como se distingue la moda?


La moda es el valor mas frecuente en una
seriees de
Cómo datos.
el valor que se repite con mayor frecuencia la moda será el
Moda valor más alto o el pico de la distribución.

D ist r ibu ción bim oda l D ist r ibución unifor m e


Facultad de Estudios Superiores Cuautitlán

¿Se puede calcular la moda a partir de los datos


Si tenemos
una
tablas
tabla de
de frecuencia podemos
frecuencias?
cular la mediana a partir de los datos agrupados
de frecuencias? calcular la clase modal o la moda absoluta.
Moda
afirmativa. Al igual que la media, sí es posible calcular
Resulta s
la clase m
ólo se cuenta con un resumen de los datos en forma de
clase
ción de frecuencias.
frecuencia
tro ejemplo del tiempo que tardan unos clientes en una distribució
alculemos la mediana. establece
moda se
Tiempo invertido en
No de marca d
clientes
atender al cliente clase mod
141 – 157 2
157 – 173 13 Para nues
173 – 189 17 clase mod
189 – 205 14 Mo= 173 17-13
+ reportamos que la clase· 16 = 182.14
Entonces modal es de 173 a
205 – 221 3 (17-13)+(17-14)
segundos y la moda es igual a 181.
221 - 237 1
Cuándo utilizar la moda

a) Cuando haya un dato o un intervalo que tenga una


frecuencia considerablemente superior a los demás.
b) Se utiliza propiamente cuando la escala es nominal, pero
puede utilizarse con escalas ordinales siempre y cuando
una frecuencia sea muy superior a las demás.
c) Cuando la distribución sea muy asimétrica y una
frecuencia se muy superior a las demás.
Cuándo utilizar la moda
d) Cuando la distribución tenga forma de U o sea cóncava
hacia arriba.
e) En distribuciones cuyos extremos no están definidos.
f) Cuando la amplitud de la distribución no es constante.
g) Cuando se quiere encontrar un promedio rápido.
h) En datos multimodales, la moda puede ser útil para
dividir la distribución en estratos.
¿Pueden ser igualesUniversidad
la media, mediana
Nacional Autónoma de México
y
moda?
Facultad de Estudios Superiores Cuautitlán

Cuando los datos tienen una distribución normal, los valores de la


media mediana y moda, coinciden.

Sí la distribución no es simétrica ¿Cuál es la posición de la


media, mediana y moda?
Paralalas
mediana. La moda puede
distribuciones o nosesgo
con existir. a la derecha

Para distribuciones con sesgo a la


Para las distribuciones con sesgo a la derecha
derecha
Facultad de Estudios Superiores Cuautitlán

Para las distribuciones con sesgo a la izquierda


Para distribuciones con sesgo a la
izquierda
Para las distribuciones con sesgo a la izquierda
Medidas de
dispersión
M ED ID A S D E V A R IA B ILID A D
Las medidas
2.3 de variabilidad indican la dispersión de los datos en la escala
de medición. Así́ como
Los conjuntos las medidas
de datos pueden tener el mismo de
centrotendencia
pero con aspectocentral
diferente porson
la valores en
forma en que
una distribución, las números se dispersan
los medidas de dispersión
desde el centro. son “intervalos”,
Considere distancias o un
las dos distribuciones
que se muestran en la fi gura 2.6. Ambas distribuciones están centradas en x 4, pero
número dehayunidades enenla
una gran diferencia escala
la forma demediciones
en que las medición. Este
se dispersan tipoLasde medida se
o varían.
complementa condelas
mediciones medidas
la fi gura 2.6a) varíande
de 3centralidad y ambas
a 5; en la fi gura 2.6b) las medicionespermiten
varían de describir a
la mayoría0dea 8. las distribuciones.
R A 2 .6

lidad o dispersión a) b)
os

Frecuencia relativa
Frecuencia relativa

0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8

Las medidas de variabilidad pueden ayudarle a crear una imagen mental de


la dispersión
La variabilidad o dispersión deimportante
es una muy los datos.
característica de datos. Por
ejemplo, si usted fabrica tornillos, la variación extrema en los diámetros de los tornillos
causaría un alto porcentaje de productos defectuosos. Por el contrario, si estuviera tra-
Las medidas de variabilidad pueden ayudarle a crear una imagen mental de la dis-
persión de los datos. Presentaremos una de las más importantes. La medida más sencilla
de variación en el rango. De un conjunto de n mediciones se define
D e fi n ic ió n El rango, R,como la diferencia
de un conjunto de n mediciones seentre la lamedición
define como diferen- más
cia entre la medición más grande y la más grande
pequeña. y la más pequeña.
Es la
Para los datos de peso al nacer de lamedida
tabla 1.9, lasde dispersión
mediciones varían de 5.6más
a 9.4. fácil de
Por tanto, el rango es 9.4 5.6 3.8. El rango es fácil de calcular, fácil de interpretar
calcular,
y es una medida adecuada de variación peropequeños
para conjuntos también de datos.es lapara
Pero, menos
conjuntos grandes, el rango no es una medida adecuada de variabilidad. Por ejemplo, las
estable
dos distribuciones de frecuencia relativa de al estar
la figura fuertemente
2.7 tienen influenciada
el mismo rango pero muy
diferentes formas y variabilidad. por valores extremos atípicos.
G U R A 2 .7

stribuciones con a) b)
ual rango y desigual
riabilidad

Frecuencia relativa
Frecuencia relativa

1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
punto_ particular (medición), entonces la desviación de esa
(xi – x). Las mediciones a la derecha de la media producen
Desviación de la de la izquierda, negativas.
Si xi es un punto Los(medición),
particular x y las ladesviaci
valores deentonces
media detallandesviación
en las columnas primeradesde
de esa medición y segunda deesla(xitabla
la media – _x).2.1.

TA B LA 2 .1 C á lcu lo d e S(x i x )2

x (xi x) (xi x )2
5 1.2 1.44
7 3.2 10.24
1 2.8 7.84
2 1.8 3.24
4 .2 .04
19 0.0 22.80
poblacional
para se denota
una varianza con s yLa
de población. está
2
dada por
varianza la fórmula
será relativamente
De la suma
variables y relativamente de desviaciones
pequeña para datos menos variables.
oS(xi – m)
2
cuadradas, se calcula una s _________
2 sola

medida llamada varianza. N


D e fi n ició n La varianza de una población de N medicion
Varianza
cuadrados
La mayordeparte
las desviaciones
de las veces, de
no las mediciones
tendremos todas alrededor
las de
medicio
poblacional s y estáladada
2
se denota con calcular
bles pero necesitaremos por lade
varianza fórmula
una muestra d
La varianza de una población de N mediciones es el
oS(xi – m)
promedio de los cuadrados de las desviaciones de las 2
2 _________
D e fide
mediciones alrededor n ició n La
su media. varianza de unas muestraNde n medicion
Lavarianza _
poblacional se denota con s 2.
viaciones cuadradas de las mediciones alrededor la media x d
Lavarianza
mayor muestral
parte de se
las denota
veces,
La varianza de una muestra de n mediciones es la
con
no s2
y está
tendremos dada por
todas la
las fórmula
medicion
bles perocuadradas
suma de las desviaciones necesitaremos calcular la varianza de una_muestra
de las mediciones de
S(xi x)
_________
2
alrededor la media dividida entre (n 1). La varianza s2
n 1
muestral se denota con s2.
D e fi n ició n La varianza de una muestra de n medicione
_
viaciones cuadradas de las mediciones alrededor la media x di
Desviación
estándar

La raíz cuadrada de la suma de las desviaciones alrededor de la


media, elevadas al cuadrado y divididas entre el número de casos
menos uno.
Es un cociente entre la desviación
Coeficiente
estándar y la media de los datos,
de variación expresado en porcentaje

Permite comparar la variabilidad de


diferentes muestras de una población ó la
variabilidad entre variables diferentes.
En general un CV menor al 10 %, dice que los
datos tienen poca variabilidad, que es lo
mismo que decir que los valores observados
son en general, cercanos al valor medio.
La desviación estándar nos permite determinar, con un buen grado
de precisión, donde están localizados los valores de una distribución
de frecuencias con relación a la media.

Independientemente de la forma de
Teorema de distribución , la proporción de valores que se
Chebyshev encuentran a k desviaciones estándares de la
media es al menos

Siendo k cualquier numero mayor que 1.


Distribución normal
La distribución Normal es un modelo teórico para variables
aleatorias y continuas y representa la distribución de
frecuencias de una población de valores.
La curva normal es una campana simétrica cuya forma y
posición depende de dos parámetros
•  , media poblacional, que se localiza en el centro de la del
eje horizontal.
• s , desviación estándar que determina el ancho de la curva.
Histograma de frecuencias y curva teórica
Normal

Una variable aleatoria continua X con


distribución normal, tiene como función
de la densidad:
Para los datos del ejemplo 2.13, IQR Q3 Q
Los percentiles 25avo y 75avo, llamados cuartiles inferior y superior, junto con la
IQR junto con los cuartiles y la mediana en la
mediana (el 50avo percentil), localizan puntos que dividen los datos en cuatro conjun-

Cuartiles
tos, cada uno conteniendo un número igual de mediciones. Veinticinco por ciento de las
fica para describir conjuntos de datos.
mediciones serán menores que el cuartil inferior (primero), 50% serán menores que la me-
diana (el segundo cuartil) y 75% serán menores que el cuartil superior (tercero). De este
modo, la mediana y los cuartiles inferior y superior están ubicados en puntos en el eje x
de modo que el área bajo el histograma de frecuencia relativa para los datos está dividida
Si a un conjunto de datos
MIse ordena de mayor PERSONAL
ENTRENADOR a menor, el
en cuatro áreas iguales, como se muestra en la figura 2.15.
valor central es la mediana, este valor divide el grupo, en
15
¿Cómo
dos subgrupos cada uno con el 50 % decalculo cuartiles muestra
los datos.

artiles
1. Acomode el conjunto de datos en orden de
Frecuencia relativa

2. Calcule las posiciones de cuartil:


• Posición de Q1: .25(n 1)
• Posición de Q3: .75(n 1)
25% 25% 25% 25%
3. Si las posiciones son de enteros, entonces
x
Mediana, m
Cuartil inferior, Q1 Cuartil superior, Q3
ordenado de datos que se encuentra en esas
4. Si las posiciones del paso 2 no son de ente
El resumen de cinco números consta del número más pequeño, el cuartil inferior,
le mediana, el cuartil superior, y el número más grande, presentados en orden de
menor a mayor:
Min Q1 Mediana (Q2) Q3 Max
Por definición, un cuarto de las mediciones del conjunto de datos se encuentre entre
cada uno de los cuatro pares adyacentes de números.
• Trace una recta horizontal que represente la escala de medición. Forme una caja
un poco arriba de la recta horizontal con los extremos derecho e izquierdo en Q1
y Q3. Trace una recta vertical que pase por la caja en la ubicación de la mediana.

gráfica de caja se Q
Una Límite
inferior
muestra
1 Límites
en lamfigura
Q3 2.17. Límite
superior

En la sección 2.6, el puntaje z dio fronteras para hallar mediciones extraordinaria-
mente grandes o pequeñas. Buscamos puntajes z mayores a 2 o 3 en valor absoluto. La
gráfica de caja usa el IQR para crear “límites” imaginarios para separar resultados atípi-
cos del resto del conjunto de datos:

Q1
Límite
D ET EC inferior
C IÓ N D E R ES U LT A mD OQS3 A T ÍPsuperior
Límite
IC O S .
O B S ER V A C IO N ES Q U E ES T Á N A M A Y 2.6 O RMEDICIONES
D IS T ADENPOSICIÓN
C IA :RELATIVA
En la sección 2.6, el puntaje z dio fronteras para Rango intercuartil
hallar mediciones (IQR). Es
extraordinaria-
• mente
Límite inferior:
grandes Q1 1.5(IQR)
o pequeñas. la diferencia
Buscamos puntajes z mayores a 2 o 3 enentre
valorlos cuartiles
absoluto. La
D•egráfica
fi n ició
Límite n usa ElQ
desuperior:
caja elrango
3
intercuartil
IQR1.5(IQR)
para (I QR)
crear “límites” para un
imaginarios superior
separare resultados
conjunto
para inferior: atípi-
de mediciones es
rencia entre
cos del restolos
delcuartiles
conjunto desuperior
datos: e inferior; esto es, IQR Q3 Q1.
Los límites superior e inferior se muestran con líneas interrumpidas en la figura 2.17,
Para Dlos
ETdatos
EC Cdel
IÓ Nejemplo
D E R ES 2.13,
U LT A D O SQA
IQR QIC
3 T ÍP 1 O 18.50
S. 8.75 9.75. Usar
necesario conocer la posición de una observación respecto a otras de un
datos. Por ejemplo, si usted se examina con un total de 35 puntos, podría
Resultados atípicos
cómo se compara su calificación de 30 con las calificaciones de los otros
del grupo. La media y desviación estándar de las calificaciones se pueden
Un resultado atípico aparece al trasponer dígitos cuando se
lcular un puntaje z, que mide la posición relativa de una medición en un
datos. registra una medición, al leer incorrectamente la caratula
de un instrumento, por el mal funcionamiento de una pieza
de equipo o por otros problemas.

n El puntaje z muestral Puntaje


es una Z.medida de posición relativa definida
Medida de
posición relativa
definida por:
_
puntaje z x– x
____
s
De acuerdo con e teorema de
Chebyshev
•Al menos 75% y más probablemente 95% de las observaciones están a no
más de dos desviaciones estándar de su media: sus puntajes z están
entre -2 y +2. Las observaciones con puntajes z mayores a 2 en
valor absoluto se presentan menos del 5% del tiempo y son
consideradas un tanto improbables.
•Al menos 89% y más probablemente 99.7% de las observaciones están a
no más de tres desviaciones estándar de su media: sus puntajes z están
entre -3 y +3. Las observaciones con puntajes z mayores a 3 en valor
absoluto se presentan menos del 1% del tiempo y son consideradas
muy poco probables.
Deciles
Si el conjunto de valores, ordenados de de mayor a menor,
se dividen en diez partes iguales, los valores que dividen los
datos se llaman deciles y son nueve, D1, D2,..D9.
2.6 MEDICIONES DE POSICIÓN RELATIVA ❍ 77

En general, el 60avo percentil para la variable x es un punto en el eje horizontal de

Percentiles
la distribución de datos que es mayor a 60% de las mediciones y menor que las otras.
Esto es, 60% de las mediciones son menores que el 60avo percentil y 40% son mayores
(véase la figura 2.14). Como el área total bajo la distribución es 100%, 60% del área está
a la izquierda y 40% del área está a la derecha del 60avo percentil. Recuerde que la me-
diana, m, de un conjunto de datos es la medición central; esto es, 50% de las medicio-
nes son más pequeñas y 50% son más grandes que la mediana. Entonces, ¡la mediana
Un percentil es otra medida de posición relativa y se
es igual que el 50avo percentil!
usa con más frecuencia para conjuntos grandes de
datos. (Los percentiles no son muy útiles para
FIG U R A 2 .1 4

conjuntos pequeños de datos.)
El 60avo percentil mostrado
en el histograma de frecuencia
relativa para un conjunto de
Frecuencia relativa

datos

60% 40%

60avo percentil
se encuentra en (n+1)/2; es decir en (8+1)/2 = 4.5. La mediana es el
valor que corresponde a la posición 4.5, es decir el promedio de los
valores correspondientes a la posición 4 y a la posición 5. La mediana es
(11+12)/2= 11.5.
Generalizando, observamos las expresiones para
localizar los percentiles, deciles y cuartiles
Generalizando, obtenemos las expresiones para localizar los percentiles,
deciles y cuartiles, respectivamente:

Consideremos
30 55 38 34 30 24 45 28 51 51
ahora los
III. Inferencia
Hace referencia a un conjunto de métodos que permiten hacer predicciones
acerca de características de un fenómeno sobre la base de información parcial
acerca del mismo.
El fin último de cualquier estudio es aprender sobre las poblaciones.

Estimación

Test de hipótesis
Estadística
descriptiva
Puntual

Estimación

Intervalos
Inferencia

Contraste
Univariado
• Variables cualitativas:
- Distribuciones de frecuencias
- Proporciones
- Razones
- Tasas
• Variables cuantitativas:
- Medidas de tendencia central
- Medidas de dispersión
- Medidas de localización
- Distribuciones de frecuencia (datos agrupados)
Bivariable
Variables cuantitativas sin
Variables cuantitativas con
distribución normal y
Situación distribución normal
cualitativas

Prueba Paramétrica Prueba No Paramétrica


Comparación de medias, 2 t de Student – prueba Z U de Mann Withney
grupos independientes

Comparación de medias, 2 t de Student Wilcoxon


grupos pareados

Comparación de medias, 3 ANOVA Kruskal Wallis


ó más grupos

Comparación de variables ------ X2, prueba exacta de Fisher


cualitativas

Asociación entre dos Coeficiente de correlación de Coeficiente de correlación de


variables cuantitativas Pearson Spearman
Multivariables
Variable Variables Medición del
Modelo
dependiente independientes resultado

Cuantitativa Cuantitativas o Regresión lineal Coeficientes


cualitativas múltiple estandarizados

Cualitativa Cuantitativas o Regresión Odds ratio (OR)


dicotómica cualitativas logística ajustado

Tiempo de Cuantitativas o Regresión de Hazard ratio (HR)


ocurrencia de cualitativas Cox
un evento
Evaluación de hipótesis

El azar juega un papel muy importante


en nuestros análisis.
“Entre las dos guerras mundiales había motivos importantes para
enfatizarle a los clínicos y otros investigadores, la importancia de no dejar
pasar desapercibidos los efectos del azar sobre los datos. Talvez las
generalidades se basaban demasiado a menudo sobre dos hombres y un
perro de laboratorio mientras que el tratamiento de elección se deducía a
partir de dos pacientes y podría fácilmente no tener ningún significado.
Por lo tanto, era útil que los estadísticos enfatizaran, la aplicación y la
enseñanza de la necesidad de las pruebas de significancia estadística
solamente para servir de guía, para tener cuidado al sacar una conclusión,
antes de extrapolar lo particular a lo general.” (pg 299 en El ambiente y la
enfermedad: asociación o causa. Procedimientos de la Real Sociedad de
Medicina,1965: 295-300. [The environment and disease: association or
causation. Proceedings of the Royal Society of Medicine].)
“Me pregunto si el péndulo no se ha desplazado demasiado lejos – no sólo
con los alumnos atentos sino hasta con los propios estadísticos. Por cierto,
debe ser igualmente tonto negarse a llegar a conclusiones sin los errores
estándar! Afortunadamente, creo que aún no hemos llegado tan lejos como
nuestros amigos en EEUU, donde, me han dicho, algunos editores de
revistas devuelven un trabajo porque no se han utilizado pruebas de
significancia. De cualquier manera hay numerosas situaciones en que son
totalmente innecesarias – porque la diferencia es grotescamente obvia,
porque es insignificante, o porque, sea formalmente significativa o no, es
demasiado pequeña para ser de importancia práctica. Lo que es peor, los
destellos de una tabla t distraen la atención de lo inadecuado del
banquete...”
Durante la década de los 60, se observó un grupo de casos de
adenocarcinoma de la vagina en mujeres jóvenes, una ocurrencia
altamente improbable. La investigación de las historias de las mujeres
afectadas
que ocurrir estamostró
historia que
paraenque
la mayoría de los casos,
los investigadores la madre
tuvieran de la
confianza enjoven
que nohabía
era un
tomado
observación dietilbestrol
al azar? (DES)
Esta pregunta cuando la hija
habitualmente estabapor
se contesta enmedio
su útero.
de una prueba estadística.

Exposición prenatal al dietilbestrol


entre mujeres jóvenes con adenocarcinoma de la vagina

Exposición a
dietilbestrol?
Si No Total
Casos 7 1 8
Controles 0 32 32
Total 87 33 40
en que el bolso tiene 7 pares rojos nos dará la probabilidad de que el azar por si sólo produciría la
situación en que hayas empacado 7 pares de medias rojas. Esta probabilidad es el “valor p” de la
Supongamos que tú tienes 40 pares de medias – 7 pares de medias rojas y
prueba de significancia de la relación entre el adenocarcinoma de la vagina y el diestilbestrol de la
tabla anterior. n1 n0

formaque sin
teórica, de
C mirar
manera
C
33 pares de medias azules. Quieres empacar 8 pares de medias en tu valija,
Afortunadamente, la distribución del número de pares rojos en la valija ya ha sido desarrollada en
de manera j que la probabilidad
tomas(m 81 –pares
exacta al azar
j) ser calculada
puede y las
sin tener n1!n
que pones
llevar !m0!loen tu bolso.
0!ma1cabo
Pr(A=j)
¿Cuántos pares = rojos
que en este ––––––––––––––––––––––––
caso = viaje?
sería un número MUY importante de ensayos.
has empacado para tu –––––––––––––––––––––––––––
La fórmula de la distribución
(hipergeométrica) es:
n n! j! (n1 – j)! (m1 – j)! (n0 – m1 –j)!
C
n1 n0

j
C C
m1
(m1 – j) n1!n0!m1!m0!
Pr(A=j) = –––––––––––––––––––––––– = –––––––––––––––––––––––––––
Donde Pr(A=j) es la probabilidad den obtener j paresn!rojos en la valija y m0, m1,
j! (n1 – j)! (m1 – j)! (n0 – m1 –j)!
n0, n1, y n son los
C
totales de las filas y las columnas de la tabla:
m1

Donde Pr(A=j) es la probabilidad de obtener j pares rojos en la valija y m0, m1, n0, n1, y n son los
totales de las filas y las columnas de la tabla:
Color
Rojo Azul Total
Valija j Color m1 – j m1
Rojo Azul Total
En cajón nj 1 – j n0 – m1 – j m0
Valija m1 – j m1
Total
En cajón n1 –nj1 n0 – m1 – j n0 m0 n
n
Rojo(
DES) Azul Total
Empacados(casos) 7 1 8
En cajón (controles) 0 32 32
Total 78 33 40
Posibles resultados
(Colores de los pares Probabilidad
_____________________________________________________________________________
t, © Victor J. Schoenbach de 14.
medias en laevalija)
Análisis de cada
interpretación de datos – 465
26/1999, 12/26/1999, trad. 7.7.2004 Rojo Azul resultado
0 8 .181
1 7 .389
2 6 .302
3 5 .108
4 4 .019 7! 33! 8! 32!
5 3 .0015 { ––––––––––––
6 2 .00005 40! 5! 2! 3! 30!
7 1 4.3 x 10-7
8 0 0 } Valor-p
1.0000
Pruebas de hipótesis
• ¿Se debe al azar la asociación observada?
• ¿Qué tan probable es que la asociación observada se deba al azar?
• El resultado de una prueba de significancia es una probabilidad (el
valor p) que da una respuesta cuantitativa a esta pregunta
intermedia.
La hipótesis que se prueba es generalmente una “hipótesis nula” (habitualmente
indicada como H0). H0 es el modelo de probabilidad que hará́ el rol del azar (por
ejemplo, el modelo de las medias rojas). En el contexto actual, ese modelo se basará
en la premisa de que no hay asociación. Si hay suficiente evidencia numérica que nos
lleve a rechazar la H0, decidiremos que lo contrario es verdadero, que hay una
asociación. La inversa es llamada la “hipótesis alternativa” (HA). La regla de toma de
decisión es de rechazar la H0, a favor de la HA, si el valor de p es suficientemente
pequeño, y sino, aceptar H0 .

E rror T ipo I : Rechazar erroneamente H0 (i.e., concluir, incorrectamente, que los datos no
son consistentes con el modelo)
E rror T ipo I I No rechazar erróneamente H0 (i.e., concluir, incorrectamente, que los datos
son consistentes con el modelo)

(El creador de estos términos debe haber sido más prosaico que el que creó los términos
“significancia”, “potencia”, “precisión”, y “eficiencia”). Tradicionalmente, la probabilidad de error
Interpretación de resultados

• ¿Qué tan buenos son los datos?


• ¿Podría el azar o algún sesgo explicar los resultados?
• ¿Cómo se comparan los resultados con los de otros trabajos?
• ¿Qué teorías o mecanismos podrían explicar los hallazgos?
• ¿Qué hipótesis nuevas son sugeridas?
• ¿Cuáles son los próximos pasos de investigación?
• ¿Cuáles son las implicancias clínicas y de políticas?

También podría gustarte