Está en la página 1de 68

Estadstica I

Ing. Cristina Ramrez M


Bogot Octubre 2013
Estadstica

Es el arte de realizar inferencias y sacar


conclusiones a partir de datos
imperfectos.

Los datos son generalmente imperfectos en el sentido que an


cuando posean informacin til no nos cuentan la historia
completa.

2
La Estadstica es la Ciencia de la

Sistematizacin, recogida, ordenacin y presentacin


Descriptiva

de los datos referentes a un fenmeno que presenta


variabilidad o incertidumbre para su estudio metdico,
con objeto de
Probabilidad

deducir las leyes que rigen esos fenmenos,


Inferencia

y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener conclusiones.

Tema 1: Introducin 3 Bioestadstica. U. Mlaga.


Mtodo cientfico y estadstica

Plantear Disear
hiptesis experimento

Obtener Recoger datos


conclusiones y analizarlos

Tema 1: Introducin 4
Dato
Valor que se obtiene al realizar la medicin de
la caracterstica de la variable en estudio.

La naturaleza de los datos pueden ser datos


cuantitativos o datos cualitativos.
Individuo:
Es el elemento de la poblacin o de la muestra que
aporta informacin sobre lo que se estudia.

Poblacin:
Conjunto definido de TODOS los INDIVIDUOS, de
donde se observa cierta caracterstica.

Muestra: Es un conjunto de unidades de anlisis


provenientes de una poblacin.
Poblacin:
Las personas que trabajan
en empresas de
comunicacin
Muestra
Individuo

Muestra: 60 trabajadores de empresas de comunicacin


Unidad de anlisis: Trabajador de empresa de comunicacin
Variables: sexo, edad, salario, N de horas de trabajo, etc.
Variable
Caracterstica o propiedad de los individuos
que se desea estudiar y se puede medir o
calificar; cambia o vara con el tiempo en un
individuo dado, o cambia o vara de elemento
a elemento.
Ej. Edad, peso, sexo, estado civil, nmero de hijos,
etc.
TIPOS DE DATOS
Datos Cuantitativos
(nmeros):
Valores obtenidos al medir
peso, estatura, temperatura,
nmero de hijos.

Datos Cualitativos (categoras):


Se obtienen al calificar la
caracterstica en cuestin como
el sexo, estado civil, grado
mximo de estudios.
TIPOS DE VARIABLES

Variable Dicotmica:
Slo puede tomar dos valores (s no, 0 1, hombre
mujer, bueno malo, encendido apagado).

En la variable CUANTITATIVA se pueden distinguir


dos tipos: continua y discreta.
Variable Continua:
Si la variable puede tomar cualquier
nmero real entre dos valores dados
(decimal o entero).
Ej. El peso de un individuo.

Variable Discreta:
Si la variable slo puede tomar
nmeros enteros.
Ej. El nmero de hijos de un individuo.
Escalas de Medicin
Escala Nominal

Escala Ordinal

Escala de Intervalo

Escala de Razn
Escala Nominal:
Est asociada a variables cualitativitas y es
denominada de este modo si no se pueden hacer
operaciones aritmticas entre sus valores, pues
stos son nicamente ETIQUETAS.

Ejemplo: sexo, cdigo postal, estado civil,


nmero telefnico, nmero al correr en un
maratn, deporte favorito, carrera a estudiar, etc.
Escala Ordinal:
Los valores de la variable que tienen un ORDEN
con un nivel especfico, pero no se pueden hacer
operaciones aritmticas entre ellas.

Ejemplo:
Psimo Malo Regular Bueno Excelente
Primaria Secundaria Preparatoria -
Licenciatura
Escala de Intervalo:
En ella existe un orden entre los valores de la
variable y adems una NOCIN DE DISTANCIA
aunque no se puedan realizar operaciones.
El cero o punto de inicio no es nico, es ms
bien un punto de referencia.

Ejemplo: Escalas de temperatura, la edad de


la Tierra, la lnea del tiempo de la humanidad.
Escala de Razn:
La magnitud tiene SENTIDO FSICO, existe el
cero absoluto, existe orden, se puede
determinar cuntas veces es mayor uno que
otro.

Ejemplo: peso, estatura, edad, distancia,


dinero, etc.
Tabla de Frecuencia de Datos

Una vez que se tenga ordenados los datos, se


acomodan en la Tabla de distribucin de
frecuencias o tabla de frecuencias.

La tabla es bsicamente una tabla de valores


x-y, dnde x representa el dato y y
representa la frecuencia.
La frecuencia es el nmero de veces que
aparece cada dato.

Hay dos clases de tablas de frecuencias:


Para datos NO agrupados.
Para datos agrupados.
Tabla de frecuencias para
datos NO agrupados

Est formada por dos columnas: una para la


variable xi y la otra para su frecuencia f, a
esta frecuencia se le llama frecuencia
absoluta o frecuencia observada.
Frecuencia relativa y acumulada
Por lo regular, se agregan dos columnas: la de
la frecuencia relativa fr y la de la frecuencia
acumulada fa.
La frecuencia relativa se obtiene mediante el
cociente de la frecuencia y el nmero total de
datos, esto es fr = f/n.
La frecuencia acumulada se obtiene sumando
las frecuencias anteriores a las frecuencias de
un dato dado.
Tabla de frecuencias para datos agrupado
Intervalo de clase

En ocasiones es conveniente acomodar los


datos en pequeos grupos de igual tamao,
llamados intervalos de clase.

Rango = X max - Xmin


Si por alguna razn no es fcil decidir el ancho
del intervalo y el nmero de ellos, se pueden
utilizar las siguientes frmulas:
K = 1 + 3.3 log (n)
Donde K = nmero aproximado de clases

n = nmero de datos.
Amplitud de los intervalos = Rango / K
Donde Rango = diferencia entre el dato mayor
y el dato menor.
Ejemplo
Para el ejemplo de los datos de los pesos de
25 alumnos, el valor de K:
K = 1 + 3.3 log (n) = 1 + 3.3 log (25) = 5.6.
Por lo tanto se requieren aproximadamente 6
intervalos.

Y la amplitud de los intervalos sera:


Amplitud = Rango / K = (66 40) / 5.6 = 4.64.
Aproximadamente 5 unidades es la amplitud de los
intervalos.
Por ltimo se agregan las columnas:
Frecuencia porcentual, f% %f, se obtiene
multiplicando la frecuencia relativa fr x 100.
Frecuencia relativa acumulada fra, se obtiene
sumando las frecuencias relativas anteriores a un
dato dado.
Frecuencia porcentual acumulada, f%a, se
obtiene sumando las frecuencias porcentuales
acumuladas a un dato dado.
Grfica de Datos
Polgono de Frecuencias
Histograma
Grfica de barras
Pictograma
Grfico Circular o de pastel.
Polgono de Frecuencias
Es la representacin mediante un grfico de
lnea. En l se muestra la distribucin de
frecuencias y est formado por segmentos de
lnea que unen los puntos correspondientes a
la frecuencia de cada una de las clases.

El eje x representa el dato xi


y el eje y las frecuencias.
Ejemplo

9 Polgono de Frecuencias
8
7
6
5
f 4
Intervalo de Punto medio xi f 3
clase 2
38 42 40 2 1
0
43 47 45 4
35 40 45 50 55 60 65 70
48 52 50 8 xi
53 57 55 5

58 62 60 3

63 - 68 65 3

Total 25
El eje y puede ser sustituido por las
frecuencias relativas o porcentuales.
Polgono de Frecuencia Relativa
0.35

0.3

0.25
fr 0.2

0.15

0.1

0.05

0
35 40 45 50 55 60 65 70
xi
Histograma
14

Es la representacin grfica de 12

10

los datos mediante una sucesin 6

de rectngulos. 2

0
0.95 2.95 4.95

Est formado por rectngulos cuya anchura


representa a cada uno de los intervalos y la
altura corresponde a la frecuencia.
En el eje x estarn los lmites verdaderos,
los puntos medios y en el eje y las
frecuencias.
Intervalo de Punto medio xi f

Ejemplo clase
38 42 40 2

43 47 45 4

48 52 50 8

53 57 55 5

58 62 60 3
Histograma
63 - 68 65 3
9
Total 25
8
7
6
5
f
4
3
2
1
0
35 40 45 50 55 60 65
xi
Pirmide Poblacional
Una variante en el histograma es colocar en el
eje x de tal manera que las columnas
quedarn en forma horizontal, es muy comn
en datos poblacionales.
Ojiva
Es la representacin grfica de las frecuencias
acumuladas mediante un grfico de lnea. Se
muestra la distribucin de frecuencias
acumuladas de los datos.

En el eje x estarn los puntos medios y en el


eje y las frecuencias acumuladas.
Ejemplo

Intervalo Punto f fr fa
de clase medio xi
38 42 40 2 0.08 2
43 47 45 4 0.16 6
48 52 50 8 0.32 14
53 57 55 5 0.20 19
58 62 60 3 0.12 22
63 - 68 65 3 0.12 25
Total 25 1
Ojiva
30

25 25

22
20 19

fa 15 14

10
6
5
2
0 0
35 40 45 50 55 60 65
xi
Grfico Circular
Tambin es llamado grfico de pastel.

Slo se representan datos de frecuencias


relativas o frecuencias porcentuales.

Se debe dividir el rea del crculo de manera


proporcional a las frecuencias. 13% 13%
17%
PERRO
PAJARO
HAMSTER
GATO
57%
Agregaremos una columna a nuestra tabla de
frecuencias Frecuencia relativa al crculo,
multiplicando (fr)(360), para mostrar la parte
proporcional de crculo medida en grados que
corresponde a cada intervalo.
Ejemplo 1
0.08 x
360
Intervalo Punto medio f fr (fr ) (360)
de clase xi 0.16 x
38 42 40 2 0.08 28.8 360

43 47 45 4 0.16 57.6
48 52 50 8 0.32 115.2
53 57 55 5 0.20 72
58 62 60 3 0.12 43.2
63 - 68 65 3 0.12 43.2
Total 25 1 360
Grfico Circular 40
8%
60
12% 65
12% 45
16%

55
20% 50
32%
Ejemplo 2

Color Frecuencia Conteo Color de Playera


Azul IIII 4 Azul Blanco Caf Gris
Negro Rosa Verde
Blanco IIII II 7 4%
Caf III 3 16% 16%
Gris 4 8%
IIII
28%
Negro II 2 16%
Rosa IIII 4 12%
Verde I 1
Otros Grficos
La grfica de barras se traza similar al
Histograma, slo que las barras se dibujan
separadas unas de otras.
La escala en el eje x es para mostrar
categoras o intervalos de nmeros NO
consecutivos. 60

50
Frecuencia absoluta

40

30

20

10

0
PERRO PAJARO HAMSTER GATO
Carrera Alumnos
Eleccin de Carrera
Medicina 8
Mecnica 11 11 11
Civil 8 8 8
6
Agronoma 3 3 3
Fsico - Matemticas 3
Leyes 6
Contadura 11
Pictograma
Similar al de barras, slo que se sustituyen
por figuras, generalmente relacionadas con la
variable estudiada.
MEDIDAS DE POSICIN
Medidas de posicin

Requisitos
Variables cuantitativas
Los resultados estn ordenados de menor a mayor
Las medidas de posicin son variables discretas
Medidas de Posicin

Percentiles : Cuando dividimos una distribucin en 100 partes.


Deciles : Cuando dividimos una distribucin en 10 partes.
Cuartiles : Cuando dividimos una distribucin en 4 partes.
Mediana : Cuando dividimos una distribucin en 2 partes.
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10

P10 P20 P30 P40 P50 P60 P70 P80 P90 P100

P25 P75

Q1 Q2 Q3
Ejemplo
Unos grandes almacenes disponen de un aparcamiento para sus clientes.
Los siguientes datos que se refieren al nmero de horas que permanecen
en el estacionamiento una serie de coches:

Determinar e interpretar la tercer cuartil y el centil del 42%.


Medidas de Posicin
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que rene al menos el 75% de los datos
Ejemplo: Si n=60, el 75% de 60 es 45; por lo tanto, se busca el dato que este en la posicin 45.

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10

P10 P20 P30 P40 P50 P60 P70 P80 P90 P100

P25 P75

Q1 Q2 Q3
1 1 1 1 1 2 2 2 2 2

2 2 2 3 3 3 3 3 3 3

3 3 3 3 3 4 4 4 4 4

4 4 4 4 4 4 4 4 4 4

5 5 5 5 5 5 5 5 5 5

6 6 6 6 6 6 7 7 7 7

Su significado es que el 75% de los coches analizados estacionan en el


parqueadero a lo sumo, o como mximo, 5 horas.
Para calcular el centil 42% hallamos 0.42*60=25.2, que al no ser entero,
deberemos aproximar al siguiente

1 1 1 1 1 2 2 2 2 2

2 2 2 3 3 3 3 3 3 3

3 3 3 3 3 4 4 4 4 4

4 4 4 4 4 4 4 4 4 4

5 5 5 5 5 5 5 5 5 5

6 6 6 6 6 6 7 7 7 7

Su significado es que el 42% de los coches analizados estacionan en el


aparcamiento a lo sumo, o como mximo, 4 horas.
Medidas de Posicin

El percentil 30 (P30), por ejemplo es el valor de la


variable bajo el cual se encuentra el 30% de los casos
y sobre el cual se encuentra el 70 % de los casos

El decil 4 (D4) es el valor de la variable que deja bajo


l, el 40 % de los casos y sobre l el 60 %. Esto
permite ver las equivalencias entre percentiles y
deciles : (D4) = (P40)
Clculo del Percentil

El clculo del percentil cuando los datos estn sueltos es directo. Ubicar
el puntaje que est en la posicin que corresponde al porcentaje del
percentil
Ej: 23 34 34 36 37 37 37 42 46 50
P60=37
Si los datos estn en una tabla de intervalos, la frmula es la siguiente

N = Nmero total de sujetos


x
100 * N F
L = limite inferior real del intervalo crtico
F = Frecuencia acumulada hasta el intervalo anterior
Px L *i f = frecuencia relativa en el intervalo crtico

f i = Amplitud del intervalo



Rango Percentil

Cuando queremos saber en qu percentil est


una persona con un determinado puntaje

xL
nx F * f
i
Nx= Nmero de personas con ese puntaje o
menos
Medidas de Tendencia Central
El valor ms representativo
Medidas de Tendencia Central

Una MTC es un indicador numrico que representa el


comportamiento que se considera ms
representativo de un grupo de valores. Para ello,
podemos ocupar distintos criterios:

El puntaje que ms se repite


El que divide al grupo por la mitad
El que equipara los puntajes positivos con los negativos
LA MODA
Representa al puntaje de mayor frecuencia (f) en una
distribucin de puntajes.
Una distribucin de puntajes puede ser bimodal,
esto es, tener dos modas. Si hay ms de dos valores
con la mayor frecuencia se dice que no tiene moda.
En datos no tabulados, es el valor que se repite ms.
En tablas de intervalos, conviene usar una frmula de
nivelacin de la moda.
Promedio o Media

Representa al puntaje que equilibra los valores


positivos con los negativos de una
distribucin.

56
Moda (Mo): Frmula

Se aplica slo en caso de tablas de intervalos:

D1
Mo L i
D1 D2
L = LIR intervalo Modal
D1 = fmodal-fintervalo anterior
D2 = fmodal-fintervalo siguiente
I = amplitud del intervalo
57
Mediana (Md)

El valor que divide a la distribucin por la


mitad (equivale a P50)
N * 0.5 F
Md L i
f
L = LIR intervalo crtico
N = nmero total de sujetos
F = Frecuencia acumulada hasta el intervalo anterior al crtico
f = frecuencia del intervalo crtico
i = amplitud del intervalo crtico
58
Promedio: Frmula

x
n = nmero total de puntajes
i = suma desde 1 a n
x i 1
xi= cada puntaje
n

El promedio equilibra las diferencias, no las elimina


Promedio : calculo en tablas

fx
n = nmero total de puntajes
i f = frecuencia de cada puntaje
x i 1
= suma desde 1 a n
n
xi= cada puntaje
Promedio de promedios

J J = nmero de grupos

njxj
j 1
nj= nmero de sujetos de cada grupo

xj= promedio de cada grupo


x. j J

n
j 1
j
Como se hace:
-Multiplicar cada promedio por el nmero
de sujetos del grupo.
-Sumar todos los resultados.
-Lo que resulte dividirlo por la suma total
de los tamaos de los grupos
61
Medidas de Variabilidad
Cun parecidos son los puntajes
entre s?

62
Medidas de Variabilidad

Esa informacin nos permite evaluar cuan


representativas son las medidas de tendencia
central que calculamos para esa misma
distribucin

63
Desviacin Estndar

Considera a todos los valores de la distribucin.


Se utiliza el promedio como punto de referencia
para determinar cmo se desvan los valores de
este punto.
Mientras ms heterognea sea una distribucin,
mayores sern las desviaciones respecto del
promedio

64
Desviacin Estndar

Lo ms sencillo sera sumar las desviaciones


de cada punto respecto del promedio.
Puntaje(x) X-promedio

1 -5
5 -1
6 0
7 1
8 2
9 65
3
Desviacin Estndar

Sin embargo:
La suma de las desviaciones se anulen. Solo se puede
hacer en valores absoluto.
Mientras ms valores tenga una distribucin mayor ser la
suma de las desviaciones en valor absoluto (problema
para comparar distribuciones con distinto tamao).
Para solucionar esto se calcula un promedio de las
desviaciones. Se calcula tomando en cuanta las
desviaciones al cuadrado.

66
Varianza y Desviacin Estndar

Sin embargo la medida que resulta est expresada en


puntajes elevados al cuadrado. Esto se conoce como
VARIANZA (s2)

n Este indicador nos

(x x)
i
2 muestra las variaciones al
cuadrado respecto al
s
2
x
i 1 promedio.

n No se puede interpretar

67
Desviacin estndar

Para poder interpretar los datos debemos regresarlos


a la escala original. Esto se conoce como la
desviacin estndar (s)

(x x)
i
2

sx i 1
n
68

También podría gustarte