Está en la página 1de 64

ESTADISTICA

UNIDAD 1: INTRODUCCIN A LA
ESTADISTICA DESCRIPTIVA
Definicin de
Estadstica

Conjunto de teoras y mtodos que han sido


desarrollados para tratar la recopilacin, organizacin
y anlisis de datos o hechos numricos, con el fin de
sacar conclusiones. (Esperanza Moret)
Clasificacin de la Estadstica
Estadstica Descriptiva.
Tiene por objetivo fundamental la
descripcin numrica de un conjunto de
datos. No generaliza las conclusiones
obtenidas a otros grupos de datos.
Segn el tipo de
investigacin
Estadstica Inferencial.
Usa la informacin aportada por una
muestra para sacar conclusiones de la
poblacin de la cual ha sido extrada;
siempre recordando que existe la
probabilidad de hacerlo en forma errada
Universo y Poblacin
Algunos autores no establecen diferencias entre los conceptos de
universo y poblacin. Por ejemplo, Pardo Merino, propone la
siguiente definicin: Una poblacin (o universo) es un conjunto
de elementos (sujetos, objetos, entidades abstractas, etc.) que
poseen una o ms caractersticas especficas en comn.
Por el contrario, otros autores si establecen
diferencias entre tales conceptos.
Poblacin, universo y muestra

Universo: se define como el conjunto de sujetos o elementos


que tienen una caracterstica comn, observable y susceptible de
ser medida.

Poblacin: conjunto de todas las mediciones u observaciones


hechas sobre una o varias de las caractersticas de los
elementos del universo.

Muestra: subconjunto de elementos del universo o la


poblacin.
Ejemplo
Universo Poblacin

Edad
Estudiantes
regulares del Rendimiento

Instituto de Carrera
Estudios Ingresos
Universitarios.
Etc.
Estadstico y Parmetro

Estadstico: valor numrico que describe una caracterstica de la


muestra y se obtiene mediante la manipulacin algebraica de sus
datos. (Pardo Merino)

Ejemplo: Suponga se tom una muestra representativa de los


estudiantes regulares de la Universidad de los Andes. Para esta
muestra se calcul: edad promedio, rendimiento promedio,
porcentaje de estudiantes que fuman.
Estadstico y Parmetro
Parmetro: valor numrico que describe una caracterstica de
la poblacin (Pardo Merino). Los parmetros se estiman a
partir de la informacin aportada por una muestra de la
poblacin.

Ejemplo: Si se considera como universo a todos los estudiantes


regulares de la Universidad de Los Andes, la edad promedio de
estos, el porcentaje de estudiantes de sexo femenino que fuman,
el ingreso medio todos los estudiantes, son valores que
describen a este conjunto.
Variables. Clasificacin.
Variable: caracterstica de un sujeto u objeto que vara de un
elemento a otro.
Las variables se pueden clasificar de acuerdo al nivel de
medicin.
Escala Nominal

Escalas Escala Ordinal


de
medicin Escala de Intervalo

Escala de Razn
Escala Nominal
1. Se clasifica a los sujetos en categoras, mutuamente
excluyentes y totalmente exhaustivas, tal que todos los
sujetos clasificados en la misma categora son equivalentes
respecto a la variable que se est midiendo.
2. Slo tiene sentido la relacin de igualdad-desigualdad.
3. Se pueden usar nmeros, letras o smbolos para identificar a
cada categora de la variable.
4. No se puede realizar ninguna operacin aritmtica en esta
escala.
Escala Nominal
Algunos ejemplos de variables medidas en la escala nominal:

Masculino M
Gnero
Femenino F

Soltero 1

Estado Casado 2
civil Divorciado 3
Viudo 4
Escala Ordinal

1. Se usa cuando es posible establecer una relacin de orden


entre las distintas categoras de la variable. Es decir,
prevalece la relacin de orden mayor que (>).
2. Se pueden usar letras o nmeros para identificar a cada
categora de la variable. Los nmeros o letras usados deben
reflejar el orden de las categoras.
3. No se pueden realizar operaciones aritmticas entre los
nmeros asignados a las distintas categoras. Tales nmeros
solo reflejan una relacin de orden.
Escala Ordinal
Dos ejemplos de variables medidas en la escala ordinal:

Preescolar 1

Nivel de Educacin Bsica 2


Instruccin Media y Diversificada 3
Superior 4
Escala Ordinal

Mala D

Calidad de Regular C
un servicio Buena B
Excelente A
Escala de Intervalo.

1. Posee una unidad de medida constante y arbitraria.


2. Posee un cero arbitrario, es decir, no indica la
ausencia de la caracterstica que se est midiendo.
3. Prevalece la relacin de orden mayor que (>).
4. Entre los valores de la variable solo es posible
realizar la suma y la resta como operaciones
aritmticas.
Escala de Intervalo
Tres ejemplos de variables medidas en una escala de
intervalo:
1. La temperatura de una ciudad medida en grados
Fahrenheit o Celsius.
2. La altura de las ciudades usando como referencia
el nivel del mar.
3. El rendimiento acadmico medido en una escala
del 0 al 20.
Para cada variable mencionada el cero es arbitrario.
Escala de Razn.
1. Posee una unidad de medida constante y
arbitraria.
2. Posee un cero absoluto, es decir, este valor
indica la ausencia de la caracterstica que se est
midiendo.
3. Prevalece la relacin de orden mayor que (>).
4. Se pueden realizar todas las operaciones
aritmticas entre los valores de la variable.
Escala de Razn

Algunas variables medidas en la escala de razn:


1. Edad.
2. Peso.
3. Estatura.
4. Tiempo invertido por un estudiante en realizar una
tarea.
5. Ingreso familiar.
DESCRIPCIN DE LOS
DATOS

DISTRIBUCIONES DE
FRECUENCIAS Y
REPRESENTACIONES
GRFICAS
DISTRIBUCIN DE FRECUENCIAS
Agrupamiento de datos en categoras
mutuamente excluyentes que indican el
nmero de observaciones en cada
categoria

Estadstica I 20
EJEMPLO

Los siguientes datos obtenidos de una muestra


de hogares presentan las cantidades semanales
(en USD) que se gastan en comestibles (n=45)

271 363 159 76 227 337 295 319 250


279 205 279 266 199 177 162 232 303
192 181 321 309 246 278 50 41 335
116 100 151 240 474 297 170 188 320
429 294 570 342 279 235 434 123 325

Estadstica I 21
Pasos
1.Determinar el nmero de clases k
k
2 n
El nmero de clases es la menor potencia a la que se eleva 2 de tal
manera que el resultado sea igual o prximo mayor que el nmero de
datos n

Ejemplo:

5 6
2 32 2 64
64 45
6 clases

Estadstica I 22
Pasos
2. Determinar el intervalo o amplitud de
clase
i = ancho del intervalo de clase
HL
i H = mayor valor observado
k L = menor valor observado
k = nmero de clases

Ejemplo:
271 363 159 76 227 337 295 319 250
279 205 279 266 199 177 162 232 L 303
192 181 321 309 246 278 50 41 335
116 100 151 240 474 297 170 188 320
429 294 570 342 279 235 434 123 325
H
23
Pasos
2. Determinar el intervalo o amplitud de clase
Ejemplo:

570 41
i 88,17 90
6
En la prctica este valor se redondea hacia arriba o algn
mltiplo de 10 o 100

El ancho de cada
clase ser de 90

Estadstica I
Pasos
3. Establecer los lmites de cada clase
Lmites nominales: indican valores incluidos en la clase
Lmites exactos: puntos especficos para separar clases adyacentes en una escala de
medicin continua

Ejemplo: Tomando en cuenta limites exactos

Gatos en
comestibles
(USD)
{40, 130) Ls Li i 40 + 90
{130, 220)
{220, 310)
{310, 400) i Ls Li
{400, 490)
{490, 580)
Pasos
4. Distribuir los datos en cada clase

Ejemplo:

Gatos en
comestibles Hogares en cada clase
(USD)
{40, 130) IIIII I
{130, 220) IIIII IIIII
{220, 310) IIIII IIIII IIIII II
{310, 400) IIIII III
{400, 490) III
{490, 580) I

Estadstica I
Pasos
5. Contar el nmero de elementos en cada clase

FECUENCIA: Nmero de observaciones en cada clase

Gatos en
Ejemplo: comestibles Hogares en cada clase FRECUENCIA
(USD)
{40, 130) IIIII I 6
{130, 220) IIIII IIIII 10
{220, 310) IIIII IIIII IIIII II 17
{310, 400) IIIII III 8
{400, 490) III 3
{490, 580) I 1
45

Estadstica I
Cuntos hogares
gastan semanalmente en
comestibles entre 220 y 310
Gatos en USD?
comestibles FRECUENCIA
(USD)
{40, 130) 6
{130, 220) 10 Nos valemos de la
{220, 310) 17
{310, 400) 8
frecuencia absoluta:
{400, 490) 3 Son 17 hogares
{490, 580) 1
45
Marcas de Clase

Es el punto medio de cada clase. Se lo encuentra al


sumar lmite inferior y superior de la clase, y
dividiendo el resultado entre dos
Xm
L L s i

Ejemplo: 2
Gatos en
MARCA DE
comestibles FRECUENCIA
CLASE
(USD)
{40, 130) 6 85
{130, 220) 10 175
220 310 530
{220, 310) 17 265 Xm 265
2 2
{310, 400) 8 355
{400, 490) 3 445
{490, 580) 1 535
45

Estadstica I
Distribucin de frecuencias relativas
Se convierte la frecuencia en porcentaje
Cada frecuencia de clase se divide entre el
nmero total de observaciones f
fr
n
Ejemplo:

Gatos en
FRECUENCIA
comestibles FRECUENCIA
RELATIVA
(USD)
{40, 130) 6 0,13
{130, 220) 10 0,22 17
{220, 310) 17 0,38 fr 0,38
45
{310, 400) 8 0,18
{400, 490) 3 0,07
{490, 580) 1 0,02
45 1,00

Estadstica I 30
Gatos en
FRECUENCIA
comestibles FRECUENCIA
RELATIVA Qu
(USD)
porcentaje de hogares
{40, 130) 6 0,13 gastan semanalmente
{130, 220) 10 0,22 en comestibles entre
{220, 310) 17 0,38 310 y 400 USD?

{310, 400) 8 0,18 Nos valemos de


{400, 490) 3 0,07 la frecuencia relativa:
{490, 580) 1 0,02 El 18% de
45 1,00 los hogares

Estadstica I 31
Frecuencias acumuladas y relativas acumuladas
Se basa en el principio de o ms o y menor que
Es la suma de frecuencias a partir del menor valor de la variable

f
Ejemplo: fr
n
Gatos en FRECUENCIA
FRECUENCIA FRECUENCIA
comestibles FRECUENCIA RELATIVA
ACUMULADA RELATIVA
(USD) ACUMULADA
{40, 130) 6 6 0,13 0,13
0,13 0,22
{130, 220) 10 16 0,22 0,35
{220, 310) 17 33 0,38 0,73 0,35 0,38
{310, 400) 8 41 0,18 0,91 0,73 0,18
{400, 490) 3 44 0,07 0,98 0,91 0,07
{490, 580) 1 45 0,02 1 0,98 0,02
45 1,00

Estadstica I 32
Gatos en FRECUENCIA Cuntos hogares gastan
FRECUENCIA FRECUENCIA semanalmente en comestibles
comestibles FRECUENCIA RELATIVA
ACUMULADA RELATIVA menos de 220 USD?
(USD) ACUMULADA

{40, 130) 6 6 0,13 0,13


Nos valemos de la frecuencia
{130, 220) 10 16 0,22 0,35 absoluta acumulada:
{220, 310) 17 33 0,38 0,73
16 hogares
{310, 400) 8 41 0,18 0,91
{400, 490) 3 44 0,07 0,98 Qu porcentaje de hogares gastan
{490, 580) 1 45 0,02 1 semanalmente en comestibles
45 1,00 menos de 400 USD?

Nos valemos de la frecuencia


relativa:
El 91% de los hogares
Representacin grfica de distribuciones de
frecuencias
HISTOGRAMA: clases en el eje horizontal y frecuencias en
el eje vertical

Estadstica I 34
Representacin grfica de distribuciones de
frecuencias
POLGONO DE FRECUENCIAS: relaciona marcas de
clase y frecuencias

Estadstica I
Grficas de lneas

Cambio de una variable a travs del tiempo

Estadstica I 36
Grficas de barras horizontales o
verticales
Representa cualquiera de los niveles de
medicin.

37
Grficas Circulares

Muestran los datos de nivel nominal

Estadstica I 38
MEDIDAS DE TENDENCIA
CENTRAL
Las medidas de tendencia central son valores que
representan un conjunto de datos.

-Media
-Mediana
-Moda
DATOS NO AGRUPADOS
MEDIA X
X
Ejemplo: n

Calcule el valor medio (o promedio) del ingreso anual de


una muestra de empleados de la empresa La Favorita: 10.500,
8.720, 11.350, 9.520 y 12.350 USD

10500 8720 11350 9520 12350


X
5
52440
X
5
X 10488 USD

Estadstica I 40
MEDIANA
Cuando hay valores extremos (muy grandes
o pequeos) la media puede no ser
representativa
Mediana corresponde al punto medio de
los datos despus de ordenarlos
50% de las observaciones son mayores que
la mediana y 50% son menores

Estadstica I 41
MEDIANA
Si el nmero de datos es par, la mediana es la media
aritmtica de los datos situados en la mitad
n
Pos med
2

Si el nmero de datos es impar, la mediana es el


valor que se site justo en la mitad
n 1
Pos med
2

Estadstica I 42
MEDIANA

Ejemplo:
Edades de una muestra de 8 Edades de una muestra de 9
estudiantes de Estadstica I estudiantes de Estadstica I
(PAR) (IMPAR)

8 9 1
Pos med 4 Pos med 5
2 2
23 23
23 23
24 Mediana 24
28 28 30 25
29 Mediana
30 2 28
32 30
34 32
41 34
41
Estadstica I 43
MODA
Valor que aparece con mayor frecuencia
Ejemplo:

Edades de personas que asisten a una tienda de videos de un


centro comercial a las 10 am

12 8 17 21 11 17 14 8 17

21 28

Moda
Estadstica I 44
DATOS AGRUPADOS

Media: X
fX m

Mediana:
CLASE MEDIANA: clase cuya frecuencia
acumulada es igual o prxima mayor a la mitad de
los datos Li: lmite inferior de la clase mediana
n: nro. de datos de la muestra
n FAa: frecuencia acumulada de la
FAa
Me Li 2 i
clase que antecede a la clase
mediana
f f: frecuencia clase mediana
i: ancho intervalo de clase mediana

Estadstica I 45
Moda:
CLASE MODAL: es la clase que contiene la
mayor frecuencia

Li: lmite inferior de la clase modal


1 : diferencia entre frecuencia
de clase modal y clase que la
1 antecede
Mo Li i 2 : diferencia entre frecuencia
1 2 de clase modal y clase que le
sigue
i: ancho del intervalo

Estadstica I 46
Ejemplo:
En una muestra de 50 ciudades de EEUU con poblaciones que se encuentran
entre 100.000 y 1000.000 habitantes, se encontr la siguiente distribucin de
frecuencias para el costo diario de una habitacin de hospital.

Costo de una
habitacin de hospital FRECUENCIA
(USD)
{100, 200) 1
{200, 300) 9
{300, 400) 20
{400, 500) 15
{500, 600) 5
50

Estadstica I 47
Media
Costo de una
habitacin de hospital FRECUENCIA Xm f*Xm
(USD)
{100, 200) 1 150 150
{200, 300) 9 250 2250
{300, 400) 20 350 7000
{400, 500) 15 450 6750
{500, 600) 5 550 2750
50 18900

X
fX m

18900
378
El costo medio de una habitacin de
hospital en las 50 ciudades de la
n 50 muestra es de 378 USD

Estadstica I 48
Mediana CLASE MEDIANA:
Costo de una Frecuencia acumulada
FRECUENCIA
habitacin de FRECUENCIA es igual o prxima
ACUMULADA
hospital (USD) mayor a la mitad de los
{100, 200) 1 1 datos
{200, 300) 9 10
{300, 400) 20 30
{400, 500) 15 45
{500, 600) 5 50
50
n 50
FAa 10
Me Li 2 i 300 2 100
f 20
El costo mediano de una habitacin de
Me 375 USD hospital en las 50 ciudades de la muestra es
de 375 USD

49
Moda
Costo de una
habitacin de FRECUENCIA
CLASE MODAL
hospital (USD)
Mayor frecuencia
{100, 200) 1
{200, 300) 9 1
{300, 400) 20
{400, 500) 15 2
{500, 600) 5
50

Mo Li
1
i 300 20 9
100
1 2 20 9 20 15
El costo modal de una habitacin doble en las
Me 369 USD 50 ciudades de la muestra es de 369 USD

50
Medidas de dispersin, variacin o
variabilidad.

Son valores numricos que indican o describen la


forma en que las observaciones estn dispersas o
diseminadas, con respecto al valor central.

Son importantes debido a que dos muestras de


observaciones con el mismo valor central pueden
tener una variabilidad muy distinta.
Varianza

Medidas de
dispersin,
variacin o Coeficiente
Rango variabilidad. de
variacin

Desviacin Tpica.
Medidas de dispersin: Rango
Rango (amplitud o recorrido):
Est determinado por los dos valores
extremos de los datos muestrales, es
simplemente la diferencia entre la mayor y
menor observacin.
Es una medida de dispersin absoluta, ya
que depende solamente de los datos y
permite conocer la mxima dispersin.
Medidas de dispersin: Rango

Casi no se emplea debido a que depende


nicamente de dos valores.
No proporciona una medida de variabilidad
de las observaciones con respecto al centro
de la distribucin.
Notacin: R
Medidas de dispersin: Varianza
Es un valor numrico que mide el grado de
dispersin relativa porque depende de la
posicin de los datos x1,x2,,xn con
respecto a la media.
Es el promedio al cuadrado de las
desviaciones de cada observacin con
respecto a la media.
Notacin: s2, 2, var(X)
Medidas de dispersin: Varianza
Si la varianza de un conjunto de observaciones es
grande se dice que los datos tiene una mayor
variabilidad que un conjunto de datos que tenga un
varianza menor.

x x
n
2
i
s2 i 1
n
n

i
x 2
2
s
2 i 1
x
n
Medidas de dispersin: Desviacin Tpica

Es la raz cuadrada de la varianza.


Notacin: s, .

s s 2
Medidas de dispersin: Coeficiente de
Variacin

Es una medida de dispersin relativa que


permite comparar el nivel de dispersin de dos
muestras de variables estadsticas diferentes.
No tiene dimensiones.
Notacin: CV

s
CV 100%
x
Ventajas y Desventajas del Rango
Ventajas:
til cuando se quiere conocer la extensin de
las variaciones extremas (valor mximo de la
dispersin).
Fcil de calcular.
Desventajas:
No es una MD con respecto al centro de la distribucin.
Solo emplea dos valores en su clculo.
No se puede calcular en distribuciones de lmite de
clase abierto.
Propiedades, Ventajas y Desventajas de la
Varianza

Propiedades:
1. Siempre es mayor o igual a cero y menor
que infinito.
2. La varianza de una constante es cero.
3. Si a una variable X la sometemos a
Y=a+bX, la varianza de Y ser Var(Y) =
b2Var(X)
Propiedades, Ventajas y Desventajas de la
Varianza

Ventajas:
Es til cuando se compara la variabilidad de dos o
ms conjuntos de datos.
Utiliza toda la informacin disponible.
Desventajas:
No proporciona ayuda inmediata cuando se estudia
la dispersin de un solo conjunto de datos.
Difcil de interpretar por tener sus unidades elevadas
al cuadrado.
Ventajas y Desventajas de la Desviacin
Tpica (Estndar)

Ventajas:
Esta expresada en las mismas unidades que la
variable en estudio.
Utiliza todas las observaciones en su clculo.
Fcil de interpretar.
Desventajas:
No tiene.
Ventajas y Desventajas del Coeficiente de
Variacin

Ventajas:
Es la nica MD que permite comparar el nivel de
dispersin de dos muestras de variables diferentes.
Emplea toda la informacin disponible en su clculo.
Fcil de calcular.
Desventaja:
No es una MD con respecto al centro de la distribucin
de los datos.
GRACIAS POR SU ATENCION!!!

Mtro. Jos Manuel Lpez Olvera

Estadstica I 64

También podría gustarte