Está en la página 1de 55

Estadstica

Estadstica Descriptiva
(Sesin 1 y 2)

Freddy Alvarado V. Noviembre 2007

esan

ESTADSTICA
Subdivisin de la Estadstica:

Estadstica

Descriptiva

Inferencial

esan

ESTADSTICA DESCRIPTIVA
Conjunto de mtodos estadsticos para resumir y describir datos completos de una poblacin: Finalidad: Entendimiento Ciclos de Comportamiento Tendencia Ejemplo: Resultado de la calificacin de un examen. Comportamiento de las ventas

esan

ESTADSTICA INFERENCIAL
Conjunto de mtodos con los que se hace una generalizacin de una poblacin a partir de los datos obtenidos de una muestra de esa poblacin. Estas conclusiones no tienen porque ser validas al 100%, por lo que que normalmente se deben dar con una medida de confiabilidad (Intervalos de Confianza). Ejemplo: Estimacin del resultado de un examen en base al muestreo de algunos alumnos.

esan

POBLACIN Y MUESTRA

Poblacin: (Todo)
Conjunto de elementos que conforman el universo a ser estudiado. Puede consistir de elementos y/o personas de los cuales queremos obtener algn tipo de conclusin y/o dato. Estas observaciones pueden ser cualitativas o cuantitativas. Muestra: (Parte)

Es el subconjunto del universo, el cual se selecciona con la finalidad de estudiarla y obtener a partir de estos resultados conclusiones acerca de la poblacin.

esan

POBLACIN Y MUESTRA
Poblacin: Parmetro Medida descriptiva que resume una caracterstica de la poblacin a partir de la observacin de los datos de total de la poblacin.

Muestra: Estadstico o estadgrafo


Medida descriptiva que resume una caracterstica muestra con el fin de estimar un parmetro. de la

Las medidas descriptivas para ambos son las mismas.


Ejemplo: La media, varianza, desviacin estndar, etc.

esan

VARIABLES
Variable es una caracterstica que se define en la poblacin, que puede tomar dos o ms valores o modalidades. Ejemplos: Tiempo de respuesta de una Pentium 300 Mhz Sexo de un beb: Hombre o Mujer Nro. de hijos de un hogar: Entero positivo Nro. de aviones que aterrizan en el aeropuerto Jorge Chvez en un perodo de tiempo Medida de un producto: pulgadas, milmetros

esan

CLASIFICACIN DE VARIABLES
Cualitativas: Es una caracterstica cuyos valores solo se pueden clasificar en categoras o modalidades. No se puede operar con ellos. Ejemplo: sexo, grado de instruccin, nivel socio econmico, etc. Cuantitativas: Es una caracterstica cuyos valores son numricos y se puede operar con ellos. Hay dos divisiones: Discretas y Continuas

esan

CLASIFICACIN DE LAS VARIABLES CUANTITATIVAS


Discretas: Puede asumir solo valores enteros 0, 1, 2, ...... . No admite valores intermedios entre dos valores consecutivos. Ejemplo: Nmero de artculos defectuosos en un lote, nmero de clientes satisfechos, nmero de alumnos aprobados, etc. Continuas: Este tipo de variable puede asumir cualquier valor, entero y/o decimal. Ejemplo: Rendimiento de kilometraje por galn, tiempo de llegada, temperatura, etc.

esan

EJERCICIOS DE APLICACIN.
1.- Un fabricante asegura que el 98% de los artculos producidos resisten cierta temperatura. Para probar la resistencia al calor de dicho artculo un ingeniero tom una muestra de 100 de stos y verific que 35 sufrieron serias modificaciones en su estructura. (D o C ?) 2.- Se mide la longitud de barras de aluminio y se registra que stas varan de 10.2 a 10.8 cm. (D o C?) 3.- En un estudio de mercado que realiz la encuestadora XYZ sobre la preferencia de gaseosas se obtuvo que 80 afirmaron que prefieren Chaposita, 50 prefieren Cola y 30 dijeron que prefieren La Nacional. (D o C?)

esan

ORGANIZACIN DE DATOS
Luego de recolectar datos, es necesario resumirlos y presentarlos de tal forma que se puedan COMPRENDER, ANALIZAR y UTILIZAR. Por eso se ordenan en cuadros numricos y luego se representan en grficos.

DISTRIBUCIN DE FRECUENCIAS
Se llama as a los cuadros numricos de una sola variable estadstica, y pueden ser de datos cualitativos o de datos cuantitativos tanto discretos como continuos.

esan

La frecuencia absoluta (fi), de una valor Xi, es el nmero de veces que aparece repetido dicho valor en el conjunto de las observaciones realizada. La suma de todas las frecuencias absolutas es igual al total observados: fi = n i=i

n de datos

La frecuencia relativa (fri), es el cociente entre la frecuencia absoluta y el nmero de observaciones realizadas: fri = fi / n La suma de todas las frecuencias relativas siempre es igual a 1, esto es: fri i=1 = 1

esan

La frecuencia porcentaje (fpi), es la frecuencia relativa expresada en porcentaje, entonces el total de las frecuencias es igual a cien (100). Ejemplo 1. (para variable cualitativa):
En una entrevista a 30 amas de casa sobre su preferencia de compra en los auto servicio: De Todo (T), Santa Beatriz (B) y Don Jorge (J), se han obtenido los siguientes resultados: T, T, B, B, B, B, J, J, J, J, J, J, T, T, T, B, B, J, J, J, J, J, B, T, T, T, T, T, B, J.

La tabulacin de estos datos, de la variable en estudio se muestra en el cuadro siguiente:

esan

Distribucin de las amas de casa en cuanto a su preferencia por autoservicios Autoservicio Frecuencias Frecuencias En absoluta relativas %
10 8 12 0.33 0.27 0.40 33 27 40

- De Todo - Santa Beatriz - Don Jorge

Total

30

1.00

100

esan

GRFICO DE BARRAS
Distribucin de frecuencias de amas de casa segn su preferencia por autoservicios

40 35 30 25 20 15 10 5 0 T B J

esan

Para representar grficamente la distribucin de frecuencias de una variable cualitativa se utilizan las barras y los sectores circulares.

J 40%

T 33%

B 27%

esan

excel

Ejemplo 2: (Variable Cuantitativa discreta):


Construir la distribucin de frecuencias del nmero de hijos por familia en una muestra de 20 hogares, si se han observado los siguientes datos: 2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4 Definicin de la variable: X = Nmero de hijos por hogar Rx = {0, 1, 2, 3, 4} Conjunto de valores posibles, es un conjunto finito.

esan

X 0 1 2 3 4

Conteo I IIII IIIIIII IIIIII II

fi 1 4 7 6 2
20

fri=ni / n 1/20=0.5 4/20=0.20 7/20=0.35 6/20=0.30 2/20=0.10


fi = 1

fpi x 100 5% 20% 35% 30% 10%


100%

Qu porcentaje de los hogares tienen 3 hijos? (30%) Qu porcentaje de los hogares tienen 2 hijos? (35%) Cuntos hogares tienen un hijo? (4)

esan

DISTRIBUCIN DE FRECUENCIAS POR


INTERVALOS
Se usa cuando la variable estadstica es continua o cuando el rango de la variable discreta es infinito o tiende a infinito. La distribucin se obtiene dividiendo el rango en intervalos o clases y determinando el nmero de datos que contiene cada intervalo.

El nmero de intervalos debe estar de preferencia entre 5 y 20.


Los intervalos o clases se deben tomar cerrado a la izquierda y abiertos a la derecha, con excepcin del ltimo que va cerrado en ambos lados. Esto se hace con el fin de que estn incluidos todos los nmeros y evitar ambigedad en la colocacin de los nmeros en los intervalos. Intervalos [ a b > , intervalo final: [a b]

esan

Otro concepto importante es la marca de clase a la cual denotaremos Xi, y es el punto medio o semisuma de los lmites inferior (m) y superior (M) de cada intervalo.

Por ejemplo la marca de clase de un intervalo con lmites 0 y 4 seria


2, y el intervalo siguiente de 4 a 8 tendra como marca de clase el 6.

esan

PASOS PARA CONSTRUIR LA DISTRIBUCIN DE


FRECUENCIAS Determinar el rango (R) de variacin de los datos. Determinar el nmero de intervalos (K), pudindose usar la Regla de Sturges o la raz cuadrada de n para tener una idea inicial: Regla de Sturges: K = 1 + 3.3 log(n) K = Raz cuadrada (n) Determinar la amplitud (A) del intervalo, dividiendo R entre K y aproximndose por exceso en caso de que la divisin no sea exacta.

Por ltimo se determinan los extremos de cada intervalo y se escriben.

esan

Criterios para determinar el nmero de Clases (K)


a. Tabla sugerida:
Nmero de Datos (n) Nmero de Clases (k)

Menos de 50 datos: 50 a 100 datos

5a7 6 a 10

100 a 250 datos


Ms de 250 datos

7 a 12
10 a 20

b. Regla de Sturges = k = 1 + 3.3 log (n) c. k = Raz cuadrada (n)

esan

Ejemplo 3: (Variable cuantitativa continua)


Tomamos una muestra de focos para ver su duracin, teniendo los siguientes datos: Cantidad de la muestra (n) = 500 focos Tiempo mnimo de duracin (m) = 20 horas Tiempo mximo de duracin (M) = 120 horas Entonces: El rango es R = 100

El nmero de intervalos puede ser K = 5 (regla o criterio)


La amplitud del intervalo sera A = 20 (R/K)

esan

La descripcin de los intervalos es como sigue:


Ii [20,40> [40,60> [60,80> [80,100> [100,120] Xi 30 50 70 90 110 fi 50 150 200 80 20 500 Fi 50 200 400 480 500 fri 0.10 0.30 0.40 0.16 0.04 Fri 0.10 0.40 0.80 0.96 1.00

Xi es la marca de clase
Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada

esan

Como conclusin del cuadro anterior, se puede inferir por ejemplo que:
200 focos duran entre 60 y 80 horas

o que el 40% de los focos duran entre 60 y 80 horas


Que 400 focos duran hasta 80 horas o que el 80% de los focos duran hasta 80 horas Y adems podramos hacer algunos grficos como: HISTOGRAMAS, POLIGONOS DE FRECUENCIA Y OTROS.

esan

HISTOGRAMA, es la representacin por medio de barras rectangulares, siendo la base de cada barra proporcional a la amplitud, su centro la marca de clase y la altura su frecuencia absoluta o relativa. En el eje horizontal va la escala de la variable y en el vertical la escala de la frecuencia.
30

Nmero de colegios

25 20 15 10 5 0 0 a 2,0 2,0 a 4,0 13

24

8 5 1

4,0 a 6,0

6,0 a 8,0

8,0 a 10,0

10,0 a 12,0

12,0 a 14,0

14,0 a 16,0

Pensiones anuales en miles de soles

esan

POLIGONOS DE FRECUENCIA, es la representacin por medio de una figura polgona cerrada, que se obtiene uniendo con segmentos de recta los puntos de interseccin de las marcas de clase con las frecuencias.

30

Nmero de colegios

25 20 15 10 5 0 0 a 2,0 2,0 a 4,0 13

24

8 5 1

4,0 a 6,0

6,0 a 8,0

8,0 a 10,0

10,0 a 12,0

12,0 a 14,0

14,0 a 16,0

Pensiones anuales en miles de soles

esan

CURVAS DE FRECUENCIA, se puede obtener del polgono de frecuencia suavizando los puntos angulosos del polgono. Esta grfica nos describe algunas caractersticas de la distribucin de la poblacin como: Simetra, Asimetra, Normalidad, Uniformidad, Bimodalidad, etc.
30 24

Nmero de colegios

25 20 15 10 5 0 0 a 2,0 2,0 a 4,0 13

8 5 1

4,0 a 6,0

6,0 a 8,0

8,0 a 10,0

10,0 a 12,0

12,0 a 14,0

14,0 a 16,0

Pensiones anuales en miles de soles

esan

LA OJIVA, o polgono de frecuencias acumuladas, se obtiene uniendo segmentos de recta de intersecciones entre el lmite superior de cada intervalo y la frecuencia acumulada respectiva. Con la ojiva se puede calcular fcilmente el nmero o porcentajes de observaciones que corresponden a un intervalo determinado.
70

Nmero de colegios

60 50 40 30 20 10 0 0 0 a 2,0 2,0 a 4,0 4,0 a 6,0 6,0 a 8,0 13 37 46

59 54

60

8,0 a 10,0

10,0 a 12,0

12,0 a 14,0

14,0 a 16,0

Pensiones anuales en miles de soles

esan

BARRAS AGRUPADAS, se usan para comparar las frecuencias en cada modalidad cuando una variable tiene varias partes. Ejemplo: La modalidad ao puede tener los componentes Hombre graduados y Mujeres graduados.
80 70 60 50 40 30 20 10 0 1 2 Ao 3 46 35 27 21 28 31

MUJERES HOMBRES

esan

MEDIDAS DESCRIPTIVAS

1. Medidas de Posicin: Tendencia Central o Promedios: media aritmtica, media geomtrica, media armnica, mediana

Localizacin: moda, cuartles


2. Medidas de dispersin: Desviacin estndar, rango, varianza, coeficiente de variacin.

esan

MEDIDAS DE POSICIN
Las medidas de posicin reflejan la tendencia central y la localizacin de los datos. Las medidas de tendencia central, denominadas tambin promedios, ubican el centro de los datos, como la media aritmtica, la media geomtrica, y la mediana. Las medidas de localizacin indican el lugar de los datos ms frecuentes, como la moda.

esan

MEDIDAS DE TENDENCIA CENTRAL


1.- MEDIA ARITMTICA Es la suma de los valores observados de la variable, dividido entre el nmero de observaciones. Media aritmtica de datos no tabulados o media aritmtica simple. Se calcula utilizando la frmula: X = i =1 Xi N

esan

Ejemplo: Los siguientes datos corresponden a los ingresos (en soles) de 09 trabajadores del sector salud. 900, 800, 900, 12100, 800, 700, 1300, 800, 1200 a) calcular el ingreso promedio.
900 + 800 + 900 + 12100 + 800 + 700 + 1300 + 800 + 1200 9 = 2166

Es decir el ingreso promedio de los 9 trabajadores del sector salud es 2166 soles.

esan

Media aritmtica de datos tabulados - Media para variable discreta (media ponderada) Ejemplo: Calcular el promedio de notas de 20 alumnos, si 3 alumnos tienen 16, 4 alumnos tiene 14, 8 alumnos tienen 13 y 5 tienen 11
Nota Alumnos

16 14 13 11

3 4 8 5 20

16 14 13 11

x x x x

3 4 8 5

48 56 104 55 263 = 13,15

Media Ponderada =

263 20

esan

Media aritmtica de datos tabulados - Media para variable discreta (media ponderada)
Calcular el promedio del curso de Soluciones estratgicas con tecnologa de informacin para Carlos Delgado si las notas que obtuvo y sus respectivos pesos son los siguientes:
Criterios de evaluacin
Controles de lectura Participacin en clase Examen parcial Casos y trabajos Examen final

Notas
16 13 10 16 14

Peso
20% 15% 25% 10% 30% 100%

Puntaje
3,20 1,95 2,50 1,60 4,20

13,45

esan

Media aritmtica de datos tabulados por intervalos. (Media para variable continua) Ejemplo: Calcular el peso promedio de las personas de una universidad en base a una muestra de 100.

esan

Datos
Pesos [54-60> [60-66> [66-72> Nro. Personas 20 29 28 Marca 57 63 69 fi*Xi 1140 1827 1932

[72-78 >

23
100

75
Total

1725
6624

El peso promedio de la poblacin se calcula en 66.24 kilos.


Observar que si sacamos la media simple de los 100 datos, lo ms probable es que los resultados difieran.

esan

Desventajas de la media aritmtica 1.- La media aritmtica depende de todos los valores observados, y es afectada por valores extremo. Ejemplo: a.- 5, 10, 8, 9 b.- 5, 10, 8, 50 a.- 5, 10, 8, 0 X1 = 8.00 X2 = 18.25 X3 = 5.75

esan

2.- MEDIA GEOMTRICA. La media geomtrica de n valores positivos se define como la raz n..sima del producto de los datos:

M .G. n x1 x2 x3 ... xn
La media geomtrica se usa para promediar tiempos que siguen una tendencia exponencial, como: razones (a/b), ndices (a/b en %), proporciones a/(a+b), tasas de cambio (a-b)/b, entre otros

esan

Ejemplo: Si la produccin de cierto cereal ha experimentado un crecimiento del 30% del primer al segundo ao y un incremento del 35% del segundo al tercer ao, calcular el porcentaje promedio de crecimiento de los tres aos y la produccin del cuarto ao si la del primero fue 100.

esan

Entonces, la produccin del segundo ao es 100 + 100(0.30) = 130 y la tasa de crecimiento es 130/100 = 1.30 La produccin del tercer ao es 130(0.35)+130 = 175.5 y la tasa de crecimiento es 175.5/130 = 1.35 Por tanto el promedio de aumento en los tres aos es:

raiz cuadrada (1.30 x 1.35) = 1.3248


Esto implica que el porcentaje promedio de crecimiento en los tres aos ha sido de 32.48%,

Ahora, la produccin para el cuarto ao se estima en:


175.5 + 175.5(0.3248) = 232.5

esan

LA MEDIANA La mediana es el punto medio de los valores despus de ordenarlos de menor a mayor o de mayor a menor. Hay tanto valores por encima de la mediana como por debajo de ella en la ordenacin de los datos.

Su caracterstica particular es que depende del nmero de datos


observados y no de los valores de esos datos.

esan

MEDIANA DE DATOS NO TABULADOS Si n valores de alguna variable X son ordenados en forma creciente:

X1 < X2 < X3 < ............ < Xn


Entonces si n es impar la mediana es X (n+1)/2 Y si n es par, la mediana es Xn/2 + X (n+2)/2

2
Ejemplo 1: Hallar la mediana para: 40, 43, 39, 19, 44. Ejemplo 2: Hallar la mediana para: 3, 12, 16, 46, 39, 1.

esan

MODA La moda simple es el valor de la observacin que aparece con ms frecuencia. Es una medida menos importante que la mediana debido a su ambigedad. La moda tiene la desventaja que no siempre existe, y si existe no siempre es nica. Tambin se puede hallar moda para datos no tabulados y moda para datos tabulados. Ejemplo: Moda de datos no tabulados.

Se tiene las siguientes edades en un grupo de 12 personas (35, 41, 31, 33, 34, 28, 31, 32, 34, 29, 33, 34) Cual es la moda simple?

esan

1.- Si tenemos como valores de la variable x=1, 3, 3, 4, 5 y 7, que nos indican la cantidad de autos vendidos diariamente, y el n es 6 das, hallar la X, Me y Mo de los datos:

X = 3.8 (el promedio de autos vendidos al da es 3,8)

Me = 3.5 (la mitad de los das vendo menos de 3.5 autos y la mitad vendo ms de 3.5 autos).
Mo = 3.0 (la mayora de los das vendo 3 autos).

esan

RELACION ENTRE LA MEDIA, LA MEDIANA Y LA MODA: 1.- Si la distribucin de frecuencias es simtrica: X = Me = Mo 2.- Si la distribucin es asimtrica cola a la derecha:

Mo <Me <X
3.- Si la distribucin es asimtrica cola a la izquierda: X < Me < Mo

esan

MEDIDAS DE DISPERSIN O VARIACIN

Con las medidas de Tendencia Central es posible determinar el centro de una distribucin, pero no indican que tan cercanos o lejanos estn los datos de ese promedio.
La dispersin se calcula entonces para evaluar la confiabilidad de ese promedio que se est utilizando. Cuando la dispersin es pequea, los datos estn concentrados alrededor de su promedio y viceversa.

esan

Si ponemos una empresa que comercializa arroz y vamos a vender bolsas de un kilo, la mquina llenadora y selladora de bolsas debe estar lo ms ajustada posible a fin de que la varianza sea la menor posible a pesar de que las bolsas tengan como media un kilo. Es fcil imaginar lo rpido que quebrara el negocio si muchas bolsas tuvieran 700 Gms. 800 Grm. y otras 1.2 Kg., o 1.3 Kg.
RANGO Es la diferencia entre el valor ms alto y el menor valor de una serie de datos.

R = Xmax - Xmin

esan

VARIANZA Es una medida que cuantifica el grado de dispersin o variacin de los valores de una variable cuantitativa con respecto a su media aritmtica. Se define como la media aritmtica de los cuadrados de las diferencias de los datos con respecto a su media aritmtica. La varianza de una muestra se denota S2 mientras que la de una poblacin se denota Sigma 2. DESVIACIN ESTNDAR

Es la raz cuadrada positiva de la Varianza, y se denota como S cuando se saca de una muestra y como Sigma cuando se obtiene de una poblacin.

esan

VARIANZA Y DESVIACIN ESTNDAR PARA POBLACIN Datos no tabulados Sigma 2 = (Xi - u)2 N Datos tabulados Sigma 2 = fi(Xi - u)2 N

esan

Ejemplo: (datos no tabulados)


Determinar la varianza y desviacin estndar de los siguientes datos que corresponden a los pesos en kilos de cinco pequeos chanchos que posee un granjero: 5, 10, 8, 9, y 20 La media u = 10.4

Entonces la varianza es:

Sigma 2 = (5-10.4)2 + (10-10.4) 2 +...+(20-10.4) 2 5 Sigma 2 = 129.2 / 5 = 25.84 Y la desviacin estndar es:
Sigma = 5.08

esan

VARIANZA Y DESVIACIN ESTNDAR PARA MUESTRA Datos no tabulados S2 = (Xi - X)2 n-1 Datos tabulados S2 = fi(Xi - X)2 n-1

esan

COEFICIENTE DE VARIACIN Es una medida de dispersin relativa que proporciona una estimacin de la magnitud de las desviaciones con respecto a la magnitud de la media CV = s/X o CV = (s/X)x100%

Es til para comparar la variabilidad de dos o ms series de datos que tengan distintas unidades de medida y/o distintas aritmticas

esan

Ejemplo: Las medidas tomadas con un micrmetro al dimetro de una produccin de cojinetes, tienen una media de 3.98 mm. y una desviacin estndar de 0.014 mm., mientras que las medidas tomadas a otra muestra de resortes sin extender, tienen una media de 1.59 pulgadas y una desviacin estndar de 0.009 pulgadas. Qu grupo de objetos tiene una mayor variabilidad?. C.V.1 = (0.014 / 3.98) x 100% = 0.35% C.V.2 = (0.009 / 1.59) x 100% = 0.57%

esan

También podría gustarte