Está en la página 1de 83

Estadística

2° Semestre – Sección B
Profesora:
Lic. Alicia Magdalena A. Castillo G.
Lic. en Análisis de Sistemas y Matemática
 Días de Clases:
Jueves de 13:00 a 16:00 hs. (14:40 receso de
20 minutos)
 Asistencia:
75% según el Reglamento Interno
 Evaluación:
Primera Parcial: 15
Segunda Parcial: 15
Trabajo Práctico : 10 Total: 40
 Programa de Estudios y bibliografía:
disponible en www.fpune.edu.py
 Materiales:
calculadora científica, cuaderno, etc.
Bibliografía
Básicos
 SPIEGEL, Murray R. “Probabilidad y Estadística”. Mc
Graw-Hill. Bogotá. 1997.
 MILLER. “Probabilidad y Estadística para Ingenieros”.
Prentice-Hall. 1992.
 MEYER, PRADO y CUÉLLAR. “Probabilidad y
Aplicaciones Estadísticas”. Addison – Wesley
Iberoamérica. 1986.

 Complementarias
 GARCÍA, F. “Estadística”. Mc Graw-Hill. Madrid. 1994.
 SPIEGEL, Murray R. “Estadística”. Mc Graw-Hill.
Madrid. 1997
ESTADÍSTICA

Es la ciencia que nos proporciona un conjunto de


métodos y técnicas para la recolección, clasificación
(organización y presentación), análisis e
interpretación de datos en forma adecuada para tomar
decisiones, en muchos casos cuando prevalecen
condiciones de incertidumbre.
CLASIFICACIÓN
DE LA ESTADÍSTICA

Estadística descriptiva: Estadística inferencial:


Cuando un conjunto de datos La estadística inferencial nos permite
(generalmente un conjunto poblacional), generalizar los datos de una muestra
se recolecta, clasifica, analiza y a un número más grande de
obtiene resultados. individuos denominado población

vi fi hi hi %

Claros 7 7 / 50 = 0,14 14

Verdes 3 3 / 50 = 0,06 6

Azules 5 5 / 50 = 0,10 10

Marrones 25 25 / 50 = 0,50 50

Negros 10 10 / 50 = 0,20 20

50 1 100
Elementos de la Estadística

 Población: Conjunto de unidades de las que se


desea obtener cierta información.
Unidades: Personas, Familias, Viviendas, Escuelas,
Organizaciones, Artículos de Prensa

 Muestra: Selección de unas unidades concretas de


la población que representen la característica que
se quiere medir.

 Individuo: cualquier elemento que porte


información sobre el fenómeno que se estudia
Población: Todos los Muestra: una parte de los Individuo: Un elemento
electores paraguayos electores de la muestra


 
  
 

Variables Estadísticas:

Es una característica de la población que interesa al


investigador para un determinado estudio y que puede
tomar dos o más valores diferentes.
Variables

Cuantitativas Cualitativas

•Discretas •Ordinal
•Continuas •Categóricas
Clasificación de variables
Escalas de medición de las variables
Variables

CualitativaoAtributo CuantitativaoNúmerica

Escalademedición Escalademedición Tipo

Nominal Intervalo Discreta

Ordinal Razón Continua


Tipos Característica Ejemplos
NOMINAL Valores que se agrupan •Genero (sexo)
en categorías disjuntas y •Color de pelo
exhaustivas •Religión

ORDINAL Hay un orden entre las Clase social


categorías Preferencias
Educación
DE •Hay orden •Temperatura
INTERVALO •Hay distancia •Coeficiente Intelectual
•Hay un cero convencional
•Hay orden •Edad
DE RAZON •Hay distancia •Producción
•Hay un cero natural •Ingresos
MUESTREO
Procedimiento por el cual se extrae, de un
conjunto de unidades que constituyen el
objeto de estudio ( población), un número de
casos reducido (muestra) elegidos con
criterios tales que permitan la generalización a
toda la población de los resultados obtenidos
al estudiar la muestra.
TABLAS DE
FRECUENCIAS
Ejemplo: Tabla de distribución de frecuencias para
datos simples:

Durante el mes de julio, en una ciudad se han registrado


las siguientes temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32,

31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29,

29.
1ro) Ordenamos los datos de menor a mayor

27, 28, 28, 29, 29, 29, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30,
1 2 6 7

31, 31, 31, 31, 31, 31, 31, 31, 32, 32, 32, 33, 33, 33, 34
1
8 3 3
Temperatura Nro de días
27 1
28 2
29 6
30 7
31 8
32 3
33 3
34 1
Total 31
Variable Frec. Abs.
xi fi Frec. Relat. Frec. Porc. Frec. Acum.
“Temperatur “Cantidad fri fp Fi
as Máximas” de días”

27 1 1/31= 0,032 0,032*100= 3,2% 1

28 2 2/31= 0,064 0,064*100= 6,5% 3

29 6 6/31= 0,194 0,194*100= 9


19,4%
30 7 7/31= 0,226 16
0,226*100=
31 8 8/31= 0,258 22,6% 24
0,258*100=
32 3 3/31= 0,097 25,8% 27

33 3 3/31= 0,097 0,097*100= 9,7% 30

34 1 1/31= 0,032 0,097*100= 9,7% 31

Totales 31 1 0,032*100= 3,2%

100%
Variable Frec. Abs.
xi fi Frec. Relat. Frec. Porc. Frec. Acum.
“Temperatur “Cantidad fri fp Fi
as Máximas” de días”

27 1 0,032 3,2 1

28 2 0,064 6,5 3

29 6 0,194 19,4 9

30 7 0,226 22,6 16

31 8 0,258 25,8 24

32 3 0,097 9,7 27

33 3 0,097 9,7 30

34 1 0,032 3,2 31

Totales 31 1 100
Ejemplo:
Se ha realizado una encuesta a 30 profesores de un
colegio sobre la antigüedad en la docencia en años
completos. Los resultados fueron:
4, 11, 3, 7, 9 , 5 , 4 , 1 ,2 ,11 ,16 ,4 ,20 ,15 ,2 ,10 ,7 ,6 ,4 ,10 ,8 ,12 ,12 ,5 ,8

10,1, 6 ,3 ,15

a) Ordenamos los datos de menor a mayor.


1, 1, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 10, 10, 10, 11, 11, 12, 12, 15,

15, 16, 20

b) Calculamos: - El rango: 20 – 1 = 19

c) El tamaño o ancho de clase: para ello elegimos 5 como el numero de


19
intervalos de clase y dividimos el rango por dicho numero.  3,8  4
5
d) Construimos los intervalos:

Antigüedad en la docencia de profesores de un colegio


Intervalo de clase ( Frecuencia
Años de ( N° de Marca de Clase
antigüedad) profesores)
1-4 10 2,5
5-8 8 6,5
9 - 12 8 10,5
13 - 16 3 14,5
17 - 20 1 18,5
30
Reglas Generales para construir las distribuciones
de frecuencias por intervalos

 Efectuar el arreglo ordenado de la población o muestra

 Encontrarel rango o recorrido (R) de los datos:


R = (valor mayor – valor menor) = Xn – X1

 Encontrar el número de clases o intervalos de clases (K). El


número de clases debe ser tal que se evite el detalle
innecesario, pero que no conduzca a la perdida de información
Para este cálculo se utiliza la formula de Sturges
K = 1 + 3.322(log. N)
 Determinar la amplitud de la clase ( C ):
Nota: el resultado siempre se aproxima al siguiente entero si
excede al número entero obtenido

 El dato menor (X1) será el limite inferior de la primera clase. A él


se le suma C y se obtiene el limite superior de la primera clase
que también será el limite inferior de la segunda clase. Luego se
suma nuevamente C y se obtiene el límite superior del segundo
intervalo e inferior del tercero. Y así sucesivamente hasta que el
limite superior corresponda o supere ligeramente el valor mayor
(Xn), la cantidad de clases obtenidas deberá corresponder con el
número K calculado mediante la formula de Sturges.

 Una vez construidos los intervalos se calculan, mediante tabulación


de acuerdo a los límites inferiores y superiores de las clases, las
frecuencias absolutas, relativas, porcentuales y acumuladas
correspondientes.
Variables Nominales y Ordinales

Número de
Ya tuvo dengue individuos
Si 246
No 2314
Variables Cuantitativas discretas o
continuas tabuladas en intervalos
Variables Cuantitativas
Nivel de Colesterol Cantidad de
Discretas (mg/100 ml) hombres
Número de Número de 80-120 13
hermanos alumnos
120-160 150
0 4
160-200 442
1 6
200-240 299
2 8
240-280 115
3 10
280-320 34
4 7
320-360 9
5 5
360-400 5
GRAFICOS
ESTADÍSTICOS
“Una imagen vale más que mil palabras”

Un gráfico estadístico es una representación


pictórica que permite dar un resumen visual
de la información, y se utiliza para detectar
tendencias, agrupación de datos en torno a
un valor central, variaciones cíclicas,
estacionales, etcétera.
GRAFICO DE BARRAS
GRAFICO DE BARRAS VERTICALES
Esperanza de vida al nacer - Ambos sexos
8.1 años
71.9

70.1

68.0
66.8
65.4
63.8

1960 1970 1980 1990 2000 2008

Fuente: Banco Mundial


Tasas de desempleo histórica
12
10.7

10

7.9
8 7.3
Tasa desempleo

6.5 6.4
5.7 5.5 5.7
6

0
2003

2004

2005

2006

2007

2008

2009
2002

Año

Fuente: EPH 2002 - 2009


GRAFICO DE BARRAS HORIZONTALES
Edad mediana
Edad que divide a la población en partes iguales. Año 2008
Japón 43.8
Alemania 43.4
Francia 39.2
EEUU 36.7
Uruguay 33.2
Chile 31.1
Argentina 29.7
Brasil 28.3
México 26.0
Peru 25.8
Bolivia 22.6
Paraguay 21.7

Fuente: CIA – The World Factbook


Fecundidad – hijos por mujer
Comparación internacional
Año 2008

Bolivia 3.5

Paraguay 3.0

Peru 2.6

Argentina 2.2

Mexico 2.1

EEUU 2.1

Uruguay 2.0

Francia 2.0

Chile 1.9

Brasil 1.9

Alemania 1.4

Japón 1.3

Fuente: Banco Mundial


GRAFICO CIRCULAR
Distribución categoría ocupacional

Empleado / Obrero
privado
Empleado / Obrero 33.0%
público
8.0%

Empleado Dependientes
doméstico
7.0%

Empleador o patrón
Familiar no 6.0%
remunerado
11.0%
Independientes

Cuenta propia
35.0%
Fuente: EPH 2009
GRAFICO DE LINEAS
Población urbana y rural
70%

60%
Porcentaje urbano/rural

50%

40%

30%

20%

10% Urbana
Rural
0%
1950 1962 1972 1982 1992 2002
Año del Censo

Fuente: DGEEC
GRAFICO PARA
DATOS AGRUPADOS
POLIGONO DE
FRECUENCIAS

HISTOGRAMA
La estadística de resumen

Después de construir tablas y gráficos, a


partir de una colección de datos, se
requieren medidas más exactas.
La estadística de resumen, proporciona
medidas para describir un conjunto de
datos.
Existen tres tipos de medidas de resumen:
• De tendencia central.
• De dispersión.
• De posición.
(A) Las medidas de tendencia central

 Nos dan un centro de la distribución de


frecuencias, es un valor que se puede
tomar como representativo de todos los
datos. Hay diferentes modos para definir el
"centro" de las observaciones en un
conjunto de datos.
Las medidas de tendencia central

En general se denominan promedios.

Los más importantes son la media, la mediana y


la moda.
¿POR QUÉ SON IMPORTANTES LAS MEDIDAS
DE TENDENCIA CENTRAL?
Porque la mayor parte de los conjuntos de datos
muestran una tendencia a agruparse alrededor de
un dato central.
Las medidas de tendencia central son puntos en
una distribución, los valores medios o centrales
de ésta y nos ayudan a ubicarla dentro de la
escala de medición.
La Media
(A) La media aritmética (x)
a) Obtención: Se obtiene sumando los valores
registrados y dividiéndolos entre el número
de datos.
Ejemplo:
La siguiente tabla muestra el número de
reclamos y quejas presentadas por pacientes
en el Servicio de Emergencias a lo largo de
una semana. Calcule e interprete la media.

Día/Semana Lun Mar Mier Jue Vier Sab


Reclamos/día 8 10 5 12 10 15
8  10  5  12  10  15 60
Media aritmética = 
6 6
x = 10 reclamos
b) Interpretación: Si elige al azar un día de la
semana, se espera que los pacientes del
servicio de emergencia realicen 10 reclamos
en ese día.
c) Simbología:
Tamaño Media aritmética
Muestra n x (equis barra)
Población N  (mu)
d) Cálculos a partir de datos no agrupados, se
utilizan las siguientes formulas.
Para una muestra
donde: x : media muestral
n
 X
i : suma de todos los datos
 Xi n
x  i 1 : número de datos
n

Para una población


N
donde:  : media poblacional
 Xi  X i : suma de todos los datos
  i 1 N : número de datos (población)
N
e) Cálculo a partir de datos agrupados.
El cálculo de la media aritmética, cuando
los datos disponibles se encuentran en tablas
de distribución de frecuencias, se realiza
utilizando la formula siguiente
n
 fi Xi
x  i 1
n
 fi
i 1
donde: x :media muestral
fi :frecuencia absoluta de la clase i
Xi :marca de la clase i
Ejemplo:
La distribución de frecuencias siguiente, representa
los puntajes obtenidos en una evaluación del
desempeño, aplicado al personal técnico de un
Centro de Salud. El puntaje máximo en la prueba es
50. Calcule e interprete en media.

Desempeño Número de
(puntos) técnicos
12 - 16 4
17 - 21 8
22 - 26 15
27 - 31 23
32 - 36 10
TOTAL 60
Primero se calcularán las marcas de clase (Xi );
es decir, el valor intermedio de cada clase
Marca de Frecuencia
clase x
clase ( i ) absoluta(fi)
12 - 16 14 4
17 - 21 19 8
22 - 26 24 15
27 - 31 29 23
32 - 36 34 10
Total 60
x  1575
14(4) + 19 (8) + 24 (15) + 29 (23) + 34 (10) 60
x 4 + 8 + 15 + 23 + 10
x  26.25
Interpretación: Si se elige al azar a un
trabajador técnico de este hospital, se espera
que tenga un puntaje de 26,25 en su
evaluación de desempeño.
g)Ventajas y desventajas de la media aritmética
Ventajas:
Concepto familiar para muchas personas
Es única para cada conjunto de datos
Es posible comparar medias de diferentes
muestras
Desventajas
Se ve afectada por los datos extremos
Si la muestra es grande y los datos no están
agrupados, su cálculo es tedioso
Si los datos están agrupados en clases con
extremos abiertos, no es posible calcular la
media.
La Mediana

Es la medida que divide en dos subconjuntos


iguales a datos, de tal manera que 50% de
los datos es menor a la mediana y el otro
50% es mayor a la mediana.

a) Obtención: Se obtiene ordenando la serie


de datos (en forma ascendente o
descendente) y ubicando el dato central.
Ejemplo:
Los siguientes datos se refieren al número de
pacientes que llegaron a su cita, después de la
hora programada durante los últimos 11 días en
el Servicio de Pediatría. Calcule e interprete la
mediana.
12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16

Primero se ordenan lo datos:

5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17


5 datos menores 5 datos mayores
mediana
b) Interpretación: Durante 5 días llegaron
menos de 11 pacientes tarde a su cita y
durante 5 días, más de 11 pacientes llegaron
tarde a su cita.

c) Reglas

1º Si la serie es impar, la mediana ocupa el


lugar central de la serie previamente
ordenada.

Ejemplo: 5, 10, 10, 12, 15 , 17, 20, 21, 24


2º Si la serie es par, la mediana se obtiene de la
semisuma de los dos valores centrales de la serie
previamente ordenada.
Ejemplo:
8, 10, 14, 18, 23, 24, 32, 34
18  23
mediana   20.5
2
3º Sea la serie par o impar, la mediana ocupa el
lugar  n  1 ,de la serie previamente ordenada.
 2 
d) Cálculo a partir de datos agrupados.
n 
  f .ac.i 1 ci
Me Lri   2 
fi
dónde:
 lri: es el límite inferior del intervalo de clase que
contiene a la mediana
 f.ac.i-1: es la frecuencia acumulada del intervalo
anterior al de la mediana
 n: es la cantidad de datos o total de frecuencias
 fi: frecuencia absoluta del intervalo de clase que
contiene a la mediana
 ci: es el tamaño o ancho del intervalo de clase que
contiene a la mediana
Ejemplo: La tabla siguiente muestra la
experiencia laboral (años) del personal de
seguridad que labora en un gran hospital.
Calcule e interprete la mediana.
n  1 69  1
Experiencia Número de   35o
laboral trabajadores
2 2
(años) de seguridad
n 
0-3 4   f .ac .i 1 ci
Me Li 1   
4-7 12 2
Clase fi
8 - 11 24
Mediana
 7,5 
69 / 2  16 
.4
12 - 15 16 24
16 - 19 10
20 - 23 3  7,5  3,08  10,58
69

Mediana = 10,5 años


Interpretación:

La mitad del personal de seguridad que


labora en este hospital tienen una experiencia
laboral igual o menor a 10 años 6 meses. La
otra mitad de este personal tiene una
experiencia laboral igual o mayor a 10 años y
6 meses.
e) Ventajas y desventajas
Ventajas:
Los valores extremos no afectan a la mediana
como en el caso de la media aritmética.
Es fácil de calcular, interpretar y entender.
Se puede determinar para datos cualitativos,
registrados bajo una escala ordinal.
Desventajas:
Como valor central, se debe ordenar primero la
serie de datos.
Para una serie amplia de datos no agrupados, el
proceso de ordenamiento de los datos
demanda tiempo y usualmente provoca
equivocaciones.
La Moda
La moda es el valor que más se repite dentro de
un conjunto de datos.
a) Obtención: se obtiene organizando la serie
de datos y seleccionando el o los datos que
más se repiten.
Ejemplo:
4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

7, 12, 15, 18, 25, 30, 31, 38


b) Cálculo a partir de datos agrupados
 1 
Mo  L    c
donde:  
 1 2
ri
Mo: moda
L : limite real (o frontera) inferior de la clase
ri
modal (la de mayor frecuencia)
 : frecuencia de la clase modal menos la
1
frecuencia de la clase anterior
 : frecuencia de la clase modal menos la
2
frecuencia de la clase siguiente
c : amplitud de clase
Las clases mediana y modal pueden coincidir
pero conceptualmente son diferentes.
Ejemplo: La tabla siguiente muestra los errores de
facturación durante un mes, en una Clínica.
Calcule e interprete la moda.
Errores de
facturación Días   6
1
0-3 6
4-7 12
Clase Clase moda : (4 - 7)
Modal
8 - 11 8
 4  6 
Mo  3.5    4
64
12 - 15 3 2

16 - 19 1
Total 30 Mo = 5,9
Interpretación: Durante un mes, el número más
frecuente de errores de facturación en esta
clínica es 6.
e) Ventajas y desventajas de la moda.
Ventajas:
Se puede utilizar tanto para datos cualitativos
como cuantitativos.
No se ve afectada por los valores extremos.
Se puede calcular, a pesar de que existan
una o más clases abiertas.
Desventajas:
No tiene un uso tan frecuente como la media.
Muchas veces no existe moda (distribución
amodal).
En otros casos la distribución tiene varias
modas, lo que dificulta su interpretación.
MEDIDAS DE DISPERSION
Rango
 El rango se define como la diferencia entre
el valor máximo y mínimo de un conjunto
de datos.
Rango = Valor máximo – Valor mínimo

 El
rango no mide la variabilidad de los
datos intermedios.
DESVIACIÓN MEDIA
 La desviación media es la media
aritmética de los valores absolutos de las
desviaciones respecto a la media.
 La desviación media se representa por
DM
Datos Sueltos Datos Agrupados

σ 𝒙−𝒙ഥ σ 𝒙− 𝒙
ഥ .𝒇
𝑫𝑴 = 𝑫𝑴 =
𝒏 𝒏
Varianza
 La varianza es la media del cuadrado de las
desviaciones de los datos con respecto al
promedio.
 Esta medida tiene las unidades de los datos
pero elevadas al cuadrado lo que dificulta
su interpretación.
Datos Agrupados Datos Sueltos
σ 𝒙𝟐. 𝒇 σ 𝒙−𝒙ഥ 𝟐
𝑺𝟐 = ഥ𝟐
−𝒙 𝟐
𝑺 =
𝒏 𝒏
Coeficiente de variabilidad
 No tiene unidades de medida.
 Es una medida relativa de variabilidad y
permite realizar comparaciones entre
conjuntos de observaciones con distintas
unidades o medias diferentes.
 A veces se considera que un CV mayor a
50% indica alta dispersión en los datos .

CV poblacional CV muestral
 S
CV  100% CV  100%
 x
DESVIACIÓN TÍPICA
 La desviación típica es la raíz cuadrada
de la varianza.
 Es decir, la raíz cuadrada de la media de
los cuadrados de las puntuaciones de
desviación.
 La desviación típica se representa por S

𝑺= 𝑺𝟐
MEDIDAS DE POSICIÓN
 En el caso de las medidas de posición sólo
estudiaremos para datos agrupados, pues tienen
mayor significación que los datos sueltos.
1. CUARTILES
 Los cuartiles son los tres valores de la variable que
dividen a un conjunto de datos ordenados en
cuatro partes iguales.
 Q1, Q2 y Q3 determinan los valores
correspondientes al 25%, al 50% y al 75% de los
datos.

𝒌. 𝒏
− 𝒇𝒂𝒄
𝑸𝒌 = 𝑳𝒊 + 𝟒 .𝒄
𝒇𝒌
2. DECILES
 Los deciles son los nueve valores que dividen la
serie de datos en diez partes iguales.
 Los deciles dan los valores correspondientes al 10%,
al 20%... y al 90% de los datos.

𝒌. 𝒏
− 𝒇𝒂𝒄
𝑫𝒌 = 𝑳𝒊 + 𝟏𝟎 .𝒄
𝒇𝒌
3. PERCENTILES
 Los percentiles son los 99 valores que dividen la
serie de datos en 100 partes iguales.
 Los percentiles dan los valores correspondientes al
1%, al 2%... y al 99% de los datos.

𝑘. 𝑛
− 𝑓𝑎𝑐
𝑃𝑘 = 𝐿𝑖 + 100 .𝑐
𝑓𝑘
Ejemplo:
La tabla muestra la experiencia (en años) de las
enfermeras de un gran centro hospitalario

Experiencia Trabajadores
(años)
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
¿Sobre qué edad se ubica el 25% de las
enfermeras de mayor experiencia?

75 % 25 %

P75
Menor Mayor
Experiencia Experiencia
K = 75

Kn 75(334)
Lugar del P75    250,5o (de los números ordenados )
100 100

Para saber en cuál clase se halla este dato, se


calculó la frecuencia acumulativa.
Experiencia Nº Trabajadores Frec. Acumulada
(años) fi Fi
0-3 18 18
4-7 42 60 F=248
8 - 11 68 128
12 - 15 120 248 En esta clase
16 - 19 40 288 se localizan del
20 - 23 34 322 249º - 288º
24 - 27 12 334
334

 75(334)  248  1


 100  P  15.65 años
P  15 .5  4
75  40  75
 
Interpretación: Para que una enfermera esté
comprendida dentro del 25% de mayor experiencia
laboral debe tener al menos 15 años, 7 meses y 24
días.

También podría gustarte