Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción a la estadística
1
¿Porqué la estadística es
importante?
¿Ventas
¿Qué variedad de mensuales?
cemento elegiré?, Pruebas de control de
¿porqué razón? calidad del cemento
¿Mejor resistencia?
Estudios
¿tasa de interés?
interlaboratorios
¿Fenómenos
ambientales?
La estadística
herramienta
fundamental
en la toma
de decisiones
Estadística
Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con datos, ha
experimentado un gran desarrollo a lo largo de los últimos años.
2) En Economía: para medir la evolución de los precios mediante números índice o para
estudiar los hábitos de los consumidores a través de encuestas de presupuestos
familiares.
3
Estadística
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).
7) Ciencias Sociales, la estadística se emplea para medir las relaciones entre variables y
hacer predicciones sobre ellas.
4
Estadística
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.
5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la población
5
Estadística
Introducción
Esquema de las etapas de un estudio estadístico
ORGANIZAR Y RESUMIR
Probabilidad
INFORMACIÓN
6
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
7
Estadística
Población y muestra
• Población (‘population’) es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia).
– Normalmente es demasiado grande para poder abarcarlo.
• POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.
Población: Muestra
Variables
• Una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada individuo
es resumida en variables.
– El grupo sanguíneo
• {A, B, AB, O} Var. Cualitativa
– Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
– El número de hijos
• {0,1,2,3,...} Var. Numérica discreta
– La altura
• {1’62 ; 1’74; ...} Var. Numérica continua
Estadística
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no
se pueden hacer operaciones algebraicas con ellos)
• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con
ellos)
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo
12
Estadística
Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares
(Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)
Datos
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
13
Estadística
Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (Fj) Relativa (fj) (%) Calificación Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100) (2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%) 14
Estadística
Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1
15
Estadística
16
Estadística
C
D A 40% B
10% 20% 30%
C
B
40%
30%
17
Estadística
D
500
variable 1
400 C
300
Nº
B
200
100 A
0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
-Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa.
D -Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1
C
transformada en categorías.
B
-Hay distintas versiones de estos gráficos (por ejemplo
A
en Excel), y en algunos casos son muy útiles para
0 20 40 60 80 100 describir el comportamiento de una variable en distintos
% unidad de análisis grupos. 18
Estadística
10
- El eje x se refiere a la
Nº
5
variable.
- El eje y se refiere a la
0
frecuencia (Nº , %).
7 8 9 10 11 12 13 14
edad
edad - Cada barra representa la
frecuencia de la variable en la
Ejemplo
población en estudio (o la
En el gráfico se puede observar el número de muestra).
hijos , de menor edad (7-8 años), las de mayor
edad (13-14 años); y además que la mayoría de -El histograma se puede
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de la
años. tabla de frecuencia de la
variable en estudio.
19
Estadística
10
edad cuantitativas.
Nº
5
-El eje x se refiere a la
variable.
0
7 8 9 10 11 12 13 14
- El eje y se refiere a la
edad frecuencia (Nº , %).
-Los puntos que permiten la
unión de las líneas representa
el centro de clase (o marca de
clase).
20
Estadística
90
80
70
50
(percentiles 25 y 75), mínimo y
40 máximo de una variable.
30 - Sólo es útil para variables
20 cuantitativas.
10 -El eje x permite identificar la
0 poblacion en estudio.
N= 584 1473
- El eje y representa los valores de la
Mujeres Hombres
variable en estudio. 21
Estadística
100 100
Nº de alumnos
Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso
NOTACION
Variables Cuantitativas
i 1 frecuencia. i 1 i 1 i 1
n n
* Al igual que las tablas, los gráficos deben n
ser auto-explicativos.
(axi b) (ax1 b) (axn b) a xi b 2
( xi ) ( x1 x n ) 2
i 1 i 1 i 1
n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
23
Estadística
Datos Moda
Cualitativos y Cuantitativos M o " el dato que más se repite"
24
Estadística
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. 25
Estadística
-Rango
MEDIDAS DE DISPERSIÓN -Varianza
-Desviación Estándar
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
(x
i 1
i x)3 Si CA=0 si la distribución es simétrica alrededor de la media.
Si CA<0 si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA Si CA>0 si la distribución es asimétrica a la derecha
n s3
( xi x ) 4
- Si CAp=0 la distribución se dice normal (similar
a la distribución normal de Gauss) y recibe el
i 1
Coeficiente de Apuntamiento CAp nombre de mesocúrtica.
n s4 - Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
27
Estadística
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
14 30 6
12 5
10
20 4
8
3
10 2
4
V2 V4 V5
28
Estadística
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Ejemplos
1 4 4 Media 3,9
14
1 4 4 Mediana 4
1 4 5
12 Moda 4
2 4 5 10
Desviación estándar 1,67
3 4 6 4 Rango 6
V1
29
Estadística
(c
n1 f1
I1 c1 a1
sc j xc ) 2 f j
I2 c2 a2 n2 f2 j 1
.
.
Ik ck ak nk fk n 1 3) El Coeficiente de Asimetría para
Total n 1
datos agrupados esta dado por:
k
(c xc ) 4 f j
k
Mediac x c c j f j j
j 1
j 1 CAp c
s c4
30
Estadística
Bicicleta 8 13,3
Estudia 21 35,0
Caminar 9 15,0
Pensionado 26 43,3
Coche 14 23,3
Trabaja 13 21,7
Metro 17 28,3
TOTAL 60 100
TOTAL 60 100
31
Estadística
Distribución conjunta
Nº de personas
Tabla 2 Actividad
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
32
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
33
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
34
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
x
x1 Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una Variable
Cuantitativa (x).
xn
Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
1 n
x y cov( x , y ) ( xi x )( yi y )
y( 1 )
n i 1
x(1)
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional,
x( 2 ) y( 2 )
es decir que cuando x aumenta y también aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional,
x(n ) y( n ) es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.
35
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
Correlación: Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal
entre dos variables Cuantitativas
n
xi yi nxy
x y
cov( x , y )
x(1) y( 1 ) r 1 r 1
sx s y r i 1
x( 2 ) y( 2 ) ( n 1 )s x s y
Si r es positivo: la asociación entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y también aumenta; y viceversa. Si r=1: la asociación lineal es
perfecta.
Si r es negativo: la asociación entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye; y viceversa. Si r=-1: la asociación lineal es
perfecta.
Si r es cero: no existe asociación entre x e y.
36
Estadística
r=1 r=-1
37
Estadística
Datos Cuantitativos
Datos Cuantitativos
REGRESION LINEAL SIMPLE
x y
x(1) y( 1 ) Notación
x( 2 ) y( 2 ) Variable Respuesta: y
Variable Explicativa: x
x(n ) y( n )
Modelo de Regresión Lineal Simple: yi=+xi+ei
Intercepto:
Pendiente:
Error: e
Modelo Estimado
(recta de regresión) Método de Estimación: Mínimos Cuadrados
a y bx
n n n
yˆ a bx
Residuos o Errores
n xy xi y i ei y i yˆ i
b i 1 i 1 i 1
2
n
n
n x xi
2
i 1 i 1
39
Estadística
41
Estadística
Modelo Estimado
yˆ a bx
b 2,44 a 53,64
yˆ 53,64 2,44 x
43