Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
¿Qué es?
Ciencia que explica y provee de herramientas para trabajar con datos, y que ha
experimentado un gran desarrollo a lo largo de los últimos años.
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).
En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.
5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la población
Introducción
Esquema de las etapas de un estudio estadístico
ORGANIZAR Y RESUMIR
Probabilidad
INFORMACIÓN
4
Tomado de internet, y ajustado por J. Casas
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
Población: Muestra
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo
Unidad de Medida:
Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura 7
Tomado de internet, y ajustado por J. Casas
Estadística
Variable Variable
Cuantitativa Cualitativa
CONTINUA NOMINAL
DISCRETA ORDINAL
Problema de Investigación:
Investigación: Se quiere establecer el perfil de las
EJEMPLO universidades con más alto índice o puntaje en los ECAES en función de
algunas características.
Unidad de Análisis:
Análisis: Universidades con mayores puntajes en los ECAES.
Población:: Todas las universidades del país
Población
Variables
- Tipo de Universidad
Universidad:: se clasifica en pública o privada, laica o confesional, universidad tipo A, B, C o
D. (cualitativa nominal
nominal))
- Nº de estudiantes
estudiantes:: se refiere al número de estudiantes activos en las universidades seleccionadas
seleccionadas..
(cuantitativa discreta
discreta))
- Cobertura
Cobertura:: se refiere al número de estudiantes que posee (unidad de medidamedida)) y que son estudiantes
regulatres en las muestras seleccionadas(c
seleccionadas(cuantitativa,
uantitativa, discreta)
- Puntaje en ECAES
ECAES:: calificación realizada por el ICFES con base en una escala fijada por esta
institución (MUY BAJO, BAJO, MEDIO, ALTO, MUY ALTO) ALTO).. (cualitativa ordinal
ordinal))
- Años de funcionamiento
funcionamiento:: …
TABLAS DE
Datos FRECUENCIA
9
Tomado de internet, y ajustado por J. Casas
Estadística
Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1
C
D A 40% B
10% 20% 30%
C
B
40%
30%
12
Tomado de internet, y ajustado por J. Casas
Estadística
D
500
variable 1
400 C
300
B
Nº
200
100 A
0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
-Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa
cualitativa..
D -Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1
C
transformada en categorías
categorías..
B
-Hay distintas versiones de estos gráficos (por ejemplo
A
en Excel), y en algunos casos son muy útiles para
0 20 40 60 80 100 describir el comportamiento de una variable en distintos
% unidad de análisis grupos..
grupos 13
Tomado de internet, y ajustado por J. Casas
Estadística
10
- El eje x se refiere a la
Nº
5
variable..
variable
- El eje y se refiere a la
0
frecuencia (Nº , %).
7 8 9 10 11 12 13 14
edad
edad
- Cada barra representa la
frecuencia de la variable en la
Ejemplo
población en estudio (o la
En el gráfico se puede observar el número de muestra)..
muestra)
hijos , de menor edad (7-
(7-8 años), las de mayor
edad (13-
(13-14 años); y además que la mayoría de -El histograma se puede
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de la
años. tabla de frecuencia de la
variable en estudio
estudio..
14
Tomado de internet, y ajustado por J. Casas
Estadística
10
edad cuantitativas..
cuantitativas
Nº
5
-El eje x se refiere a la
variable..
variable
0
7 8 9 10 11 12 13 14
- El eje y se refiere a la
edad frecuencia (Nº , %).
-Los puntos que permiten la
unión de las líneas representa
el centro de clase (o marca de
clase)..
clase)
15
Tomado de internet, y ajustado por J. Casas
Estadística
50
-El eje x permite identificar la
40
poblacion en estudio
estudio..
30
- El eje y representa los valores de la
20 variable en estudio
estudio..
10
0
N= 584 1473 16
Mujeres Hombres
100 100
Nº de alumnos
Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso
1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
0
2003 70 75
1998 1999 2000 2001 2002 2003
NOTACION
Variables Cuantitativas
x variable xi valorOBSERVACIONES
de la variable en el individuo i
y variable y valor de la variable en el individuo i i 1,..., n
* El Tipo de Gráficoi seleccionado va a depender de la variable en estudio
estudio..
* El Gráfico debe contener un a,Título
b, c : constantes
General y la identificación de cada
eje (variable en estudio y frecuencia)
frecuencia)..
n n n n
c nc resulta cx
c *c Enocasiones más
i cx cxun
ilustrativo
1 xi2 tabla
c xi que una
n gráfico x12 de
xn2
i 1 frecuencia..
frecuencia i 1 i 1 i 1
n n
* Al igual que las tablas, los gráficos deben ser auto
auto--explicativos
explicativos.
n .
2
(axi b) (ax1 b) (axn b) a xi b ( xi ) ( x1 xn ) 2
i 1 i 1 i 1
n
( xi yi ) ( x1 y1 ) ( xn yn )
i 1
n
( xi y i ) ( x1 y1 ) ( xn y n )
i 1
18
Tomado de internet, y ajustado por J. Casas
Estadística
Datos Moda
Cualitativos y Cuantitativos M o " el dato que más se repite"
19
Tomado de internet, y ajustado por J. Casas
Estadística
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100):
(25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10):
(4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4):
(3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. 20
Tomado de internet, y ajustado por J. Casas
Estadística
-Rango
MEDIDAS DE DISPERSIÓN -Varianza
-Desviación Estándar
Desviación Típica o Estándar
xn
s s2
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
i 1
( xi x)3 Si CA - si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA
n s3 Si CA + si la distribución es asimétrica a la derecha
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
14 30 6
12 5
10
20 4
8
3
10 2
4
V2 V4 V5
23
Tomado de internet, y ajustado por J. Casas
Estadística
-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento
Ejemplos
1 4 4 Media 3,9
14
1 4 4 Mediana 4
1 4 5
12 Moda 4
2 4 5 10
Desviación estándar 1,67
3 4 6 4 Rango 6
V1
s c3
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase 4) El Coeficiente de apuntamiento para
por sus frecuencias relativas, de la forma: datos agrupados esta dada por
por::
k
k
Media c xc cj f j (c j xc ) 4 f j
j 1
j 1 CApc
s c4
25
Tomado de internet, y ajustado por J. Casas
Estadística
Transporte Nº %
bus o buseta 12 20,0 Actividad Nº %
caminar 9 15,0
esporádico 26 43,3
automóvil 14 23,3
trabajador 13 21,7
transmilenio 17 28,3
TOTAL 60 100
TOTAL 60 100
26
Tomado de internet, y ajustado por J. Casas
Estadística
Distribución conjunta
Nº de personas
Tabla 2 Actividad
Actividad: elaborar tabla con porcentajes respecto del total de personas (n=60)
27
Tomado de internet, y ajustado por J. Casas
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
28
Tomado de internet, y ajustado por J. Casas
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
29
Tomado de internet, y ajustado por J. Casas
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
x
x1 Recordemos que
que:: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una Variable
Cuantitativa (x)
(x)..
xn
Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
1 n
x y cov( x , y ) ( xi x )( yi y)
x(1) y( 1 )
ni 1
Si Cov(x,y) es positiva
positiva:: la asociación entre x e y es directamente proporcional,
x( 2 ) y( 2 )
es decir que cuando x aumenta y también aumenta
aumenta;; y viceversa
viceversa..
Si Cov(x,y) es negativa
negativa:: la asociación entre x e y es inversamente proporcional,
x(n ) y( n ) es decir que cuando x aumenta y disminuye
disminuye;; y viceversa
viceversa..
Si Cov(x,y) es cero:
cero: no existe asociación entre x e y.
30
Tomado de internet, y ajustado por J. Casas
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
Correlación:: Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)
Correlación
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal
entre dos variables Cuantitativas
n
x y
cov( x , y ) xi yi nx y
x(1) y( 1 ) r i 1 1 r 1
sx s y r
x( 2 ) y( 2 ) ( n 1 )s x s y
Si r es positivo
positivo:: la asociación entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y también aumenta
aumenta;; y viceversa
viceversa.. Si r=1: la asociación lineal es
perfecta..
perfecta
Si r es negativo
negativo:: la asociación entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye
disminuye;; y viceversa
viceversa.. Si r=-1: la asociación lineal es
perfecta..
perfecta
Si r es cero
cero:: no existe asociación entre x e y.
31
Tomado de internet, y ajustado por J. Casas
Estadística
r=1 r=-1
32
Tomado de internet, y ajustado por J. Casas
Estadística
Datos Cuantitativos
Datos Cuantitativos
REGRESION LINEAL SIMPLE
x y
x(1) y( 1 ) Notación
x( 2 ) y( 2 ) Variable Respuesta: y
Variable Explicativa: x
x(n ) y( n ) Modelo de Regresión Lineal Simple: yi= + xi+ei
Intercepto:
Pendiente:
Error: e
Modelo Estimado
(recta de regresión) Método de Estimación: Mínimos Cuadrados
a y bx
n n n Residuos o Errores
ŷ a bx n xy xi yi ei yi yˆ i
i 1 i 1 i 1
b 2
n n
2
n x xi
i 1 i 1
34
Tomado de internet, y ajustado por J. Casas
Estadística
36
Tomado de internet, y ajustado por J. Casas
Estadística
Modelo Estimado
ŷ a bx
b 2,44 a 53,64
yˆ 53,64 2,44 x
1 3 55 61,0 -6,0
( yi yi ) 2 402,86
i 1
2 6 68 68,3 -0,3 14 14
3 5 64 65,8 -1,8 ( yi yˆ i ) 2 ei2 92,7
4 5 66 65,8 0,2 i 1 i 1
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6 Bondad de Ajuste del Modelo
8 8 75 73,2 1,8 R2 = 0,77
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7 De acuerdo al coeficiente de
11 6 73 68,3 4,7 determinación, el modelo ajustado
12 5 68 65,8 2,2 a los datos es adecuado (R2
13 8 73 73,2 -0,2 cercano a 1)
14 6 71 68,3 2,7
38
Tomado de internet, y ajustado por J. Casas