Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRODUCTIVO
LA ESTADÍSTICA LIC. EN SISTEMAS
Lic Edgardo Di Dio
1
Estadística
Introducción
¿Qué es la estadística?
Es una Ciencia que explica y provee de herramientas para trabajar con grandes conjuntos
de datos y se utiliza en casi todas las ciencias
Es la disciplina científica que crea, desarrolla y aplica los adecuados métodos de
recopilación de datos, y su evaluación, para transformarlos en informaciones con las
cuales se describan objetivamente las distintas situaciones investigadas, se analice el
comportamiento de determinadas características que poseen las UNIDADES
EXPERIMENTALES, y se tomen decisiones en condición de incertidumbre.
2) En Economía: para medir la evolución de los precios mediante números índice o para
estudiar los hábitos de los consumidores a través de encuestas de presupuestos
familiares.
2
Estadística
Introducción
Ejemplos de su aplicación son:
3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.
4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.
5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).
En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.
3
Estadística
Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.
5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos han
permitido interpretar los datos y llegar a conclusiones sobre la población
4
Estadística
MODELO
Introducción
Esquema de las etapas de un estudio estadístico
ORGANIZAR Y RESUMIR
Probabilidad
INFORMACIÓN
7
Estadística
Introducción
Ejemplos de algunos problemas a estudiar
7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una Universidad, y
si éste tiene alguna relación con su edad u otras características.
8
Estadística
Población: Muestra
9
Estadística
TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo
Unidad de Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura
10
Estadística
11
FRECUENCIA ABSOLUTA: cantidad de datos que pertenecen a una misma clase de equivalencia fi
DISTRIBUCIÓN DE FRECUENCIAS a una relación de clasificación de los datos que asigna a cada valor o grupo de
valores que formen una misma clase de equivalencia , de una o mas variables , su correspondiente FRECUENCIA
Ejemplo :
En un empresa se está analizando el cumplimiento del horario por parte de la dotación de operarios y a tal afecto
registró la cantidad de llegadas tardes de cada operarios durante el mes anterior : (40 Operarios)
4 6 1 0 4 1 3 2 1 1
2 3 2 1 3 8 0 1 2 4
0 1 0 4 0 3 1 1 2 3
1 2 1 0 1 1 0 3 6 1
DISTRIBUCIÓN DE
FRECUENCIAS
0 1 2 3 4 5 6 7 8
IIIII IIIII IIIII IIIII IIII II I
II IIIII I I
IIII
xi fi Fi fri Fri
0 7 7 0,1750 0,1750
1 14 21 0,35 0,5250
2 6 27 0,15 O,6750
3 6 33 0,15 0,8250
4 4 37 O,1 0,9250
6 2 39 0,05 0,9750
8 1 40 0,0250 1
xi fi Fi fri Fri
0 7 7 0,1750 0,1750
1 14 21 0,35 0,5250
2 6 27 0,15 O,6750
3 6 33 0,15 0,8250
4 4 37 O,1 0,9250
6 2 39 0,05 0,9750
8 1 40 0,0250 1
Si leemos la fila 4, Xi=2 significa 2 llegadas tardes ese mes
La frecuencia absoluta simple señala 6 , significa que seis operarios
registraron 2 llegadas tardes en el mes .
Items :
1) Calculo del Número de Datos, N
2) Cálculo del Rango, R
3) Número de Intervalos, Ni
4) Ancho de los Intervalos, Ai
5) Extremos o Límites de los Intervalos
6) Elaboración de la Tabla de Distribución por Frecuencias.
107,107,107,108,108,108,108,108,109,109
109,109,109,109,110,110,110,110,110,110
111,111,111,111,112,112,112,112 ,113,113
113,113,113,113,113,114,114,114,114,115
115,115,116,116,116,116,117,117,117,117
117,117,118,118,118,118,118,118,118,118
119,119,119,119,119,119,119,120,120,120
121,121,121,121,121,121,121,121,122,122
122,123,123,123,125,126,127,128,129,130
130,131,132,133,133,134,134,135,135,135
Rango < >Frecuencia
107 < > 3 119 < > 7
108 < > 5 120 < > 3
109 < > 6 121 < > 8
110 < > 6 122 < > 3
111 < > 4 123 < > 3 132 < > 1
112 < > 4 133 < > 2
125 < > 1
113 < > 7 134 < > 2
126 < > 1
114 < > 4 135 < > 3
127 < > 1
115 < > 3 TOTAL <> 100
116 < > 4 128 < > 1
117 < > 6 129 < > 1
118 < > 8 130 < > 2
16
131 < > 1
Cálculo del Rango:
En segundo lugar debemos calcular el Rango, que no es otra cosa que la Diferencia
entre el Mayor Dato y en Menor Dato, el Rango lo Denotaremos con la letra R.
R = 28
18
Cálculo del ancho de los Intervalos o Clases:
Nos corresponde ahora calcular el ancho de cada Intervalo o Clase, el cual
lo Denotaremos con la letra C, para tal fin utilizaremos la siguiente
Fórmula:
C = R/Ni
Donde: C = Ancho de Clase,
R = Rango.
Ni = Número de Intervalos
En nuestro Ejemplo:
C = 28/8
C = 3.5
C=4
19
Cabe anotar que el ancho de Clase debe ser igual para todos los Intervalos, esto es lo más usual.
Ya que el ancho de Clase o ancho de cada Intervalo se refiere al Número de Datos que debe tener
cada uno de los Intervalos, necesariamente tiene que ser un Número Entero.
En nuestro ejemplo:
C = (R) / (Ni)
C = 28/8
C = 3.5
Al hacer el ajuste al Entero siguiente: C=4
Cabe anotar que este ajuste siempre lo debemos hacer, por Ejemplo si: C = 4 ó 4.1 ó 4.2 ó 4.3 ó 4.4 ó
4.5, ... Etc. se debe ajustar a 5.
Nuevo Rango = 8 x 4
Nuevo Rango = 32
Ahora calculamos la Diferencia de Rangos de la siguiente manera:
DR = (Nuevo Rango) - (Rango Original)
DR = 32 - 28
DR = 4 20
Ahora a la Diferencia de Rangos le restamos 1, si los datos crudos son números
Enteros, la razón de restarle 1 a la Diferencia de Rangos es para justificar el
ajuste al siguiente Entero que se hizo en el paso 4.
Luego:
DR - 1 = 4 -1
DR -1 = 3
Cuando la "Diferencia de Rangos - 1" es Par este Número se divide en partes
iguales y se reparte en los extremos de los Datos originales de la Tabla N° 2.
Si la Diferencia de Rangos - 1 es un Número Impar, este número se reparte la
mitad más uno al extremo izquierdo y la otra mitad al extremo derecho.
En nuestro Ejemplo, DR -1 = 3 por tanto agregamos 2 Datos al extremo izquierdo
de la Muestra y 1 Dato al extremo de la derecha, esto es:
Extremo izquierdo Original = 107 . . . Nuevo Extremo izquierdo = 105
Extremo Derecho Original = 135 . . . Nuevo Extremo Derecho = 136
Lo cual nos indica que el Nuevo Rango está entre 105 y 136.
Límites o extremos de los Intervalos:
La siguiente Tabla muestra en su primera línea los 100 Datos de la Muestra Original del 107 al 135 yen la
segunda fila muestra los 103 Datos del nuevo Rango con Datos entre 105 y 136.
Tabla de Rangos:
Rango Original >>>>107, 107,107, 108, 108, . . . ,134, 134, 135, 135, 135
Nuevo Rango >>>>105, 106, 107, 107, 107, 108, . . . , 134, 134, 135, 135, 135, 136
21
Tabla que muestra los Límites Inferior y Superior de
cada Intervalo
N°(L.I.) (L.S.)
1 105 a 108
2 109 a 112
3 113 a 116
4 117 a 120
5 121 a 124
6 125 a 128
7 129 a 132
8 133 a 136
22
° Ancho Marca fi fri% Fa Fra
1 105-108 106.5 8 8 8 0.8
2 109-112 110.5 20 20 28 0.28
3 113-116 114.5 18 18 46 0.46
4 117-120 118.5 24 24 70 0.70
5 121-124 122.5 14 14 84 0.84
6 125-128 126.5 4 4 88 0.88
7 129-132 130.5 5 5 93 0.93
8 133-136 134.5 7 7 100 1
23
Estadística
Variables
- Tipo de Industria: se clasifica en industria tipo A, B, C o D. (cualitativa nominal)
- Nº de Empleados: se refiere al número de empleados en las líneas de producción. (cuantitativa discreta)
- Superficie: se refiere a los metros cuadrados (unidad de medida) disponibles para las áreas de
producción. (cuantitativa continua)
- Calificación: calificación realizada por una institución pública sobre cumplimiento de ciertos estándares
(Muy Bien, Bien, Regular, Mal). (cualitativa ordinal)
Datos
Industria nº Tipo Nº Empleados Superficie Calificación
1 A 100 1000,6 Muy Bien
2 B 150 1200,4 Bien
. . . . .
. . . . .
. . . . .
299 D 250 800,3 Mal
300 C 300 4000,2 Regular
24
Estadística
Tipo de Frecuencia Frecuencia Porcentaje Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Industria Absoluta (F j) Relativa (fj) (%) Calificación Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
A Muy Bien
B Bien
C Regular
D Mal 300 1 (o 100)
Total 300 1 100 Total 300 1 (o 100) (2)
(1) Numero de Frec. Frec.Relativa Frec. Absol. Frec. Relat.
Empleados Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<100
[100-150[
. (3)
.
[950-1000] 300 1 (o 100%)
Total 300 1 (o 100%)
Superficie Frec. Frec.Relativa Frec. Absol. Frec. Relat.
(mt2) Absoluta (Fj) (fj) o % Acum. (FAAj) Acum. (fraj) o %
<200
(4) [200-400[
.
.
[50000-5200] 300 1 (o 100%)
Total 300 1 (o 100%)
25
Estadística
Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1
26
Estadística
27
Estadística
C
D A 40% B
10% 20% 30%
C
B
40%
30%
28
Estadística
variable 1
400 C
300
B
Nº
200
100 A
0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
- Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa.
D - Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1
C
transformada en categorías.
B
- Hay distintas versiones de estos gráficos (por
A
ejemplo en Excel), y en algunos casos son muy útiles
0 20 40 60 80 100 para describir el comportamiento de una variable en
% unidad de análisis distintos grupos.
29
Estadística
El eje x se refiere a la
Nº
variable.
5
- El eje y se refiere a la
0 frecuencia (Nº , %).
-
7 8 9 10 11 12 13 14
edad
edad Cada barra representa la
frecuencia de la variable en
Ejemplo la población en estudio (o la
En el gráfico se puede observar el número de muestra).
hijos , de menor edad (7-8 años), las de mayor - El histograma se puede
edad (13-14 años); y además que la mayoría de
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de
años. la tabla de frecuencia de la
variable en estudio.
30
Estadística
edad cuantitativas.
Nº
5 - El eje x se refiere a la
variable.
0
- El eje y se refiere a la
7 8 9 10 11 12 13 14
edad
frecuencia (Nº , %).
- Los puntos que permiten la
unión de las líneas
representa el centro de clase
(o marca de clase).
31
Estadística
90
80
70
50
(percentiles 25 y 75), mínimo y
40 máximo de una variable.
30 - Sólo es útil para variables
20 cuantitativas.
- El eje x permite identificar la
10
0
poblacion en estudio.
N= 584 1473 - El eje y representa los valores de
Mujeres Hombres la variable en estudio.
32
Estadística
100 100
Nº de alumnos
Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso
Nº de alumnos
200
año de ingreso Carrera A Carrera B
Nº de alumnos
1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
0
2003 70 75
1998 1999 2000 2001 2002 2003
Gráfico de barras
BARRAS HORIZONTALES
BARRAS
PROPORCIONALES
BARRAS COMPARATIVAS
LÍNEAS
CIRCULARES
DE ÁREAS
CARTOGRAMAS
HISTOGRAMAS
DISPERSOGRAMAS
PICTOGRAMAS
Estadística
NOTACION
Variables Cuantitativas
n n n
(axi b) (ax1 b) (axn b) a xi b ( xi ) 2 ( x1 x n ) 2
i 1 i 1 i 1
n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
n
( xi yi ) ( x1 y1 ) ( xn y n )
i 1
45
Estadística
Datos Moda
Cualitativos y Cuantitativos M o " el dato que más se repite"
46
Estadística
Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n datos
están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64.
47
Estadística
- Rango
- Asimetría
Otras medidas o Coeficientes
- Kurtosis o Apuntamiento
Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.
n
Si CA=0 si la distribución es simétrica alrededor de la media.
(x
i 1
i x)3
Si CA<0 si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA Si CA>0 si la distribución es asimétrica a la derecha
n s3
n
- Si CAp=0 la distribución se dice normal (similar
(x
i 1
i x)4 a la distribución normal de Gauss) y recibe el
Coeficiente de Apuntamiento CAp nombre de mesocúrtica.
n s4 - Si CAp>0, la distribución es más puntiaguda que
la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).
- Si CAp<0 la distribución es más plana y se
llama platicúrtica.
49
Estadística
- Asimetría
Otras medidas o Coeficientes
- Kurtosis o Apuntamiento
14 30 6
12 5
10
20 4
8
3
10 2
4
V2 V4 V5
50
Estadística
- Asimetría
Otras medidas o Coeficientes
- Kurtosis o Apuntamiento
Ejemplos
1 4 4 Media 3,9
14
1 4 4 Mediana 4
1 4 5
12 Moda 4
2 4 5 10
Desviación estándar 1,67
3 4 6 4 Rango 6
V1
51
Estadística
(c
k
Media c x c c j f j j xc ) 4 f j
j 1
j 1 CApc
s c4
52
Estadística
Transporte Nº %
Autobus 12 20,0 Actividad Nº %
Bicicleta 8 13,3
Estudia 21 35,0
53
Estadística
Distribución conjunta
Nº de personas
Tabla 2 Actividad
Pensionad
Transporte Estudia o Trabaja TOTAL
Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60
Actividad: confeccionar tabla con porcentajes respecto del total de personas (n=60)
54
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad
Pensionad
Transporte Estudia o Trabaja TOTAL
Autobus 5 7 0 12
% 41,7 58,3 0 100
Bicicleta 3 3 2 8
% 37,5 37,5 25 100
Caminar 2 5 2 9
% 22,2 55,6 22,2 100
Coche 5 4 5 14
% 35,7 28,6 35,7 100
Metro 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100
55
Estadística
Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad
Pensionad
Transporte Estudia o Trabaja TOTAL
Autobus 5 7 0 12
% 23,8 26,9 0 20
Bicicleta 3 3 2 8
% 14,3 11,5 15,4 13,3
Caminar 2 5 2 9
% 9,5 19,2 15,4 15
Coche 5 4 5 14
% 23,8 15,4 38,5 23,3
Metro 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
% 100 100 100 100
56
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
x
x1 Recordemos que: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una Variable
Cuantitativa (x).
xn
Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x 1 , x2) o bien (x , y)
1 n
x y cov( x , y ) ( xi x )( yi y )
n i 1
x(1) y( 1 )
Si Cov(x,y) es positiva: la asociación entre x e y es directamente proporcional, es
x( 2) y( 2 )
decir que cuando x aumenta y también aumenta; y viceversa.
Si Cov(x,y) es negativa: la asociación entre x e y es inversamente proporcional,
x(n ) y( n ) es decir que cuando x aumenta y disminuye; y viceversa.
Si Cov(x,y) es cero: no existe asociación entre x e y.
57
Estadística
- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos
58
Estadística
r=1 r=-1
59
Estadística
Datos Cuantitativos
Datos Cuantitativos
REGRESION LINEAL SIMPLE
x y
x(1) y( 1 ) Notación
x( 2) y( 2 ) Variable Respuesta: y
Variable Explicativa: x
Modelo de Regresión Lineal Simple: yi=+xi+ei
x(n ) y( n )
Intercepto:
Pendiente:
Error: e
Modelo Estimado
(recta de regresión) Método de Estimación: Mínimos Cuadrados
a y bx
n n n Residuos o Errores
yˆ a bx n xy xi y i ei y i yˆ i
i 1 i 1 i 1
b 2
n
n
n x xi
2
i 1 i 1
61
Estadística
63
Estadística
b 2,44 a 53,64
yˆ 53,64 2,44x
64
Estadística
65