Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATOS.
UNIDAD 1:
INTRODUCCIÓN A LA ESTADÍSTICA Y
AL ANÁLISIS DE DATOS
1
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y Economía.
Pearson Educación S.A., Madrid – Cap.1
b. Estadística inferencial
Se utiliza cuando de los datos estadísticos obtenidos de una muestra se infiere o
se deduce una observación la cuál se generaliza sobre la población en total. Para
determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se
hace necesario comprobar la misma para poder asegurar que lo que se observa en una
muestra se observará también en la población. Por lo tanto, esto requiere utilizar
técnicas, cómputos y análisis estadísticos más avanzados con los datos estadísticos
obtenidos de la muestra para así confirmar la veracidad de las inferencias que se haga
sobre la respectiva población a que corresponde la muestra. Generalmente el análisis
estadístico inferencial se lleva cabo para mostrar relaciones de causa y efecto, así como
para probar hipótesis y teorías científicas. Estas inferencias pueden tomar la forma de
respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características
numéricas (estimación), pronósticos de futuras observaciones, descripciones de
asociación (correlación) o modelamiento de relaciones entre variables (análisis de
regresión).
2
Ibidem
La plantilla 150 de proveedores de una empresa, podría ser la población bajo análisis
por ejemplo.
b. Muestra
La muestra es un subconjunto fielmente representativo de la población. Hay diferentes
tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán
representativo se quiera sea el estudio de la población.3
3
Ibidem
Cada rasgo o aspecto de una población constituye una variable. La edad de unas
personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de
ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios,
estatura, peso, niveles de inteligencia, actitudes, entre muchas otras son ejemplos de
variables estadísticas.
4
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y Economía.
Pearson Educación S.A., Madrid – Capitulo 2
b. Variables cuantitativas
Son las variables que se expresan mediante cantidades
numéricas. Las variables cuantitativas además pueden ser:
V. DATOS ESTADÍSTICOS
Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy
difícil en general, obtener conclusiones de los datos presentados de esta manera. Para
poder obtener una precisa y rápida información con propósitos de descripción o análisis,
estos deben organizarse de una manera sistemática; es decir, se requiere que los datos
sean clasificados. Esta clasificación u organización puede muy bien hacerse antes de la
recopilación de los datos.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se
dicen que son datos geográficos.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales
encargadas de tal fin.
La entrevista personal:
Ventajas:
Este procedimiento permite obtener una información más veraz y completa que la que
proporcionan otros métodos, debido a que, al tener contacto directo con la persona
entrevistada, el entrevistador podrá aclarar cualquier duda que se presente sobre el
cuestionario o investigación.
Desventajas:
Ventajas:
Tienen un costo muy inferior al anterior procedimiento, puesto que no hay que incluir
gastos de entrenamiento de personal, el único gasto sería el de franqueo postal.
Desventajas:
Ventajas:
Desventajas:
a. La entrevista: Es la comunicación
establecida entre el investigador y el sujeto
de estudiado a fin de obtener respuestas
verbales a las interrogantes planteadas
sobre el problema propuesto.
Por ejemplo, en caso de las cuantitativas, se puede incorporar una tabla que permita
clasificar los datos extraídos de los cuestionarios a fin de clasificarlos en “Hombres”
y “Mujeres”. Este procedimiento permite determinar qué porcentaje de resultados
corresponden a cada género, y, a su vez, compararlo con alguna otra variable como
pueden ser las edades de los encuestados.
Para el caso de las cualitativas, se puede determinar si los encuestados responden
negativamente a preguntas abiertas sobre un tema en particular, agrupar dichas
respuestas como “Respuestas Negativas”.
Es en esta etapa donde se calculan los indicadores estadísticos Este procedimiento permite
establecer los resultados del análisis
Toda decisión significa un conocimiento previo y general del fenómeno que se pretende
encarar. El valor de la información es fundamental como sustento básico de toda
decisión. Para ser oportuna y fundamentada requiere de un buen sistema de análisis.
No debe ser mera acumulación de datos, es necesaria la apreciación, la evaluación y
su correcto ordenamiento.
Ejemplo: Recaudación anual del impuesto a los Ingresos Brutos, Ingresos mensuales
de una empresa, Gastos trimestrales, Exportaciones anuales, etc.
La frecuencia absoluta nos habla del número de veces que un dato aparece
más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre
la importancia de este dato. Para obtener una idea de la importancia que un dato posee
en una muestra, se utiliza el concepto frecuencia relativa.
Arreglo De Frecuencias
Construimos entonces una tabla de frecuencia donde observamos las variables analizadas y sus
correspondientes frecuencias
Distribución De Frecuencias
El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de
clases se denomina distribución de frecuencias
Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar
los datos según su magnitud, en ella se señala el número de veces que aparece cada
uno de los valores. Cuando se dispone de un gran número de variables, tiene sentido
formar una tabla que presente la distribución de frecuencias de los datos agrupados en
intervalos o clases, de igual tamaño si es posible, sin embargo, una tabla de este tipo
supone una concentración de datos que produce pérdida de información.
Una buena práctica es la creación de clases de igual longitud. Esto se obtiene tomando
la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola‚ entre
el número de clases. El resultado será aproximadamente la longitud del intervalo de
cada clase.
En general:
k = √𝑛
donde k = n° de clases
R= xmax - xmin
i= R / k
5
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y
Economía. Pearson Educación S.A., Madrid – Capitulo 2
6
Ibidem Pág-32
b. TABLAS
CRUZADAS7
Una tabla cruzada, llamada a veces tabla de contingencia, enumera el número de
observaciones correspondiente a cada combinación de valores de dos variables
categóricas u ordinales. La combinación de todos los intervalos posibles de las dos
variables define las casillas en una tabla. Una tabla cruzada de r filas y c columnas se
denomina tabla cruzada de dimensión rxc
7
Ididem – Pág.33
Norte 50 95 45 60 250
Oeste 65 70 75 40 250
c. HISTOGRAMAS Y OJIVAS
Histogramas
Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamaño o diferente (intervalo variable).
Gráfico 3- Histograma
Ojiva
Una ojiva, llamada a veces gráfico de frecuencias acumuladas, es una línea que conecta
puntos que son el porcentaje acumulado de observaciones situadas por debajo del límite
superior de cada intervalo en una distribución de frecuencias acumuladas.
En el caso del ejemplo de los visitantes a la muestra de pintura, es la línea naranja del Gráfico 3
que vincula la fa con los intervalos de clase:
Gráfico 3-Ojiva
Este análisis que emplea técnicas estadísticas para interpretar datos. En esta unidad se
definirán los conceptos fundamentales. El tipo de análisis a realizar dependerá del
objetivo del proyecto que se analice
© Universidad de Congreso
Sistema Institucional de Educación a Distancia
Año 2019
Mendoza- Argentina
© Universidad de Congreso
Sistema Institucional de Educación a Distancia Estadística | Unidad 1 | Página 23 de 56
Año 2019
Mendoza- Argentina
a. MEDIDAS DE TENDENCIA
CENTRAL
Se emplean para:
Ejemplo: salario promedio de los habitantes de una ciudad, gasto promedio de una
familia, etc.
b) Efectuar comparaciones entre diferentes conjuntos estadísticos
Los promedios son una medida de posición que dan una descripción compacta de cómo
están centrados los datos y una visualización más clara del nivel que alcanza la variable,
pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor
facilidad para efectuar comparaciones.
El promedio como punto típico de los datos es el valor al rededor del cual se agrupan
los demás valores de la variable.
1. Media Aritmética(𝑿)
Es una medida matemática, un número individual que representa razonablemente el
comportamiento de todos los datos
̅:
Calculo de 𝑋
Datos crudos:
x1 x 2 x3 ....... x n
X
n
n
x i
X i 1
f1 x1 f 2 x 2 f 3 x3 ....... f n x n
X
f1 f 2 f 3 ....... f n
n
( f x ) i i
X i 1
n
n
donde f i 1
i n cantidad de datos
1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno
afecta la media.
3. Una vez calculada X , la suma de las diferencias entre los valores del conjunto
x
n
f x
n
x
n 2 n 2
i X xi A
i 1 i 1
5. Aunque es confiable porque refleja todos los valores del conjunto de datos
puede ser afectada por los valores extremos, y de esa forma llegar a ser una
medida menos representativa, por lo que si la distribución es asimétrica, la
media aritmética no constituye un valor típico.
6. Cada uno de los datos del conjunto puede ser sustituido por la media aritmética
( X ) sin que se altere el valor de esta, ni la suma de los valores de los conjuntos
x
i 1
i
X
n
5924.79
X=
9
X =658.31 (en millones):
60 63 124 80 100
85 60 160 85 124
99 132 65 124 99
100 124 71 75 100
80 145 124 132 124
fx i i
2556
X =
i 1
n 25
X =102.24LA PRODUCCIÓN PROMEDIO DE LA EMPRESA DE CONSERVAS ES DE 102 LATAS
Edad Nº de turistas
[1-15) 127
[15-29) 324
[29-43) 455
[43-57) 165
[57-71) 75
[71-84] 97
1243
fx i i
X i 1
n
44.518,5.5
X=
1243
X =35.82
2. La Mediana ( 𝑿)
Una Vez más a la hora de calcular la mediana debemos distinguir como se presentan
los datos
Procedimiento:
1º) Se listan los datos de forma ascendente y/o descendente de los datos
2º) ̌:
Se determina la ubicación de la 𝑋
n n
1
Pares 2 ^ 2
n
0 .5
Impares 2
3º) ̌
Se determina el valor de la 𝑋
Distribución de frecuencias:
𝒏
(𝟐 − 𝒇𝒂𝒂 )
𝑿 = 𝑳𝒊 + .𝒊
𝒇𝒊
donde:
Li=Límite Inferior de la clase donde está ubicada la
mediana
n
= ubicación de la mediana
2
fai= frecuencia acumulada de la clase anterior a la ubicación de
mediana
fi= frecuencia absoluta de la clase donde está ubicada la
mediana
i= intervalo de clase
Características de la mediana
3. Cuando la localización del elemento central puede ser determinada y los límites
de clase mediana son conocidos, la mediana para la distribución de frecuencias
puede ser calculada por interpolación, no importando que ésta contenga intervalos
abiertos, cerrados, iguales o diferentes.
n n
i 1
x i M e x i A
i 1
Ejemplo practico
observamos que tenemos 9 años, por lo tanto 9 datos, es decir , los datos son
n
0 .5
2
9
0.5 5 El dato que ocupa la posición 5 es la Me,
2
conservas:
xi fi fa
60 2 2
63 1 3
65 1 4
71 1 5
75 1 6
80 2 8
85 2 10
99 2 12
100 3 15
124 5 20
132 2 22
145 2 24
160 1 25
25
n
0 .5
2
25
0.5 14
2
En este caso se busca el número que contiene a la ubicación 14 en la f a y esa
es la Me, (en este caso el número que contiene a la 14 es el 15, por lo tanto
el valor que corresponde es 100)
Nº de
Edad xi fa fixi Clase real
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1243 44518,5
n 1243
621.5
2 2
Esta es la ubicación de la Me, lo que hacemos en buscar en la fa, empezamos a restar
sistemáticamente y el primer valor que nos da negativo es donde está ubicada la Me,
en este caso cuando restamos621.5 a 906 nos da negativo, entonces en esa clase
está ubicada la Me. Lo que hacemos a continuación es aplicar la fórmula:
n
f aa
M e Li
2 i = 28 621.5 451 14 =33.25
fi 455
El 50% de los turistas tienen 33 años o menos de y/o el 50% tienen 33 años o
La moda puede no ser única, las distribuciones que presentan dos o más máximos
relativos se designan de modo general como bimodales o multimodales.
Ejemplo: Para la fábrica de conservas vemos que el valor que más se repite es
124, es decir, que la mayoría de las veces se fabrican 124 botellas
Método Algebraico
LS cMo LI cmo
M oC
2
donde:
la Mo
Mo
Ejemplo: Para el caso de los turistas 455 es el valor que más se repite, por lo tanto:
42 29
MoC=: 35.5
2
d1
M o Licmo i
d1 d 2
donde:
d1=ficmo-fia
d2=ficmo-fip
i= intervalo de clase
Ejemplo:
d1=455-324=131
d2=455-165=290
131 131
Mo= 28. 14 28 14 32.35
131 290 421
Método Grafico
1. Obtenemos el histograma
Cantidad
de turistas
LIcmo LScmo
LSVcmo
455
LVcpcmo
324
1 15 29 43 57 71 84
Edad (Clase Real)
Características de la Moda.
2. No está afectada por los valores extremos pero para datos continuos es dudoso
su cálculo.
b. Medidas De Dispersión
Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que
es la distancia entre los valores máximo y mínimo.
R x n x1
donde:
Ejemplo:
DATOS CRUDOS
ARREGLO DE FRECUENCIA
Observamos que entre el primer valor y el ultimo hay una diferencia de 100
botellas: R=160-60=100
DISTRIBUCIÓN DE FRECUENCIAS
Características de R
2. Su valor está influido por datos extremos, por lo cual no es una medida
adecuada para medir el grado de dispersión
Coeficiente de R
x n x1
R
x n x1
2
Datos crudos:
x
i 1
i X
Con respecto a X : DM X
n
n
x
i 1
i Me
Con respecto a Me: DM Me
n
f i xi X
Con respecto a X : DM X i 1
n
n
f i xi M e
Con respecto a Me: DM Me i 1
Características de la DM
4. Mide la desviación de una observación sin notar si está por encima o por
debajo del promedio.
Coeficiente de la DM
DM X
Respecto de X : CDM X
X
DM Me
Respecto de la Me: CDM M e
Me
DATOS CRUDOS
xi X
2440.84
x i Me
= =
i 1 i 1
DM X 271.2 DM Me
n 9 n
2331.38
259.04
9
DM X 271.21 DM Me 259.04
CDM X = 0.41 CDM M e = 0.47
X 658.31 Me 548.85
Hay una dispersión de $271.200 respecto del promedio y de $259.040 respecto de
la Mediana, lo que presenta un error de41% respecto de la Media y del 47% respecto
de la Mediana
xi fi f i xi f i xi X f i xi M e
60 2 120 84,48 80
63 1 63 39,24 37
65 1 65 37,24 35
71 1 71 31,24 29
75 1 75 27,24 25
80 2 160 44,48 40
85 2 170 34,48 30
99 2 198 6,48 2
100 3 300 6,72 0
124 5 620 108,8 120
132 2 264 59,52 64
145 2 290 85,52 90
160 1 160 57,76 60
25 2556 623,2 612
n
f i xi X
623.2 DM X
DM X = =
i 1
24.93 CDM X
n 25 X
24.93
0.24
102.24
n
f i xi M e
612 DM Me
DM Me = CDM M e =
i 1
24.48
n 25 Me
24.48
0.24
100
f i xi X
16755.44 DM X
DM X = =
i 1
13.48 CDM X
n 1243 X
13.48
0.38
35.81
n
f i xi M e
17172.75 DM Me
DM Me = CDM M e =
i 1
13.81
n 1243 Me
13.81
0.41
33.75
Hay una dispersión de 13 años respecto de la edad promedio y de 14 años respecto
de la Mediana, lo que presenta un error del 38% respecto de la Media y del 41%
respecto de la Mediana
3. Desviación Standar
VARIANZA ( 2 )
x
n
2
i X
Datos crudos: 2 i 1
f x
n
2
i i X
Arreglo y distribución de frecuencia: 2 i 1
DESVIACIÓN ESTÁNDAR
2
1. El cálculo de estas medidas está basado en todos los datos del conjunto
2. Son medidas totalmente lógicas ya que consideran tanto los signos positivos
como los negativos para el calculo
4. No se ven afectadas por la suma de las cantidades constantes a los datos del
conjunto, pero si están afectadas si los datos son multiplicados o divididos por
cantidades constantes, variando estas en la misma proporción, se toma para su
cálculo el principio de los mínimos cuadrados
CV
X
Ejemplo:
DATOS CRUDOS:
1 378,23 78444,8064
2 380,27 77306,2416
3 392,27 70777,2816
4 371,51 82254,24
5 548,85 11981,4916
6 662,89 20,9764
7 831,94 30147,3769
8 1083,27 180591,002
9 1275,56 380997,563
5924,79 912520,979
x
n
2
i X
912520.979
2 i 1
= 101391.22
n 9
318.42
2 = 101391.22 318.42 CV = 0.48
X 658.31
Hay una dispersión de $318.420 respecto la recaudación promedio, lo que presenta
un error del 48%
xi fi f i xi c
60 2 120 3568,4352
63 1 63 1539,7776
65 1 65 1386,8176
71 1 71 975,9376
75 1 75 742,0176
80 2 160 989,2352
85 2 170 594,4352
99 2 198 20,9952
100 3 300 15,0528
124 5 620 2367,488
132 2 264 1771,3152
145 2 290 3656,8352
160 1 160 3336,2176
25 2556 20964,56
f x
n
2
i i X
20964.56
2 i 1
= 838.58
n 25
28.96
2 = 838.58 28.96 CV = 0.28
X 102.24
Hay una dispersión de 29 latas respecto de la producción promedio , lo que presenta
un error del 28%
Edad Nº de turistas xi fi x i
f i xi X
2
f x
n
2
i i X
425196.377
2 i 1
= 342.07
n 1243
18.49
2 = 342.07 18.49 CV = 0.52
X 35.81
Hay una dispersión de 18 años respecto de la edad promedio, lo que presenta un
error del 52%
Cuantiles
Los cuantiles son medidas de posición que se
determinan mediante un método que determina la
ubicación de los valores que dividen un conjunto de
observaciones en partes iguales.
Los más usados son los cuartiles, cuando dividen los datos en cuatro partes iguales; los
quintiles que dividen el conjunto de datos en cinco partes iguales, los deciles, cuando
dividen los datos en diez partes y los centiles o percentiles, cuando dividen los datos en
cien partes. Los cuantiles en cierta forma una extensión de la mediana.
Dividen al conjunto en cuatro partes mutuamente excluyentes e iguale, donde cada parte
representa el 25% de total. Se pueden determinar tres cuantiles donde el C2 coincide
con la Mediana
C1 C2 C3 C4
𝒓∗(𝒏+𝟏)
𝑪𝒓 =
𝟒
donde:
r=cuartil a determinar
n=cantidad de datos
Distribución de frecuencias
r * n
4 f aa
Cr LI cr i
f ir
donde:
cuartilica
r*n
4 = ubicación del cuartil
Q1 Q2 Q3 Q4 Q5
Q5
Datos crudos y arreglo de frecuencia
𝒓∗(𝒏+𝟏)
𝑸𝒓 =
𝟓
donde:
r=cuartil a
determinar
n=cantidad de datos
Distribución de frecuencias
r * n
4 f aa
Qr LI qr i
f ir
donde:
r*n
5 = ubicación del quintil
D1 D2 D3……………...................................................……………………………….…. D9 D10
𝒓∗(𝒏+𝟏)
𝑫𝒓 =
𝟏𝟎
donde:
r=decil a
determinar
n=cantidad de datos
Distribución de frecuencias
r * n
10 f aa
Dr LI dr i
f ir
donde:
r*n
10 = ubicación del decil
decilica
4. Percentiles(Pr)
Dividen al conjunto en cien partes mutuamente excluyentes e iguales, donde cada parte
representa el 1% de total. Se pueden determinar 99 percentiles
1% 1% ......................................................................................................1%
1%
P1 P2 P3 P4……….........................................……………………………………………………………..………. P98 P99 P100
𝒓∗(𝒏+𝟏)
𝑷𝒓 =
𝟏𝟎𝟎
donde:
r=percentil a
determinar
n=cantidad de datos
Distribución de frecuencias
r * n
100 f aa
Pr LI pr i
f ir
donde:
Ejemplo:
1º 4 371,51
2º 1 378,23
3º 2 380,27
4º 3 392,27
5º 5 548,85
6º 6 662,89
7º 7 831,94
8º 8 1083,27
∑xi → 5924,79
= =
𝟑∗(𝟗+𝟏) 𝟑∗(𝟏𝟎)
𝑪𝟑 = 7.5
𝟒 𝟒
buscamos
xi fi fa
60 2 2
63 1 3
65 1 4
71 1 5
75 1 6
80 2 8
85 2 10
99 2 12
100 3 15
124 5 20
132 2 22
145 2 24
160 1 25
25
= =
𝟑∗(𝟐𝟓+𝟏) 𝟑∗(𝟐𝟔)
𝑪𝟑 = 19,5
𝟒 𝟒
En este caso cuando restamos 19,5 a 20 nos da negativo, entonces el valor que le
ubicar el cuartil:
Nº de
Edad xi fa fixi Clase real
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1.243 44.518,5
r * n 3 *1243
932.25
4 4
el cuartil, en este caso cuando restamos 932.25 a 1071 nos da negativo, entonces
932.25 - 906
C 3 42.5 14 44.73
165
El 75% de los turistas alojados en el hotel tienen una edad de 45 años o menos.
Otra forma de explicar esto es diciendo que el 25% de los turistas alojados en el hotel