Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La palabra “estadística” proviene del latín status que significa estado. La estadística
principalmente trata con situaciones en las cuales la ocurrencia de un evento no puede
ser predicha con certeza. Las conclusiones a menudo son inciertas porque se basan
en datos incompletos, el cálculo de las tasas actuales de desempleo se basan en
muestras de una población. Por largo tiempo fue conocida solamente como un
conjunto de datos y gráficos relacionados con la economía, demografía y situaciones
políticas propias de un país. Aún hoy gran parte del público en general piensa en la
estadística como un sinónimo de complicadas matrices de datos o numerosos
gráficos. Los grandes avances del siglo 20 le han permitido a la estadística crecer y
asumir una presencia importante como una herramienta de análisis basado en datos.
Los grandes conjuntos de números y gráficos son ahora solo unas de las herramientas
de la estadística, y pocos, si los hay, de los estadísticos de hoy están comprometidos
en rutinas de tabulación y graficamientoi.
La estadística es el arte y la ciencia que tiene por finalidad extraer información útil de
un conjunto de datos empíricos. Una manera efectiva para obtener dicha información
es usar modelos estocásticos paramétricos, es decir, modelos de forma exacta
conocida. A esta estrategia se la refiere con el nombre de “aproximación clásica”. El
uso de los modelos paramétricos estocásticos rigurosos, tales como el normal, el
lognormal, el exponencial, el poisson, etc., están hoy arraigados en la práctica
estadística, dado que ellos permiten la descripción aproximada de un conjunto de
datos, mediante un modelo estocástico de fácil detalle e interpretación del cual se
pueden simular observaciones reales, posibles o futuras.
Método de la ingeniería
1. ESTADÍSTICA DESCRIPTIVA
En estadística la totalidad de los datos que pueden ser observados de una variable se
le llama población u objeto de estudio y a su estudio se le llama censo. A un
subconjunto de la población se le llama muestra y a su estudio y procedimiento
mediante el cual obtenemos una o más muestras se le llama muestreo. Se trata de
utilizar una muestra para hacer inferencias acerca de la población objeto de estudio;
esta muestra debe ser representativa de la población.
25 31 20 42 39 35 36 26 38 31 29 43 36 28 31 25 28 22 23 28 31 32
1. MEDIDAS DE LOCALIZACIÓN
En el ejemplo 1
1.2 Mediana
Ciertos tipos de datos muestran una tendencia a concentrarse o a formar cola al lado
derecho o al lado izquierdo; tales distribuciones se dice que son asimétricas. Un
coeficiente para medir este sesgo o asimetría, propuesto por Ferguson, está dado por:
<0 =0 >0
Otra medida de tendencia central es la moda, el valor que más se presenta, esto
es, el valor de mayor frecuencia. En el ejemplo 1 la moda es 31.
Otras medidas de localización son los cuartiles, deciles y los percentiles, puntos
que dividen la distribución de las observaciones ordenadas en rangos, cuartos,
décimos y centésimos respectivamente. La mediana es el segundo cuartil, el
quinto decil y el percentil 50. En el ejemplo 1
Percentiles for Duración
Percentiles
1,0% 20,0
5,0% 22,0
10,0% 23,0
25,0% 26,0
50,0% 31,0
75,0% 36,0
90,0% 39,0
95,0% 42,0
99,0% 43,0
2. MEDIDAS DE DISPERSIÓN
Al representar una serie de datos por un valor, la media aritmética por ejemplo, se
presentan desviaciones de los valores reales respecto a su media. Esto motiva el
concepto de dispersión de los datos, generado por la variabilidad de los mismos.
2.1 Varianza
Se define por
La regla de Chebyshev garantiza la inclusión de una fracción mínima de los datos que
está centrada en y se extiende a un múltiplo específico de s en ambas direcciones.
En casos individuales, por supuesto, la fracción de los datos incluidos puede ser
demasiado grande.
En el Ejemplo1 1
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
at or below 18,0 0 0,0000 0 0,0000
1 18,0 24,0 21,0 3 0,1364 3 0,1364
1
Las tablas y gráficas corresponden a la salida del software Statgraphics Centurion XVI
2 24,0 30,0 27,0 7 0,3182 10 0,4545
3 30,0 36,0 33,0 8 0,3636 18 0,8182
4 36,0 42,0 39,0 3 0,1364 21 0,9545
5 42,0 48,0 45,0 1 0,0455 22 1,0000
above 48,0 0 0,0000 22 1,0000
Mean = 30,8636 Standard deviation = 6,31925
En el Ejemplo 1
Histogram
6
frequency
0
18 23 28 33 38 43 48
Duración
Son una variante más eficiente del histograma, especialmente cuando las
observaciones son de más de dos dígitos. Éstos diagramas se obtienen clasificando
las observaciones en dos filas de acuerdo a su primer dígito, así:
1. Liste los dígitos de 0 a 9 en una columna y dibuje una línea vertical, ésta
columna corresponde al digito inicial
2. Para cada observación, escriba el segundo dígito a la derecha de la línea
vertical, en la fila donde el primer dígito aparezca
3. Finalmente organice los segundos dígitos en orden ascendente
En el Ejemplo 1
Stem-and-Leaf Display for Duración: unit = 1,0 1|2 represents 12,0
1 2|0
3 2|23
5 2|55
6 2|6
10 2|8889
(4) 3|1111
8 3|2
7 3|5
6 3|66
4 3|89
2 4|
2 4|23
2.2 4.1 3.5 4.5 3.2 3.2 3.0 2.6 3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7 2.5 4.3 3.4 3.6
2.9 3.3 3.9 3.1 3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4 4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5
Se divide cada observación en dos partes que consisten en una rama y una hoja, de
tal manera que la rama representa al dígito que precede al decimal y la hoja
corresponde a la parte decimal; así por ejemplo, el dato 3.7 tiene como rama 3 y como
hoja 7, entonces se tienen cuatro ramas identificadas con los dígitos 1,2,3 y 4.
Rama Hojas
1 69
2 25696
3 43185147236282297130097145
4 71354172
Rama Hojas
1 XX
2 XXXXX
3 XXXXXXXXXXXXXXXXXXXXXXXXXX
4 XXXXXXXX
Rama Hojas
1∙ 69
2* 2
2∙ 5696
3* 431142322130014
3∙ 8576897975
4* 13412
4∙ 457
En el Ejemplo
Box-and-Whisker Plot
Media
Mediana
20 24 28 32 36 40 44
Duración
Ejemplo
Número de daños en el acueducto del circuito de la América en Medellín entre 2003 y 2009
i
Adaptado de: Bhattacharyya, G and Johnson R. Statistical concepts and methods.