Está en la página 1de 9

INTRODUCCIÓN

La palabra “estadística” proviene del latín status que significa estado. La estadística
principalmente trata con situaciones en las cuales la ocurrencia de un evento no puede
ser predicha con certeza. Las conclusiones a menudo son inciertas porque se basan
en datos incompletos, el cálculo de las tasas actuales de desempleo se basan en
muestras de una población. Por largo tiempo fue conocida solamente como un
conjunto de datos y gráficos relacionados con la economía, demografía y situaciones
políticas propias de un país. Aún hoy gran parte del público en general piensa en la
estadística como un sinónimo de complicadas matrices de datos o numerosos
gráficos. Los grandes avances del siglo 20 le han permitido a la estadística crecer y
asumir una presencia importante como una herramienta de análisis basado en datos.
Los grandes conjuntos de números y gráficos son ahora solo unas de las herramientas
de la estadística, y pocos, si los hay, de los estadísticos de hoy están comprometidos
en rutinas de tabulación y graficamientoi.

La estadística es una asignatura que provee un cuerpo de principios y metodologías


para el análisis y procesamiento de un conjunto de datos, resumiendo e interpretando
los datos, llegando a conclusiones o generalizaciones.

Estadística es la ciencia que trata de la toma de decisiones basada en datos


observados en presencia de incertidumbre. O sea, que las observaciones o datos
observados constituyen la materia prima cuya característica es la variabilidad o
variación.

A las características que presentan variación se les llama variables, variables


aleatorias. Estas variables pueden ser cuantitativas o cualitativas. Una variable
cuantitativa es aquella para la cual las observaciones resultantes pueden medirse
porque poseen un orden o un rango natural, por ejemplo, estatura y peso de las
personas, número de accidentes por día en una vía determinada,…Estas variables se
pueden clasificar en continuas o discretas. Las variables cualitativas son aquellas para
las cuales no es posible hacer mediciones.

La estadística es el arte y la ciencia que tiene por finalidad extraer información útil de
un conjunto de datos empíricos. Una manera efectiva para obtener dicha información
es usar modelos estocásticos paramétricos, es decir, modelos de forma exacta
conocida. A esta estrategia se la refiere con el nombre de “aproximación clásica”. El
uso de los modelos paramétricos estocásticos rigurosos, tales como el normal, el
lognormal, el exponencial, el poisson, etc., están hoy arraigados en la práctica
estadística, dado que ellos permiten la descripción aproximada de un conjunto de
datos, mediante un modelo estocástico de fácil detalle e interpretación del cual se
pueden simular observaciones reales, posibles o futuras.

Desafortunadamente existen muchas situaciones en las cuales los modelos


paramétricos no tienen aplicación por la falta de información para establecer una forma
distribucional apropiada para las variables o porque la naturaleza de los datos no lo
permite. En estas situaciones la estadística no paramétrica brinda las herramientas
necesarias para el análisis estadístico. Un procedimiento intermedio entre asumir un
modelo distribucional específico y asumir un modelo muy general (por ejemplo
simétrico) para los datos lo brinda la estadística Robusta. Esta área de la estadística
permite varios modelos alternativos para el análisis de los datos.

Método de la ingeniería
1. ESTADÍSTICA DESCRIPTIVA

El proceso de un conjunto de datos puede incluir diversas actividades como


experimentos de laboratorio, ensayos de campo, encuestas de opinión pública y el
examen de información histórica. Cualquiera que sea el proceso de recolección de la
información, los datos resultantes generalmente consisten en medidas numéricas que
pueden extenderse en complejidad de unas cuantas figuras a cientos, incluso miles,
de números.

El resumen y exposición de aspectos importantes de un gran número de datos es


conocida comúnmente como estadística descriptiva. Ésta área incluye la condensación
de datos en forma de tablas, su representación gráfica, y cálculos de indicadores
numéricos de centro y variabilidad. Estos métodos son versátiles y pueden ser
aplicados en situaciones en las cuales los datos se obtienen por muestreo a partir de
una población y en las cuales los datos corresponden a poblaciones enteras (un censo
por ejemplo). En el primer caso, una descripción resumida es usualmente seguida de
un examen de cerca y análisis posterior de los datos, entonces se puede hacer
inferencia acerca de la población. Con un censo, los hallazgos basados en los datos
son presentados a menudo en reportes para conocimiento público y pueden
convertirse en base de la planeación y análisis de políticas gubernamentales.

En estadística la totalidad de los datos que pueden ser observados de una variable se
le llama población u objeto de estudio y a su estudio se le llama censo. A un
subconjunto de la población se le llama muestra y a su estudio y procedimiento
mediante el cual obtenemos una o más muestras se le llama muestreo. Se trata de
utilizar una muestra para hacer inferencias acerca de la población objeto de estudio;
esta muestra debe ser representativa de la población.

Ejemplo 1: 22 componentes electrónicos son sometidos a una prueba de vida


acelerada, sus tiempos de falla se registran a continuación (tiempo en semanas).

25 31 20 42 39 35 36 26 38 31 29 43 36 28 31 25 28 22 23 28 31 32
1. MEDIDAS DE LOCALIZACIÓN

Tal vez el aspecto más importante del estudio de la distribución de un conjunto de


datos es la posición del valor central, esto es, un valor representativo de cómo están
distribuidos los datos. Cualquier medida numérica destinada a representar el centro de
un conjunto de datos es llamada una medida de localización o medida de tendencia
central. Las dos más comunes son la media y la mediana.

1.1 Media Aritmética

Corresponde a la suma de los datos observados dividida por el número total de


observaciones y se denota por donde

Con los datos observados de la muestra.

La media poblacional se denota por donde

En el ejemplo 1

1.2 Mediana

Es aquel valor que al disponer las observaciones de acuerdo a su orden creciente de


magnitud deja por lo menos el 50% de los datos por encima y por lo menos el 50% de
los datos por debajo. En el ejemplo 1 la mediana es 31.

Ciertos tipos de datos muestran una tendencia a concentrarse o a formar cola al lado
derecho o al lado izquierdo; tales distribuciones se dice que son asimétricas. Un
coeficiente para medir este sesgo o asimetría, propuesto por Ferguson, está dado por:

Si esta medida es negativa se dice que la distribución de los datos es sesgada a la


izquierda, si es alrededor de cero se dice que la distribución es simétrica y si es
positiva la distribución de los datos es sesgada a la derecha.
<0 =0 >0

Tomado de google imágenes Enero 25 de 2011

La distribución de los datos puede presentar algún grado de apuntamiento o


achatamiento conocido con el nombre de Curtosis, medir este apuntamiento es
definir el cuadro de dispersión de las observaciones entre las clases cercanas al
valor central, comparado con la dispersión de las observaciones cercanas a ambos
extremos de la distribución. Un coeficiente para medir la Curtosis, propuesto por
Ferguson, está dado por:

Si esta medida es negativa se dice que la distribución de los datos es Leptocúrtica,


es decir, los datos están altamente concentrados alrededor de la media, si está
alrededor del cero se dice que la distribución de los datos es Mesocúrtica y si es
positiva la distribución de los datos es llamada Platicúrtica, es decir, los datos
están bastante dispersos.

<0 =0 >0

Tomado de google imágenes Enero 25 de 2011

Otra medida de tendencia central es la moda, el valor que más se presenta, esto
es, el valor de mayor frecuencia. En el ejemplo 1 la moda es 31.

Otras medidas de localización son los cuartiles, deciles y los percentiles, puntos
que dividen la distribución de las observaciones ordenadas en rangos, cuartos,
décimos y centésimos respectivamente. La mediana es el segundo cuartil, el
quinto decil y el percentil 50. En el ejemplo 1
Percentiles for Duración
Percentiles
1,0% 20,0
5,0% 22,0
10,0% 23,0
25,0% 26,0
50,0% 31,0
75,0% 36,0
90,0% 39,0
95,0% 42,0
99,0% 43,0

2. MEDIDAS DE DISPERSIÓN

Al representar una serie de datos por un valor, la media aritmética por ejemplo, se
presentan desviaciones de los valores reales respecto a su media. Esto motiva el
concepto de dispersión de los datos, generado por la variabilidad de los mismos.

La medida de dispersión más simple es la amplitud o rango, dada por la diferencia


entre el mayor y el menor valor. Medida sujeta a errores debido a que se fundamenta
en los valores extremos de la serie. Otra medida es la desviación o media absoluta
definida por:

Medida que no pondera adecuadamente las desviaciones respecto a la media


aritmética.

2.1 Varianza

La varianza está definida por

La cual mide las desviaciones al cuadrado respecto a la media y la raíz cuadrada de la


varianza es la desviación estándar denotada por , que mide el grado de
concentración alrededor de la media, en las unidades de las observaciones.

Es la varianza muestral. En el ejemplo 1 la desviación estándar es 6.31.

2.2 Coeficiente de Varianza

Se define por

Esta medida permite comparar las dispersiones de experimentos con unidades


diferentes.
A diferencia de la interpretación de como punto de balance para la distribución de
un conjunto de datos, una interpretación física de la desviación estándar s no es
transparente. Comparando dos conjuntos de datos un s grande en uno de los dos
refleja la presencia de una gran variación en el conjunto analizado. Sin embargo, en el
contexto de un solo conjunto de datos, el significado de un valor numérico de s en
relación a la dispersión de los datos no es muy clara. El matemático Ruso P.
Chebyshev creó una conexión entre el valor de s y fracciones de los datos localizados
en intervalos alrededor de la media, así:

 El intervalo a contiene al menos de los datos

 El intervalo a contiene al menos de los datos


 En general para cualquier multiplicador k>1 el intervalo a
contiene al menos de los datos

La regla de Chebyshev garantiza la inclusión de una fracción mínima de los datos que
está centrada en y se extiende a un múltiplo específico de s en ambas direcciones.
En casos individuales, por supuesto, la fracción de los datos incluidos puede ser
demasiado grande.

3. ANÁLISIS EXPLORATORIO DE DATOS

3.1 Tabla de frecuencias

Cuando los datos consisten en un gran número de medidas es conveniente condensar


los datos en un número cercano de observaciones juntas y construir una tabla de
frecuencias, los pasos para su construcción se presentan en la siguiente tabla.

1. Encuentre los valores máximo y mínimo del conjunto de datos


2. Elija un número de subintervalos o celdas de igual longitud que incluyan el
rango entre el mínimo y el máximo sin superposición (aproximadamente la raíz
cuadrada del número de observaciones). Estos son los llamados intervalos de
clase y sus puntos finales son conocidos como límites de clase
3. Cuente el número de observaciones que se encuentran en cada intervalo de
clase. El conteo en cada clase es la frecuencia de clase o frecuencia de celda
4. Determine la frecuencia relativa de cada clase dividiendo la frecuencia de
clase por el número total de observaciones

Frecuencia relativa=frecuencia de clase/ número total de observaciones

Entonces la frecuencia relativa de una clase es la fracción de las


observaciones que pertenecen a dicha clase

En el Ejemplo1 1
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
at or below 18,0 0 0,0000 0 0,0000
1 18,0 24,0 21,0 3 0,1364 3 0,1364

1
Las tablas y gráficas corresponden a la salida del software Statgraphics Centurion XVI
2 24,0 30,0 27,0 7 0,3182 10 0,4545
3 30,0 36,0 33,0 8 0,3636 18 0,8182
4 36,0 42,0 39,0 3 0,1364 21 0,9545
5 42,0 48,0 45,0 1 0,0455 22 1,0000
above 48,0 0 0,0000 22 1,0000
Mean = 30,8636 Standard deviation = 6,31925

3.2 Histograma de frecuencias

Luego de realizar la tabla de frecuencias se puede graficar en un histograma de


frecuencias que es una representación visual de los patrones en los datos. Para
graficar un histograma de frecuencias los intervalos se grafican en el eje x y la
frecuencia en el eje y.

En el Ejemplo 1

Histogram

6
frequency

0
18 23 28 33 38 43 48
Duración

3.3 Diagramas de tallo y hojas (stem and leaf)

Son una variante más eficiente del histograma, especialmente cuando las
observaciones son de más de dos dígitos. Éstos diagramas se obtienen clasificando
las observaciones en dos filas de acuerdo a su primer dígito, así:

1. Liste los dígitos de 0 a 9 en una columna y dibuje una línea vertical, ésta
columna corresponde al digito inicial
2. Para cada observación, escriba el segundo dígito a la derecha de la línea
vertical, en la fila donde el primer dígito aparezca
3. Finalmente organice los segundos dígitos en orden ascendente

En el Ejemplo 1
Stem-and-Leaf Display for Duración: unit = 1,0 1|2 represents 12,0

1 2|0
3 2|23
5 2|55
6 2|6
10 2|8889
(4) 3|1111
8 3|2
7 3|5
6 3|66
4 3|89
2 4|
2 4|23

Ejemplo 2: Se suponen los datos de duración de baterías de teléfonos celulares


similares registrados durante 36 días.

2.2 4.1 3.5 4.5 3.2 3.2 3.0 2.6 3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7 2.5 4.3 3.4 3.6
2.9 3.3 3.9 3.1 3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4 4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5

Se divide cada observación en dos partes que consisten en una rama y una hoja, de
tal manera que la rama representa al dígito que precede al decimal y la hoja
corresponde a la parte decimal; así por ejemplo, el dato 3.7 tiene como rama 3 y como
hoja 7, entonces se tienen cuatro ramas identificadas con los dígitos 1,2,3 y 4.

Rama Hojas
1 69
2 25696
3 43185147236282297130097145
4 71354172

Rama Hojas
1 XX
2 XXXXX
3 XXXXXXXXXXXXXXXXXXXXXXXXXX
4 XXXXXXXX

Sin embargo las cuatro ramas no permiten observar la imagen adecuada de la


distribución; entonces se puede ampliar el número de ramas en dos líneas para cada
salida. Se usará una línea para las hojas 0, 1, 2, 3 y 4 y las hojas 5, 6, 7, 8, y 9 para la
segunda línea. Representadas por asterisco (*) la primera línea y por punto (∙) la
segunda

Rama Hojas
1∙ 69
2* 2
2∙ 5696
3* 431142322130014
3∙ 8576897975
4* 13412
4∙ 457

3.4 Diagramas de cajas y bigotes

Es una gráfica que describe simultáneamente varias características importantes de un


conjunto de datos, como el centro, la dispersión, la desviación de la simetría y datos
atípicos. Para construir este gráfico es necesario calcular

1. La mediana y las bisagras


2. La distancia H=Diferencia entre las dos bisagras
3. Paso=1.5 veces H
4. Las cercas internas, que están a un paso hacia afuera de las bisagras: f
5. Las cercas externas que están a dos pasos hacia afuera de las bisagras: F
6. Valores adyacentes: valores más cercanos a las cercas internas
7. Valores extremos (outside): son los valores que están entre las dos cercas
8. Valores lejanos (far out): son los que están afuera de la cerca externa

En el Ejemplo

Box-and-Whisker Plot

Media

Mediana

20 24 28 32 36 40 44
Duración

3.5 Gráficas de series de tiempo

Una serie de tiempo es un conjunto de valores de una variable aleatoria


correspondiente a periodos de igual duración.

Ejemplo

Número de daños en el acueducto del circuito de la América en Medellín entre 2003 y 2009

i
Adaptado de: Bhattacharyya, G and Johnson R. Statistical concepts and methods.

También podría gustarte