Está en la página 1de 9

ESTADISTICA

La estadística es una disciplina científica que se ocupa de la obtención, orden y análisis de un


conjunto de datos con el fin de obtener explicaciones y predicciones sobre fenómenos
observados.
Media: La media es un promedio aritmético de los valores de filas en un conjunto de datos,
calculado mediante la suma dividida por el recuento (suma/recuento). La media se ve influida
por los datos alejados, a diferencia de la mediana, que generalmente se utiliza para
distribuciones sesgadas.
Mediana: La mediana es el valor numérico que separa la mitad superior de la mitad inferior de
los datos de las filas del conjunto de datos. A diferencia de la media, normalmente se utiliza
para evitar los valores alejados.
Moda: La moda es el valor que aparece más dentro de un conglomerado o es el valor que más
se repite. En un grupo puede haber dos modas y se conoce como bimodal, y más de dos modas
o multimodal cuando se repiten más de dos valores; se llama amodal cuando en un
conglomerado no se repiten los valores.
Medidas de dispersión

 Desviación estándar: La desviación estándar muestra cuánta variación existe con


respecto a la media esperada. Una desviación estándar baja muestra puntos de datos cercanos
a la media. Una desviación estándar alta muestra que los puntos de datos se reparten entre un
gran rango de valores.
 Varianza
 Desviación media
 Rango

 cuartiles: Un cuartil es el conjunto de valores del conjunto de datos identificado por


tres puntos que dividen el conjunto de datos en cuatro grupos iguales, cada uno consta de un
cuarto del conjunto de datos. El primer cuartil es el porcentaje 25 y el tercer cuartil es el
porcentaje 75. (El segundo cuartil es la mediana y el cuarto cuartil es la suma).

Dispersión (diferencia) – el valor medio de cuadrados de desviación de un valor aleatorio de su


expectativa matemática (valor medio). El parámetro que muestra lo grande que es la
desviación de un valor aleatorio de su centro de distribución. Cuanto mayor sera el valor de
este parámetro, mayor será la desviación.

Desviación estándar – puesto que la dispersión se mide como el cuadrado de un valor


aleatorio, la desviación estándar se usa a menudo como una característica más obvia de
dispersión. Es igual a la raíz cuadrada de la dispersión.

Oblicuidad – si dibujamos una curva de distribución de un valor aleatorio, la oblicuidad


mostrará lo asimétrica que es la curva de densidad de probabilidad en relación con el centro
de distribución. Si el valor de la oblicuidad es mayor que cero, la curva de densidad de
probabilidad tendrá una pendiente empinada a la izquierda, y una pendiente plana a la
derecha. Si el valor de la oblicuidad es negativo, entonces la pendiente izquierda será plana, y
la derecha será empinada. Cuando la curva de densidad de probabilidad es simétrica al centro
de distribución, la oblicuidad será igual a cero.

El coeficiente de exceso (kurtosis) – describe lo afilado que es el pico de la curva de densidad


de probabilidad y lo escarpado de las pendientes de las colas de distribución. Cuanto más
afilado sea el pico de la curva cerca del centro de distribución, mayor será el valor de la
kurtosis.

A pesar del hecho de que los parámetros estadísticos mencionados describen una secuencia
en detalle, a menudo puede caracterizar una secuencia más fácilmente, en base al resultado
de cálculos representados de forma gráfica. Por ejemplo, un gráfico ordinario de una secuencia
puede completar en gran medida una visualización obtenida al analizar los parámetros
estadísticos. 

Anteriormente en el artículo mencioné las funciones dHist() y dRankit(), que nos permiten
preparar datos para dibujar un histograma o un gráfico con la escala de probabilidad normal.
La posibilidad mostrar el histograma y el gráfico de distribución normal junto con el gráfico
ordinario en la misma hoja le permitirá determinar visualmente las principales prestaciones de
la secuencia analizada. 

Estos tres gráficos alistados deberían ser complementados con un cuarto: el gráfico con los
valores actuales de la secuencia en el que Y su sus valores previos en el eje X. Este gráfico se
llama "Lag Plot". Si hay una correlación fuerte entre indicaciones adyacentes, los valores del
muestreo se extenderán en línea recta. Y si no hay correlación entre indicaciones adyacentes,
por ejemplo al analizar una secuencia aleatoria, entonces los valores se dispersarán por todo el
gráfico.

GRÁFICOS DE DISPERSIÓN
XY PLOTS
Los gráficos de dispersión, también denominados diagramas de dispersión o scatter plots en la
literatura en inglés, se utilizan para comparar los valores que toman dos variables distintas,
una de las cuales se representa a lo largo del eje x y la otra a lo largo del eje y. La gráfica
resultante nos permite identificar visualmente la posible correlación entre las dos variables.
Ejercicio: A una fiesta van 200 invitados, 80 solteros, 90 casados, 20 divorciados, 10 viudos

Categorias Frecuencia Frecuencia Frecuencia Frecuencia


Absoluta Absoluta Relativa Relativa
Acumulada Acumulada
Solteros 80 80 80/200: 0.4 0.4
Casados 90 170 90/200: 0.45 0.85
Divorciados 20 190 20/200: 0.1 0.95
Viudos 10 200 10/200: 0.05 1.00
Total 200 1.00 (100%)

PROBABILITY PLOTS
El gráfico de probabilidad normal es una técnica gráfica, utilizada para contrastar la normalidad
de un conjunto de datos. Permite comparar la distribución empírica de una muestra de datos,
con la distribución normal. Es un caso pàrticular de gráfico de probabilidad.
Ejemplo de un gráfico de probabilidad normal.
La idea básica consiste en representar, en un mismo gráfico, los datos empíricos observados,
frente a los datos que se obtendrían en una distribución normal teórica. Si la distribución de la
variable es normal, los puntos quedarán cerca de una línea recta. Es frecuente observar una
mayor variabilidad (separación) en los extremos. Las desviaciones de una línea recta indican
desviaciones de la normalidad.
El gráfico de probabilidad normal es un caso especial de gráfico de probabilidad.

Los puntos en este gráfico de probabilidad normal de 100 números aleatorios


normales forman un patrón casi lineal, lo que indica que la distribución normal es un buen
modelo para este conjunto de dato
La gráfica de probabilidad normal está formada por:

 Eje vertical: valores de respuesta ordenados


 Eje horizontal: medianas estadísticas de orden normal

La gráfica de probabilidad normal se usa para responder las siguientes preguntas.

1. ¿Los datos se distribuyen normalmente?


2. ¿Cuál es la naturaleza de la desviación de la normalidad (datos sesgados, colas más
cortas de lo esperado, colas más largas de lo esperado)?

El hecho de que los puntos en los extremos inferior y superior de la gráfica no se desvíen
significativamente del patrón de línea recta indica que no hay valores atípicos significativos (en
relación con una distribución normal)

Gráfico de probabilidad normal: los datos tienen colas cortas

La siguiente es una gráfica de probabilidad normal para 500 números aleatorios generados a


partir de una distribuciónTukey-Lambda con el   parámetro igual a 1.1.

Podemos sacar las siguientes conclusiones de la gráfica anterior.

1. La gráfica de probabilidad normal muestra un patrón no lineal.


2. La distribución normal no es un buen modelo para estos datos.
3. Para datos con colas cortas en relación con la distribución normal, la no linealidad de la
gráfica de probabilidad normal se muestra de dos maneras. Primero, la mitad de los
datos muestra un patrón tipo S. Esto es común tanto para colas cortas como
largas. Segundo, los primeros y los últimos puntos muestran una marcada desviación
de la línea ajustada de referencia. Al comparar esta gráfica con el ejemplo de cola
larga en la siguiente sección, la diferencia importante es la dirección de la salida de la
línea ajustada para los primeros y últimos puntos. Para las colas cortas, los primeros
puntos muestran una salida creciente de la línea ajustada por encima de la línea y los
últimos puntos muestran una salida creciente de la línea ajustada debajo de la
línea. Para colas largas, este patrón se invierte.

4. En este caso, podemos concluir razonablemente que la distribución normal no


proporciona un ajuste adecuado para este conjunto de datos. Para las gráficas de
probabilidad que indican distribuciones de cola corta, el siguiente paso podría ser
generar una gráfica de Tukey Lambda PPCC . El diagrama de Tukey Lambda PPCC a
menudo puede ser útil para identificar una familia distributiva adecuada.

Gráfico de probabilidad normal: los datos tienen colas largas


La siguiente es una gráfica de probabilidad normal de 500 números generados
a partir de una distribución exponencial doble . La distribución exponencial
doble es simétrica, pero en relación con la normal, disminuye rápidamente y
tiene colas más largas.

Podemos sacar las siguientes conclusiones de la gráfica anterior.

1. La gráfica de probabilidad normal muestra un patrón razonablemente


lineal en el centro de los datos. Sin embargo, las colas,
particularmente la cola inferior, muestran desviaciones de la línea
ajustada.

Una distribución diferente a la distribución normal sería un buen modelo para


estos datos.

Gráfico de probabilidad normal: los datos están sesgados a la derecha


Gráfica de
probabilidad
normal para datos
sesgados a la
derecha

Podemos sacar las siguientes conclusiones de la gráfica anterior.

1. La gráfica de probabilidad normal muestra un patrón fuertemente no


lineal. Específicamente, muestra un patrón cuadrático en el que todos los puntos están
debajo de una línea de referencia dibujada entre el primer y el último punto.
2. La distribución normal no es un buen modelo para estos datos.

VARIANZA: Representa la distancia a la que los datos en tu muestra están agrupados alrededor
de la media, esta cifra te dará una idea de cuán dispersos están los datos. Las muestras con
una varianza baja tienen datos que están agrupados muy de cerca alrededor de la media. Las
muestras con una varianza alta tienen datos que están agrupados lejos de la media. La
varianza a menudo se usa para comparar la distribución de dos sets de datos. Es el promedio
de los cuadrados de las desviaciones medidas alrededor de la media.
Tengo 5 datos de valores de cobre en ppm:
0.3, 0.5, 0.9, 1.2, 1.8
1. Calculo la media: 4.7/5: 0.94
2. Resto la media a cada uno de los valores: 0.3-0.94: 0.64
3. 0.64, 0.44, 0.04, 0.26, 0.86 significa cuanto difiere cada punto de datos de la media
4. Ahora elevamos al cuadrado cada resultado 0.4, 0.19, 0.0016, 0.07, 0.74
5. Sumamos todos los valores al resultado le llamamos la suma de lo cuadrados: 1.4
6. Calculamos la Varianza que resulta de la suma de lo cuadrados: 1.4 dividido para el
numero de datos menos 1: 1.4/5-1: 0.35
7. Calculamos la Desviación Estándar que resulta de la raíz cuadrada de la varianza: 0.59

DESVIACIÓN ESTANDAR
La deviación estándar es una medida del grado de dispersión de los datos con respecto al valor
promedio. Mientras más dispersión de datos exista más alta va a ser la desviación estándar y
resulta de la raíz cuadrada de la varianza

Histograma-Distribución Normal
Cuando una dispersión es muy pequeña la desviación estándar también va a tener un valor
muy pequeño y que los datos en la gráfica de la campana de gaus van a estar muy agrupados a
la media formando una campana muy pronunciada indicando una baja dispersión de los datos.
Distribución simetrica

Cuando tenemos una dispersión muy alta la campana se abre y los valores se van a ir hacia los
extremos

Distribución Asimétrica
TERMINOLOGÍA
N score: Desviación estándar: dispersión
Progresive Half: percentiles
(outliers): muestreo contiene errores grandes

También podría gustarte