Está en la página 1de 7

INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA

Dentro de las estadísticas, hay dos categorías principales:

1. ESTADÍSTICA DESCRIPTIVA: en Estadística descriptiva está describiendo,


presentando, resumiendo y

Organizando sus datos (población), ya sea a través de cálculos numéricos o


gráficos o tablas.

2. ESTADÍSTICAS INFERENCIALES: las estadísticas inferenciales se producen


mediante cálculos matemáticos más complejos.

cálculos, y nos permiten inferir tendencias y hacer suposiciones y predicciones


sobre una población.

DISTRIBUCIÓN NORMAL

La distribución normal es uno de los conceptos más importantes en estadística, ya


que casi todos los datos estadísticos

Las pruebas requieren datos normalmente distribuidos. Básicamente describe


cómo se ven grandes muestras de datos cuando

se trazan A veces se le llama "curva de campana" o "curva gaussiana".

TENDENCIA CENTRAL

En estadística tenemos que tratar con la media, el modo y la mediana. Estos


también se llaman la Central

Tendencia". Estos son solo tres tipos diferentes de "promedios" y, ciertamente, los
más populares.

La media es simplemente el promedio y se considera la medida más confiable de


la tendencia central para

Haciendo suposiciones sobre una población a partir de una sola muestra. La


tendencia central determina la

tendencia a que los valores de sus datos se agrupen alrededor de su media, modo
o mediana. Se calcula la media,por la suma de todos los valores, dividida por el
número de valores.
El modo es el valor o categoría que ocurre con más frecuencia dentro de los
datos.

Por lo tanto un conjunto de datos

no tiene modo, si no se repite ningún número o si no hay una categoría igual. Es


posible que un conjunto de datos tenga más

de un modo, pero cubriré esto en la sección "Modalidad" a continuación. El modo


es también la única medida.

de la tendencia central que se puede utilizar para las variables categóricas, ya que
no puede calcular, por ejemplo, el

promedio para la variable "género". Simplemente informe las variables categóricas


como números y porcentajes.

La mediana es el valor "medio" o punto medio en sus datos

también se llama el "percentil 50". Tenga en cuenta que la mediana se ve mucho


menos afectada por los valores atípicos y sesgados que la media.

MEDIDAS DE VARIABILIDAD

Las medidas de variabilidad más populares son el rango, el rango intercuartil


(IQR), la varianza y el estándar.

desviación. Estos se utilizan para medir la cantidad de propagación o variabilidad


dentro de sus datos.

*El rango describe la diferencia entre los puntos más grandes y más pequeños en
su

datos.

*El rango intercuartil (IQR) es una medida de la dispersión estadística entre


superior (75º) y menor (25) cuartiles.

VARIACIÓN Y DESVIACIÓN ESTÁNDAR

La desviación estándar y la varianza también miden, como el rango y el IQR, cómo


se separan nuestros

los datos son (por ejemplo, la dispersión). Por lo tanto, ambos se derivan de la
media.
La varianza se calcula al encontrar la diferencia entre cada punto de datos y la
media, la cuadratura ellos, resumiéndolos y luego tomando el promedio de esos
números.

Los cuadrados se utilizan durante el cálculo porque ponderan los valores atípicos
más que los puntos

están cerca de la media. Esto evita que las diferencias por encima de la media
neutralicen a aquellos por debajo de la media.

El problema con la variación es que, debido a la cuadratura, no está en la misma


unidad de medida que Los datos originales.

Digamos que está tratando con un conjunto de datos que contiene valores de
centímetros. Tu varianza estaría en Centímetros cuadrados y por lo tanto no es la
mejor medida.

MODALIDAD

La modalidad de una distribución está determinada por el número de picos que


contiene. Más

Las distribuciones solo tienen un pico, pero es posible que encuentre


distribuciones con dos o más picos.

OBLICUIDAD

La asimetría es una medida de la simetría de una distribución.

Por lo tanto, describe cuánto difiere una distribución de una distribución normal, ya
sea hacia la izquierda o hacia

el derecho. El valor de sesgo puede ser positivo, negativo o cero. Tenga en cuenta
que una normal perfecta

la distribución tendría un sesgo de cero porque la media es igual a la mediana.

- Si Hablamos de un sesgo positivo si los datos se apilan hacia la izquierda, Lo


que deja la cola apuntando hacia la derecha.

-Se produce un sesgo negativo si los datos se apilan hacia la derecha, lo que deja
la cola apuntando hacia la izquierda. Tenga en cuenta que los sesgos positivos
son más frecuentes que los negativos.

Una buena medida para el sesgo de una distribución es el coeficiente de sesgo de


Pearson que proporciona
Una estimación rápida de una simetría de distribuciones. Para calcular la asimetría
en pandas puedes usar La función „skew ()“.

KURTOSIS

La curtosis mide si su conjunto de datos es de cola gruesa o de cola ligera en


comparación con una normal distribución. Los conjuntos de datos con alta curtosis
tienen colas pesadas y más valores atípicos y conjuntos de datos con bajo

La curtosis tiende a tener colas ligeras y menos valores atípicos. Tenga en cuenta
que un histograma es una forma efectiva de mostrar ambos

la asimetría y la curtosis de un conjunto de datos porque puede detectar


fácilmente si algo está mal con sus datos.

Una gráfica de probabilidad también es una gran herramienta porque una


distribución normal simplemente seguiría la línea recta.

Una buena manera de medir matemáticamente la curtosis de una distribución es la


medición de la curtosis por parte de los pescadores.

tres tipos más comunes de la curtosis.

Una distribución normal se llama mesokurtic y tiene una curtosis de o alrededor de


cero.

Una distribución plakkurtica tiene una curtosis negativa y las colas son muy
delgadas en comparación con las normales.

distribución. Las distribuciones de Leptokurtic tienen una curtosis mayor que 3 y


las colas gordas significan que

La distribución produce valores más extremos y tiene una desviación estándar


relativamente pequeña.

Si ya reconoció que una distribución está sesgada, no necesita calcular su


curtosis, ya que La distribución ya no es normal. En pandas puede ver la curtosis
simplemente llamando a la función „kurtosis ()“.

2-

*MEDIAN-MEDIANA (MED)

Es el valor central de un conjunto de valores ordenados en forma


creciente o decreciente. Dicho en otras palabras, la Mediana
corresponde al valor que deja igual número de valores antes y
después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos
casos:

- Si el número de valores es impar, la Mediana corresponderá al valor


central de dicho conjunto de datos.

- Si el número de valores es par, la Mediana corresponderá


al Promedio de los dos valores centrales (los valores centrales se
suman y se dividen por 2).

Ejemplo 1
Se tienen los siguientes datos: 

5,4,8,10,9,1,2
Al ordenarlos en forma creciente, es decir de menor a mayor, se
tiene:

  
 1,2,4, 8,9,10
El 5 corresponde a la Med, porque es el valor central en este conjunto
de datos impares.

*Calculations- (cálculos)

Calcular, consiste en realizar las operaciones necesarias para prever el resultado de una
acción previamente concebida, o conocer las consecuencias que se pueden derivar de unos
datos previamente conocidos.
No obstante, el uso más común del término "cálculo" es el lógico-matemático. Desde esta
perspectiva, el cálculo consiste en un procedimiento mecánico, o algoritmo, mediante el cual
podemos conocer las consecuencias que se derivan de unos datos previamente conocidos
debidamente formalizados y simbolizado.

Ejemplo:
s

*Tendency central-(TENDENCIA Central)

las medidas de tendencia central son valores que se ubican al centro de un conjunto de datos
ordenados según su magnitud. Generalmente se utilizan 4 de estos valores también conocidos
como estadigrafos, la media aritmética, la mediana, la moda y al rango medio.

 *FASHION-MODA (MO)

Es la medida que indica cual dato tiene la mayor frecuencia en un


conjunto de datos, o sea, cual se repite más.

Ejemplo 1
Determinar la moda en el siguiente conjunto de datos que
corresponden a las edades de niñas de un Jardín Infantil.

5,7,3,3,7,8,3,5,9,5,3,4,3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)

DEVIATION STANDARD- DESVIACIÓN ESTANDAR


La desviación estándar (o desviación típica) es una medida de dispersión para variables de
razón (ratio o cociente) y de intervalo, de gran utilidad en laestadística descriptiva. Es una
medida (cuadrática) de lo que se apartan los datos de su media, y por tanto, se mide en las
mismas unidades que la variable.
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia
central, sino que necesitamos conocer también la desviación que representan los datos en
su distribución, con objeto de tener una visión de los mismos más acorde con la realidad a la
hora de describirlos e interpretarlos para la toma de decisiones.
EJEMPLO
1.-El gerente de una empresa de alimentos desea saber que tanto varían los pesos de los
empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco
unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y
520) gramos respectivamente.
Por lo que su media es:

Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una
tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le
permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de peso
en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de
empacado.

Explicación de las imágenes

1-La primera grafica observamos una grafica donde Puedes ver en la


imagen que la distribución tiene forma de campana, lo que
simplemente significa que no está muy puntiagudo. Unimodal
significa que solo hay un pico.

2- la segunda imagen observamos un grafica donde tenemos unos porcentajes

-Como primer punto tenemos un 34 % ubicado en la numérica de

También podría gustarte