Está en la página 1de 9

Estadística descriptiva:

Las variables que se pueden trabajar en la estadística descriptiva son cuantitativas (valores numéricos) o pueden
ser cualitativas (categorías no numéricas), para ambos tipos de variables las distribuciones de frecuencias se
clasifican como:
 Distribución de frecuencias de datos simples (n≤30):

Toda tabla de distribución de frecuencias de datos simples debe de estar comprendida por:
o 𝑋 = la variable, cada uno de los valores que ha tomado.
o 𝑓𝑖 = frecuencia absoluta, es el numero de veces que se repite una variable.
o 𝐹𝑎 = frecuencia acumulada, se obtiene acumulando las frecuencias absolutas, la ultima frecuencia
acumulada es el tamaño de la muestra.
o 𝑓𝑟 = frecuencua relativa, se obtiene dividiendo la frecuencia absoluta entre el el tamaño de la muestra
(indicio de probabilidad).
o 𝐹𝑟𝑎 = frecuencia relativa acumulada, se obtiene acumulando las frecuencias relativas, la ultima
frecuencia relativa acumulada debe ser 1.
o 𝑓% = frecuencia porcentual, es multiplicar por 100 la frecuencia relativa.
o 𝐹% = frecuencia porcentual acumulada

No. X fi Fa fr Fra f% F%
1
.
.
.
n

 Distribución de frecuencias de datos agrupados(n›30):


Toda tabla de distribución de frecuencias de datos agrupados se debe de realizar los siguientes pasos:
 Ordenar todos los datos en orden ascendente o descendente.

 Determinar el rango de los datos con la fórmula:


R = Dato mayor – Dato menor
 Determinar el número de clases k, cuando el valor de k es decimal, k puede tomar el valor del primer
entero inferior o superior al valor de k dado:
K = 1 + 3.3 Log(n)

 Determinar la amplitud de los datos, trabajar la amplitud según la fórmula para poder operar con todos
los decimales y así ser más exacta. Si los datos son enteros aproximar a un entero, si tienen decimales
aplicar cifras significativas :
A = (dato mayor – dato menor)/K

Autor: Jonathan Efren Alvarez Cacacho 1


 Formar los límites aparentes, los cuales están conformados por los límites aparentes inferiores y los
límites aparentes superiores. El primer límite aparente inferior es el valor del dato menor y sobre esta
columna se van sumando k veces las amplitudes. Los límites aparentes superiores es restarle uno al
límite aparente inferior siguiente.
Suponiendo una muestra cuya amplitud es de 5, sus posibles Li y Ls serían:

Li Ls
45 (dato menor) 49 (Li siguiente -1)
50 54
55 59
60 .
. .
. .

 Formar los límites reales, los cuales son conformados por los límites reales inferiores y los superiores.
Para esto a los Li se les resta un Δ y al Ls se le suma un Δ. El valor del Δ se define en la siguiente tabla:
Δ
Para enteros 0.5
Numeros con un 0.05
decimal
Con dos decimales 0.005
Con tres decimales 0.0005
. .
. .
. .

Para el ejemplo del paso 5 sus Lri y Lrs serian de la siguiente forma:

Lri (numero – Δ) Lrs(numero + Δ)


44.5 49.5
49.5 54.5
54.5 59.5
59.5 .
. .
. .

 Determinar la marca de clase (𝑋𝑖 ), la cual puede ser calculada de cualquiera de las siguientes formas:
𝐿𝑖+𝐿𝑠 𝐿𝑟𝑖+𝐿𝑟𝑠
Xi = o Xi =
2 2

Autor: Jonathan Efren Alvarez Cacacho 2


La tabla de distribución de frecuencias para datos agrupados quedaría de la siguiente forma:

Li - Ls Lri - Lrs fi Fa fr Fr f% F% Xi
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .

 Representaciones graficas:

Graficas de barras: estas se utilizan para frecuencias


de variables cualitativas y para variables cuantitativas
de una distribución simple. Estas pueden ser
horizontales o verticales. Debe contener:
- Títulos
- Eje horizontal es la variable de interés.
- Eje vertical son las frecuencias.

Gráfico de pastel/sectores circulares: se utiliza para


variables únicamente cualitativas y se trabaja con las
frecuencias porcentuales o absolutas.

Histograma: este se utiliza para variables cuantitativas


agrupadas, el eje horizontal son los intervalos de clase
(limites reales), el eje vertical son las frecuencias
absolutas.

Se caracteriza por empezar un ancho del mismo


tamaño después del eje vertical.

Polígono de frecuencias: es un gráfico de la unión de las


marcas de clase. El polígono empieza y termina en el eje
horizontal.

Ojiva ascendente: en el eje horizontal se encuentran los


limites reales superiores y en e; vertical las
frecuencias acumuladas. Cuando es ascendente
responde a “¿Que frecuencias son menores a ese Lri?”.

Autor: Jonathan Efren Alvarez Cacacho 3


Ojiva descendente: en el eje horizontal se encuentran
los limites reales superiores y en e; vertical las
frecuencias acumuladas. Cuando es ascendente
responde a “¿Que frecuencias son mayores a ese Lri?”.
La intersección de ambas ojivas es la mediana.

Graficas lineales: generalmente sirve para representar


series de tiempo debido a que reflejan la dirección del
cambio respecto del tiempo. El eje horizontal es la
escala del tiempo y el vertical el número de
observaciones. Se utiliza para variables cuantitativas
simples.

Grafica de puntos: es para pequeños conjuntos de


datos, se utiliza para variables cuantitativas simples. El
eje horizontal son los valores de la variable estudiada y
el vertical son la frecuencia absoluta.

Autor: Jonathan Efren Alvarez Cacacho 4


 Análisis descriptivo cuantitativo:
- Medidas de posición:
 Medidas de tendencia central:

Datos simples Datos agrupados

∑ 𝑿𝒊 ∑ 𝑿𝒊∗𝒇𝒊
Media aritmética (𝑿
̅ ): = = ∑ 𝒇𝒊
proporciona una descripción 𝒏
compacta de cómo se centran
los datos, tiende a tomar los Donde:
Donde: Xi: son los valores de interés.
valores extremos.
Xi: son los valores de interés. fi: las frecuencias de cada
n: es el tamaño de muestra, intervalo.

𝒏
−𝑭
= Lme + [ 𝟐
∗ 𝑨]
𝒇𝒎𝒆

𝒏+𝟏 Donde:
= (posición) Lme: es el límite real inferior,
este se obtiene al dividir n/2 y
Mediana (Me): es un valor que 𝟐
deja por debajo de él un número determinar en la primera
de casos igual al que deja por Donde: frecuencia absoluta acumulada
n: es el tamaño de muestra, en la que puede entrar.
arriba.
esta fórmula da la posición del A; es la amplitud.
valor mediano. F: es la frecuencia absoluta
Esta fórmula se usa cuando el acumulada anterior a de Lme.
número de datos es impar. fme: es la frecuencia absoluta
del intervalo de Lme.

Esta da el valor donde se


encuentra exactamente la
mitad de los datos.
𝑫𝟏
= Lmo + [ ∗ 𝑨]
𝑫𝟏+𝑫𝟐

Donde:
Moda (Mo): es el valor de los Lmo: Es el límite que tiene la
datos que ocurre más El valor que más se repite. mayor frecuencia absoluta.
frecuente mente. A: amplitud
D1: es la diferencia entre la
mayor frecuencia y la
anterior.
D2: es la diferencia entre la
mayor frecuencia y la
posterior.

Autor: Jonathan Efren Alvarez Cacacho 5


Otras medidas de tendencia central:
∑ 𝑾𝒊𝑿𝒊
=
𝑾𝒊
Media ponderada (Xp): toma en cuenta la Donde:
importancia relativa de las observaciones, a Wi: son las ponderaciones de cada valor X
cada valor se le asigna un valor de peso (ejemplo: 20% asistencia, 35%presentacion,
dependiendo de la importancia que se asigne. etc.).
Xi: son los valores observados. (Ejemplo: 98 en
asistencia, 85 en presentación, etc.).

Media geométrica (Xg): proporciona una = 𝒏√ 𝒙𝟏 ∗ 𝒙𝟐 ∗ … ∗ 𝒙𝒏


medida precisa de un cambio porcentual Donde:
promedio en una serie de números. Se utiliza x: es el aumento porcentual en intervalo de
para determinar un incremento porcentual tiempo (ejemplo: 3%, 8%, etc.).
promedio en ventas, producción o actividades n: es el número de observaciones porcentuales.
económicas.

 Medidas de tendencia no central:


Fractiles o cuantilos: estos permiten identificar valores que se ubican en diferentes posiciones, es la
localización del valor correspondiente al final de cada parte en la que se dividió la distribución de los
datos. Su valor va del 0% hasta el fractilo.

Autor: Jonathan Efren Alvarez Cacacho 6


Fractilo Datos simples Datos agrupados
𝑱
( ∗∑ 𝒇𝒊)−𝑭
Q=𝑳𝒑𝒊 +[ 𝟒
]
𝒇𝒑𝒊
Donde:
J: es el número del cuartil.
𝑱𝑵 Lpi: es el límite al cual le
Q=
𝟒 corresponde al encontrar en las
Cuartil: representan un 25% de Donde:
frecuencias absolutas
los datos, solo hay 3 cuartiles J: es el número de cuartil (1, 2,3).
acumuladas donde entra el valor
(25%,50%,75%). N: el número total de 𝑱
de 𝟒 ∗ ∑ 𝒇𝒊.
observaciones.
F: es la frecuencia absoluta
acumulada anterior.
fpi: es la frecuencia absoluta del
intervalo Lpi.

Decil: representan un 10% de los D=


𝑱𝑵
(
𝑱
∗∑ 𝒇𝒊)−𝑭
datos, solo hay 9 deciles (10%- 𝟏𝟎 D=𝑳𝒑𝒊 +[ 𝟏𝟎
]
90%). Donde: 𝒇𝒑𝒊
J: es el número del decil (1-10). *El mismo procedimiento del
N: el número total de cuartil.
observaciones.
Percentil; este es el más utilizado 𝑱𝑵 𝑱
pues representa al 1%, solo hay 99 P= P=𝑳𝒑𝒊 +[
(
𝟏𝟎𝟎
∗∑ 𝒇𝒊)−𝑭
]
𝟏𝟎𝟎
percentiles pero sirven para Donde: 𝒇𝒑𝒊
determinar porcentajes como J: es el número de percentil(1-99).
93%,54%, etc. N: el número total de
observaciones.
Valor fractilo= Pn +
Fp(𝑷𝒏+𝟏 − 𝑷𝒏)
Donde:
Interpolación: cuando los datos Pn: valor de la posición menor
son simples y enteros se debe entre ambas posiciones.
interpolar al entero cercano. Pn+1: valor de la posición mayor
entre ambas posiciones.
Fp: fracción del decimal de ambas
posiciones (ejemplo: de 17.5 su Fp
es 5/10).

Autor: Jonathan Efren Alvarez Cacacho 7


- Medidas de dispersión:
 Medidas de distancia; nos permiten medir la dispersión en términos de la diferencia entre 2
valores seleccionados del conjunto de datos.

Rango: es la diferencia entre el


valor más grande y el más R= Dato mayor – Dato menor
pequeño.

Rango intercuartilico: mide que RIQ= Q3 – Q1


tan lejos de la mediana se debe ir
en cualquiera de las 2 direcciones,
antes de recorrer una mitad de
valores del conjunto de datos.

RIP=P90-P10
Rango interpercentilico: calcula 10%
10% 80% 10%
la diferencia en los extremos de la
distribución entre el percentil 90 y
P90
10. P10
R. interpercentilico

 Medidas de desviación promedio: nos proporcionan una descripción más completa de la dispersión
respecto a alguna medida de tendencia central.

Datos simples(muestras) Datos agrupados (muestras)


Varianza: medida del cuadrado de 𝟐
∑ (𝑿 − 𝑿 ̅ )𝟐
𝟐
∑ 𝒇𝒊(𝑿𝒊 − 𝑿 ̅ )𝟐
la distancia promedio entre la 𝑺 = 𝑺 =
𝒏−𝟏 𝒏−𝟏
media y cada observación, su
dimensional es el cuadrado que la Donde: Donde:
de los datos originales. X: los valores de los datos X: los valores de los datos
observados. observados.
̅ la media de los datos.
𝑋: 𝑋:̅ la media de los datos.
n: tamaño de la muestra. n: tamaño de la muestra.
fi: la frecuencia de cada Xi
Desviación estándar: es la raíz
cuadrada de la varianza, tiene las
̅ )𝟐
∑(𝑿 − 𝑿 ̅ )𝟐
∑ 𝒇𝒊(𝑿𝒊 − 𝑿
mismas dimensionales que los 𝑺=√ 𝑺= √
datos originales. 𝒏−𝟏 𝒏−𝟏

Autor: Jonathan Efren Alvarez Cacacho 8


 Dispersión relativa (coeficiente de variación de Pearson): relaciona la desviación estándar y la
media, expresando la desviación estándar como porcentaje de la media. Su unidad de medida es
porcentual. Entre mayor es el coeficiente mayor es la dispersión de los datos.
𝑺
𝑪𝒗 = ∗ 𝟏𝟎𝟎
̅
𝑿

 Medidas de forma: la forma es la manera en como los datos se distribuyen, es la forma de la curva
que representa a la serie de datos. Estos se pueden medir por los siguientes 2 aspectos:

̅ − 𝑴𝒐
𝑿
𝑺𝒌𝟏 =
𝑺

Sesgo o asimetría: determina si la curva es ̅ − 𝑴𝒆)


𝟑(𝑿
simétrica respecto al eje de simetría, si la 𝑺𝒌𝟐 =
𝑺
curva es simétrica entonces la distribución
es insesgada, si la curva no es simétrica 𝑸𝟑 − 𝟐𝑸𝟐 + 𝑸𝟏
𝑺𝒌𝟑 =
entonces la distribución es asimétrica o 𝑸𝟑 − 𝑸𝟏
sesgada.
𝑷𝟗𝟎 − 𝟐𝑷𝟓𝟎 + 𝑷𝟏𝟎
Sk = 0 entonces es simétrica. 𝑺𝒌𝟒 =
𝑷𝟗𝟎 − 𝑷𝟏𝟎
Sk > 0 entonces es positiva y sesgada a la
derecha.
Sk<0 entonces es negativa y sesgada a la
izquierda.

Curtosis o apuntamiento: mide la altura o


grado de apuntamiento de la curva que 𝟏
(𝑸𝟑 − 𝑸𝟏 )
representa a los datos (un eje horizontal). 𝑲=𝟐
Según el grado de curtosis se dividen en 3 𝑷𝟗𝟎 − 𝑷𝟏𝟎
tipo:

Mesocurtica: corresponde a una


distribución normal. K=0.263

Leptocurtica: grado de concentración


elevado alrededor de los valores centrales.
K>0.263

Platicurtica: grado de concentración


reducido alrededor de los valores
centrales. K<0.263

Autor: Jonathan Efren Alvarez Cacacho 9

También podría gustarte