Conceptos Básicos en Estadística

La bioestadística desempeña un papel fundamental en la recolección y análisis
de los datos en el contexto de experimentos clínicos, así como de estudios en

otras áreas como epidemiología, política sanitaria, salud comunitaria familiar,
salud ambiental y ocupacional entre otras más.
CONCEPTOS BÁSICOS TEÓRICOS EN ESTADÍSITCA:
ESTADÍSITCA: ciencia que establece los métodos necesarios para la

recolección, organización, presentación y análisis de datos numéricos relativos
a un conjunto de individuos u observaciones y que permiten extraer
conclusiones válidas referentes a dicho conjunto.
ESTADISTICA DESCRIPTIVA: Se basa en la descripción de datos y

análisis estadísticos, sin sacar conclusiones.
ESTADÍSITICA INFERENCIAL: Pretende sacar conclusiones y

establecer caminos correctos a seguir de acuerdo a los datos estadísticos
proporcionados.
DEFINICIÓN DE ALGUNOS CONCEPTOS BÁSICOS EN ESTADÍSITCA:
VARIABLE: Es un símbolo, tal como X, Y, H, A, B, que puede tomar un

valor cualquiera de un conjunto determinado de ellos, llamado dominio de la
variable.
VARIABLE CONSTANTE: Es aquella que tiene un solo valor.
VARIABLE CONTINUA: es aquella variable que teóricamente puede

tomar cualquier valor entre dos valores dados. Representan medidas.
VARIABLE DISCRETA: Es aquella que tiene un solo valor. Representan

enumeraciones o conteos.
VARIABLES CUALITATIVAS O DE ATRIBUTOS: Variable que clasifica

o describe un elemento de una población.
Las operaciones aritméticas, como sumar y obtener promedios, no son
significativas para datos que resultan de una variable cualitativa.
MTRA. ANA LETICIA BÉJAR RIVERA 1

VARIABLE CUANTITATIVA O NUMÉRICA: Es aquella que cuantifica
un elemento de una población.
Las operaciones aritméticas, como sumar y obtener promedios, son
significativas para datos que resultan de una variable cuantitativa.
POBLACIÓN: Grupo grande de individuos de interés particular que
deseamos estudiar y entender.
PARÁMETRO: Cálculo Resumido de mediciones realizadas en todos

los sujetos de una población.
MUESTRA: Subgrupo pequeño de la población, se mide, se observa y

después se utiliza para obtener conclusiones sobre la población.
ESTADÍSTICO: Cálculo Resumido de mediciones realizadas en una

muestra para estimar un parámetro de la población.
DATO: Valor de la variable asociada a un elemento de una población o

muestra. Este valor puede ser un número, una palabra o un símbolo.
DATOS: Conjunto de valores recolectados para la variable de cada uno

de los elementos que pertenecen a la muestra.
PARTES PARA EL CÁLCULO ESTADÍSTICO:
RANGO ( R ): Es la diferencia que existe en una serie de datos entre la

máxima y la mínima.
R = Dm - dm
Dm = Dato mayor
dm = Dato menor
CLASE ( K ): Es el número de agrupaciones definido por uno mismo y

va de 5 hasta el ∞.
Forma aproximada de calcularse, el resultado se redondea al entero

más próximo

K=√N
N = total de datos
INTERVALO DE CLASE ( IC ): Es el resultado que se obtiene al dividir

el rango entre el número de clases establecido.
𝑹
IC =
𝑲
NOTA: El valor de K se sustituye en la fórmula en un número exacto
TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE ( C ): Es la

diferencia entre los límites reales que lo forman.
C = LRS – LRI
LRI = Límite real inferior
LRS = Límite real superior
LÍMITES REALES: Si los datos se registran con una aproximación de

un dato dado, se dice que teóricamente incluye medidas de 5 unidades en su
decimal más próximo, por ejemplo si se tiene un intervalo de clase de “61 –
63” las medidas serán “60.5 a 63.5” donde el 60.5 es el límite real inferior de
la clase ( LRI ) y el 63.5 es el límite real superior de la clase ( LRS ).
MARCA DE CLASE ( X ): Es el punto medio del intervalo de clase y se

obtiene sumando los límites inferior y superior y dividiéndolos entre dos.
𝑳𝑰+𝑳𝑺
X=
𝟐
LI = Límite inferior
LS = límite superior
FRECUENCIA ( f ): Es el número de elementos que pertenecen a un

intervalo de clase determinado por una clase dada.

FRECUENCIA RELATIVA ( fr ): Es la frecuencia de cada clase dividida
por el total de frecuencias, expresada generalmente como porcentaje. Se
representa gráficamente en la llamada “gráfica pastel” o circular.
𝒇
fr = (100)
∑𝒇
∑f = Suma de todas las frecuencias = N
FRECUENCIA ACUMULADA ( fac ): Es la suma de todas las

frecuencias anteriores en función del LRI o la suma de todas las frecuencias
posteriores en función de LRS. La gráfica con las que se representan en la
“ojiva”. En esta gráfica se puede predecir el valor de la mediana.
HISTOGRAMA DE FRECUENCIAS: Consiste en una serie de

rectángulos que tienen sus bases sobre el eje horizontal del plano cartesiano
con centros en las marcas de clase y longitud igual al tamaño de los intervalos
de clase. En esta gráfica se puede predecir el valor de la moda.
POLÍGONO DE FRECUENCIAS: Es una gráfica trazada sobre las

marcas de clase. Se puede obtener uniendo los puntos medios de la parte
superior de los rectángulos del histograma.
MEDIDAS DE TENDENCIA CENTRAL:
Son valores numéricos que localizan, de alguna manera, el centro de

un conjunto de datos.
MEDIA ( 𝒙 ̅ ) : Es un promedio realizado por la suma de todas las

frecuencias multiplicados por las marcas de clase correspondientes y dividido
entre el total de elementos de la frecuencia.
∑(𝒇∙𝒙) ∑(𝒇∙𝒅)
̅=
𝒙 ∑𝒇
̅=𝑨+
𝒙 ∑𝒇
A = Marca de clase que corresponde a “fm”

fm = Frecuencia mayor
d = desviación normalizada d = X - A

MEDIANA ( 𝒙 ̃ ): Es el valor medio o la media aritmética de los dos
valores medios.
Es el valor de los datos que ocupa la posición central cuando los datos
se ordenan según su tamaño.
∑𝒇 ∑𝒇
𝟐
−∑ 𝒇𝟏 𝟐
−∑ 𝒇𝟐
̃ = 𝐋𝐑𝐈 + (
𝒙 )𝐂 ̃ = 𝐋𝐑𝐒 − (
𝒙 )𝐂
𝐟𝐦 𝐟𝐦
∑f1 = Suma de todas las frecuencias arriba de fm

∑f2 = Suma de todas las frecuencias debajo de fm
LRI = El que corresponde a fm
LRS = El que corresponde a fm
C = El que corresponde a fm
̂ ): Es aquel valor que se presenta con mayor frecuencia.

MODA ( 𝒙
𝚫𝟏 𝚫𝟐
̂ = 𝑳𝑹𝑰 + (
𝒙 )𝑪 ̂ = 𝑳𝑹𝑺 − (
𝒙 )𝑪
𝚫 𝟏 +𝚫𝟐 𝚫 𝟏 +𝚫𝟐
∆1 = fm – fa
fa = Frecuencia anterior a fm
∆2 = fm – fp
fp = Frecuencia posterior a fm
MEDIDAS DE DISPERSIÓN O VARIACIÓN
Son aquellas que asignan un valor numérico a la cantidad de variación que

hay en un conjunto de datos.
La dispersión de los datos intenta dar una idea de cuán esparcidos
están los datos.
ALEATORIO: Forma de selección casual realizada de forma consciente

en técnicas de muestreo.

DESVIACIÓN MEDIA (DM):
∑[𝒇|𝒙 − 𝒙
̅|]
𝑫. 𝑴. =
∑𝒇
I I = Valor absoluto (solo interesa el número, no interesa el signo)
DESVIACIÓN ESTANDAR ( S ): Es una medida de la fluctuación o

dispersión que hay entre los datos. Con esta medida es posible comparar la
variabilidad de un conjunto de datos con otro.
∑(𝒇∙𝒙𝟐 ) ∑(𝒇∙𝒙) 𝟐 ̅|𝟐 ]

∑[𝒇|𝒙−𝒙
𝑺=√ ∑𝒇
−( ∑𝒇
) 𝑺=√ ∑𝒇
COEFICIENTE DE VARIACIÓN (CV):
𝑺
𝑪. 𝑽. = (𝟏𝟎𝟎)
̅
𝒙
VARIANZA ( V):
V = S²
ERROR ESTANDAR (EE):
𝐒
𝑬𝑬 =
√𝑵
SESGO: Mide el grado de concentración de los valores de una

distribución de frecuencias a un lado y a otro de la MEDIA.
1) Si la mayoría de los valores son menores que la (MEDIA) se dice
que es: una distribución sesgada a la derecha o positiva.
MEDIA > MEDIANA > MODA
2) Si la mayoría de los valores son mayores que la (MEDIA) se dice

que es: una distribución sesgada a la izquierda o negativa.
MEDIA < MEDIANA < MODA

3) Si es nula o “cero”, se dice que es simétrica
MEDIA = MEDIANA = MODA
PRIMER COEFICIENTE DE SESGO DE PEARSON: (PCS)
̅−𝒙
𝒙 ̂
PCS =
𝑺
SEGUNDO COEFICIENTE DE SESGO (SCS)
̅−𝒙
𝟑(𝒙 ̃)
𝑺𝑪𝑺 =
𝑺
CURTOSIS: Es el grado de aplanamiento o apuntamiento de una

distribución de frecuencias.
El Coeficiente de Curtosis analiza el grado de concentración que

presentan los valores alrededor de la zona central de la distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:
1) Distribución mesocúrtica: presenta un grado de concentración medio

alrededor de los valores centrales de la variable (el mismo que
presenta una distribución normal).
2) Distribución leptocúrtica: presenta un elevado grado de

concentración alrededor de los valores centrales de la variable.
3) Distribución platicúrtica: presenta un reducido grado de

concentración alrededor de los valores centrales de la variable.

El Coeficiente de Curtosis (a4) viene definido por la siguiente fórmula:
∑[𝑓|𝑥 − 𝑥̅ |⁴]
𝑎4 = −3
N · S⁴
Los resultados pueden ser los siguientes:
a4 = 0 (distribución mesocúrtica).
a4 > 0 (distribución leptocúrtica). (positivo)
a4 < 0 (distribución platicúrtica). (negativo)
MEDIDAS DE PUNTUACIÓN
CUARTILES, DECILES Y PERCENTILES
∑𝑓
− ∑(𝑓1 + 𝑓2 )
𝑄 = 𝐿𝑅𝐼3 + ( 4 )C
𝑓3

AJUSTE DE DATOS A DISTRIBUCIONES TEÓRICAS
DISTRIBUCIÓN NORMAL
REGLA EMPÍRICA EN UNA DISTRIBUCIÓN NORMAL:
Si una variable está distribuida normalmente, entonces: a menos de

una desviación estándar “S” de la media “X” hay aproximadamente 68% de los
datos; a menos de dos desviaciones estándar “2S” de la media “X” hay
aproximadamente 95% de los datos; y a menos de “3S” de la “X” hay
aproximadamente 99.7% de los datos.
Esta regla es válida específicamente para una distribución normal (en
forma de campana), aunque a menudo se aplica como guía para cualquier
distribución en forma de montículo.
ESTADÍSTICA PARAMÉTRICA: Es una rama de

la estadística inferencial que comprende los procedimientos estadísticos y de
decisión que están basados en las distribuciones de los datos reales. Estas
son determinadas usando un número finito de parámetros. Se requiere
conocer la media y la desviación estándar. Para la inferencia paramétrica es
requerida como mínimo una escala de intervalo, esto quiere decir que nuestros
datos deben tener un orden y una numeración del intervalo.
NIVEL O GRADO DE CONFIANZA (1 - α): Es la probabilidad de que el
parámetro a estimar se encuentre en el intervalo de confianza, Los niveles de
confianza más usuales son: 95%, 97.5% y 99%.
INTERVALO DE CONFIANZA: Es un rango de valores (calculado en

una muestra) en el cual se encuentra el verdadero valor del parámetro, con
una probabilidad determinada, y esta se llama nivel de confianza. Un intervalo
de confianza permite verificar hipótesis planteadas acerca de parámetros
poblacionales.
NIVEL DE SIGNIFICANCIA (α): Son los faltantes al 100% con respecto

al nivel de confianza, es decir, α = 5%, 2.5% y 1% respectivamente.

FÓRMULA PARA DISTRIBUCIÓN NORMAL
̅
𝑳𝑹𝑰 − 𝒙
𝒁=
𝑺
PRUEBA DE BONDAD
La estadística paramétrica es una rama de la estadística inferencial que

comprende los procedimientos estadísticos y de decisión que están
basados en distribuciones conocidas. ... La media ( 𝒙
̅ ) y la desviación
estándar ( 𝑺 ) de la distribución normal son los dos parámetros que
queremos estimar.
Las pruebas paramétricas son una herramienta estadística que se utiliza
para el análisis de los factores de la población. Esta muestra debe
cumplir ciertos requisitos como el tamaño, ya que mientras más grande
sea, más exacto será el cálculo.
Las pruebas paramétricas son un tipo de pruebas de significación
estadística que cuantifican la asociación o independencia entre una
variable cuantitativa y una categórica. Recordemos que una varia ble
categórica es aquella que diferencia a los individuos en grupos.
Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los
datos observados en una muestra aleatoria se ajustan con algún nivel de
significancia a determinada distribución de probabilidad (uniforme,
exponencial, normal, u otra cualquiera).
Para medir la bondad de ajuste son la prueba de CHI CUADRADA (X²)
V = (k – m – 1)
DONDE:
V = grados de libertad
m = 2 (por la media y la desviación estándar)
k = es el último valor de esa columna
(𝒇−𝒇𝒕)𝟐
X²c = ∑
𝒇𝒕

DONDE: ft = Frecuencia teórica
ESTADÍSTICA NO PARAMÉTRICA: Es una rama de la estadística que

estudia las pruebas y modelos estadísticos cuya distribución interna no se
ajusta a los llamados criterios paramétricos. Su distribución no puede ser
definida sin antes analizar la información, pues son los datos observados los
que la determinan. La utilización de estos métodos se hace recomendable
cuando no se puede asumir que los datos se ajusten a una distribución
conocida, cuando el nivel de medida empleado no sea, como mínimo, de
intervalo. Algunas pruebas de este tipo son: Distribución Binomial, Poisson,
Prueba de Pearson, Coeficiente de correlación de Spearman, etc.
PROBABILIDAD: Mide las posibilidades de que cada uno de los

posibles resultados en un suceso que depende del azar sea finalmente el que
se dé. Es una medición numérica de va de “0 a 1” o de “0 a 100%” en
posibilidad de que un evento suceda. Si da cerca de “0” es improbable su
ocurra o suceda, pero si da cerca de “1” o del “100% es muy probable que
suceda.
PROBABILIDAD SIMPLE: Es la probabilidad en la que ocurra un evento

que tiene una sola característica.
P(A) = Números de eventos que tiene la característica A = A

Total de resultados posibles n
P(A) = Evento “A”

Total de eventos
PROBABILIDAD CONJUNTA: Es la probabilidad de que ocurra un

evento que cumpla al mismo tiempo, con dos o más características. Es cuando
se analizan dos o más características al mismo tiempo.
P(A y B) = Números de eventos que tiene la característica A y B = A y B

Total de resultados posibles n
P(A y B) = Probabilidad conjunta

Total de eventos

PROBABILIDAD CONDICIONADA: Es la probabilidad de que un segundo
evento A ocurra, si el primer evento B ya ha ocurrido, se escribe P(A / B) y se
lee ¿cuál es la probabilidad de que ocurra el evento A si ya ocurrió el evento
B? En este tipo de probabilidad, siempre se conocerá una característica y se
va a calcular la probabilidad de que ocurra la otra característica. Además, la
característica conocida, determina la parte del espacio muestral que se va a
utilizar como denominador.
P(A/ B) = Números de eventos que tiene la característica A y B = A y B

Número de eventos con la característica de B n(B)
P(A/ B) = Probabilidad conjunta

Probabilidad simple

Conceptos Básicos en Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conceptos Básicos en Estadística

Cargado por

Copyright:

Formatos disponibles

La bioestadística desempeña un papel fundamental en la recolección y análisis

de los datos en el contexto de experimentos clínicos, así como de estudios en

CONCEPTOS BÁSICOS TEÓRICOS EN ESTADÍSITCA:

ESTADÍSITCA: ciencia que establece los métodos necesarios para la

ESTADISTICA DESCRIPTIVA: Se basa en la descripción de datos y

ESTADÍSITICA INFERENCIAL: Pretende sacar conclusiones y

DEFINICIÓN DE ALGUNOS CONCEPTOS BÁSICOS EN ESTADÍSITCA:

VARIABLE: Es un símbolo, tal como X, Y, H, A, B, que puede tomar un

VARIABLE CONSTANTE: Es aquella que tiene un solo valor.

VARIABLE CONTINUA: es aquella variable que teóricamente puede

VARIABLE DISCRETA: Es aquella que tiene un solo valor. Representan

VARIABLES CUALITATIVAS O DE ATRIBUTOS: Variable que clasifica

MTRA. ANA LETICIA BÉJAR RIVERA 1

PARÁMETRO: Cálculo Resumido de mediciones realizadas en todos

MUESTRA: Subgrupo pequeño de la población, se mide, se observa y

ESTADÍSTICO: Cálculo Resumido de mediciones realizadas en una

DATO: Valor de la variable asociada a un elemento de una población o

DATOS: Conjunto de valores recolectados para la variable de cada uno

PARTES PARA EL CÁLCULO ESTADÍSTICO:

RANGO ( R ): Es la diferencia que existe en una serie de datos entre la

CLASE ( K ): Es el número de agrupaciones definido por uno mismo y

Forma aproximada de calcularse, el resultado se redondea al entero

MTRA. ANA LETICIA BÉJAR RIVERA 2

INTERVALO DE CLASE ( IC ): Es el resultado que se obtiene al dividir

NOTA: El valor de K se sustituye en la fórmula en un número exacto

TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE ( C ): Es la

LÍMITES REALES: Si los datos se registran con una aproximación de

MARCA DE CLASE ( X ): Es el punto medio del intervalo de clase y se

FRECUENCIA ( f ): Es el número de elementos que pertenecen a un

MTRA. ANA LETICIA BÉJAR RIVERA 3

∑f = Suma de todas las frecuencias = N

FRECUENCIA ACUMULADA ( fac ): Es la suma de todas las

HISTOGRAMA DE FRECUENCIAS: Consiste en una serie de

POLÍGONO DE FRECUENCIAS: Es una gráfica trazada sobre las

MEDIDAS DE TENDENCIA CENTRAL:

Son valores numéricos que localizan, de alguna manera, el centro de

MEDIA ( 𝒙 ̅ ) : Es un promedio realizado por la suma de todas las

A = Marca de clase que corresponde a “fm”

MTRA. ANA LETICIA BÉJAR RIVERA 4

∑f1 = Suma de todas las frecuencias arriba de fm

̂ ): Es aquel valor que se presenta con mayor frecuencia.

MEDIDAS DE DISPERSIÓN O VARIACIÓN

Son aquellas que asignan un valor numérico a la cantidad de variación que

ALEATORIO: Forma de selección casual realizada de forma consciente

MTRA. ANA LETICIA BÉJAR RIVERA 5

I I = Valor absoluto (solo interesa el número, no interesa el signo)

DESVIACIÓN ESTANDAR ( S ): Es una medida de la fluctuación o

∑(𝒇∙𝒙𝟐 ) ∑(𝒇∙𝒙) 𝟐 ̅|𝟐 ]

COEFICIENTE DE VARIACIÓN (CV):

SESGO: Mide el grado de concentración de los valores de una

MEDIA > MEDIANA > MODA

2) Si la mayoría de los valores son mayores que la (MEDIA) se dice

MEDIA < MEDIANA < MODA

MTRA. ANA LETICIA BÉJAR RIVERA 6

MEDIA = MEDIANA = MODA

PRIMER COEFICIENTE DE SESGO DE PEARSON: (PCS)

SEGUNDO COEFICIENTE DE SESGO (SCS)

CURTOSIS: Es el grado de aplanamiento o apuntamiento de una

El Coeficiente de Curtosis analiza el grado de concentración que

Se definen 3 tipos de distribuciones según su grado de curtosis:

1) Distribución mesocúrtica: presenta un grado de concentración medio

2) Distribución leptocúrtica: presenta un elevado grado de

3) Distribución platicúrtica: presenta un reducido grado de