Está en la página 1de 12

Recordatorio Estadística

Estadística descriptiva e inferencial

Población, muestra y variable


La disciplina de la estadística nos enseña y facilita la realización de juicios inteligentes y la
toma de decisiones informadas entre la presencia de incertidumbre y variación.

La disicipĺina estadística implica la toma de decisiones en relación a información


(características particulares) sobre una colección definida de objetos denominada
población de interés. Cuando la información está disponible para todos los objetos que
componen la población, se tiene lo que se llama un censo.

Sin embargo, no siempre se posee aquella información para toda la población, y pueden
existir restricciones de tiempo, dinero y otros recursos escasos que impiden conseguirla. En
su lugar, se selecciona un subconjunto de la población, una muestra, de manera prescrita
(con métodos que busquen asegurar la aleatoriedad).

● Población: Colección definida de individuos u objetos con características similares

● Población objetivo: Subconjunto de la población que la limita a un grupo de estudio


manejable.

● Muestra: Subconjunto de la población objetivo, de la cual se busca su


representatividad a través de su selección a través de métodos aleatorios (muestreo
aleatorio simple, estratificado, sistemático, por conglomerados, etc…).

A las características (datos) que varían de un objeto a otro de una población se les
denomina variable; la misma puede ser de naturaleza cuantitativa o cualitativa. Si se tienen
un conjunto de datos con una sola variable decimos que ese conjunto es univariante; si se
realizan observaciones de dos variables se denomina bivariante, a la vez que si se realizan
observaciones de dos o más variables se puede denominar igualmente multivariante.

● Variable: Característica que puede fluctuar y cuya variación es susceptible de


adoptar diferentes valores, cuales pueden medirse u observarse.

Ramas de la estadística
En una primera instancia se reconocen dos principales ramas de la estadística, de interés y
estudio, la estadística descriptiva y la estadística inferencial.
Estadística descriptiva
La estadística descriptiva y sus métodos tienen un enfoque centrado en descubrir y resumir
características y hallazgos básicos sobre la muestra. Esto a través de tanto presentar los
datos, proceso de descripción de datos de manera que los mismos puedan ser visualizados
de manera adecuada, esto a través de distribuciones de frecuencias y/o gráficos; como el
resumen de los datos, proceso de descripción de datos en base a la ponencia de sus
medidas numéricas de resumen que nos entregan información respecto a lo medido,
pudiendo ser estas medidas de tendencia central (media, mediana y moda), medidas de
posición (cuartiles, deciles, percentiles), medidas de dispersión (rango, varianza y
desviación estándar, Coeficiente de variación) o medidas de forma (sesgo y curtosis).

Estadística inferencial
La estadística inferencial y sus métodos tienen un enfoque centrado en la utilización de la
información muestral (a partir de la muestra y sus características) permitiendo generalizar
para sacar conclusiones respecto a la población en estudio. Considerando ello
igualmente un riesgo de error medible.

Variables aleatorias
A cada resultado de un experimento se le puede asociar un valor especificando una regla
de asociación. Esta regla de asociación se denomina variable aleatoria, variable porque
diferentes valores numéricos son posibles y aleatoria porque el valor observado depende de
los posibles resultados del experimento.

● Variable aleatoria: Para un espacio muestral dado (S) de algún experimento, es


cualquier regla que asocia un número con cada resultado en S. En consideración de
lo anterior, una variable aleatoria es una función cuyo dominio es el espacio muestral
y cuyo rango es el conjunto de los números reales.

En relación a las variables aleatorias, las mismas se pueden distinguir en dos categorías
principales, dependiendo si los datos que resultan de observaciones de una variable de
conteo y una variable de medición.

Variable aleatoria discreta


Una variable aleatoria discreta es una variable cuyos valores posibles constituyen un
conjunto finito, o en cambio pueden ser puestos en una lista secuencial en los que existe un
orden entre los elementos.

Variable aleatoria continua


Una variable aleatoria continua es una variable que cumple las siguientes dos
condiciones:
1. Su conjunto de valores posibles se compone de todos los números que hay en un
solo intervalo sobre la línea de numeración (posiblemente de extensión infinita, de
-infinito a infinito) o todos los números en una unión disjunta de dichos intervalos
(por ejemplo, [0,10]U[20,30])
2. Ningún valor posible de la variable tiene probabilidad positiva
𝑃(𝑋 = 𝑐) = 0; ∀ 𝑣𝑎𝑙𝑜𝑟 𝑝𝑜𝑠𝑖𝑏𝑙𝑒 𝑑𝑒 𝑐
Variables aleatorias discretas y sus distribuciones de probabilidad

Distribución de probabilidad para variables aleatorias discretas


La distribución de probabilidad de una variable señala cómo está distribuida (asignada) la
probabilidad total de 1 en los varios posibles valores de X. La misma se trabaja en base a la
siguiente notación:
𝑝(𝑐) = 𝐿𝑎 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑞𝑢𝑒 𝑋 𝑡𝑜𝑚𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 0 = 𝑃(𝑋 = 0)
(Recordemos que para una variable aleatoria discreta, las probabilidades asignadas a los
distintos elementos del espacio muestral pueden ser distintas de 0)

La distribución de probabilidad o función de masa de probabilidad (fmp) de una


variable discreta se define para cada número x como:
𝑝(𝑥) = 𝑃(𝑋 = 𝑥)
La función de masa de probabilidad, define la probabilidad de observar un dicho valor x
cuando se realiza el experimento asociado. Para ello se requiere que p(x)>=0 y que la
sumatoria de todas las posibles x sea igual a 1 (Σ𝑝(𝑥) = 1; ∀ 𝑝𝑜𝑠𝑖𝑏𝑙𝑒 𝑥)

Parámetro de una distribución de probabilidad


Suponga que p(x) depende de la cantidad que puede ser asignada a cualquiera de un
número de valores posibles, y cada valor determina una distribución de probabilidad
diferente. Tal cantidad se llama parámetro de distribución. El conjunto de todas las
distribuciones de probabilidad para diferentes valores del parámetro se denomina familia de
distribuciones de probabilidad.

Ejemplo para la fmp de la distribución Bernoulli:

Para este fmp el parámetro sería p

Función de distribución acumulada


Para algún valor fijo x, a veces se desea calcular la probabilidad de que el valor observado
de la variable aleatoria X sea a lo más x.

Por ejemplo:

Para la presente distribución de probabilidad la probabilidad de que X sea a lo más 1 es

Asimismo se identifican las siguientes probabilidades:

La función de distribución acumulada (fda) de una variable aleatoria discreta X con


función de masa de probabilidad p(x) se define para cada número x como:
Para cualquier número x, F(x) es la probabilidad de que el valor observado de la variable
aleatoria X sea a lo más x.

Valor esperado de X y valor esperado de una función de X


Sea X una variable aleatoria discreta con un conjunto de valores posibles D y una función
de masa de probabilidad p(x). El valor esperado o valor medio de X, denotado por E(X) o
µ𝑋 está dado por:

A menudo interesará poner atención al valor esperado de alguna función h(X) en lugar de
sólo en E(X).

Si la variable aleatoria X tiene un conjunto de posibles valores D y una función de masa de


probabilidad p(x), entonces el valor esperado de cualquier función h(x) denotada por E[h(x)]:

E[h(x)] se calcula del mismo modo que E(X), excepto que h(x) sustituye a x.

Reglas del valor esperado:


Sean a,b constantes; y X una v.a. El valor esperado trata las siguientes reglas:

La conjunción de ambas reglas defina la siguiente:

Varianza de X
La varianza de una variable X refiere a una medida de dispersión que mide la variabilidad
de una serie de datos respecto a su media, su dispersión respecto a la media.
Sea p(x) la función de masa de probabilidad de X y µ su valor esperado. La varianza de X,
2 2
denotada por V(X) o σ𝑋, o simplemente σ está dada por:

Considerando lo anterior la varianza representa el promedio ponderado (p(x)) de las


2
desviaciones al cuadrado ((x-µ) ).

Si la mayor parte de la distribución de probabilidad está cerca de la media, entonces la


varianza será relativamente pequeña; sin embargo, si existen valores x alejados de la media
que tienen una gran probabilidad, la varianza será bastante grande.

Otra forma simplificada de expresar la varianza está dada por la siguiente ecuación:

Reglas de la varianza:
Sean a,b constantes; y X una v.a. La varianza trata las siguientes reglas:

Distribuciones de probabilidad particulares

Distribución de probabilidad binomial


Para referirnos a una variable que se distribuye binomial, primero debemos atenernos al
concepto de Experimento Binomial; un experimento binomial corresponde a un
experimento que satisface las siguientes 4 condiciones:
1. El experimento consta de una secuencia de n experimentos más pequeños llamados
ensayos, donde n se fija a priori al experimento.
2. Cada ensayo puede dar por resultado uno de dos resultados posibles (dicotómico);
los cuales se denotan como éxito (S) o fracaso (F).
3. Los ensayos son independientes, de modo que el resultado en cualquier ensayo
particular no influye en el resultado de cualquier otro ensayo.
4. La probabilidad de éxito (P(S)) es constante de un ensayo a otro; esta probabilidad
se denota por p.

Considerando ya una definición sucinta de lo que es un experimento binomial, una variable


aleatoria binomial X asociada a un experimento binomial que consiste en n ensayos se
define como:

𝑋 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 é𝑥𝑖𝑡𝑜𝑠 (𝑆) 𝑒𝑛 𝑛 𝑒𝑛𝑠𝑎𝑦𝑜𝑠

Una variable que se distribuye binomial consta de dos parámetros:


n = Número de ensayos del experimento binomial
p = Probabilidad de éxito del experimento binomial

𝑋 ∼ 𝐵𝑖𝑛(𝑛, 𝑝)

Por otra parte, la función de masa de probabilidad para una variable aleatoria binomial X se
denota por b(x;n,p). La función de masa de probabilidad representa la probabilidad de que
se obtenga un valor x puntual, para una variable aleatoria X con parámetros n y p; tal que:

La media y varianza para X distribuido binomial está dada por las siguientes
proposiciones:

Distribución de probabilidad hipergeométrica


La distribución hipergeométrica se define bajo experimentos con los siguientes supuestos:
1. La población o conjunto que se va a muestrear se compone de un número N de
elementos finitos.
2. Cada elemento de esa población puede caracterizarse como éxito (S) o fracaso (F) y
existen M éxitos en la población.
3. Se selecciona una muestra de n individuos sin reemplazo de tal modo que cada
subconjunto de tamaño n tenga la misma probabilidad de ser seleccionado.

Considerando ya una definición sucinta de lo que supone el experimento, una variable


aleatoria hipergeométrica para una población de N elementos, con M éxitos, de la que se
toma una muestra de n elementos; se define como:

X = Número de éxitos (S) en la muestra

Una variable hipergeométrica consta de tres parámetros:

N = Tamaño de la población
M = Cantidad de éxitos en la población
n = Tamaño de la muestra

𝑋 ∼ 𝐻𝐺(𝑁, 𝑀, 𝑛)

Por otra parte, la función de masa de probabilidad para una variable aleatoria
hipergeométrica X se denota por h(x;n,M,N). La función de masa de probabilidad representa
la probabilidad de que se obtenga un valor x puntual, para una variable aleatoria X con
parámetros N, M y n; tal que:
La media y la varianza para X distribuido hipergeométrico está dado por las siguientes
proposiciones:

Donde la razón M/N corresponde a la proporción de éxitos en la población; pudiendo ser


reemplazado por p:

Distribución de probabilidad binomial negativa


La distribución binomial negativa se define en base al mismo experimento presente en la
distribución binomial, bajo las mismas condiciones:
1. El experimento consta de una secuencia de ensayos independientes
2. Cada ensayo puede dar por resultado uno de dos resultados posibles (dicotómico);
los cuales se denotan como éxito (S) o fracaso (F).
3. La probabilidad de éxito (P(S)) es constante de un ensayo a otro; esta probabilidad
se denota por p.
4. El experimento continúa (se realizan ensayos) hasta que un total de r éxitos hayan
sido observados, donde r es un número entero especificado.

Considerando ya una definición sucinta de lo que es un experimento binomial, una variable


aleatoria binomial negativa X asociada a un experimento binomial que consiste en n
ensayos se define como:

X = Número de experimentos realizados que preceden al r-ésimo éxito

Una variable binomial negativa consta de dos parámetros:

r = Resultados de éxito a conseguir


p = Probabilidad de éxito

𝑋 ∼ 𝐵𝑁(𝑟, 𝑝)

Por otra parte, la función de masa de probabilidad para una variable aleatoria binomial
negativa X se denota por nb(x;r,p). La función de masa de probabilidad representa la
probabilidad de que se obtenga un valor x puntual, para una variable aleatoria X con
parámetros N, M y n; tal que:
La media y la varianza para X distribuido binomial negativo está dado por las siguientes
proposiciones:

Distribución de probabilidad Poisson


A pesar de la inexistencia de un experimento particular que caracteriza la utilización de la
distribución Poisson; la misma tiene una amplia aplicabilidad. Una variable aleatoria
poisson X, con media λ; se define con un único parámetro:

λ = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎

𝑋 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(λ)

Por otra parte, la función de masa de probabilidad para una variable Poisson X se denota
por p(x;λ). La función de masa de probabilidad representa la probabilidad de que se obtenga
un valor x puntual, para una variable aleatoria X con parámetro λ; tal que:

Por otra parte se tiene que una aproximación entre la distribución binomial y la distribución
poisson

La media y la varianza para X distribuido Poisson está dado por las siguientes
proposiciones:

Proceso de Poisson
Un proceso de Poisson describe la ocurrencia de eventos aleatorios de interés con una tasa
constante en el transcurso del tiempo. Una V.A que depende del tiempo X(t) es un proceso
de Poisson si satisface los siguientes supuestos:
1. X(0)=0 ; La cantidad de eventos en el instante 0 del intervalo es igual a 0.
2. Sigue una distribución Poisson para cada intervalo de tiempo con parámetro λ𝑡;
−λ𝑡 𝑥
𝑒 *(λ𝑡)
𝑃𝑥(𝑡) = 𝑥!
3. El número de eventos ocurridos durante un intervalo de tiempo en independiente del
número ocurrido antes de ese intervalo de tiempo (los incrementos son
independientes).

𝑋(𝑡) ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(λ𝑡)

Donde λ es el número esperado de eventos que ocurren en un tiempo unitario, es decir la


rapidez o tasa de cambio del proceso.

Variables aleatorias continuas y sus distribuciones de probabilidad

Distribución de probabilidad para variables aleatorias continuas


La distribución de probabilidad o función de densidad de probabilidad, para una
variable continua, es una función f(x) tal que para dos números cualesquiera a y b, con
a<=b se cumple que:

Es decir, la probabilidad de que X asuman un valor en el intervalo [a,b] es la integral de la


función de densidad sobre este intervalo; es decir, el área formada sobre este intervalo y
bajo la gráfica de la función de densidad (curva de densidad).

Para que f(x) sea una función de densidad de probabilidad legítima, debe satisfacer dos
condiciones:
1. f(x)>=0; con todas las x

2. ∫ 𝑓(𝑥)𝑑𝑥 = Á𝑟𝑒𝑎 𝑏𝑎𝑗𝑜 𝑡𝑜𝑑𝑎 𝑙𝑎 𝑔𝑟á𝑓𝑖𝑐𝑎 𝑑𝑒 𝑓(𝑥) = 1
−∞

Función de distribución acumulada


La función de distribución de probabilidad acumulada para una variable aleatoria
continua entrega las probabilidades P(X≤x) integrando la función de densidad de
probabilidad f(y) entre los límites -∞ y x:

F(x) es el área bajo la curva de densidad a la izquierda de x.


Utilización de la función de distribución de probabilidad acumulada:

Utilización de la función de distribución de probabilidad acumulada en el cálculo de


percentiles:

Valores esperados de X y valor esperado de una función de X


Sea X una variable aleatoria continua, con función de densidad de probabilidad f(x); el valor
esperado o valor medio de esta variable está dada por la siguiente ecuación:

Si se tiene la variable aleatoria X con una respectiva función de densidad de probabilidad


f(x), entonces el valor esperado de cualquier función h(x) denotada por E[h(x)] es:

Varianza de X
La varianza y la desviación estándar son medidas cuantitativas que señalan cuánta
dispersión hay en la distribución o población de valores de x.
El cálculo de esta varianza se puede facilitar mediante el uso de una fórmula abreviada:

Distribución de probabilidad normal


Una variable aleatoria continua X que tiene distribución normal consta de dos parámetros
distintivos, denotandose con la siguiente notación:
µ = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛
2
σ = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛

2
𝑋 ∼ 𝑁(µ, σ )

Por otra parte, la misma cuenta con una función de densidad de probabilidad dada por la
notación 𝑓(𝑥; µ, σ), expresada por la siguiente ecuación:

2 2
1 −(𝑥−µ) /(2σ )
𝑓(𝑥; µ, σ) = 𝑒 ;− ∞ < 𝑥 < ∞
2πσ

La media y la varianza para X distribuido normal está dado por las siguientes
proposiciones:

Distribución de probabilidad exponencial


Una variable aleatoria continua X que tiene distribución exponencial consta de un único
parámetro distintivo, denotando con la siguiente notación:
λ = 𝐿𝑎𝑚𝑏𝑑𝑎, 𝑞𝑢𝑒 𝑔𝑒𝑛𝑒𝑟𝑎𝑙𝑚𝑒𝑛𝑡𝑒 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑢𝑛𝑎 𝑡𝑎𝑠𝑎 𝑑𝑒 𝑐𝑎𝑚𝑏𝑖𝑜

𝑋 ∼ 𝐸𝑥𝑝(λ)

Por otra parte, la misma cuenta con una función de densidad de probabilidad dada por la
notación 𝑓(𝑥; λ), expresada por la siguiente ecuación:
Y una función de densidad acumulada dada por la siguiente ecuación:

La media y la varianza para X distribuido exponencial está dado por las siguientes
proposiciones:

La distribución exponencial se utiliza con frecuencia como modelo de la distribución de


tiempos entre la ocurrencia de eventos sucesivos; es decir, tiempo transcurrido entre
eventos sucesivos.

También podría gustarte