Está en la página 1de 32

Tema 1

Estadística II

Conceptos básicos sobre


probabilidad
Índice
Esquema 3

Ideas clave 4
1.1. Introducción y objetivos 4
1.2. Variable aleatoria 5
© Universidad Internacional de La Rioja (UNIR)

1.3. Repaso a los modelos de probabilidad 8


1.4. Cálculo de probabilidades y puntos críticos con
Gretl 20
1.5. Actividades resueltas para practicar 26

A fondo 28

Test 30
© Universidad Internacional de La Rioja (UNIR)

CON CEP TOS BÁ SI COS SOBRE P ROBA BI LI DA D

Concepto de variable aleatoria: se trata de una variable que se define sobre un suceso que se desarrolla en tiempo futuro.
Existe por tanto una incertidumbre sobre el valor que tomará esta variable, pudiendo sobre ella definir un modelo de
probabilidad que permita contralar dicha incertidumbre.

VARIABLES VARIABLES
ALEATORIAS ALEATORIAS
DISCRETAS CONTINUAS

Probabilidad sobre variables aleatorias:

Binominal Normal
Modelos que se deducen
X~N(μ, σ^2)
VARIABLES VARIABLES de la normal
ALEATORIAS ALEATORIAS  T-student
X~B(n, p)

Normal estándar:
DISCRETAS CONTINUAS  Chi-cuadrado
Poisson 𝑍𝑍 =
𝑋𝑋 − 𝜇𝜇 𝑋𝑋 − 𝜇𝜇
=  F-fisher
X~P(λ·t) 𝜎𝜎 2 𝜎𝜎

Tema 1. Esquema
Estadística II
Esquema

3
Ideas clave

1.1. Introducción y objetivos

Ya estudiamos en el segundo bloque de contenidos de Estadística I el concepto de


variable aleatoria y el cálculo de probabilidades a partir de las funciones de
probabilidad y análogamente desde los modelos de probabilidad. En este curso nos
centramos en el cálculo de probabilidad mediante uso de los modelos de
probabilidad, por lo que seguiremos haciendo uso del software Gretl con tal fin.

El estudio de la probabilidad en el ámbito empresarial es fundamental porque la toma


de decisiones acertada constituye la base de la supervivencia de la empresa. Dado
que la mayor parte de estas decisiones se deben toman en contextos de
incertidumbre, donde no conocemos qué nos aguarda el futuro, la probabilidad se
muestra como una herramienta imprescindible para poder controlar esta
incertidumbre haciendo más fácil y acertada la toma de decisiones.

Además, la probabilidad es fundamental de cara a la realización de inferencias


estadísticas (aproximaciones a la realidad completa en base al estudio de un
subconjunto representativo de esta). La realización de inferencias es la materia
central de la asignatura de Estadística II. Tener una buena base de probabilidad es
fundamental para entenderla. Además, la probabilidad y la inferencia estadística
constituyen la base para la aplicación de las herramientas de inferencia sobre los
modelos econométricos que te ayudarán a predecir la evolución futura de las
variables de interés en tus decisiones empresariales, y que estudiarás en la asignatura
© Universidad Internacional de La Rioja (UNIR)

de Econometría.

El propósito de este tema es que repases los conceptos de probabilidad que


aprendiste en Estadística I y el concepto de variable aleatoria. Ambos conceptos van
a ser necesarios para comenzar y avanzar en el estudio de esta asignatura.

Estadística II
4
Tema 1. Ideas clave
Te recordaremos también cómo se utiliza el software Gretl para el cálculo de
probabilidades en base a los modelos de probabilidad. Lo cual ya fue materia en
Estadística I pero que ahora va a resultar una herramienta imprescindible a lo largo
de toda la asignatura.

Se detallan a continuación los objetivos que se pretenden conseguir en este tema:

 Recordar el concepto de variable aleatoria.


 Repasar el concepto de modelo de probabilidad y el cálculo de probabilidades a
partir de estos.
 Estudiar a fondo los principales modelos de probabilidad que serán utilizados en
esta asignatura.
 Aprender a trabajar con las distribuciones de probabilidad nuevas que se derivan
de la normal: chi-cuadrado, t-student y F de Fisher o Snedecor.
 Repasar el uso del software Gretl para el cálculo de probabilidades y búsqueda de
valores críticos.

1.2. Variable aleatoria

Concepto

Diremos que estamos frente a una variable aleatoria cuando esta se define sobre un
suceso que se desarrollará en tiempo futuro. Por tanto, no puede asignársele un valor
a dicha variable hasta que el suceso se haya producido. Un ejemplo recurrente que
nos ayudará a comprender este concepto, aunque alejado del mundo empresarial, es
© Universidad Internacional de La Rioja (UNIR)

el del lanzamiento de un dado. Hasta que no se lance y caiga sobre el tablero no


podemos decir qué número se va a obtener. Por tanto, resulta obvio que seremos
reacios a tomar decisiones en base al número que va a salir ya que no sabemos qué
va a ocurrir. Sin embargo, sabemos que vamos a obtener un número entero entre el
1 y el 6 y que cada uno de estos valores ocurrirá con probabilidad 1/6. De este modo,

Estadística II
5
Tema 1. Ideas clave
solo podemos conocer los valores que puede tomar la variable aleatoria «número
obtenido al lanzar un dado» y la probabilidad de que ocurran. Esto es lo que vamos a
tener siempre que trabajemos con variables aleatorias: desconocimiento sobre sus
valores reales, pero probabilidades asociadas que nos permiten controlar su
incertidumbre.

Así, el rango o conjunto de posibles resultados de una variable aleatoria viene


determinado por el conjunto de número reales que conforman los posibles
resultados del mismo. Dichos valores dependen de la realización futura del suceso o
hecho, no pudiendo ser determinados con anterioridad.

Las variables aleatorias se suelen denotar con letras mayúsculas tomadas del final del
abecedario. Normalmente utilizamos X, aunque en aquellos casos en los que fuese
necesario considerar más variables aleatorias, utilizamos las letras posteriores (Y, W,
Z). Se consideran las respectivas variables en minúsculas para denotar los valores que
toma la variable aleatoria x, y, etc., también llamamos a estos valores realizaciones
de la variable aleatoria. Utilizamos en ocasiones subíndices para denotar las variables
aleatorias dentro de un mismo experimento haciendo alusión al número de
repetición de este. De este modo 𝑋𝑋1 indicaría la variable aleatoria relativa a la primera
repetición de un experimento aleatorio, 𝑋𝑋2 denotaría la segunda repetición, y, en
general, 𝑋𝑋𝑖𝑖 haría alusión a la i-ésima repetición del experimento aleatorio. Así, tras
realizar el experimento N veces obtendremos un conjunto de valores que pueden
obtenerse del experimento aleatorio al que denominamos conjunto muestral:
{𝑋𝑋1 , 𝑋𝑋2 , … 𝑋𝑋𝑁𝑁 }.

Probabilidad inducida
© Universidad Internacional de La Rioja (UNIR)

Llamamos probabilidad inducida a la probabilidad definida sobre un subconjunto de


números reales dentro del espacio de valores posibles de la variable aleatoria 𝑋𝑋. En

Estadística II
6
Tema 1. Ideas clave
el ejemplo del lanzamiento del dado, 1/6 es la probabilidad inducida por el suceso1
«Obtener el número i» (𝑃𝑃(𝑋𝑋 = 𝑖𝑖) con i=1, … 6).

Adoptamos una notación simplificada para representar la probabilidad de ciertos


sucesos. Así, dados dos números reales a, b ∈ R, se tiene que:

1. 𝑃𝑃(𝑋𝑋 ≥ 𝑎𝑎) = 𝑃𝑃(𝑋𝑋 ∈ [𝑎𝑎, +∞))


2. 𝑃𝑃(𝑋𝑋 > 𝑎𝑎) = 𝑃𝑃(𝑋𝑋 ∈ (𝑎𝑎, +∞))
3. 𝑃𝑃(𝑋𝑋 ≤ 𝑎𝑎) = 1 − 𝑃𝑃(𝑋𝑋 > 𝑎𝑎)
4. 𝑃𝑃(𝑎𝑎 < 𝑋𝑋 ≤ 𝑏𝑏) = 𝑃𝑃(𝑋𝑋 ∈ ([𝑎𝑎, 𝑏𝑏]) = 𝑃𝑃(𝑋𝑋 ≤ 𝑏𝑏) − 𝑃𝑃(𝑋𝑋 ≤ 𝑎𝑎) = 𝑃𝑃(𝑋𝑋 > 𝑎𝑎) −
𝑃𝑃(𝑋𝑋 > 𝑏𝑏)

A esos valores de probabilidad les llamaremos probabilidades inducidas y lo


simbolizaremos mediante la letra 𝑝𝑝. A los valores reales a, b ∈ R les llamamos valores
críticos o puntos críticos y para que la probabilidad inducida sea mayor que cero estos
valores deberán formar parte del soporte de la variable (el soporte de la variable es
el conjunto de posibles resultados).

Variables aleatorias en Estadística II

Las variables aleatorias con las que vamos a trabajar en el curso de Estadística II
(Inferencia estadística) van a ser las fórmulas que fueron utilizadas como medidas
resumen o estadísticos descriptivos en Estadística I. Por ejemplo, la media aritmética,
la varianza, la desviación típica, … van a ser ahora tratadas como variables aleatorias
porque su valor numérico o resultado va a depender del conjunto de datos sobre el
que estemos trabajando. Y es que este conjunto de datos al que llamaremos muestra
es en sí mismo una variable aleatoria, ya que podrá tomar valores dentro de un rango
© Universidad Internacional de La Rioja (UNIR)

de posibles resultados, los cuales serán desconocidos antes de llevar a cabo el


muestreo. Veamos un ejemplo para entenderlo mejor.

1 Es una posible realización de la variable aleatoria.

Estadística II
7
Tema 1. Ideas clave
Pensemos en un trabajador cualquiera de una empresa, cualquier trabajador elegido
al azar: ¿cuál es el salario de este trabajador? Lo más seguro es que no seas capaz de
adivinar su salario, tan solo podrás a lo sumo indicar el rango salarial en el que
esperas se encuentre su salario. Una vez le hayas preguntado a este trabajador, ya
podrás asignarle un valor. Pero, ¿y si ahora que conocemos su salario cambiamos de
trabajador? Vuelta a empezar… Estamos aquí trabajando con la variable aleatoria
«Salario de un trabajador escogido al azar». Si sobre un conjunto seleccionado de
trabajadores queremos calcular la media del salario, es fácil ver que esta media va a
cambiar de valor en función del conjunto de trabajadores que seleccionemos y del
valor del salario de estos. Por eso decimos que la media aritmética es una variable
aleatoria.

¿Cómo seleccionamos estos trabajadores y por tanto ese conjunto denominado


muestra? Dicha selección se va a llevar a cabo por técnicas de muestreo y que lo ideal
es que el método de muestreo empleado sea aleatorio, para asegurar independencia
entre sus elementos y que todos los miembros, en nuestro ejemplo trabajadores,
tengan la misma probabilidad de poder ser seleccionados.

Por tanto, en este curso la media aritmética, la varianza, … van a ser tratadas como
variables aleatorias que como tales van a tener asociadas unas funciones de
probabilidad y, por tanto, podremos asignarles un modelo de probabilidad que nos
permitirá controlar los posibles resultados que estas pueden llegar a mostrar.

1.3. Repaso a los modelos de probabilidad


© Universidad Internacional de La Rioja (UNIR)

La idea de los modelos de probabilidad es la de asociar cada variable aleatoria con un


tipo de comportamiento particular el cual lleva asociado un determinado modelo
probabilístico (con su función de probabilidades y medidas resumen conocidas). Este
modelo nos va a permitir simplificar los cálculos de probabilidad asociados a dicha
variable aleatoria. Este cálculo de probabilidades será todavía más sencillo con el uso

Estadística II
8
Tema 1. Ideas clave
de un soporte informático, Gretl, el cual nos permite conocido el modelo de
probabilidad calcular las probabilidades inducidas por ciertos valores del soporte.

Vamos a ir repasando cada uno de estos modelos de probabilidad y el tipo de


comportamiento que modelizan para el caso de variables aleatorias discretas y
continuas. Nos centraremos solo en aquellos que nos van a ser útiles en esta
asignatura.

En el recurso 1 de la sección A fondo encontrarás un interesante recurso para


practicar y aprender más sobre estos modelos.

Modelos de probabilidad para variables aleatorias discretas

Bernoulli

Representa al tipo de variable aleatoria más sencilla donde esta muestra la


realización de un suceso de interés al que llamaremos éxito (E), siendo su suceso
�). La variable definida como una Bernoulli tomará el valor 1 en
contrario el fracaso (E
caso de éxito y 0 en el caso de fracaso, es por tanto una variable binaria. Lo
denotamos como X~b(p).

En cuanto a las probabilidades asociadas tenemos:


P(éxito) = P(E) = p
�) = 1-p
P(fracaso) = P(E

El valor y el cálculo de estas probabilidades dependerá de la variable con la que


© Universidad Internacional de La Rioja (UNIR)

estemos trabajando y de cómo haya sido definido a partir de ésta lo que


denominamos un éxito.

La media es E(X) = p, y la varianza σ2 = p(1-p)

Estadística II
9
Tema 1. Ideas clave
Un ejemplo de experimento de Bernoulli es el «lanzamiento de una moneda al aire»
con probabilidad p para cara y (1-p) para cruz (aunque pueden definirse los sucesos
al revés). Si se trata de una moneda equilibrada, la probabilidad de éxito y de fracaso
será ½ en cada caso. Veamos otro ejemplo.

Ejemplo

Artículos defectuosos: modelo Bernoulli

En un lote hay N artículos fabricados entre los cuales hay n defectuosos.


Se toma al azar un artículo del lote y se observa si es defectuoso o no. La
variable aleatoria X que representa «el artículo extraído es defectuoso»
se distribuye como una b(p) donde p es la probabilidad de éxito (ser
defectuoso). ¿Cuál es la probabilidad de que el artículo extraído sea
defectuoso?

1
Aplicando Laplace se tiene que: 𝑃𝑃(𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑) = 𝑁𝑁

Binomial

La distribución binomial surge cuando estamos interesados en el «Número de veces


que ocurre un éxito en 𝑛𝑛 repeticiones independientes». Se deduce por tanto de la
Bernulli para el caso en el que el experimento se repite sucesivas veces y la
probabilidad de éxito se mantiene constante. En el ejemplo anterior equivaldría a
lanzar la moneda n veces. La variable aleatoria, dado que cuenta el número de éxitos
en n repeticiones tomará los valores de 0, 1, 2, …n.

La denotamos como X~B(n; p).


© Universidad Internacional de La Rioja (UNIR)

La función de probabilidad de que ocurran exactamente 𝑥𝑥 éxitos, P(X = x), será:


n
P(X = x) = � � (p)x (1-p)n-x
x
donde
𝑛𝑛 𝑛𝑛!
� �=
𝑥𝑥 𝑥𝑥! · (𝑛𝑛 − 𝑥𝑥)!

Estadística II
10
Tema 1. Ideas clave
Para calcular la probilidad se necesitará conocer el número de veces que se repite el
experimento y la probabilidad de éxito, la cual será calculada por la regla de Laplace
tal y como se vió en el caso de la Bernulli.

Veremos más adelante como el software Gretl simplificará el cálculo de estas


probabilidades. Pero no olvidemos que Gretl internamente hará uso de la función de
probabilidad de la binominal que acabamos de indicar. El uso de este software será
desarrollado en la sección 1.4.

Las medidas resumen para una variable con distribución binomial son,
▸ media E(X) = np
▸ varianza σ2 = np(1-p).

Ejemplo

Modelo de distribución Binomial

¿Cuál es la probabilidad de que en una familia de 4 hijos exactamente 2


sean niñas?
𝑋𝑋~𝐵𝐵(4; 0,5)

Aplicamos ahora la fórmula de la binomial para el caso donde se quiere


calcular la probabilidad de que la variable aleatoria X tome el valor igual
a 2:
4
𝑃𝑃(𝑋𝑋 = 2) = � � (0,5)2 (1 − 0,5)4−2 = 6 · 0,25 · 0,25 = 0,375
2

4·3·2·1 24
Donde previamente se ha calculado que �42� = 2·1 (2·1) = 4
=6
© Universidad Internacional de La Rioja (UNIR)

Estadística II
11
Tema 1. Ideas clave
Modelos de probabilidad para variables aleatorias continuas

Las variables aleatorias con las que vamos a trabajar en esta asignatura son
continuas. En el recurso 2 de la sección A fondo, encontrarás un mayor desarrollo de
las variables continuas y su cálculo de probabilidades con ejemplos.

La distribución normal

La distribución normal es una de las más habituales en Inferencia estadística, pues


uno de los supuestos simplificadores bajo el que trabajaremos es la normalidad de la
población llevada a estudio. Además, en general, cuando suponemos que las
variables aleatorias tienen una distribución normal se simplifican los cálculos de
probabilidades.

Pasemos a su definición.

Una variable aleatoria 𝑋𝑋 normal es una variable aleatoria continua con media 𝜇𝜇 ∈ 𝑅𝑅
y varianza 𝜎𝜎 2 > 0 la cual puede tomar cualquier valor. Se representa como
𝑋𝑋~𝑁𝑁(𝜇𝜇, 𝜎𝜎 2 ) y su función de densidad de probabilidad viene representada por la
conocida como campana de Gauss o distribución Gaussiana en honor al estadístico
C.F. Gauss.

Dicha función, cuya representación podemos ver en la figura 1, es simétrica respecto


de su media 𝜇𝜇. Dicha simetría implica que el 50% de los valores que puede tomar la
variable 𝑋𝑋 quedan repartidos a cada lado de su valor central que coincide con la
media de 𝜇𝜇 . Dicho valor central es también la mediana y la moda de la distribución.
© Universidad Internacional de La Rioja (UNIR)

Estadística II
12
Tema 1. Ideas clave
Figura 1. Representación de la distribución normal o campana de Gauss.
(Elaboración propia).

Algunos ejemplos de variables aleatorias que siguen una distribución normal son la
altura de un individuo y su peso, las calificaciones de unos estudiantes en los
exámenes y el valor que puede tomar cualquier indicador macroeconómico para un
conjunto de territorios. Esto es así porque se trata de ejemplos en los que el mayor
número de observaciones se encuentra alrededor de un valor medio, siendo menos
probable o asociándole una menor masa de probabilidad a valores extremos (en las
colas).

Sin embargo, hay variables aleatorias que no siguen una distribución normal. Un
ejemplo de este caso lo encontramos en la variable «Renta anual de las familias».
Esto es así porque los valores que puede tomar dicha variable continua no se
encuentran simétricamente distribuidos alrededor de un valor central, si no que el
conjunto de valores que puede tomar esa variable va desde el 0 hasta un valor
máximo indeterminado. Esta variable presenta una mayor frecuencia en los valores
próximos a cero y una menor probabilidad conforme va tomando valores elevados
acercándose al valor máximo. Se dice así que la distribución presenta asimetría por
la derecha.

Es posible transformar estas variables para que sigan una distribución normal. Una
© Universidad Internacional de La Rioja (UNIR)

transformación habitual consiste en tomar el logaritmo neperiano de la variable, lo


cual tiene sentido para variables positivas como el caso de la renta. En este caso si X
es una variable positiva con distribución simétrica por la derecha entonces su
transformación logarítmica 𝑌𝑌 = 𝑙𝑙𝑙𝑙(𝑋𝑋) se distribuye como una distribución 𝑙𝑙𝑙𝑙𝑙𝑙 −
𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛.

Estadística II
13
Tema 1. Ideas clave
Propiedades de la función de densidad normal

La función de densidad de probabilidades 𝑁𝑁(𝜇𝜇, 𝜎𝜎 2 ) tiene las siguientes propiedades:


 Es simétrica respecto a 𝜇𝜇.
 Tiene un máximo en 𝑥𝑥 = 𝜇𝜇.
 Es estrictamente creciente a la izquierda de 𝜇𝜇 y estrictamente decreciente a su
derecha.
 Los puntos 𝑥𝑥 = 𝜇𝜇 − 𝜎𝜎 y 𝑥𝑥 = 𝜇𝜇 + 𝜎𝜎 son puntos de inflexión de la función.
 Sus límites en el +∞ y +∞ son iguales a 0.

La distribución normal tipificada

El concepto de tipificación ya fue visto en Estadística I, donde lo definimos como el


proceso por el cual una variable aleatoria con media 𝜇𝜇 y varianza 𝜎𝜎 2 pasa a tener
media 0 y varianza 1. Vimos como este proceso servía para estandarizar dos variables
con distinta media y varianzas, trayéndolas a una misma distribución para poder ser
comparadas. Por tanto, esta distribución de probabilidades representa un caso
particular de la distribución normal vista anteriormente, donde la variable aleatoria
𝑋𝑋~𝑁𝑁(𝜇𝜇, 𝜎𝜎 2 ) pasa a tener distribución 𝑁𝑁(0, 1).

Se puede demostrar que esto es así recurriendo a la transformación 𝑍𝑍 de la variable


𝑋𝑋~𝑁𝑁(𝜇𝜇, 𝜎𝜎 2 ):
𝑋𝑋 − 𝜇𝜇
𝑍𝑍 = ~𝑁𝑁(0,1)
√𝜎𝜎 2
De este modo se obtiene que:
1
𝐸𝐸(𝑍𝑍) = (𝐸𝐸(𝑋𝑋) − 𝜇𝜇) = 0, 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑞𝑞𝑞𝑞𝑞𝑞 𝐸𝐸(𝑋𝑋) = 𝜇𝜇
𝜎𝜎
1 1
© Universidad Internacional de La Rioja (UNIR)

𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 2 (𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) − 0) = 2 · 𝜎𝜎 2 = 1, 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑞𝑞𝑞𝑞𝑞𝑞 𝑉𝑉𝑉𝑉𝑉𝑉(𝜇𝜇) = 0 𝑦𝑦 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝜎𝜎 2


𝜎𝜎 𝜎𝜎

La función de densidad de probabilidades de 𝑍𝑍 queda centrada en el valor 0, tal y


como se muestra en la figura siguiente.

Estadística II
14
Tema 1. Ideas clave
N(0, 1)

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-5 -4 -3 -2 -1 0 1 2 3 4 5

Figura 2. Representación de la normal estándar.

(Elaboración propia con el software Gretl).

Vemos a continuación como calculamos en un ejemplo concreto probabilidades de


una población normal.

Ejemplo

Cálculo de probabilidad sobre una variable aleatoria normal

El incremento de los salarios de los trabajadores de una empresa se


distribuye según una normal de media 12,4 % y desviación típica 3.6 %.
𝑋𝑋~𝑁𝑁(12,4; 3,62 )

¿Cuál es la probabilidad de que este año el incremento de los salarios sea


superior al 15%?

La probabilidad que nos están pidiendo es 𝑃𝑃(𝑋𝑋 > 15)


© Universidad Internacional de La Rioja (UNIR)

Esta probabilidad se puede extraer del software Gretl conocida la


distribución de 𝑋𝑋 o realizando la tipificación sobre dicha variable
aleatoria. Así, eligiendo la segunda opción (tipificando 𝑋𝑋�), se tiene que:

15 − 12,4
𝑃𝑃(𝑋𝑋 > 15) = 𝑃𝑃 �𝑍𝑍 < � = 𝑃𝑃(𝑍𝑍 > 0,722) = 0,23515
3,6

Estadística II
15
Tema 1. Ideas clave
El proceso de obtención de dicha probabilidad con el software Gretl
puedes verlo desarrollado en la sección 1.4.

La distribución Chi-cuadrado

Se trata de una distribución de las que denominamos «de la familia de la distribución


normal» pues se obtiene a partir de variables aleatorias normales tipificadas e
independientes, del modo que mostramos a continuación:

Sean 𝑍𝑍1 , 𝑍𝑍2 , … 𝑍𝑍𝑞𝑞 variables aleatorias con distribución 𝑁𝑁(0, 1). Entonces, la variable
𝑌𝑌 queda definida como la suma al cuadrado de todas ellas y se distribuye Chi-
cuadrado con 𝑞𝑞 grados de libertad y se denota como χq :
𝑞𝑞

𝑌𝑌 = � 𝑍𝑍𝑖𝑖2 ~χ2𝑞𝑞
𝑖𝑖=1

El rango de la variable aleatoria Chi-cuadrado es el conjunto continuo [0, +∞) por


tratarse de la suma de cuadrados positivos de variables aleatorias continuas con
rango (−∞, +∞). Su esperanza y su varianza son respectivamente 𝑞𝑞 y 2𝑞𝑞.

La forma de la distribución de la Chi-cuadrado es asimétrica por la derecha y los


diferentes grados de libertad conforman toda una familia de posibles distribuciones
de probabilidad. Vemos a continuación el gráfico extraído del programa Gretl para
Chi-cuadrado con 5 grados de libertad. Mayores grados de libertad desplazarán el
máximo de la función a la derecha.
© Universidad Internacional de La Rioja (UNIR)

Estadística II
16
Tema 1. Ideas clave
0.16
Chi-cuadrado(5)

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 2 4 6 8 10 12 14 16 18

Figura 3. Distribución de probabilidad de la Chi-cuadrado con 5 grados de libertad.

(Elaboración propia con el software Gretl).

¿Cómo obtenemos los grados de libertad de la distribución?

 Sumamos los cuadrados de (𝑋𝑋1 − 𝑋𝑋�), (𝑋𝑋2 − 𝑋𝑋�), … , (𝑋𝑋𝑛𝑛 − 𝑋𝑋�).


 Son n elementos que hemos de plantearnos si son o no independientes.
 Sabemos que la suma de desviaciones a la media es cero: ∑𝑛𝑛𝑖𝑖=1(𝑋𝑋1 − 𝑋𝑋�) = 0.
 No son independientes. Si conocemos: (𝑋𝑋1 − 𝑋𝑋�), (𝑋𝑋2 − 𝑋𝑋�), … , (𝑋𝑋𝑛𝑛−1 − 𝑋𝑋�)
podemos determinar (𝑋𝑋𝑛𝑛 − 𝑋𝑋�) a partir de ∑𝑛𝑛𝑖𝑖=1(𝑋𝑋1 − 𝑋𝑋�) = 0.
 Tenemos (n-1) elementos independientes → (n-1) grados de libertad.

La distribución t-student

Se trata de otro modelo de probabilidad de los que denominaos «familia de la


normal» ya que podemos obtener la v.a. con distribución t-student a partir de una
variable aleatoria normal estándar y otra v.a. con distribución Chi-cuadrado.
© Universidad Internacional de La Rioja (UNIR)

Sea 𝑍𝑍~𝑁𝑁(0, 1) y 𝑌𝑌~χ𝑞𝑞 siendo 𝑍𝑍 e 𝑌𝑌 variables aleatorias independientes, se tiene que

una variable aleatoria 𝑊𝑊 se distribuye t-student con 𝑞𝑞 grados de libertad si se define


como:
𝑍𝑍
𝑊𝑊 = ~𝑡𝑡𝑞𝑞
𝑌𝑌

𝑞𝑞

Estadística II
17
Tema 1. Ideas clave
Siendo 𝑡𝑡𝑞𝑞 la notación considerada para la distribución t-student con 𝑞𝑞 grados de
libertad.

Al igual que ocurría con la distribución Chi-cuadrado, la forma de la curva de la


distribución t-student también depende de los grados de libertad que se estén
considerando. En cuanto a su forma general es esta muy parecida a la de la normal
estándar, y se aproxima a esta a medida que aumentan sus grados de libertad. Es así
simétrica respecto del valor central 0.

La Figura 5 reproduce en Gretl la forma de una distribución t-student con cinco grados
de libertad:

Figura 5. Distribución de probabilidad de una variable aleatoria t-student con 5 grados de libertad.
(Elaboración propia con el software Gretl).

La distribución F-Fisher o F-Snedecor

Sean dos variables aleatorias con distribución Chi-cuadrado con 𝑞𝑞1 y 𝑞𝑞2 grados de
© Universidad Internacional de La Rioja (UNIR)

libertad, respectivamente tales que 𝑌𝑌1 ~χ1 y 𝑌𝑌2 ~χ2 , entonces se define la variable
aleatoria con distribución 𝐹𝐹 como el cociente de dichas variables aleatorias divididas
entre sus grados de libertad:
𝑌𝑌1 /𝑞𝑞1
~𝐹𝐹
𝑌𝑌2 /𝑞𝑞2 𝑞𝑞1 , 𝑞𝑞2

Estadística II
18
Tema 1. Ideas clave
Al igual que la distribución Chi-cuadrado y la t-student esta es otra distribución del
grupo de v.a. provenientes de la distribución normal.

Al igual que la Chi-cuadrado no se trata de una distribución simétrica, sino asimétrica


por la derecha siendo la forma de su curva de densidad dependiente de los grados de
libertad que se consideren. A continuación, se reproduce en Gretl la forma de una
distribución F con cinco y siete grados de libertad. El rango de la variable aleatoria F
de Snedecor, al igual que ocurría con la Chi-cuadrado, es el intervalo [0, +∞).

Figura 6. Distribución de probabilidad de una variable aleatoria F de Snedecor con cinco grados de
libertad. (Elaboración propia con el software Gretl).

En el recurso 3 de la sección A fondo encontrarás un interesante material con


ejercicios resueltos sobre el cálculo de probabilidades con los diferentes modelos de
probabilidad estudiados en este apartado.
© Universidad Internacional de La Rioja (UNIR)

Estadística II
19
Tema 1. Ideas clave
1.4. Cálculo de probabilidades y puntos críticos con
Gretl

Introducimos en esta sección el software que vamos a utilizar a lo largo de la


asignatura para el cálculo de probabilidades y valores críticos. Su nombre es Gretl y
se trata de un software libre de código abierto. Podemos encontrar información de
interés sobre este software, así como obtener su descarga en diferentes idiomas y
para diferentes sistemas operativos en el siguiente enlace:

Accede al software a través del aula virtual o desde la siguiente dirección web:
http://gretl.sourceforge.net/es.html

A continuación, mostramos una imagen donde se observa la hoja de trabajo inicial


que nos aparecerá siempre al abrir el programa, así como una imagen superpuesta
con el logotipo y diferente información referente al software:
© Universidad Internacional de La Rioja (UNIR)

Figura 7. Interfaz del software Gretl.

(Elaboración propia con el software Gretl).

Estadística II
20
Tema 1. Ideas clave
El primer uso que vamos a darle a Gretl es el del cálculo de probabilidades. Para ello
debemos abrir el programa y en la parte superior de lo que hemos llamado «hoja de
trabajo» seleccionamos en la barra de menú superior la opción «herramientas», la
cual puede visualizarse en la imagen anterior. Allí aparecen las dos opciones que van
a ser utilizadas dentro del cálculo de probabilidades:

Buscador de valores p

Permite el cálculo de la probabilidad inducida por un determinado valor. Pulsando


dicha opción se abre una ventana la cual, conocido el modelo de probabilidad y los
parámetros que lo definen, nos permite obtener la probabilidad inducida para cada
valor que podría tomar la variable aleatoria. Dicho valor deberá ser tecleado como
input para el cálculo de su probabilidad. Así, el output que obtendremos será la
probabilidad 𝑃𝑃(𝑋𝑋 ≥ 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣) siendo 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 el input introducido.

Vemos en la siguiente imagen la ventana que se nos abre y todos los modelos de
distribución de probabilidades que podemos seleccionar entre los cuales se
encuentran los aprendidos en este tema: t-student, chi-cuadrado y F, además de la
normal que ya fue introducida en Estadística I.
© Universidad Internacional de La Rioja (UNIR)

Figura 8. Cálculo de probabilidades según modelo de probabilidad.


(Elaboración propia con el software Gretl).

Estadística II
21
Tema 1. Ideas clave
Debe tenerse en cuenta que Gretl siempre calcula probabilidades sobre el lado o cola
derecha de la distribución. Si bien, para el caso de distribuciones simétricas, el
programa indicará el valor a dos colas, así como el valor de la cola complementaria.

Vamos a ver diferentes ejemplos que ya fueron desarrollados a lo largo de este


capítulo para mostrar cómo vamos a proceder con este software. Algo de suma
importancia que deberás tener en cuenta en toda la asignatura siempre que trabajes
con Gretl es que todos los valores que nos da Gretl siguen el criterio anglosajón de
fijación de decimales, esto es, la indican los decimales mediante un punto y no se
utiliza separador de miles.

Desarrollamos en primer lugar el cálculo de probabilidad de una normal cuyo ejemplo


de cálculo de probabilidades fue introducido en la sección 1.3.

Ejemplo

Búsqueda de la probabilidad inducida en el ejemplo de la Normal


desarrollado en la Sección 1.3.

Tenemos una normal con media 12,4 y desviación típica 3,6. Podemos
introducir estos parámetros directamente en Gretl y calcular así en base
a dicha distribución la probabilidad 𝑃𝑃(X > 15) = 𝑃𝑃(𝑍𝑍 > 0.722). Así
tendríamos que ir a Gretl «herramientas»  «buscador de valores p» e
introducir dichos valores del siguiente modo:
© Universidad Internacional de La Rioja (UNIR)

Estadística II
22
Tema 1. Ideas clave
Obtenemos así que la probabilidad que estamos buscando 𝑃𝑃(𝑋𝑋 > 15) se
obtiene a partir de la tipificación de está buscando así la 𝑃𝑃(𝑍𝑍 > 0,722) =
0,23515

También podríamos haberlo hecho directamente sobre la variable X


introduciendo en este caso a Gretl los parámetros 12,4 de media y 3,6 de
desviación típica. Vemos cómo el valor de probabilidad resultante es el
mismo:
© Universidad Internacional de La Rioja (UNIR)

Estadística II
23
Tema 1. Ideas clave
Vamos ahora con un ejemplo para la distribución Chi-cuadrado, el cual utiliza los
grados de libertad como parámetros para caracterizar la distribución de
probabilidades a utilizar.

Ejemplo

Búsqueda de la probabilidad inducida en el caso de una variable


aleatoria con distribución Chi-cuadrado

Tenemos una Chi-cuadrado con 3 grados de libertad y el punto crítico o


valor sobre el que se está calculado la probabilidad, es 6.94, introducimos
dichos valores en Gretl.

Tal y como vimos para otras distribuciones, Gretl nos da la probabilidad


© Universidad Internacional de La Rioja (UNIR)

de la cola derecha esto es 𝑃𝑃(𝑋𝑋 > 𝑐𝑐) y entre paréntesis su


complementaria (cola izquierda). Por tanto, tenemos así y con ello
concluimos que 𝑃𝑃(𝑋𝑋 > 6,94) = 0,0738.

Vemos a continuación el cuadro que se abre para la introducción de los


grados de libertad y el valor crítico o valor del soporte de la distribución:

Estadística II
24
Tema 1. Ideas clave
Del mismo modo, en el caso de la t-student y la F-Fisher, Gretl nos pedirá los
parámetros que definen estos modelos de libertad, que al igual que ocurre con la chi-
cuadrado son los grados de libertad.

Tablas estadísticas

Gretl también nos permite encontrar el valor crítico (𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣) conocida la probabilidad
inducida por dicho valor. Esta opción la tenemos en Gretl en herramientas con el
nombre de «tablas estadísticas».

Proporciona el cálculo del valor asociado a una determinada probabilidad o área de


la distribución. Es el proceso inverso al que se explicaba en el punto anterior, ahora
el input es la probabilidad 𝑃𝑃(𝑋𝑋 ≥ 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣) y el output es el 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 que induce dicha
probabilidad. Definiremos en la última sección de este capítulo el cálculo concreto de
estos valores para cada distribución conocida. Denominamos a estos valores «puntos
© Universidad Internacional de La Rioja (UNIR)

o valores críticos».

Estadística II
25
Tema 1. Ideas clave
1.5. Actividades resueltas para practicar

1. El último plan de formación llevado a cabo por una determinada fue un éxito,
hasta el punto de que el 80% de los trabajadores lo valoraron como muy positivo.
En un grupo de 4 trabajadores que realizaron y valoraron dicho curso, ¿cuál es la
probabilidad de que al menos uno haya valorado como «muy positivo»?
𝑋𝑋 = «𝑛𝑛º 𝑑𝑑𝑑𝑑 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑞𝑞𝑞𝑞𝑞𝑞 ℎ𝑎𝑎𝑎𝑎 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑦𝑦 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑒𝑒𝑒𝑒 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑑𝑑𝑑𝑑 4 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡»

𝑃𝑃(𝑑𝑑𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢𝑢𝑢 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣ó𝑛𝑛 «𝑚𝑚𝑚𝑚𝑚𝑚 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑖𝑖𝑣𝑣𝑣𝑣») = 0,8


𝑋𝑋~𝐵𝐵(4; 0,8)
𝑃𝑃(𝑋𝑋 ≥ 1) = 𝑃𝑃(𝑋𝑋 > 0) = 0,9984

2. El nivel de estrés laboral presentado por un trabajador al finalizar un periodo de


producción elevada sigue una distribución normal con media 192 y desviación
típica 12.

𝑋𝑋 = 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒é𝑠𝑠~𝑁𝑁(192; 122 )

Calcula la probabilidad de que una persona adulta sana tenga un nivel de estrés:

a) Superior a 200 unidades.

A partir de Gretl tenemos dos modos de obtener dicha probabilidad.


Directamente sobre la distribución original:

𝑃𝑃(𝑋𝑋 > 200) = 0,2514


© Universidad Internacional de La Rioja (UNIR)

También podemos tipificar la variable y recurrir a la normal estándar:

200 − 192
𝑃𝑃(𝑋𝑋 > 200) = 𝑃𝑃 �𝑍𝑍 > � = 𝑃𝑃(𝑍𝑍 > 0,66) = 0,2514
12

Estadística II
26
Tema 1. Ideas clave
b) Entre 180 y 220 unidades.

Del mismo modo, podemos utilizar directamente la distribución original o


tipificar los valores sobre los que se calcula la probabilidad y recurrir a la
distribución normal estándar.

𝑃𝑃(180 ≤ 𝑋𝑋 ≤ 220) = 𝑃𝑃(𝑋𝑋 ≥ 180) − 𝑃𝑃(𝑋𝑋 ≥ 220) = 0,83153


180 − 192
𝑃𝑃(𝑋𝑋 ≥ 180) = 𝑃𝑃 �𝑍𝑍 ≥ � = 𝑃𝑃(𝑍𝑍 ≥ −1) = 0,841345
12
220 − 192
𝑃𝑃(𝑋𝑋 ≥ 220) = 𝑃𝑃 �𝑍𝑍 ≥ � = 𝑃𝑃(𝑍𝑍 ≥ 2.33) = 0,009815
12
© Universidad Internacional de La Rioja (UNIR)

Estadística II
27
Tema 1. Ideas clave
A fondo
Los modelos de probabilidad discretos y continuos

Epidat 4. (octubre, 2014). Ayuda de Distribuciones de probabilidad. Sergas.

Proporcionamos a continuación un enlace donde puedes encontrar todos los tipos


de modelos de probabilidad tanto para el caso continuo como el discreto. Aprenderás
con ellos y verás que hay muchos más casos y experimentos por modelizar además
de los aprendidos en este tema.

Accede al documento a través del aula virtual o desde la siguiente dirección web:
https://www.sergas.es/Saude-
publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubr
e2014.pdf

Variables aleatorias continuas y el cálculo de probabilidades

UBA. (s.f.). Variables aleatorias continuas y el cálculo de probabilidades. UBA.

Encontrarás un mayor desarrollo de las variables continuas y su cálculo de


probabilidades con ejemplos en el siguiente enlace.

Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.dm.uba.ar/materias/probabilidades_estadistica_C/2004/1/PyEC05.pdf
© Universidad Internacional de La Rioja (UNIR)

Estadística II
28
Tema 1. A fondo
Ejercicios resueltos sobre modelos de probabilidad

De la Fuente, S. (s.f.). Ejercicios resueltos sobre modelos de probabilidad. UAM. Facultad


Ciencias Económicas y Empresariales.

En el siguiente enlace encontrar todo un manual repleto de ejercicios resueltos con


los que podrás practicar el cálculo de probabilidades a partir de los modelos de
distribución. Se selectivo y presta atención a aquellos ejercicios que trabajan los
modelos que hemos estudiado en este tema y que van a ser útiles en el curso de
Estadística II.

Accede al documento a través del aula virtual o desde la siguiente dirección web:
http://www.fuenterrebollo.com/Aeronautica2016/ejer-distribuciones.pdf
© Universidad Internacional de La Rioja (UNIR)

Estadística II
29
Tema 1. A fondo
Test
1. Una variable aleatoria que indica el número de éxitos en n pruebas de Bernouilli,
sigue una distribución binomial cuando:
A. El número de pruebas sea suficientemente grande.
B. Las pruebas son independientes y la probabilidad de éxito permanece
constante.
C. Al aumentar el número de pruebas el producto no permanece constante.

2. Si una décima parte de personas sufre retrasos al incorporarse cada mañana a su


puesto de trabajo, ¿cuál es la probabilidad de que entre 100 personas escogidas
al azar exactamente ocho de ellas lleguen un día cualquiera con retraso?
A. 0,05.
B. 0,75.
C. 0,115.

3. Un acontecimiento ocurre, en la población, en el 10% de los casos. ¿Qué tamaño


de muestra debo tomar para tener una probabilidad del 95% de obtener al menos
un éxito?
A. 100.
B. 10.
C. 58.

4. Según indica el Instituto Nacional de Estadística, la población española en 1992


era de 15 201 000 habitantes, de los que 2 789 000 estaban parados. Se escogen
diez personas al azar entre la población activa. La probabilidad de que
© Universidad Internacional de La Rioja (UNIR)

exactamente cinco sean parados es de:


A. 0,1835.
B. 0,01903.
C. 0,00406152.

Estadística II
30
Tema 1. Test
5. El gerente de personal de una gran compañía requiere que los solicitantes a un
puesto efectúen cierta prueba y alcancen una calificación de 500. Si las
calificaciones de la prueba se distribuyen normalmente con media µ = 485 y
desviación estándar σ = 30. ¿Qué porcentaje aproximado de los solicitantes
pasará la prueba?
A. 31.
B. 50.
C. 85.

6. En un quiosco de periódicos se supone que el número de ventas diarias se


distribuye normalmente con media 30 y varianza 2. La probabilidad de que en un
día se vendan entre 13 y 31 periódicos es:
A. 0,2397.
B. 0,7603.
C. Aproximadamente 1.

7. Para la variable aleatoria «tiempo empleado, en horas, en hacer un determinado


trabajo» que sigue una distribución 𝑁𝑁(10, 22 ), se pide la probabilidad de que ese
producto se tarde en hacer menos de 7 horas, teniendo como resultado:
A. 0,067.
B. 0,866.
C. 0,134.

8. Cuando una binomial tiene n suficientemente grande, esta se puede aproximar a


normal con:
A. Media 𝑛𝑛 y varianza 𝑛𝑛 · 𝑝𝑝
B. Media 𝑝𝑝 y varianza 𝑝𝑝(1 − 𝑝𝑝)
© Universidad Internacional de La Rioja (UNIR)

C. Media 𝑛𝑛 · 𝑝𝑝 y varianza 𝑛𝑛 · 𝑝𝑝(1 − 𝑝𝑝)


D. Media 𝑛𝑛 y varianza 𝑛𝑛 − 𝑝𝑝

Estadística II
31
Tema 1. Test
9. La probabilidad de que la maquina fabrique una pieza defectuosa es de 0,0001.

Suponiendo que las piezas se fabrican de modo independiente y que se fabrican


2000 piezas al año, ¿cuál es el número medio anual de piezas defectuosas?
A. 2000*0,0001.
B. 0,0001/2000.
C. 2000/0,0001.

10. La distribución Chi-cuadrado se deduce de una normal estándar del siguiente


modo:
A. Es la suma de q variables aleatorias normales estándar.
B. Es la suma de q variables aleatorias normales estándar al cuadrado (es la
definición de una Chi cuadrado, consultar teoría del tema).
C. Es el cociente entre una normal estándar y la suma de q normales estándar
al cuadrado.
© Universidad Internacional de La Rioja (UNIR)

Estadística II
32
Tema 1. Test

También podría gustarte