Está en la página 1de 17

EE-ET-EM-EQ1011 Estadística y Optimización PRACTICA 2 con

Práctica 2. Descriptiva 2 muestras y Modelos de Probabilidad.


1. Tabla contingencia y Coeficiente de Contingencia (Tarea 1)
2. Relación lineal: medidas y recta de regresión (Tareas 2 y 3, pág. 2 a 5)
• Ejemplos relación no lineal y regresión múltiple (para información, pág. 5 a 8)
3. Modelos de probabilidad discretos (pág. 8)
4. Modelos de probabilidad continuos (pág. 13)
5. Ejercicios para practicar

1.Tabla Contingencia y Coef. Contingencia.


PRIMERO debemos importar el conjunto de datos que exportamos en práctica 1 “Datosprac1.txt“

TAREA 1. Calcula la tabla de contingencia del pesoINT (fila) y grado (columna). Calcula el coeficiente
de contingencia entre estas dos variables categóricas y comenta el resultado.
Estadísticos > Tabla de contingencia > Tabla de doble entrada

Seleccionamos la variable que queremos en filas y la que queremos en columna. Si en Estadísticos


- dejamos Sin porcentajes obtendremos las frecuencias absolutas conjuntas.
- elegimos Porcentajes del total obtendremos otra tabla con las frecuencias relativas
conjuntas y las marginales (ambas en porcentajes).

Hemos obtenido la tabla de contingencia con frecuencias absolutas conjuntas.

1.1 ¿Cuántos estudiantes pesan entre 56 y 66 kilos?


1.2 ¿Qué porcentaje de estudiantes pesan (56, 66] kilos y son del grado de industriales?
1.3 De los estudiantes de industriales, qué porcentaje representan los que pesan (56, 66]

Práctica 2 – curso 2023 Página 1


EE-ET-EM-EQ1011 Estadística y Optimización PRACTICA 2 con

Para obtener el coeficiente de contingencia C= sqrt(2 / (2 + N)) utilizamos la ventana del R-Script
escribiendo la fórmula donde sustituimos los valores:
2 = X-squared = 20.8248 N = 40 (porque tenemos 40 datos) y apretamos Ejecutar

➢ Cómo son las variables ¿dependientes o independientes? Como 0.5851 (coeficiente contingencia)
está lejos de 0, podemos suponer que hay relación entre las variables (son dependientes).
También podemos suponer que son dependientes al nivel de significación α = alfa= 0.1, porque p-value = 0.05301 es
menor que alfa = 0.1 (lo veremos en tema 3)

2. Vamos A ESTUDIAR AHORA LA RELACION lineal ENTRE DOS VARIABLES NUMÉRICAS (tareas 2 y
3) aunque también hay ejemplos de relación no lineal y de relación múltiple.
Datos en archivo “datosmu2.xls”
Datos > Importar datos > desde conjunto de datos Excel, …
seleccionamos Hoja 1 y apretamos OK

TAREA 2. Consideramos 12 máquinas manejadas por dos operarios diferentes (A y B), en las que
medimos el tiempo que están funcionando al día (en horas) y la energía consumida (en kw).

Operario A A A A A B B B B B B B
HORAS 4.3 4.2 3.9 4.4 2.5 3.8 5.7 6.1 4.5 3.5 3.7 4.6
ENERGIA (kw) 22 20 21 21 14 19 29 32 23 18 17 23

2.a) Calcula el coeficiente de correlación y la covarianza entre las variables HORAS y ENERGIA.

Estadísticos > Resúmenes > Matriz de correlaciones

> cor(Datosprac2[,c("ENERGIA","HORAS")], use="complete")


ENERGIA HORAS
ENERGIA 1.000000 0.978981 coeficiente correlación lineal
HORAS 0.978981 1.000000

Para obtener la covarianza debemos cambiar cor por cov en la última instrucción que tenemos en
Práctica 2 – curso 2023 Página 2
EE-ET-EM-EQ1011 Estadística y Optimización PRACTICA 2 con

la ventana del R-Script y apretamos Ejecutar


> cov(Datosprac2[,c("ENERGIA","HORAS")], use="complete")
ENERGIA HORAS
ENERGIA 24.446970 4.6121212 covarianza
HORAS 4.612121 0.9078788

En la diagonal principal están las varianzas insesgadas de ENERGIA y HORAS

2.b) Haz la nube de puntos de la variable ENERGIA como explicativa y variable HORAS como
explicada. Relaciona este gráfico con las medidas calculadas en apartado (2.a).

Gráficas > Gráfica XY (solo hace la nube de puntos)

Se observa relación lineal positiva porque la


5
pendiente es positiva (covarianza y correlación
positivos). Bastante fuerte porque los puntos
HORAS

están próximos a una línea (correlación


4
próxima a 1).

3
Por tanto, será adecuado hacer un ajuste
lineal calculando la recta de regresión
correspondiente.
15 20 25 30

ENERGIA

TAREA 3. Nos interesa predecir las HORAS que se trabaja si se han consumido 25 kilowatios.

3.a) Identifica la variable independiente X (explicativa) y la variable dependiente Y (explicada).


La variable explicativa (independiente) es de la que tenemos información (ENERGIA) y la explicada
o dependiente es la que queremos predecir (HORAS).

Práctica 2 – curso 2023 Página 3


EE-ET-EM-EQ1011 Estadística y Optimización PRACTICA 2 con

3.b) Escribe la ecuación del ajuste lineal para obtener esa predicción.
Estadísticos > Ajuste de modelos > Regresión lineal

De los resultados nos interesan los coeficientes debajo de la columna Estimate


Por tanto, la ecuación de la recta de regresión es (y* = A + Bx)
HORAS* = 0.19479 + 0.18866 · ENERGIA

=A
=B

3.c) Calcula la predicción de HORAS para 25 kilowatios.


En la ventana de R-Script escribimos la ecuación de la recta, sustituyendo el valor de ENERGIA que
nos dan y dejando el cursor en esa línea, apretamos Ejecutar :

Predicción para x=25

3.d) Comenta la bondad del ajuste e identifica el valor del coeficiente de determinación.
El ajuste es muy bueno porque coeficiente de determinación lineal R2 = Multiple R-squared =
0.9584 está muy próximo a UNO.

Si al dibujar la nube de puntos queremos también dibujar la recta de regresión debemos hacer:

Gráficas > Diagrama de dispersión elegid variable X e Y; dejad solo Línea de mínimos ….

Práctica 2 – curso 2023 Página 4


EE-ET-EM-EQ1011 Estadística y Optimización PRACTICA 2 con

5.5
HORAS

4.5
3.5
2.5

15 20 25 30

ENERGIA

EJEMPLO relación NO LINEAL. (pro11, Lec2) Ajustad una función potencial que exprese la cantidad de iones
de calcio en función de los iones de sulfato: calcio* = a · sulfato b
Dibujamos el diagrama de dispersión siendo sulfato =v. independiente (x); calcio =v. dependiente (y)
0.06

Como vemos el ajuste lineal NO ES ADECUADO.


calcio

0.04

Para ajustar al modelo potencial, debemos tomar


logaritmos: log(calcio) = log a + b*log(sulfato)
0.02

0.005 0.010 0.015 0.020 0.025

sulfato

En el R, logaritmo neperiano de 8 se escribe log(8). El número e elevado a 4 es exp(4)


Vamos a calcular los valores de los coeficientes log(a) y b. Para ello utilizamos:
Estadísticos > Ajuste de modelos > Modelo lineal

Práctica 2 – curso 2023 Página 5


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

Introducimos nombre al modelo: modpotencial


Escribimos las variables log (calcio) log(sulfato)
Apretamos Aceptar

De los resultados nos interesan los coeficientes debajo de Estimate:


(Intercept) - 8.06284 = log(a) → a = exp( - 8.06284) = 0.0003150308
log(sulfato) - 1.00431 = b

Por tanto el modelo ajustado es: calcio* = 0.0003150308 · sulfato^( - 1.00431)

La bondad del ajuste es muy buena porque Adjusted R-squared = 0.9995 está muy próximo a 1.

Si vemos que los datos ajustan a un modelo parabólico (y = a + bx + cx^2) debemos hacer:
Estadísticos > Ajuste de modelos > Modelo lineal
En la izquierda escribimos la variable explicada (dependiente).
En la derecha escribimos 1 + I (explicativa) + I (explicativa^2)

Si el modelo fuera y = a + bx + cx^2 + dx^3, entonces


En la derecha escribimos 1+ I (explicativa) + I (explicativa^2) + I (explicativa^3)

EJEMPLO Regresión múltiple. En un proceso de fundición de tapas de aluminio por inyección, se está intentando minimizar el
índice de porosidad encontrado en ellas. Este índice se puede obtener a través de rayos X. Al parecer la Temperatura del aluminio
líquido y la Presión con que éste se inyecta en el molde afectan al índice de porosidad de la placa resultante. El objetivo es estimar
la relación existente entre el índice de porosidad con la temperatura (Temp) y presión (Pres), y encontrar unas condiciones óptimas

Práctica 2 – curso 2023 Página 6


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

de trabajo en las cuales la porosidad sea mínima. Para esto, hemos recopilado datos sobre el índice de porosidad variando la
temperatura y presión en los intervalos que los técnicos del proceso han recomendado.

Vamos a hacer una Regresión Múltiple (consideramos más de una variable independiente). La variable dependiente (explicada)
es Porosidad y las independientes (explicativas) son: Presion, presión al cuadrado (Presion2), Temperatura, temperatura al
cuadrado (Temperatura2) y el producto TempxPres
Estadísticos > Ajuste de modelos > Regresión lineal

Elegimos las 5 variables


independientes, manteniendo
apretada la tecla Ctrl
del ordenador.

Muy buen ajuste


porque 0.9997 está
muy próximo a 1

De los resultados → nos interesan los coeficientes debajo de Estimate, para escribir la ecuación del modelo:
Porosidad = 1056– 0.2042*Pres + 0.0004725*Pres2 – 2.803*Temp + 0.00255*Temp2 – 0.0008552*TempxPres

Calcula la predicción del índice de porosidad para los valores: Temperatura = 690.6 Presion = 841
Temperatura2 = 476928.36 Presion2 = 707281 TempxPres = 580794.6
En la ventana R-Script escribimos hay que poner el nombre del modelo

Predict( REGmultiple, data.frame(Temperatura = 690.6, Presion = 841,


Temperatura2 = 476928.36, Presion2 = 707281, TempxPres = 580794.6))

Todo en una línea o seleccionando todo y apretamos Ejecutar

Práctica 2 – curso 2023 Página 7


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

3. MODELOS DE PROBABILIDAD DISCRETOS (apartado 5.2 de la lección 5):

Solo en modelos discretos

Probabilidad individual: P(X = a) (también se puede calcular usando P(X ≤ a) – P(X ≤ a – 1)

λ= lambda = media (parámetro del modelo)

El R elige entre qué valores calcula las


probabilidades individuales

A la izquierda tenemos los valores de la variable y en la columna Probability tenemos la


probabilidad individual en cada valor.

Probabilidad acumulada cola izquierda: P(X ≤ a) = f(0) + f(1) + f(2) +…+ f(a-1) + f(a)
Probabilidad acumulada cola derecha: P( X > a) = f(a+1) + f(a+2) + f(a+3) + ….

• En el caso del modelo Binomial, habríamos seleccionado:


Distribuciones > Distribuciones discretas > Distribución binomial > Probabilidades binomiales acumuladas

Práctica 2 – curso 2023 Página 8


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

n = nº de pruebas
p = probabilidad de éxito

• En el modelo Hipergeométrico, los parámetros son:


Podemos escribir varios valores,
separados por comas

Nº de elementos que interesan


Nº de elementos que no interesan
n=nº de extracciones

Tened en cuenta que nosotros definimos el modelo hipergeométrico de parámetros(N, n, p):


N=nº total de elementos = sumar nº bolas blancas y nº bolas negras= m+n
n= nº de extracciones = k
p= probabilidad del primer éxito = m/(m+n)

• En el modelo Binomial negativo, debemos considerar la variable X R = X – nº éxitos.

Por ejemplo, si X= “nº de pruebas necesarias para tener 3 éxitos” → BN(k=3, p=0.55) y nos piden
P(X = 3) = P(XR = 3 - 3) = P(XR = 0) = 0.1663750000
P(X = 4) = P(XR = 4 - 3) = P(XR = 1) = 0.2246062500
P(X = 5) = P(XR = 5 - 3) = P(XR = 2) = 0.2021456250
P(X = 6) = P(XR = 6 - 3) = P(XR = 3) = 0.1516092187 …..

Práctica 2 – curso 2023 Página 9


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

EJERCICIO 1. En una gran fábrica, el 35% de las personas que trabajan son mujeres. Elegimos una
muestra de 15 personas (nº pruebas o ensayos) y nos interesa calcular:
1.1 la probabilidad de que haya 2 mujeres en la muestra.
1.2 la probabilidad de que haya como máximo 6 mujeres.
1.3 la probabilidad de que haya más de 10 mujeres en la muestra.
1.4 ¿cuántas mujeres acumulan hasta el 80% de probabilidad? → valor a tal que P(X ≤ a) = 0.80
1.5 la representación gráfica de la función de probabilidad (cuantía) y de la función de distribución.

Si X = “número de mujeres en 15 personas” sigue modelo BINOMIAL con P(éxito = ser mujer) =
p=0.35 y n=15

1.1 Nos piden P(haya 2 mujeres) = P(X = 2) = 0.04755531


Distribuciones > Distribuciones discretas > Distribución binomial > Probabilidades binomiales
Ensayos binomiales 15 probabilidad de éxito 0.35 Apretamos Aceptar

Práctica 2 – curso 2023 Página 10


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

1.2 la probabilidad de que haya como máximo 6 mujeres→ P(X ≤ 6) = f(0)+f(1)+f(2)+…+f(5)+f(6).


Podemos sumar las probabilidades individuales del 0 al 6 obtenidas en el apartado anterior, pero es
más rápido usar la opción de acumuladas:
Distribuciones > Distribuciones discretas > Distribución binomial > Probabilidades binomiales
acumuladas

Cola izquierda

P(X ≤ 6) = 0.7548425

1.3 la probabilidad de que haya más de 10 mujeres en la muestra → P(X > 10) = f(11)+f(12)+…+f(15)
Distribuciones > Distribuciones discretas > Distribución binomial > Probabilidades binomiales
acumuladas

P(X > 10) = 0.002831425

Cola derecha

1.4 el número máximo de mujeres que tenemos el 80% de las veces → valor a tal que P(X≤a) = 0.80
Distribuciones > Distribuciones discretas > Distribución binomial > Cuantiles binomiales

a = 7 = P80 (cuantil 80)

Práctica 2 – curso 2023 Página 11


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

1.5 la representación gráfica de:


➢ la función de probabilidad (masa)
➢ la función de distribución
Distribuciones > Distribuciones discretas > Distribución binomial > Gráfica de la distribución
binomial
Escribimos los valores de nuestros parámetros, elegimos opción Gráfica de la función de
probabilidad y Aceptar. En la instrucción que se obtiene en el R-Script he modificado los
títulos:

Seleccionamos las 5 líneas y apretamos Ejecutar

Binomial: trials=pruebas=15, P(exito)=0.35


0.20
Probability Mass

0.10
0.00

0 2 4 6 8 10

Nºexitos = nº successes

➢ Repetimos el proceso marcando la opción: Gráfica de la función de distribución y


modificando títulos:

Seleccionamos las 5 líneas y apretamos Ejecutar

➢ ¿Qué número de mujeres tiene acumulado por debajo el 40% de probabilidad?


Buscamos en la vertical el valor 0.4 y prolongamos horizontalmente hasta cortar al diagrama de
escalera, y en ese punto trazamos vertical para encontrar el valor de la variable: en este caso 5
mujeres. Es decir: P(X <= 5) = 0.4

Práctica 2 – curso 2023 Página 12


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

1.0 Binomial: trials=pruebas=15, P(exito)=0.35


Cumulative Probability

0.8
0.6
0.4
0.2
0.0

0 2 4 6 8 10

Nº exitos

Ejercicio 2. (Hacedlo vosotr@s) Suponemos que X = “número de averías que sufre una máquina en
un mes” sigue modelo Poisson de media 2 averías en un mes. Calcula:
2.1 P(tener solo 1 avería en un mes) = P(X = 1) =
2.2 P(tener más de 1 avería) = P(X > 1) =
2.3 P(tener menos de 4 averías) = P(X < 4) =
2.4 P(tener 3 ó más averías) = P(X  3) =
2.5 El 60% de las veces reparamos un máximo de ________ averías en un mes.
2.6 Haz la representación gráfica de la función de probabilidad e identifica el número de averías que
tiene mayor probabilidad.
2.7 P(tener exactamente 6 averías en dos meses)

4. MODELOS DE PROBABILIDAD CONTINUOS (apartado 5.3 de la lección 5).


Los parámetros en cada modelo son:

Normal → media = mean, desviación típica = sd


t → grados de libertad = df
Chi-cuadrado → grados de libertad = df
F → grados de libertad del numerador = df1, grados de libertad del denominador = df2
Exponencial → rate ( es 1/media )
Uniforme → mínimo = min, máximo = max

Gamma → parámetro de forma = shape, parámetro de escala (tasa inversa) = scale


Weibull → parámetro de forma = shape, parámetro de escala = scale

Práctica 2 – curso 2023 Página 13


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

➢ Probabilidad cola izquierda:


P(X ≤ x) = integral de menos infinito a x de la funcion de densidad correspondiente.
➢ Probabilidad cola derecha:
P(X > x) = integral de x a mas infinito de la funcion de densidad correspondiente.

➢ AQUÍ NO HAY PROBABILIDADES INDIVIDUALES: P(X = a) = 0 SIEMPRE

EJERCICIO 3. El peso de una pieza sigue modelo Normal de media µ = 400 gr. y desviación típica σ=5
gr.
3.1 Calcula la probabilidad de elegir una pieza que pese como máximo 395.5 gramos.
3.2 Calcula la probabilidad de elegir una pieza que pese más de 404.5 gramos.
3.3 ¿Qué relación ves en los resultados de los apartados 3.1 y 3.2? ¿Por qué ocurre eso?
3.4 Nos interesan las piezas que pesan entre 394.3 y 405.1. Calcula el porcentaje de piezas que
interesan.
3.5 Representa gráficamente la función de densidad de este modelo Normal, marcando la región de
probabilidad del apartado 3.4.
3.6 ¿Qué peso mínimo tienen el 60% de las piezas que pesan más?

3.1 Calcula la probabilidad de elegir una pieza que pese como máximo 395.5 gramos. P(X ≤ 395.5)
Distribuciones > Distribuciones continuas > Distribución normal > Probabilidades normales

Práctica 2 – curso 2023 Página 14


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

3.2 Calcula la probabilidad de elegir una pieza que pese más de 404.5 gramos → P(X > 404.5)
Distribuciones > Distribuciones continuas > Distribución normal > Probabilidades normales
Escribimos el valor de la variable que interesa y seleccionamos cola a derecha

➢ Para 3.1 y 3.2, obtenemos: Por usar cola izquierda

Cola izquierda

Cola derecha

3.3 ¿Qué relación ves en los resultados de los apartados 3.1 y 3.2? ¿Por qué ocurre eso?

3.4 Nos interesan las piezas que pesan entre 394.3 y 405.1. Calcula el porcentaje de piezas que
interesan.
Distribuciones > Distribuciones continuas > Distribución normal > Probabilidades normales

P(394.3  X  405.1) = P(X  405.1) – P(X  394.3) = 0.8461358 - 0.1271432 = 0.7189926 = 71’90%

Escribimos los dos valores a la vez, separados por comas.


El primer resultado obtenido es el del primer valor escrito.

Práctica 2 – curso 2023 Página 15


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

3.5 Representa gráficamente la función de densidad de este modelo Normal, marcando la región de
probabilidad del apartado 3.4.
Distribuciones > Distribuciones continuas > Distribución normal > Gráfica de la distribución normal

Tambien se pueden usar cuantiles. Por ejemplo si nos piden marcar la zona que deja por encima el
40%=0.4=p de probabilidad, usamos 1-p=0.6: Región 1: desde 0.6 a 1
Si nos piden marcar zona que ocupa el 80% de probabilidad a izquierda: Región 1: desde 0 a 0.8

3.6 ¿Qué peso mínimo tienen el 60% de las piezas que pesan más?
Debemos calcular el percentil (cuantil) 40 con cola a izquierda o el cuantil 60 con cola a derecha.

P(X≤a) = 0.4 → obtenemos a = P40 = 398.7333 P(X > b) = 0.6 → b = 398.7333 = a = P40

PODEIS APLICARLO A LOS PROBLEMAS ENUNCIADOS EN LA LECCION 5

EJERCICIOS para practicar.

Práctica 2 – curso 2023 Página 16


EE-ET-EM-EQ 1011 Estadística y Optimización PRACTICA 2 con

Problema 1. En el departamento de calidad tenemos 15 piezas, 5 defectuosas y 10 correctas. Seleccionamos


4 piezas de esas 15 sin reemplazamiento, y consideramos la variable aleatoria X= “número de piezas
defectuosas de las 4 seleccionadas”.
1.1) La variable X sigue modelo …………………….. de parámetros:
1.2) ¿Cuál es la probabilidad de haber seleccionado 1 pieza defectuosa?
1.3) ¿Cuál es la probabilidad de haber seleccionado más de 2 piezas defectuosas?

Problema 2. En una fábrica de muelles, la probabilidad de no tener averías en un día es 0.75. Queremos
tener 3 días sin averías, y consideramos la variable aleatoria Y= “número de días transcurridos para tener 3
días sin averías”.
2.1) La variable Y sigue modelo ………………………….. de parámetros:
2.2) ¿Cuál es la probabilidad de que tengan que transcurrir como máximo 7 días?
2.3) ¿Cuál es la probabilidad de que tengan que transcurrir 6 o más días?

Problema 3. La variable X = “tiempo que transcurre entre la llegada de dos clientes a un banco” sigue
modelo exponencial de media 5 minutos.
3.1) Calcula la probabilidad de que transcurran más de 6.6 minutos entre la llegada consecutiva de dos
clientes.
3.2) Representa la función de densidad de este modelo y marca la probabilidad calculada.

Problema 4. La variable X sigue modelo t-Student con 10 grados de libertad.


4.1) Calcula la probabilidad de que tome valores entre 0.45 y 1.95
4.2) Calcula el valor r tal que P(X ≤ r) = 0.2
4.3) Representa la función de densidad de este modelo y marca la región de probabilidad de (4.2)

Problema 5. La variable aleatoria X se distribuye F de Snedecor con 5 y 15 grados de libertad.


5.1) Calcula la probabilidad de que X tome valores entre 3.5 y 9.5
5.2) Calcula el valor de la variable que tiene acumulada a su derecha una probabilidad de 0.85.
5.3) Representa la función de densidad de este modelo y marca la región de probabilidad de (5.1)

Problema 6. La variable X sigue modelo chi-cuadrado con 14 grados de libertad.


6.1) Calcula la probabilidad de que tome valores entre 7.5 y 17.8
6.2) Calcula el valor r tal que P(X < r) = 0.97
6.3) Representa la función de densidad de este modelo y marca la zona de probabilidad de 6.2)

Práctica 2 – curso 2023 Página 17

También podría gustarte