TP Estadistica1

tp_estadistica1 file:///C:/Users/54116/Downloads/tp_estadistica1.
html
Mounted at /content/drive
1. Realizar un histograma para el total de casos y el total de muertes. Responder:
a) Si elijo una país al azar ¿En qué intervalo de valores es más probable encontrar el total de casos
de este país?
b) Estimar la probabilidad de que, al elegir un país al azar, este tenga un total de casos dentro del
intervalo encontrado en el inciso anterior.
Histogramas
1 de 11 11/12/2023, 12:55
tp_estadistica1 file:///C:/Users/54116/Downloads/tp_estadistica1.html
a) Al elegir un país al azar, el intervalo en el que es más probable que se encuentre el total de casos de
ese país es el primero. Ya que es el que tiene la mayor cantidad de países dentro de dicho intervalo. Que
va desde 0 a 1000000.
b) La probabilidad de que si elijo un país al azar, este tenga un total de casos dentro del intervalo antes
mencionado se calcula de la siguiente manera:
Cantidad dentro de intervalo

P (intervalo) = (1)
Tamaño de muestra
24
P (intervalo) = (2)
40
La probabilidad de que caiga en dicho intervalo un país elegido al azar es de:
24
= 0.60 (3)
40
2 de 11 11/12/2023, 12:55
1. Realizar un gráfico de caja para el total de casos y el total de muertes.
a) ¿En qué intervalo se concentra el 50 % de los valores centrales?
b) ¿Se puede distinguir algún valor atípico a partir de estos diagramas? ¿Qué característica tiene que
tener un valor para considerarse atípico?
c) Quitar los valores atípicos y mostrar el diagrama de cajas sin ellos. Indicar donde se encuentra el
primer, segundo y tercer cuartil.
d) ¿Qué información se puede destacar fácilmente de un gráfico de cajas a diferencia de un

histograma?
Gráficos de caja
3 de 11 11/12/2023, 12:55
24767.25 374371.5 2068021.0
a) EL 50% de los valores centrales se concentra en el intervalo que va desde el primer cuartil hasta el
tercer cuartil. Que en este caso particular para la variable 'Total de casos' es el [24767; 2068021]
b) A partir de este diagrama, resultan fácil de detectar los valores atípicos a simple vista ya que son
aquellos que van mas allá de los 'bigotes' del gráfico. Para considerarse valor atípico, debe estar alejado
del primer o tercer cuartil en más de 1.5 Rango intercuartílico, el Rango intercuartílico se calula como:
RIC = Tercer cuartil − Primer cuartil (4)
valores atipicos: [5631629, 38997490, 26318717, 17004677, 5464525, 38437756]
c) Diagrama de cajas para la variable 'Total de casos' pero sin los valores atípicos.
4 de 11 11/12/2023, 12:55
C) El primer cuartil es el limite inferior de la caja, el tercer cuartil es el límite superior de la caja y la
mediana es la línea horizontal que divide la caja. En este caso particular los valores son: Primer cuartil:
24767, Mediana: 374371, Tercer cuartil: 2068021.
D) A diferencia de un histograma, en el cual podemos ver la distribución de los datos. El gráfico de cajas
nos permite visualizar el centro, la dispersión la simetría de los datos y la presencia de valores atípicos.
Teorema central del límite

3)
a) A partir de una muestra aleatoria cualquiera M = {X1, X2, ..., X40} de 40 valores para una
población con media μ y varianza σ2:
i)¿Qué distribución sigue la media muestral o promedio? ¿Por qué? Hacer

un gráfico esquemático indicando la media y el desvío estándar de esta
variable.
ii) ¿Cuál es la probabilidad de que la media muestral se aleje de la media de

la población en más de un cuarto del desvío estándar de la población?
b) Encontrar un intervalo tal que haya un 95 % de probabilidad de que la media real de la

población de la variable ”Total de casos” caiga dentro, a partir de la muestra tomada. ¿Qué
podríamos hacer para achicar el largo del intervalo?
5 de 11 11/12/2023, 12:55
1. a)
i) Las medias de cada muestra tomada de la población, al ser suficientemente grandes

(n>30) por el teorema central del límite, sin importar la distribución de la población,
seguirá una distribución normal centrada en la media de la población.
A continuación se presenta gráfico de distribución de las medias muestrales de la variable total de casos.
Tomando 1000 muestras con un tamaño de muestra n=40. Si bien la distribución de la población no es
normal, por el teorema central del límite podemos observar como la distribución de las medias
muestrales se va aproximando a una campana, es decir, a una Distribución Normal.
Intervalo de confianza
• Cálculos necesarios para obtener intervalos.
Media de la población: 3735372.805825243
Desvío estándar de la población: 12095970.416183455
6 de 11 11/12/2023, 12:55
1. b)
Intervalo de confianza de 95% para la media de la población de la variable 'Total de casos'.
• Tomamos como estimador puntual a la media muestral:

n
1
¯x
¯¯ = ∑ xi (5)
n i=1
• A partir de la media muestral ¯x

¯¯ obtenemos pivote:
¯x
¯¯ − μ
Z= (6)
σ/√n
• Conociendo la distribución de Z buscamos un intervalo tal que:
P (−z < Z < z) = 0, 95 (7)

α
1 − α = 0, 05 → = 0, 025 (8)
2
P (Z > z) = 0, 025 (9)
• Busco en la tabla de distribución normal y obtengo:
z0,025 = 1, 96 (10)
• Fórmula para obtener intervalo de confianza: [¯x ]

¯¯ − z α σ ¯¯¯ σ
;x + zα
2 √n 2 √n
• Resolvemos:
[228611 − 1, 96 12095970 ; 228611 + 1, 96 12095970 ]

√40 √40
• Obtenemos el resultado del intervalo:
[1032230; 6888791]
Para obtener un intervalo mas chico deberíamos tomar muestras mas grandes y así obtendríamos una
mayor precisión.
1. Realizar un gráfico de total de casos en función de la población. ¿Nota alguna relación entre estas
variables?. Estimar el coeficiente de correlación lineal entre ambas. ¿Qué significa su valor?
7 de 11 11/12/2023, 12:55
Se puede ver a simple vista como al aumentar el tamaño de la población también aumenta el número
total de casos
A partir de la estimación del coeficiente de correlación lineal podemos ver que tan lineal es la relación
entre ambas variables. Este se calcula de la siguiente manera:
cov(x,y)
ρx y = (11)
σx . σy
En este caso lo calculamos con python.
Coeficiente de correlación lineal = 0.8979496110393863
El coeficiente de correlación lineal puede tomar valores desde -1 a 1, siendo 1 una relación
perfectamente lineal y -1 una relación perfectamente lineal inversa. En este caso, con los datos que
tenemos nos arrojó un resultado de 0.8979.
8 de 11 11/12/2023, 12:55
5) Encontrar los coeficientes β0 y β1 por mínimos cuadrados de la recta que mejor ajusta a estas
variables.
a) Agregar una recta al gráfico hecho en el inciso anterior.
b) Estimar el total de casos de COVID para una población de 400 millones de personas.
¿Qué tanta confianza tengo en esta estimación?
c) Calcular el coeficiente de determinación. ¿Qué significa su valor?
d) Comparar este coeficiente con la regresión para el total de casos en función del total de
vacunados. ¿A qué se debe esta diferencia?
Modelo de regresión Lineal
9 de 11 11/12/2023, 12:55
OLS Regression Results

Dep. Variable: Total de casos R-squared: 0.806
Model: OLS Adj. R-squared: 0.801
Method: Least Squares F-statistic: 158.2
Date: Mon, 11 Dec 2023 Prob (F-statistic): 4.06e-15
Time: 15:14:04 Log-Likelihood: -665.88
No. Observations: 40 AIC: 1336.
Df Residuals: 38 BIC: 1339.
Df Model: 1
Covariance Type: nonrobust
coef std err t P>|t| [0.025 0.975]
const -1.059e+06 7.77e+05 -1.364 0.180 -2.63e+06 5.13e+05
Poblacion 0.3913 0.031 12.577 0.000 0.328 0.454
Omnibus: 15.238 Durbin-Watson: 2.244
Prob(Omnibus): 0.000 Jarque-Bera (JB): 49.640
Skew: -0.542 Prob(JB): 1.66e-11
Kurtosis: 8.349 Cond. No. 2.91e+07
Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The condition number is large, 2.91e+07. This might indicate that there are
strong multicollinearity or other numerical problems.
Mediante la función anterior obtuvimos los parámetros β0 y

β1.
β0 = -1059000
β1 = 0.3913
Rango de variable Población: [12668, 85341241]
b) Debido a que el rango de nuestra variable explicativa va desde 12668 a 85341241, no podemos
estimar la cantidad de casos para una población de 400000000, ya que no sabemos como se comporta la
relación entre las dos variables fuera de nuestro rango.
Valor coeficiente de determinación = 0.8063135039657855
10 de 11 11/12/2023, 12:55
c) El coeficiente de determinación nos permite saber que proporción del comportamiento de la variable
dependiente puede ser explicado por el modelo de regresión lineal.
SCE
r2 = 1 − (12)
STC
Para nuestro caso particular, el valor del coeficiente de determinación es de 0.80, por lo que en
proporción el 80% de los cambios de "y" pueden ser explicados por el modelo de regresión lineal.
Valor Coeficiente de determinacion = 0.9333557246151644
d) El coeficiente de determinacion para el total de casos en función del total de vacunados es de 0.93,
por lo que los cambios en la variable dependiente 'total de casos' se puede explicar en un 93% mediante
el modelo de regresión lineal.
Recta de regresión lineal
11 de 11 11/12/2023, 12:55

TP Estadistica1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TP Estadistica1

Cargado por

Copyright:

Formatos disponibles

tp_estadistica1 file:///C:/Users/54116/Downloads/tp_estadistica1.

1. Realizar un histograma para el total de casos y el total de muertes. Responder:

Cantidad dentro de intervalo

La probabilidad de que caiga en dicho intervalo un país elegido al azar es de:

1. Realizar un gráfico de caja para el total de casos y el total de muertes.

a) ¿En qué intervalo se concentra el 50 % de los valores centrales?

d) ¿Qué información se puede destacar fácilmente de un gráfico de cajas a diferencia de un

24767.25 374371.5 2068021.0

RIC = Tercer cuartil − Primer cuartil (4)

valores atipicos: [5631629, 38997490, 26318717, 17004677, 5464525, 38437756]

Teorema central del límite

i)¿Qué distribución sigue la media muestral o promedio? ¿Por qué? Hacer

ii) ¿Cuál es la probabilidad de que la media muestral se aleje de la media de

b) Encontrar un intervalo tal que haya un 95 % de probabilidad de que la media real de la

i) Las medias de cada muestra tomada de la población, al ser suficientemente grandes

Media de la población: 3735372.805825243

Desvío estándar de la población: 12095970.416183455

Intervalo de confianza de 95% para la media de la población de la variable 'Total de casos'.

• Tomamos como estimador puntual a la media muestral:

• A partir de la media muestral ¯x

• Conociendo la distribución de Z buscamos un intervalo tal que:

P (−z < Z < z) = 0, 95 (7)

P (Z > z) = 0, 025 (9)

• Busco en la tabla de distribución normal y obtengo:

• Fórmula para obtener intervalo de confianza: [¯x ]

[228611 − 1, 96 12095970 ; 228611 + 1, 96 12095970 ]

• Obtenemos el resultado del intervalo:

En este caso lo calculamos con python.

Coeficiente de correlación lineal = 0.8979496110393863

a) Agregar una recta al gráfico hecho en el inciso anterior.

c) Calcular el coeficiente de determinación. ¿Qué significa su valor?

Modelo de regresión Lineal

OLS Regression Results

Model: OLS Adj. R-squared: 0.801

Method: Least Squares F-statistic: 158.2

Date: Mon, 11 Dec 2023 Prob (F-statistic): 4.06e-15

Time: 15:14:04 Log-Likelihood: -665.88

No. Observations: 40 AIC: 1336.

Df Residuals: 38 BIC: 1339.

Covariance Type: nonrobust

coef std err t P>|t| [0.025 0.975]

const -1.059e+06 7.77e+05 -1.364 0.180 -2.63e+06 5.13e+05

Poblacion 0.3913 0.031 12.577 0.000 0.328 0.454

Omnibus: 15.238 Durbin-Watson: 2.244

Prob(Omnibus): 0.000 Jarque-Bera (JB): 49.640

Skew: -0.542 Prob(JB): 1.66e-11

Kurtosis: 8.349 Cond. No. 2.91e+07

strong multicollinearity or other numerical problems.

Mediante la función anterior obtuvimos los parámetros β0 y

Rango de variable Población: [12668, 85341241]

Valor coeficiente de determinación = 0.8063135039657855

Valor Coeficiente de determinacion = 0.9333557246151644

Recta de regresión lineal

También podría gustarte