Está en la página 1de 15

Problema 1:Regresión lineal

Usted forma parte de una empresa de inversión y su trabajo consiste en realizar


una investigación sobre estas 759 empresas. Se le proporciona el conjunto de
datos que contiene las ventas y otros atributos de estas 759 empresas. Predecir
las ventas de estas empresas sobre la base de los detalles que figuran en el
conjunto de datos a fin de ayudar a su empresa en la inversión consciente.
Además, proporcióneles los 5 atributos más importantes.

El primer paso de nuestro análisis, tenemos que importar todas las bibliotecas necesarias. Después de
cargar las bibliotecas, tenemos que cargar nuestro data_set(Firm_level_data) para nuestro análisis.

1. En primer lugar, hemos averiguado cuáles son todas las entradas del conjunto de datos
comprobando las 5 filas superiores.

A partir de lo anterior, ya tenemos una idea de cómo se introducen los datos.

2. El siguiente paso es, necesitamos saber los detalles de las columnas junto con el número de
entradas y el tipo de datos de todas las variables.

De lo anterior, podemos deducir que hay 10 columnas con 759 entradas, excepto sp500 ,todas
las variables son int y float, donde sp500 es un objeto.
3. Ahora, necesitamos saber si todas las variables tienen algún valor nulo en el conjunto de datos
dado.

De la salida anterior, excepto "tobinq" todas las variables no tienen valores nulos. Como, el
número de valores nulos de "tobinq" es menor podemos modificar aquellos con el valor medio.
Tras este proceso, observamos que se modifican todos los valores nulos.

4. Entonces, ahora necesitamos saber si algún valor está duplicado o no.

No hay duplicados en el conjunto de datos proporcionado.

5. Ahora tenemos que describir el conjunto de datos.


6. Análisis univariante:

i) Ventas:

No hay ningún valor atípico en "Ventas". El valor oscila entre 0 y 2000.

ii) Capital:

No hay ningún valor atípico en "Capital". El valor oscila entre 0 y 1000.


iii) Patentes:

De lo anterior se deduce que no hay ningún valor atípico y que los valores oscilan entre 0 y
12.

iv) Randd:

La "Randd" no presenta valores atípicos y los datos oscilan entre 0 y 150.


v) Empleo:

La variable "empleo" no presenta valores atípicos y los datos oscilan entre 0 y 10.
vi) Tobinq:

Hay muchos valores atípicos en los datos, que hay que tener en cuenta. El valor oscila entre
1 y 3.
vii) Valor:

No hay valores atípicos en el conjunto de datos. El valor oscila entre 0 y 2000.


viii) Instituciones:

No hay valores atípicos en el conjunto de datos. El valor oscila entre 20 y 60.


Comprobación de la correlación entre las variables:

Las ventas y el capital es tener más comúnmente relacionados. Por lo tanto, para predecir las ventas,
podemos tomar "Capital" para dividir los datos.
Análisis multivariante:
1.2 ¿Imputar valores nulos si están presentes? ¿Cree que es necesario escalar en este caso?
(8
puntos)

Se han imputado todos los valores nulos presentes en la base de datos. El escalado es
necesario para convertir las variables con medidas diferentes en la misma medida.

El escalado también es necesario en nuestro conjunto de datos. Hemos tratado los valores
atípicos presentes en el conjunto de datos y, a continuación, hemos realizado las
normalizaciones StandardScaler.

Ans 1.3 Hemos codificado los datos (con valores de cadena) para Model ling y también
hecho Data Split: Dividir los datos en prueba y entrenamiento (70:30).

Tenemos que dividir el conjunto de datos dado en entrenamiento y prueba separando X e


Y, X entrenar,X_prueba,Y_entrenar,Y_prueba.

Y luego ajustamos el modelo.

Las métricas de rendimiento son las siguientes:

R Cuadrado en datos de entrenamiento es 83.15%


RMSE en datos de entrenamiento es 6%
RMSE en datos de prueba es 5.19%

1.4 Inferencia:
Antes de ir a por lo nuevo, tenemos que comprobar si el capital invertido es bueno, lo que
se refleja en el gráfico de dispersión.

Las variables importantes son el valor, el empleo, las ventas y las patentes.

El atributo más importante es el empleo y las patentes.

Problema 2: Regresión logística y LDA


El Gobierno le ha contratado para realizar un análisis de los accidentes de tráfico. Le
proporcionamos detalles
de accidentes de coche, entre los que algunas personas sobrevivieron y otras no . Tienes
que ayudar a
al gobierno a predecir si una persona sobrevivirá o no basándose en la información de
que figura en el conjunto de datos, para así proporcionar información que ayude al
gobierno a
promulgar leyes más estrictas para que los fabricantes de coches garanticen las medidas de
seguridad. Además, averigua en
los factores importantes en los que te basaste para hacer tus predicciones.

2.1 Ingestión de datos: Leer el conjunto de datos. Realice la estadística descriptiva y haga la
comprobación de la condición del valor nulo
, escriba una inferencia al respecto. Realizar análisis univariantes y bivariantes.
Realice un análisis exploratorio de los datos. (8 puntos)

Tenemos que importar todos los archivos de biblioteca necesarios para procesar el análisis
de datos.

Descripción:
Info:

De lo anterior se deduce que hay 15 columnas con 11217 entradas. La primera columna no tiene
nombre . Los tipos de datos son integer, float, object.

Para comprobar los valores nulos en el conjunto de datos:


Excepto "injSeverity ", todas las variables no tienen valores nulos.
Análisis multivariante:

Lo anterior muestra la colinealidad entre las variables.

2.2 Hemos codificado los datos (con valores de cadena) para su modelización.
División de datos: Hemos dividido los datos en entrenamiento y prueba (70:30).

Tomando "Sobrevivido" como variable objetivo, hemos dividido los datos en entrenamiento
y prueba.
Ans 2.3 Las métricas de rendimiento del modelo de regresión logística y de análisis lineal
discriminante
son las que se indican a continuación:

Hemos dividido los datos en entrenamiento y prueba.

De los resultados anteriores se deduce que tenemos una precisión del 96% en el conjunto de datos de
prueba.

Según la matriz de confusión, la precisión es del 98%.

2.4 Conclusiones:
 La exactitud tanto del entrenamiento como de la prueba es más o menos igual al
98%.La matriz de confusión también muestra la similitud.Podemos concluir que el
método logístico es mejor para predecir el análisis.

También podría gustarte