Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El primer paso de nuestro análisis, tenemos que importar todas las bibliotecas necesarias. Después de
cargar las bibliotecas, tenemos que cargar nuestro data_set(Firm_level_data) para nuestro análisis.
1. En primer lugar, hemos averiguado cuáles son todas las entradas del conjunto de datos
comprobando las 5 filas superiores.
2. El siguiente paso es, necesitamos saber los detalles de las columnas junto con el número de
entradas y el tipo de datos de todas las variables.
De lo anterior, podemos deducir que hay 10 columnas con 759 entradas, excepto sp500 ,todas
las variables son int y float, donde sp500 es un objeto.
3. Ahora, necesitamos saber si todas las variables tienen algún valor nulo en el conjunto de datos
dado.
De la salida anterior, excepto "tobinq" todas las variables no tienen valores nulos. Como, el
número de valores nulos de "tobinq" es menor podemos modificar aquellos con el valor medio.
Tras este proceso, observamos que se modifican todos los valores nulos.
i) Ventas:
ii) Capital:
De lo anterior se deduce que no hay ningún valor atípico y que los valores oscilan entre 0 y
12.
iv) Randd:
La variable "empleo" no presenta valores atípicos y los datos oscilan entre 0 y 10.
vi) Tobinq:
Hay muchos valores atípicos en los datos, que hay que tener en cuenta. El valor oscila entre
1 y 3.
vii) Valor:
Las ventas y el capital es tener más comúnmente relacionados. Por lo tanto, para predecir las ventas,
podemos tomar "Capital" para dividir los datos.
Análisis multivariante:
1.2 ¿Imputar valores nulos si están presentes? ¿Cree que es necesario escalar en este caso?
(8
puntos)
Se han imputado todos los valores nulos presentes en la base de datos. El escalado es
necesario para convertir las variables con medidas diferentes en la misma medida.
El escalado también es necesario en nuestro conjunto de datos. Hemos tratado los valores
atípicos presentes en el conjunto de datos y, a continuación, hemos realizado las
normalizaciones StandardScaler.
Ans 1.3 Hemos codificado los datos (con valores de cadena) para Model ling y también
hecho Data Split: Dividir los datos en prueba y entrenamiento (70:30).
1.4 Inferencia:
Antes de ir a por lo nuevo, tenemos que comprobar si el capital invertido es bueno, lo que
se refleja en el gráfico de dispersión.
Las variables importantes son el valor, el empleo, las ventas y las patentes.
2.1 Ingestión de datos: Leer el conjunto de datos. Realice la estadística descriptiva y haga la
comprobación de la condición del valor nulo
, escriba una inferencia al respecto. Realizar análisis univariantes y bivariantes.
Realice un análisis exploratorio de los datos. (8 puntos)
Tenemos que importar todos los archivos de biblioteca necesarios para procesar el análisis
de datos.
Descripción:
Info:
De lo anterior se deduce que hay 15 columnas con 11217 entradas. La primera columna no tiene
nombre . Los tipos de datos son integer, float, object.
2.2 Hemos codificado los datos (con valores de cadena) para su modelización.
División de datos: Hemos dividido los datos en entrenamiento y prueba (70:30).
Tomando "Sobrevivido" como variable objetivo, hemos dividido los datos en entrenamiento
y prueba.
Ans 2.3 Las métricas de rendimiento del modelo de regresión logística y de análisis lineal
discriminante
son las que se indican a continuación:
De los resultados anteriores se deduce que tenemos una precisión del 96% en el conjunto de datos de
prueba.
2.4 Conclusiones:
La exactitud tanto del entrenamiento como de la prueba es más o menos igual al
98%.La matriz de confusión también muestra la similitud.Podemos concluir que el
método logístico es mejor para predecir el análisis.