Parcial 2 - 20221D - Revisión Del Intento

1/6/22, 16:14 Parcial 2 - 20221D: Revisión del intento
Comenzado el Thursday, 5 de May de 2022, 11:48

Estado Finalizado
Finalizado en Thursday, 5 de May de 2022, 12:44
Tiempo 56 minutos 4 segundos
empleado
Puntos 34,0/40,0
Calificación 4,3 de 5,0 (85%)
Pregunta 1
Finalizado
Se puntúa 2,0 sobre 2,0
En la limpieza de datos orientada al tratamiento de valores faltantes o NAN, se puede optar por eliminar o modificar
(reemplazar) los registros corruptos. Teniendo en cuenta las opciones anteriores, si se tiene una base de datos de 5 variables
entre categóricas y numéricas, y se detecta que en una variable categórica el porcentaje de valores faltantes es del 20%,
cual es la opción adecuada de tratamiento:
Seleccione una:
a. Eliminar registros faltantes
b. Modificar registros con media (promedio)
c. Eliminar columna con registros
d. Modificar registros con moda (valor más frecuente)
https://aulaextendida.unisimon.edu.co/aulapregrado/mod/quiz/review.php?attempt=99381&cmid=28847 1/17
Pregunta 2
Finalizado
La gráfica muestra la relación entre el ritmo cardiaco promedio (pulsaciones por minuto) de varias especies de mamíferos y
su esperanza de vida (años).
Cual proposición describe de mejor manera la relación entre las variables?
Seleccione una:
a. No hay una relación clara entre el ritmo cardiaco y la esperanza de vida
b. Las especies con ritmo cardiaco más alto tienden a tener una esperanza de vida mayor
c. Las especies con ritmo cardiaco más alto tienden a tener una esperanza de vida menor
d. Las especies con ritmo cardiaco más bajo tienden a tener una esperanza de vida menor
Pregunta 3
Finalizado
entre categóricas y numéricas, y se detecta que en una variable categórica el porcentaje de valores faltantes es del 8%, cual
es la opción adecuada de tratamiento:
Seleccione una:
c. Modificar registros con moda (valor más frecuente)
d. Eliminar columna con registros
Pregunta 4
Finalizado
Los procesos de sustituir, modificar o eliminar datos sucios o poco precisos son tareas propias de la etapa:
Seleccione una:
a. Modelado de datos
b. Recolección de datos
c. Preprocesamiento de datos
d. Exploración de datos
Pregunta 5
Finalizado
Suponga que usted trabaja en la predicción del mercado de valores. Típicamente, cada día se negocian en el mercado
decenas de millones de acciones de Microsoft (Es decir, compra / venta). Se requiere predecir el número de acciones que se
negociarán mañana, lo más adecuado para trabajar es?:
a. No se puede establecer con la información dada

b. Usar algoritmos de aprendizaje no supervisado puesto que no se tienen ejemplos con los respuestas correctas
c. Usar un algoritmo de clasificación puesto que la respuesta son valores discretos, compra/venta
d. Usar un algoritmo de regresión puesto que el objetivo es predecir
Pregunta 6
Finalizado
Una práctica común en el análisis de datos es combinar el modelado con validación cruzada, donde el conjunto de
entrenamiento es separado en n-folds entrenados y validados por separado, el objetivo de esto es:
a. Reducir el tiempo de respuesta del modelo

b. Entrenar los datos con ejemplos antes de probarlo con datos desconocidos
c. Mejorar el rendimiento del modelo
d. Separar las columnas categóricas de las numéricas
Pregunta 7
Finalizado
entre categóricas y numéricas, y se detecta que en una variable numérica el porcentaje de valores faltantes es del 20%, cual
es la opción adecuada de tratamiento:
Seleccione una:
c. Eliminar columna con registros
d. Modificar registros con moda (valor más frecuente)
Pregunta 8
Finalizado
Suponga que usted labora en la sección de informática forense de la fiscalía; sus tareas se limitan a dos: i. analizar correos
electrónicos y archivos en busca de evidencias digitales en una investigación criminal, y ii. identificación de huellas digitales.
Debido a la cantidad de casos que a diario debe atender usted ha determinado que una forma de aligerar los procesos es a
través de un sistema inteligente que apoye sus labores.
Inicialmente, ha decidido abordar la tarea ii. (identificación de huellas digitales), donde se concentra la mayoría de su
trabajo, y es realizada con el uso de la base de datos de huellas digitales de la registraduría.
Bajo esa premisa, lo más adecuado para trabajar es?:
a. Usar algoritmos de aprendizaje no supervisado puesto que se tienen ejemplos con los respuestas correctas
b. Usar un algoritmo de regresión puesto que el objetivo es predecir a quien pertenece la huella
c. No se puede establecer con la información dada
d. Usar un algoritmo de clasificación puesto que la respuesta son valores discretos, corresponde la huella digital con la
persona o no
Pregunta 9
Finalizado
La precisión en modelos de regresión medida con el estadístico R2 se puede interpretar como:
Seleccione una:
a. La medida del grado de desigualdad entre las observaciones
b. La medida de la variabilidad de las observaciones en torno a la recta de regresión
c. La medida de ajuste de las observaciones a la recta de regresión
d. El promedio de los errores al cuadrado
Pregunta 10
Finalizado
Si tenemos dos variables X y Y de tal forma que con los datos que tenemos hemos determinado el modelo de regresión Y =
3 + 5X con una precisión de 0.90. Al tomar otro conjunto de observaciones, en la misma cantidad, de estas variables y
volvemos a realizar una regresión lineal obtendremos:
Seleccione una:
a. El mismo modelo Y = 3 + 5X con igual precisión
b. El mismo modelo con otra precisión
c. No se puede determinar
d. Un modelo distinto
Pregunta 11
Finalizado
Una práctica común en el análisis de datos es dividir el conjunto de datos (base de datos) es dos proporciones, una para
entrenamiento (train) y otra para prueba (test), el objetivo de esto es:
Seleccione una:
a. Mejorar el rendimiento del modelo
b. Separar las columnas categóricas de las numéricas
c. Entrenar los datos con ejemplos antes de probarlo con datos desconocidos
d. Reducir el tiempo de respuesta del modelo
Pregunta 12
Finalizado
El modelo de clasificación KNN (Vecino más cercano) permite clasificar una nueva observación de acuerdo a la clase de sus
K vecinos más cercanos. La elección de un valor de K medio (por ejemplo 5) puede implicar:
a. Que la separación de clases en el entrenamiento sea muy exacta por lo tanto haya una pobre generalización
b. Que se produzca un incremento en el ruido, pero con límites tenues entre clases similares
c. Que se produzca una reducción en el efecto del ruido en la clasificación, pero con límites tenues entre clases
similares
d. Que la separación de clases se simplifique por lo tanto el error de entrenamiento puede aumentar
Pregunta 13
Finalizado
El modelo de clasificación KNN (Vecino más cercano) permite clasificar una nueva observación de acuerdo a la clase de sus
K vecinos más cercanos. La elección de un valor de K muy bajo (por ejemplo 1) puede implicar:
a. Que la separación de clases se simplifique por lo tanto el error de entrenamiento puede aumentar
b. Que se produzca una reducción en el efecto del ruido en la clasificación, pero con límites tenues entre clases
similares
c. Que se produzca un incremento en el ruido, pero con límites tenues entre clases similares
d. Que la separación de clases en el entrenamiento sea muy exacta por lo tanto haya una pobre generalización
Pregunta 14
Finalizado
Se desea medir el Valor de una casa de acuerdo a diversos criterios (Años_Casa, Areas, Cuartos, Población, Households,
Ingreso), pero se sospecha que algunos de ellos pueden estar correlacionados, por lo que se construye una matriz de
correlación.
La decisión adecuada respecto al conjunto de variables explicativas basadas en la matriz de correlación de la figura es:
Seleccione una:
a. Elegir Años_Casa y Areas como variables explicativas
b. Elegir Años_Casa, Areas e Ingreso como variables explicativas
c. Elegir Años_Casa como variable respuesta
d. Elegir Areas como variable respuesta
Pregunta 15
Finalizado
En una compañía de automóviles quieren predecir cuanto combustible usarán diferentes marcas de automóviles basado
en el peso. Se condujo un estudio donde se tomaron muestras de automóviles y se midió su consumo de combustible al
recorrer 100km. Los datos se resumen así:
Marca 1 Marca 2 Marca 3 Marca 4 Marca 5
Combustible (lts) 3.6 6.7 9.8 11.2 14.7
Peso (ton) 0.45 0.91 1.36 1.81 2.27

Todas las gráficas de dispersión muestran los datos de manera correcta, no obstante se pide elegir cual de ellas muestra de
mejor manera.
Por convención, una buena gráfica de dispersión usa una escala razonable en ambos ejes y coloca la variable explicativa
en el eje x.
Seleccione una:
a.
b.
c.
d.
Pregunta 16
Finalizado
Suponga que usted es analista de crédito de una entidad y a menudo debe decidir acerca del monto a prestar a una
persona para compra de vehículo. Usted posee registros históricos de créditos pasados que incluyen información de fecha
de solicitud, cédula, sexo, salario, edad, nivel de estudios, antigüedad en el último empleo, monto de créditos actuales, entre
otros. Debido a diversas situaciones en el momento de ingreso de la información algunas variables pueden tener valores
faltantes. Se requiere implementar en Python diferentes modelos de regresión y compararlos. De acuerdo a la descripción y
su conocimiento de implementación de modelos cuales son los pasos mínimos y en qué orden deben ser incluidos:
Paso 1 Importar librerías
Paso 2 Cargar datos
Paso 3 Selección preliminar de datos
Paso 4 Limpieza de datos
Paso 5 Transformación de variables categóricas
Paso 6 Cálculo de matriz de correlación
Paso 7 Selección de variables X y Y
Paso 8 Partición del conjunto de datos
Paso 9 Ajuste y predicción de modelos
Paso 10 Cálculo de Precisión con datos de prueba
 
Vicerrectoría Académica |
Departamento de Pedagogía
Universidad Simón Bolívar ©️2022
Institución sujeta a inspección y vigilancia por el Ministerio de Educación

Nacional

Parcial 2 - 20221D - Revisión Del Intento

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Parcial 2 - 20221D - Revisión Del Intento

Cargado por

Copyright:

Formatos disponibles

1/6/22, 16:14 Parcial 2 - 20221D: Revisión del intento

Comenzado el Thursday, 5 de May de 2022, 11:48

Cual proposición describe de mejor manera la relación entre las variables?

a. No se puede establecer con la información dada

a. Reducir el tiempo de respuesta del modelo

Bajo esa premisa, lo más adecuado para trabajar es?:

La precisión en modelos de regresión medida con el estadístico R2 se puede interpretar como:

Paso 1 Importar librerías

Paso 2 Cargar datos

Paso 3 Selección preliminar de datos

Paso 4 Limpieza de datos

Paso 5 Transformación de variables categóricas

Paso 6 Cálculo de matriz de correlación

Paso 7 Selección de variables X y Y

Paso 8 Partición del conjunto de datos

Paso 9 Ajuste y predicción de modelos

Paso 10 Cálculo de Precisión con datos de prueba

Universidad Simón Bolívar ©️2022

Institución sujeta a inspección y vigilancia por el Ministerio de Educación

También podría gustarte