Examen

1.- ¿Cuáles son las técnicas para el tratamiento de datos perdidos?
(No) Eliminar con DELETE los datos NULL

Descarte de datos NULL
(No) Aplicando REPLACE a los datos NULL
Imputar datos NULL con estimaciones
2.- Las técnicas en el tratamiento de datos perdidos solo se aplican a:

MAR
(No) MON
(No) MIN
MCAR
3.- Cuando hablamos de buenas prácticas, ¿Cuál es el porcentaje recomendado para

eliminar datos nulos y no tengamos pérdida significativa de información?
5%
10%
15%
20%
4.- El método HOT-DECK consiste:

Reemplazar datos NULL por regresión lineal
Reemplazar datos NULL por KNN
Reemplazar datos NULL por K-MEANS
5.- Cuáles son los parámetros que tengo que pasar a la función KKNImputer
n_forest y weights
n_tree y weights
n_neighbors y weights
n_neighbors y n_tree
6.- Cuando hablamos de imputación múltiple, el algoritmo más eficiente y más

usado es:
N-FOREST
K-MEANS
KNN
MICE
7.- ¿Cuáles son los parámetros que se pasa al algoritmo de DBSCAN?

radius y min_samples
pi y min_samples
eps y min_ samples
eps y radius
8.- En el algoritmo de IForest, ¿qué opción contiene las líneas correctas?
NOTA: Considere el salto de línea con el símbolo "/"
data_for_isolation_forest=df[['Fertilizante",Rendimiento ]] / isolation_forest =
IsolationForest(contamination=0.1, min_samples=100) / outlier_labels =
isolation_forest.fit_predict(data_for_isolation _forest)
data_for_isolation_forest=df[['Fertilizante,Rendimiento']] / isolation_forest =
IsolationForest(contamination=0.1, n_estimators=100) / outlier_labels = isolation
_forest.fit_predict(data_for_isolation _forest)
data_for_isolation_forest=df[['Fertilizante,Rendimiento']] / isolation_forest =
IsolationForest(eps=0.1, min_samples=100) / outlier_labels =
isolation_forest.fit_predict(data_for_isolation _forest)
9.- ¿Cuál es la diferencia entre GAV y LAV?

GAV actúa como una vista sobre el esquema fuente, mientras que LAV describe
cada esquema local como función sobre el esquema global.
LAV actúa como una vista sobre el esquema fuente, mientras que GAV describe
cada esquema local como función sobre el esquema global.
Ambos son iguales
10.- Un Data Lake puede incluir:

Solo datos no estructurados
Solo base de datos relacionales
Datos estructurados, no estructurados y semiestructurados
11.- ¿Cuáles son los tipos de base de datos NoSQL?

Clave-valor
Documentos
Grafos
Orientados a filas
12.- Estamos creando un sistema que supervisa la temperatura de un conjunto de

bloques de oficinas y que establece el aire acondicionado en cada habitáculo
de cada bloque para mantener una temperatura ambiente agradable. El sistema
tiene que administrar el aire acondicionado en varios miles de edificios
distribuidos por el país o la región, y cada edificio suele contener al menos 100
habitáculos con aire acondicionado. ¿Qué tipo de almacén de datos NoSQL es
el más adecuado para capturar los datos de temperatura para permitir que se
procesen rápidamente?
Almacén de datos NoSQL de Documentos.
13.- ¿Qué es la ingesta de datos?

El proceso de transformar datos sin procesar en modelos que contienen información
significativa.
Analizar datos para detectar anomalías.
Capturar flujos de datos sin procesar de varios orígenes y almacenarlos.
14.- Son componentes del ecosistema de Apache Hadoop
Procesamiento Distribuido (MapReduce)
ML
Almacenamiento Distribuido (HDFS)
RDD
15.- Tengo los siguientes pares clave-valor (edad,#amigos):

(50,385)
(55,22)
(50,2)
(20,400)
(50,100)
Y la siguiente línea python:
totalPorEdad = rdd.mapValues(lambda x: (x,1)).reduceByKey(lambda x,y:
(x[0]+y[0],x[1]+y[1]))
El primer par clave-valor (50,385) es el "lambda x", por tanto, el clave-valor (x,1)
sería: (50,(385,1)). Esta misma lógica sería aplicada para todos los siguientes pares
clave-valor.
Entonces con la función "reduceByKey" se desea reducir los pares clave-valor bajo
la suma de todos los valores para cada clave única. Es decir, la función (lambda x,y:
(x[0]+y[0],x[1]+y[1])) está sumando todas las claves para cada edad que va
encontrando. Se pide obtener el # total de amigos y el # de veces que se ha
encontrado para una persona de edad de 50 años.
387 y 3
487 y 3
587 y 3
16.- Se desea aplicar el algoritmo de MapReduce para el conteo de palabras. El

texto de entrada es:
"Deer Bear River
Car Car River
Deer Car Bear".
Aplique "Splitting" (Separar), "Mapping (Ponerle clave a cada palabra)",
"Shuffling" (Agrupar todas las palabras), "Reducing" (Contar número de
ocurrencias) y obtenga la lista clave-valor. El resultado será:
(Bear,2);(Car,3);(Deer,3):(River,2)
(Bear,2);(Car,2);(Deer,2);(River,2)
(Bear,2):(Car,3):(Deer,2):(River,2)
17.- En las siguientes líneas de código, complete las líneas punteadas. Considere usar
todos los núcleos de su computadora
from pyspark import SparkConf, SparkContext
import collections
conf = SparkConf().setMaster("local").setAppName("NombreDeApp")
sc = SparkContext(conf = conf)
18.- Son transformaciones sobre un RDD:
map()
filter()
flatmap()
collect()
take()
19. Tengo un archivo llamado CursolngDatos.txt cuyo contenido es el siguiente:

Este es el último examen
Del curso de Ingeniería de Datos
Feliz Navidad
Y las siguientes líneas de código Python:
from pyspark import SparkConf, SparkContext
import collections
conf = SparkConf().setMaster("local").setAppName("AplicandoFlatMaps")
sc = SparkContext(conf = conf)
rdd = sc.textFile("file:///CursoSpark/CursolngDatos.txt”)
flatmap_rdd= rdd.flatMap(lambda x: x.split(‘ ’))
flatmap_rdd.collect()
La salida es:
[ [‘Este’,’es’,’el’, último’,'examen'] , ['De’,’Ingeniería’, ‘de’,’Datos'] , ['Feliz’,’Navidad'] ]
[ 'Este’, ’es’, ’el’, ‘último’, ‘examen', 'De’, ‘Ingeniería’, ‘de’, ‘Datos', 'Feliz’, ‘Navidad' ]
[ 'Este es el último examen' , 'De Ingeniería de Datos’ , 'Feliz Navidad' ]
20. Se desea entrenar y predecir con el algoritmo de Regresión Lineal y se tiene

las siguientes líneas Python:
dataX = filtered_data[["Conteo de Palabras"]]
X_train = np.array(dataX)
y_train = filtered_data["# Etiquetas"].values
regr = linear_model.LinearRegression()
# Aquí debe ir la línea de entrenamiento del modelo
regr. ...
# Aquí debe ir la línea de predicción del modelo
y_pred =
Las líneas correctas que deben ir son:
fit(y_train, X_train) y regr.predict(X_train)
fit(x_train, y_train) y regr.predict(y_train)
fit(X_train, y_train) y regr.predict(X_train)

Examen

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Examen

Cargado por

Copyright:

Formatos disponibles

1.- ¿Cuáles son las técnicas para el tratamiento de datos perdidos?

(No) Eliminar con DELETE los datos NULL

2.- Las técnicas en el tratamiento de datos perdidos solo se aplican a:

3.- Cuando hablamos de buenas prácticas, ¿Cuál es el porcentaje recomendado para

4.- El método HOT-DECK consiste:

6.- Cuando hablamos de imputación múltiple, el algoritmo más eficiente y más

7.- ¿Cuáles son los parámetros que se pasa al algoritmo de DBSCAN?

9.- ¿Cuál es la diferencia entre GAV y LAV?

10.- Un Data Lake puede incluir:

11.- ¿Cuáles son los tipos de base de datos NoSQL?

12.- Estamos creando un sistema que supervisa la temperatura de un conjunto de

13.- ¿Qué es la ingesta de datos?

15.- Tengo los siguientes pares clave-valor (edad,#amigos):

16.- Se desea aplicar el algoritmo de MapReduce para el conteo de palabras. El

19. Tengo un archivo llamado CursolngDatos.txt cuyo contenido es el siguiente:

20. Se desea entrenar y predecir con el algoritmo de Regresión Lineal y se tiene

También podría gustarte