Está en la página 1de 6

Ciencia de Datos: Tarea 0

López Salomón María Guadalupe


19 de enero de 2023

1. Para los siguientes conjuntos de datos, formula al menos una pregunta

de investigación que puedas contestar como un problema de aprendizaje no

supervisado, y al menos una pregunta de investigación que puedas contestar

como un problema de aprendizaje supervisado. En ambos casos, indica las

variables involucradas (en el segundo caso, las variables dependientes e indepen-

dientes). ¿Son suficientes los datos/variables que tienes o te interesaría incluir

otros? si es así, menciona de dónde podrías obtenerlos.

a) Esta base de datos (BD) contiene el registro de todos los delitos de alto

impacto (con los crímenes violentos y no violentos por separado), ocurridos en

la Ciudad de México durante 2014, 2015 y 2016.

1
Figure 1: Bd de delitos de alto impacto

Respuesta:

Aprendizaje no supervisado:

¿Cuántos de los delitos cometidos fueron realizados por hombres?

Variables involucradas: número de delitos, fecha, hora cuadrante.

Aprendizaje supervisado: Considerando que el cuadrante se refiere a

la ubicación o zona, ¿qué tan probable es que un homicidio doloso ocurra en

determinado cuadrante dado el número de delitos registrados en ella?

Variables involucradas: cuadrante, (v.i), número de délitos (v.d)

Considero que sería importante incluir el género de la persona que cometió

el délito, así como su edad. Con base en la fecha del délito se podría indagar la

identidad de la persona que cometió el mismo.

b) Esta base de datos contiene registros de divorcios del año 2000 al 2015 en

la ciudad de Xalapa, Ver. Las columnas que contiene ésta base de datos son las

siguientes:

2
Figure 2: Registros de divorcios del año 2000-2015.

Respuesta.

Aprendizaje no supervisado: ¿Qué tipo de agrupamiento siguen los

datos referentes a la residencia, nivel de estudios y estatus de empleo de las

parejas?

Variables involucradas: Municipalidad de residencia, Nivel de educación,

Estatus de empleo.

Aprendizaje supervisado: ¿El nivel de educación de las parejas está

relacionado con el número de hijos?

Variables involucradas: Level of education partner man(V.I), Level of edu-

cation partner woman(V.I), Num Children(V.D).

c) Esta BD contiene más de 150 mil registros de letras de canciones de

diferentes artistas, incluyendo la variable valence, que es un indicador obtenido

con la API de spotify, que lo describe como: A measure from 0.0 to 1.0 describing

the musical positiveness conveyed by a track. Tracks with high valence sound

more positive (e.g. happy, cheerful, euphoric), while tracks with low valence

sound more negative (e.g. sad, depressed, angry).

3
Figure 3: Registros de letras de canciones

Respuesta:

Aprendizaje no supervisado: ¿Se puede clasificar por género musical

a los artistas y canciones de los registros de acuerdo al tipo de letras de las

canciones?

Variables involucradas: Artistas, Canciones, valencia

Aprendizaje supervisado: ¿El nivel de valencia depende de las letras de

la canción?

Variables involucradas: Nivel de valencia (V.I), Letras de la canción (V.D)

Falta considerar el género de la canción, podríamos determinar el género de

la canción a partir del número de valencia, entre mayor sea clasificarlo como

pop, balada, country, rock, etc. y entre menor sea clasificarlo como shoegaze,

alternativo, etc..

d) Esta BD contiene alrededor de 40 mil registros que corresponden a car-

acterísticas de artículos publicados en línea durante un periodo de dos años.

Estos artículos en formato texto, fueron preprocesados para extraer diferentes

características que se muestran a continuación:

4
Figure 4: Registros de artículos publicados.

Aprendizaje no supervisado: ¿Qué tipo de artículos son los que más se

adquieren con base en los días de la semana en que se publicaron y las palabras

clave para describir el producto?

Variables involucradas: timedelta, kw min min, kw max min , kw avg min,

kw min max, kw max max, kw avg max, kw min avg, kw max avg, kw avg avg,

weekdays( is monday-is sunday), is weekend.

Aprendizaje supervisado: ¿Cuál es la probabilidad de que se comparta

un artículo dado el número de imágenes, videos que se tiene y la tasa de palabras

positivas que tiene?

Variables involucradas: number of shares (V.D), número de imágenes (V.I),

número de videos (V.I), tasa de palabras positivas (V.I).

e) Esta BD contiene registros de los viajes realizados desde 2014 a la fecha,

5
por los usuarios del sistema de bicicletas públicas del Área Metropolitana de

Guadalajara. La información disponible incluye lo siguiente:

Figure 5: Registros de los viajes realizados desde 2014 a la fecha.

Además, para cada estación, se cuenta con nombre, ubicación, lat, lon, sta-

tus.

Respuesta:

Aprendizaje no supervisado: ¿Cuáles son las estaciones más concurridas

por los usuarios de acuerdo a su género?

Variables involucradas: Género del usuario, ID de la estación de origen, ID

de la estación destino, Inicio del viaje (fecha y hora).

Aprendizaje no supervisado: ¿Qué tan probable es que una mujer use

el servicio dado que tiene entre 20-30 años?

Variables involucradas: género (v.i), año de nacimiento del usuario (v.d)

2. Leé los artículos 50 Years of Data Science de D. Donoho y Prediction,

Estimation, and Attribution de B. Efron. Recupera las ideas principales, las

cuales discutiremos brevemente en la siguiente clase. No es necesario entregar

nada.

También podría gustarte