Está en la página 1de 4

1. ¿Cuál es el primer paso en cualquier proyecto de ciencia de datos?

● Es trabajar con los datos correctos. Tener los datos correctos en las manos.
2. ¿Cuál es el lenguaje de programación o herramienta recomendado?
● Se recomienda Python, ya que contiene una variedad de funciones del lenguaje
para hacer la manipulación de datos , como las expresiones regulares. También se
habla de la gran variedad de bibliotecas, que hacen prácticamente de todo.
● Perl: era el idioma de referencia para intercambiar datos en la web, pero Python
término aplastándolo se podría decir, porque la programación orientada a objetos
tiene mayor apoyo y Python tiene mejores bibliotecas. Pero Perl igual se puede ver
algunas veces en algunos proyectos.
● Mathlab: Muchos algoritmos de aprendizaje automática se reducen en operaciones
en matrices, por lo tanto este lenguaje es ideal para el trabajo con matrices.
● Java y C/C++: se utiliza con enfoque en las aplicaciones de big data.
● Mathematica/Wolfram Alpha: Mathematica es un programa de sistema patentado
que procesa consultas similares al lenguaje natural a traves de una combinación de
algoritmos y fuentes de datos pre digeridas.
● Excel: contienen una gran cantidad de funcionalidades para usuarios avanzados. Es
una herramienta poderosa para el análisis de datos.
3. ¿Qué es R?
● Es el lenguaje de programacion de los estadisticos, tiene varias bibliotecas para el
análisis y visualizacion de datos. Los lenguajes populares dentro de la ciencia de
datos son el R y Python. R por el lado explorativo y Python por el lado productivo.
4. ¿Qué rol pueden tener las planillas de cálculo en el proceso de ciencia de datos?
● Sirven para estructurar las tablas únicas de datos. Se utilizan para importar y
exportar registros en estas planillas de cálculo, ya sea archivos como csv o XML.
5. ¿Por qué el resultado de un proyecto de ciencia de datos debería ser un
“computable notebook”?

6. ¿Cuáles son las propiedades deseables de un formato de datos?
● Facilidad de analisis para las computadores, estos estan soportados por una API
que asegura el formato adecuado.
● Facilidad de lectura para las personas. Porque se pueden visualizar de una manera
fácil de entender para el usuario.
● Grado de utilización por otras herramientas y sistemas. Los formatos no son
fácilmente compartidos por los desarrolladores de software. Pero la idea es darle
uso, mezclar y combinar con otros recursos de datos.
7. ¿Cuáles son los formatos/representaciones de datos más importantes?
● Archivos CSV (valores separados por comas): Estos tienen el formato más popular
para intercambiar datos entre programas.
● XML (eXtensible Markup Language): datos estructurados, pero no tabulares. Se
escriben como texto con anotaciones. Entonces XML es un lenguaje para escribir
especificaciones de lenguajes como LaTex o HTML.
● Base de datos SQL (lenguaje de consulta estructurado): las hojas de calculo son
estructuradas en torno a tablas unicas de datos.
● JSON (notacion de objetos JavaScript): este es un formato para transmitir datos
objetos entre programas. Es una forma natural de comunicar el estado de variables /
estructuras de datos de un sistema a otro.
● Buferes de protocolo: esta es una forma de serialización independiente del
lenguaje/plataforma. Para comunicaciones y almacenamiento entre aplicaciones.
Aquí se necesitan versiones más ligeras de XML. También sirve para comunicar
pequeñas cantidades de datos en programas como JSON.

8. ¿Cuál es el asunto más crítico en un proyecto de ciencia de datos?


● Es encontrar el conjunto de datos correcto, como se explicaba en la primera
pregunta de este cuestionario. Hay que identificar fuentes de datos viables,
haciéndonos estas tres preguntas:
○ Quien podría tener los datos que necesito?
○ Por que podrían decidir ponerlo a mi disposición?
○ ¿Como puedo conseguirlo?
9. ¿Cuáles son las dos principales razones por las cuales las empresas no
comparten sus datos?
● Por problemas comerciales y miedo a ayudar a la competencia.
● Por problemas de privacidad y miedo a ofender a sus clientes.
10. ¿Cuáles son las razones que motivan a algunas empresas a disponibilidad sus
datos a través de APIs?
● Proporcionar a clientes y terceros datos que pueden incrementar las ventas.
● En general, es mejor para la empresa proporcionar API con buen comportamiento.
11. ¿Cuál es la principal preocupación al publicar datos gubernamentales?
● La solicitud de los datos puede desencadenar un proceso para determinar que se
puede liberar sin comprender el interés nacional o violar la privacidad. Preservar la
privacidad suele ser el mayor problema a la hora de decidir si se puede publicar un
conjunto de datos gubernamentales en particular.
12. ¿Cuál es el principal problema con los conjuntos de datos académicos, y qué
oportunidad ofrecen?
● Es que alguien más ha trabajado duro para analizarlos antes de llegar a ellos. Por lo
tanto estas fuentes pueden haber sido mermadas. A menudo los proyectos de
ciencias de datos implican colaboraciones entre buscadores de diferentes
disciplinas, como las ciencias sociales y naturales.
13. ¿Cuáles son las tareas de web scraping y en qué consisten?
● Spidering: es el proceso de descargar el conjunto correcto de páginas para su
análisis.
● Scraping: es el arte de eliminar este contenido de cada página para preparar el
análisis computacional.
14. ¿Qué son las “condiciones de servicio” de un sitio web y por qué son importantes
al momento de recolectar datos?
● Restringe lo que se puede hacer legalmente con cualquier dato asociado. Entonces
hay ciertas paginas que no permiten la libertad de uso de los datos extraídos de este
sitio web. Para eso sirve las condiciones de servicio.
15. ¿Cuáles son las principales consideraciones para diseñar un sistema de registro
de datos?
● Hay que contruirlo para resistir con un mantenimiento limitado. Configurarlo
aprovisionandolo con suficiente almacenamiento para una expansion ilimitada y una
copia de seguridad.
● Almacenar todos los campos de posible valor.
● Utilizar un formato legible por humanos o una base de datos de transacciones, para
que se pueda entender lo que hay ahí, por ejemplo meses o años, para luego solo
analizar los datos.
16. Defina error y artefacto.
● Error: representan información que se pierde fundamentalmente en la adquisición.
Por ejemplo: Las dos horas de registros perdidos porque el servidor bloqueado
represento un error de datos: es información que no se puede reconstruir otra vez.
● Artefactos: Son generalmente problemas sistemáticos que surgen de ceder la
información en bruto a partir de la cual se construyo. Estos artefactos pueden
corregirse, siempre que el conjunto de datos originales sin procesar permanezca
disponible. Lo malo es que estos artefactos deben detectarse antes de poder
corregirse.
17. ¿Por qué es indispensable comprender el significado y características de cada
campo de un conjunto de datos antes de poder utilizarlo?
● Porque si no se entiende lo que hay ahí hasta las unidades de medición, no hay
forma sensata de utilizarlo.
18. ¿En qué consiste la técnica de unificación de nombres?
● Por la inconsistencia al momento de informar los nombres como campos claves.
Unificar registros por clave es un problema. La mejor técnica es hacer
transformaciones de texto simple para reducir cada nombre a una única versión
canónica. Por ejemplo: convirtiendo todas las cadenas a minúsculas aumenta el
número de colisiones.
19. ¿Qué consideraciones se deben tener al integrar en un conjunto de datos fechas
de diferentes fuentes?
● Hay que alinear las mediciones de tiempo a la Unidad UTC (Tiempo Universal
Coordinado) un estándar moderno que subsume el tradicional Greenwich Hora
media (GMT).
20. ¿Qué métodos podrían usarse para estimar valores faltantes? ¿Qué utilidad
podría tener utilizar valores aleatorios?
● Imputación basada en heurística: conociendo el dominio, se podría hacer una
suposición razonable del valor de algunos campos.
● Imputación de valor medio: Se usa como Proxy el valor medio de una variable
para valores perdidos. Al agregar más valores con la media deja la media sin
cambios, por lo que no se sesga la estadística por esta imputación. Después los
campos con valores medios tiene un impacto moderado en cualquier pronóstico
realizado con los datos.
● Imputación de valor aleatorio: otro enfoque es seleccionar un valor de la comuna
para reemplazar el valor faltante. La selección de valores aleatorios permite la
evaluación estadística del impacto de imputación.
● Imputación por vecino más cercano: Este enfoque requiere una funcion de
distancia para identificar los registros mas similares.
● Imputacion por interpolacion: Es como una regresion lineal para predecir los
valores de la columna, dados los otros campos del registro. Funciona mejor cuando
solo falta un campo por registro.
21. En lugar de simplemente eliminarlos todos ¿Qué se recomienda para tratar con
los valores atípicos?
● Es mejor averiguar si es indicativo de otras cifras que debería considerar la
eliminación.
1. Describa una estrategia para codificar datos categóricos.
● Se puede utilizar la tecnica one-hot, que crea columnas adicionales que indican la
presencia o ausencia de una categoria con un valor de 1 o 0 respectivamente. Una
desventaja de este enfoque es si es que la categoria tiene muchos valores posibles,
esto aumenta demasiado el tamano del conjunto de datos.
2. Describa una estrategia para codificar datos de texto.
● Lo que se hace aqui es convertir texto en un conjunto de valores numericos
representativos. Se utiliza comunmente el recuento de palabras, donde se toma
cada fragmento de texto, se cuentas las apariciones de cada palabra dentro de el y
se ponen los resultados en una tabla. Hay algunos problemas con este enfoque,
donde los recuentos de palabras en bruto conducen a caracteristicas que dan
demasiado peso a las palabras que aparecen con mucha frecuencia. Esto se
soluciona utilizando un enfoque llamado frecuencia de termino- documento inverso
de frecuencia (TF-IDF) que pondera los recuentos de palabras en una medida de la
frecuencia con la que aparecen en los documentos.
3. Describa una estrategia simple para estimar valores faltantes.
● Una estrategia simple podría ser el reemplazar los valores faltantes con la media de
la columna. Otro más sofisticado podría ser usar la terminación de la matriz o un
modelo robusto para manejar dichos datos.

También podría gustarte