Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen Base de Datos
Resumen Base de Datos
● Es trabajar con los datos correctos. Tener los datos correctos en las manos.
2. ¿Cuál es el lenguaje de programación o herramienta recomendado?
● Se recomienda Python, ya que contiene una variedad de funciones del lenguaje
para hacer la manipulación de datos , como las expresiones regulares. También se
habla de la gran variedad de bibliotecas, que hacen prácticamente de todo.
● Perl: era el idioma de referencia para intercambiar datos en la web, pero Python
término aplastándolo se podría decir, porque la programación orientada a objetos
tiene mayor apoyo y Python tiene mejores bibliotecas. Pero Perl igual se puede ver
algunas veces en algunos proyectos.
● Mathlab: Muchos algoritmos de aprendizaje automática se reducen en operaciones
en matrices, por lo tanto este lenguaje es ideal para el trabajo con matrices.
● Java y C/C++: se utiliza con enfoque en las aplicaciones de big data.
● Mathematica/Wolfram Alpha: Mathematica es un programa de sistema patentado
que procesa consultas similares al lenguaje natural a traves de una combinación de
algoritmos y fuentes de datos pre digeridas.
● Excel: contienen una gran cantidad de funcionalidades para usuarios avanzados. Es
una herramienta poderosa para el análisis de datos.
3. ¿Qué es R?
● Es el lenguaje de programacion de los estadisticos, tiene varias bibliotecas para el
análisis y visualizacion de datos. Los lenguajes populares dentro de la ciencia de
datos son el R y Python. R por el lado explorativo y Python por el lado productivo.
4. ¿Qué rol pueden tener las planillas de cálculo en el proceso de ciencia de datos?
● Sirven para estructurar las tablas únicas de datos. Se utilizan para importar y
exportar registros en estas planillas de cálculo, ya sea archivos como csv o XML.
5. ¿Por qué el resultado de un proyecto de ciencia de datos debería ser un
“computable notebook”?
●
6. ¿Cuáles son las propiedades deseables de un formato de datos?
● Facilidad de analisis para las computadores, estos estan soportados por una API
que asegura el formato adecuado.
● Facilidad de lectura para las personas. Porque se pueden visualizar de una manera
fácil de entender para el usuario.
● Grado de utilización por otras herramientas y sistemas. Los formatos no son
fácilmente compartidos por los desarrolladores de software. Pero la idea es darle
uso, mezclar y combinar con otros recursos de datos.
7. ¿Cuáles son los formatos/representaciones de datos más importantes?
● Archivos CSV (valores separados por comas): Estos tienen el formato más popular
para intercambiar datos entre programas.
● XML (eXtensible Markup Language): datos estructurados, pero no tabulares. Se
escriben como texto con anotaciones. Entonces XML es un lenguaje para escribir
especificaciones de lenguajes como LaTex o HTML.
● Base de datos SQL (lenguaje de consulta estructurado): las hojas de calculo son
estructuradas en torno a tablas unicas de datos.
● JSON (notacion de objetos JavaScript): este es un formato para transmitir datos
objetos entre programas. Es una forma natural de comunicar el estado de variables /
estructuras de datos de un sistema a otro.
● Buferes de protocolo: esta es una forma de serialización independiente del
lenguaje/plataforma. Para comunicaciones y almacenamiento entre aplicaciones.
Aquí se necesitan versiones más ligeras de XML. También sirve para comunicar
pequeñas cantidades de datos en programas como JSON.