Está en la página 1de 5

Glosario

Fundamentos de Data Science, por Camila Manera

API
Conjunto de funciones que permite conectar una aplicación con otra. Las siglas API refieren
a Application Programming Interface (Interfaz de Programación de Aplicaciones). La
mayoría de las aplicaciones web proveen una API para que otra aplicación pueda
interactuar con ella. Por ejemplo, la API de Mercado Libre permite que cualquier aplicación
consuma datos de este servicio web.

Aprendizaje NO Supervisado
Subcampo de Machine Learning que se ocupa de la resolución de problemas en los que NO
existe una variable a predecir. Generalmente, busca la detección estructural o la reducción
de dimensionalidad de los datos.

Aprendizaje Supervisado
Subcampo de Machine Learning que se ocupa de la resolución de problemas en los que
existe una variable a predecir o modelar (llamada habitualmente target o dependiente).

Audio Processing
Conjunto de técnicas centradas en la extracción de información de señales sonoras.
Particularmente, busca generar features a partir de una señal cruda de audio.

Bases de datos
Conjunto de datos organizados y relacionados entre sí. Permite manipular una gran
cantidad de datos de manera segura a través de transacciones y permite el acceso
simultáneo a varios usuarios.

Clasificación
Tipo de problema a resolver en el campo del Aprendizaje Supervisado, en el que se intenta
predecir o modelar una variable cualitativa (sexo, estado civil, bajas, etc.). Puede ser
abordado con numerosas técnicas y algoritmos (Regresión Logística, Naïve Bayes, Support
Vector Machines, árboles de decisión, etc.).

Cloud computing
Conocida también como servicios en la nube, informática en la nube, nube de cómputo,
nube de conceptos o simplemente "la nube", es un paradigma que permite ofrecer servicios
de computación a través de una red, que usualmente es Internet.

Fundamentos de Data Science, por Camila Manera Crehana, 2021


Clustering
Conjunto amplio de técnicas y algoritmos que forman parte del campo de problemas
vinculados al Aprendizaje No Supervisado y buscan formar y encontrar grupos de registros
homogéneos en su interior y heterogéneos entre sí. La noción de similitud y diferencia suele
operacionalizarse a partir de diversas métricas de distancia. Algunas técnicas
habituales de clustering son K-means, DBSCAN, Hierarchical clustering, etc.

Computer vision
Campo interdisciplinario que busca lograr que las computadoras obtengan comprensión de
alto nivel a partir de imágenes o videos digitales. Desde la perspectiva de la ingeniería,
busca automatizar tareas que el sistema visual humano puede hacer. Incluye métodos para
adquirir, procesar, analizar y comprender imágenes digitales, y extraer datos de alta dimensión del
mundo real para producir información numérica o simbólica.

Comunicación de resultados
Última etapa del trabajo en un proyecto de Data Science. Implica la presentación de los
principales hallazgos obtenidos en el proyecto a la comunidad. Esta puede tratarse tanto de
colegas (en cuyo caso, la comunicación tiene un carácter técnico) o público no técnico, como
stakeholders, gerentes o público general.

Dashboarding
Los dashboards son pantallas únicas en las que se colocan varias piezas de información
críticas en forma de paneles. Generalmente, en un dashboard se dispone los llamados
KPI's y KSI's. Permiten que el usuario no tenga una visión unificada de los datos y la
información que importa para "impulsar" el negocio.

Deep Learning
Subcampo disciplinar del Machine Learning, caracterizado por la utilización de diversas
técnicas y algoritmos que intentan modelar abstracciones de alto nivel en datos usando
arquitecturas compuestas de transformaciones no lineales múltiples. Estas
transformaciones no lineales se llaman "capas" y la cantidad de "capas" da una idea de la
profundidad del modelo entrenado.

Estadística descriptiva
Rama de la estadística que se centra en la obtención, organización, presentación, descripción
y extracción de información de una distribución. Generalmente, se apoya en medidas
de tendencia central (media, moda, mediana, etc.), de dispersión (varianza, desvío estándar,
etc.) y en diferentes formas de grabación de dichas distribuciones (histogramas, gráficos de
sectores, etc.).

Fundamentos de Data Science, por Camila Manera Crehana, 2021


Estadística inferencial
Rama de la estadística que se centra en los métodos y procedimientos que por medio de la
inducción determina propiedades de una población estadística, a partir de una parte de
esta. Su objetivo es obtener conclusiones útiles para hacer
deducciones sobre una totalidad, basándose en la información numérica de la muestra.

Extracción de datos
Previamente conocido como procesos ETL (Extract, Transform y Load) es un pipeline
utilizado para recopilar datos de diversas fuentes, transformar los datos de acuerdo con las
reglas comerciales y cargarlos en un almacén de datos de destino. Suele llevarse a cabo en
algún motor especializado, y a menudo implica el uso de tablas intermedias para mantener
temporalmente los datos a medida que se transforman y, finalmente, se cargan en su
destino. La transformación de datos que se lleva a cabo normalmente implica varias
operaciones, como el filtrado, la clasificación, la agregación, la unión de datos, la limpieza de datos, la
deduplicación y la validación de datos.

Machine Learning
Disciplina que se ocupa del diseño de algoritmos y técnicas que permitan la inferencia de
reglas a partir de la "exposición" a grandes conjuntos de datos.

Modelos estadísticos
Según Leo Breiman (2001) se refiere a la visión predominante en el siglo pasado acerca de
la forma de realizar análisis predictivo (y opuesta a la visión del Machine Learning). Se
caracterizaría por un enfoque centrado en los modelos y no en la performance predictiva de
dichos modelos.

Modelos predictivos
Conjunto de técnicas basadas en la predicción de variables de diversos tipos. Abarca
técnicas estadísticas "tradicionales", tales como regresión lineal, logística, análisis de series
de tiempo, etc.

NLP
Campo de las ciencias de la computación, inteligencia artificial y lingüística que estudia las
interacciones entre las computadoras y el lenguaje humano. Se ocupa de la formulación e
investigación de mecanismos eficaces computacionalmente para la comunicación entre
personas y máquinas por medio de lenguajes naturales. Problemas vinculados al NLP son
la construcción de word embeddings, de aplicaciones que realicen reconocimiento de
discursos, etc.

Fundamentos de Data Science, por Camila Manera Crehana, 2021


Python
Lenguaje de programación multipropósito. Ampliamente utilizado para la resolución de
problemas y el prototipado de productos de datos. Cuenta con una gran cantidad de
librerías especializadas en Machine Learning.

Redes neuronales
Modelo computacional basado en un gran conjunto de unidades simples ("neuronas"), de
forma aproximadamente análoga al comportamiento observado en los axones de las
neuronas en los cerebros biológicos . Cada unidad neuronal está conectada con muchas otras y los
enlaces entre ellas pueden incrementar o inhibir el estado de activación de las neuronas
adyacentes.
Estos sistemas aprenden y se forman a sí mismos, en lugar de ser programados de forma
explícita, y sobresalen en áreas donde la detección de soluciones o características es difícil
de expresar con la programación convencional.

Regresión
Tipo de problema a resolver en el campo del Aprendizaje Supervisado en el que se intenta
predecir o modelar una variable cuantitativa (ingresos, edad, ventas.). Puede ser abordado
con numerosas técnicas y algoritmos (Regresión Lineal, árboles de decisión, etc.)

SQL
Lenguaje de programación creado para administrar de Bases de Datos relaciones. Este
lenguaje permite crear tablas dentro de la base, definir sus campos, ingresar datos y
realizar consultas.

Storytelling
Metodología utilizada para contar de manera eficiente en que consta nuestro modelo, como
lo presentamos, qué problema resuelve, quién lo va usar y quién nos va pagar para usarlo.
Es fundamental poder vender nuestras soluciones de manera convincente.

Visualización
Área en la que convergen diversas disciplinas (Estadística, Machine Learning, Diseño, etc.) y
que se centra en la búsqueda de las mejores formas de representación gráfica de la
información contenida en conjuntos de datos y/o en resultados de modelos. Utiliza tanto
infografías como plots "tradicionales" (histogramas, barplots, cicle plots, etc.)

Fundamentos de Data Science, por Camila Manera Crehana, 2021


Business Intelligence
El BI permite echar un vistazo al pasado de la empresa a través de análisis y reportes que
tienen como base información histórica del negocio. Es ideal para comprender el panorama
de desarrollo histórico de una empresa.

Business Analytics
El BA se enfoca en el análisis a futuro con base en la información de la empresa y modelos
predictivos para apoyar la toma de decisiones y mejorar la competitividad del negocio.

Data Analytics
Técnicas y procesos cuantitativos y cualitativos usados para extraer conocimientos de los datos.

Data Science
Es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para
extraer conocimientos de los datos con el objetivo de analizar la actualidad y predecir el
futuro del modelo.

Pipeline
Un pipeline de datos es una construcción lógica que representa un proceso dividido en fases. Los
pipelines de datos se caracterizan por definir el conjunto de pasos o fases y las tecnologías
involucradas en un proceso de movimiento o procesamiento de datos.
Los pipelines de datos son necesarias ya que no debemos analizar los datos en los mismos sistemas
donde se crean. El proceso de analítica es costoso computacionalmente, por lo que se separa para
evitar perjudicar el rendimiento del servicio. De esta forma, tenemos sistemas OLTP, encargados de
capturar y crear datos, y sistemas OLAP, encargados de analizar los datos.

A/B Testing
Consiste en desarrollar y lanzar dos versiones de un mismo elemento y medir cuál funciona mejor. Es
una prueba que nos sirve para optimizar una estrategia de email marketing o mejorar la efectividad de
una landing page. Luego utilizar las métricas de cada variación para evaluar cuál funciona mejor.

Fundamentos de Data Science, por Camila Manera Crehana, 2021

También podría gustarte