Está en la página 1de 7

Tarea 1

Taller de inteligencias de negocios

Nicole Ulloa
1.- ¿Qué significa el término “datafication”?

Hace referencia a transformación de información a datos, para luego ser almacenados.


Enfocándose principalmente a que todo lo que hacemos en internet queda grabado y se
almacena.

2.- Que es Data Warehouse, para qué sirve y cuáles son sus 4 elementos?

Es principalmente donde se almacenan algunos datos importantes (antiguos y nuevos) para


las empresas. Sirve para contribuir a tomar ciertas decisiones, ya que los datos están
organizados de manera estratégica para poder optimizar la toma de decisiones (enfocado en la
gestión). Sus 4 elementos son:

1.- Datos en bruto.

2.- Modificar los datos de tal manera que satisfagan los requerimientos.

3.- Carga de datos en EDW o data marts.

4.- Analisis de datos ya entregados de DW para tener información y lo necesario para el


usuario.

3.- Que es el Data Mining y donde se aplica? De un ejemplo.

Son diferentes técnicas que ayudan a encontrar bases de datos casi automáticos, encontrando
tendencias que permiten saber información importante para una empresa. Está enfocado
principalmente en resolver dudas que tengan una alta prioridad. Se aplica en diferentes
rubros, como es una tienda comercial, cine, patio de comida, etc. Un ejemplo sería que una
empresa de comida quiera abrir una sucursal en otra ciudad, con el Data Mining podría ver
cuántas personas consumen ese tipo de comida y cantidad de competencia en la ciudad, para
ver qué tan conveniente es abrir un nuevo local.

4.- Nombre varias técnicas empleadas en Data Mining y ejemplos breves de sus usos

- Arboles de decisión: es una de las técnicas más populares, un ejemplo bancario sería evaluar
con distintos parámetros si se le da o no un crédito a un cliente. Dependiente de su sueldo, si
ha cumplido con créditos anteriores, etc

-Regresión: (estadística): La probabilidad que un alumno apruebe un ramo en la universidad.


Este ejemplo podría tener las siguientes variables: ramos aprobados o reprobados
anteriormente, horas de estudio, asistencia a clases, etc.

-Redes neuronales artificiales (ANN): en el ámbito de la robótica se usa bastante para replicar
razonamiento humano, estableciendo diferentes patrones.

5.- Que es un “Dashboard” y para que se usa?

Es una representación que enseña algunos indicadores para poder obtener datos y KPI, se usa
principalmente para facilitar la toma decisiones en una empresa.
6.- ¿Qué es la Decisión Estratégica y en qué se diferencia en la decisión operacional?

Son aquellas decisiones que tienen un alto impacto en la empresa y normalmente son
decisiones a largo plazo, por lo que requiere una toma de decisión mucho más estudiada. En
cambio, las decisiones operacionales se enfoca más en lo rutinario, por lo que afecta al corto
plazo.

7.- De 10 ejemplos concretos (comentados) donde se aplica la inteligencia de negocios.

1.- Falabella on- line, todos los productos que están en tienda se pueden comprar desde un
computador.

2.- En los supermercados, con el rut se juntan puntos y a la vez la empresa tiene datos sobre
sus clientes.

3.- Los retail muestran su stock vía on-line.

4.- Instalar un software para llevar al día el inventario.

5.- Los canales de televisión ahora tienen páginas web donde tienen los programas y el cliente
los puede ver cuando el quiera.

8.- ¿Por qué crees que una empresa debería invertir en soluciones de inteligencia de
negocios?

Porque ayudan a optimizar tiempo y recursos. Automatiza muchos procesos que las empresas
hacen manualmente, teniendo un tiempo de respuesta menor al que ya tienen. Además,
invertir en este tipo de soluciones ayudaría a que las personas se enfocaran en realizar otras
tareas.

9.- ¿Qué son los datos no estructurados?

Son datos sin formato específico, encontrarlos es más complicado que los datos estructurados.

10. ¿Qué actividades habituales contempla la “limpieza” de los datos?

Eliminar los datos duplicados (entorpece los resultados finales), modificar un dato de una
unidad a otra, completar celdas de valores perdidos, modificar datos a valores actuales ( por
ejemplo UF, dólar, peso), eliminar datos que son muy distintos al normal de los datos (mucho
más grande o mucho más chico), entre otros.

11. ¿Cómo se evalúan los resultados del data mining?

Los resultados se evalúan de a través 2 formas Supervised Learning o Unsupervised


learning, estos 2 tipos de formas de evaluación de datos permiten definir diferentes
esquemas de evaluación

Supervised Learning
 Arboles de decisiones
 Redes neuronales artificiales
 Regresiones

Unsupervised Learning
 Análisis Cluster
 Reglas mineras de asociación

12. ¿Qué es una “Matriz de confusión”?

Dentro del aprendizaje supervisado, esta matriz permite ver que ten eficiente fue el
algoritmo, si la predicción fue correcta o no, usando una formula determinada.

13.- ¿Qué es un “Decision tree” y cuál es su algoritmo, es decir cómo trabaja?

Una herramienta para poder encaminar una decisión. Se base en hacer preguntas estratégicas
y dependiendo la respuesta, se sigue por un camino u el otro. Son uno de los más utilizados,
además de eficientes y fáciles de utilizar. Normalmente se utiliza para aclarar decisiones
binarias.

14. ¿Cómo funciona una “Artificial neural network (ANN)”?

Trata de replicar la estructura neuronal de los humanos, recibiendo estímulos, para


posteriormente poder ser procesados y por ultimo poder trasmitir lo captado a las
otras neuronas; así alguna va a llegar a la decisión final.

15. ¿En qué parte Netflix usa la técnica “Association rules”?

Netflix ocupa esta técnica para poder descubrir afinidades entre eventos o elementos
como podría ser la recomendación de serie o película, basado en las visualizaciones
anteriores.

16.-Defina y explique los siguientes términos: varianza, covarianza, correlación,


causalidad, dato atípico, función de distribución de probabilidades, valor propio,
vector propio de una matriz y valor medio.

Varianza: medida que muestra la variabilidad de algunos datos respecto a su media.

Covarianza: muestra el grado de variación entre dos variables aleatorias respecto de


sus medias. Se usa para saber la dependencia entre las variables.

Correlación: relación entre dos o más variables cuantitativas, calculando el grado de


asociación lineal entre ellas.

Causalidad: necesidad de concurrencia entre dos variables correlacionadas


positivamente.

Dato atípico: valor mucho más grande o mucho más pequeño que los valores
comunes.
Función de distribución de probabilidades: asigna a cada uno de los datos establecidos
la probabilidad de que ocurran.

Valor propio: numero por él se multiplica el vector propio

Vector propio de una matriz: un vector multiplicado por un número (mantiene la


dirección)

Valor medio: promedio de datos numéricos.

17.- ¿En qué se diferencia fundamentalmente la regresión de la regresión logística?

La regresión común trabaja con valores numéricos continuos para variables


dependientes e independientes sin embargo la regresión logística puede trabajar con
valores binarios de los cuales depende la variable. Un ejemplo sería la aprobación o
rechazo de un préstamo bancario, la decisión es si o no.

18.- ¿Qué es la colinealidad y cómo este fenómeno afecta la regresión?

La colinealidad es una fuerte similitud en variables independientes, lo que básicamente


merma la posibilidad de predicción y la regresión perderá validez ya que el poder
predictivo de las variables se verá consumido entre ellas. 

19. ¿Qué significan los términos “supervised learning”, “unsupervised learning”?

Supervised Learning (Aprendizaje Supervisado):


En el aprendizaje supervisado el modelo de datos se puede crear a través de datos del
pasado y este mismo es capaz de predecir la respuesta correcta para futuras instancias
de datos.

Unsupervised Learning (Aprendizaje no supervisado):


En el aprendizaje no supervisado no se asignan variables dependientes y no hay
respuestas correctas o incorrectas, solo respuestas con afinidades más fuertes o
débiles, por lo tanto, cada proceso o regla tiene su nivel de confianza propiamente
definido.

20.- ¿Qué es el análisis de clúster? De algunos ejemplos donde se usa.

Se utiliza para la agrupación automática de cosas, en la cual las instancias de datos


similares se clasifican en un “cluster” del mismo modo si las instancias de datos son
distintas se clasifican en diferentes “cluster” (o agrupaciones). Este método es una
técnica de Unsupervised Learning ya que la variable no está sujeta a entregar una
respuesta correcta o incorrecta.
El análisis cluster se utiliza en la mayoría de los campos que existe una gran variedad
de transacciones, algunos ejemplos son:

1. Las segmentaciones de mercados que ayudan a definir categorías de clientes


según su similitud.
2. Portafolios de productos como es el ejemplo de las prendas de vestir que se
puede categorizar el tamaño de las personas.
3. Extracción de textos la similitud de los documentos te permite crear grupos de
archivos como son contratos, facturas, evaluaciones, ETC.

21. ¿Qué es BigData?

Se denomina Bigdata a un conjunto de datos tan grande que es extremadamente difícil


de medir por medios tradicionales, este proceso de datos se crea debido a la cantidad
de contenidos y distribuciones con las que trabaja internet, medios sociales
almacenamiento de nube y dispositivos de acceso móvil entre otros.
22.- ¿Qué significa programar en paralelo? ¿Qué es MapReduce, Hadoop?

Programar en paralelo significa dividir un problema grande en partes más pequeñas


que luego se asignan a múltiples procesadores que básicamente funcionan de forma
paralela.

El MapReduce es una forma de programar en paralelo que Google creo originalmente


para lograr resultados o búsquedas de forma más rápida.

Hadoop es un programa que permite gestionar datos grandes los cuales de van
archivando en forma de clave y datos de valor es decir en combinaciones.

23. - De un ejemplo simple donde se haya aplicado Inteligencia de Negocio para


tener ventaja competitiva.

La empresa Mk como proveedores principalmente de cerámicos y porcelanatos de alta


gama. Ocupa un software que permite distribuir su inventario en forma de módulos
previamente marcados con un Tag o una etiqueta, que avisa que un modulo específico
se encuentra ocupado con el nombre del elemento u objeto que contiene. Además,
informa el nombre de la persona o empresa a la cual pertenece la compra y el día de
despacho donde se debería liberar el módulo. Esto permite administrar sus bodegas y
despachos en cualquier modulo que se encuentre libre, donde el sistema se encarga
de disponer de la cantidad de modulo libres, los ocupados y listos para liberación y
despacho.

También podría gustarte