Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
© Universidad EAN
Carrera 11 No. 78-47
Bogotá D.C., Colombia
Prohibida la reproducción
parcial o total de este texto sin autorización de la
Universidad EAN
Gerencia de
Proyección y Crecimiento
Julián Grijalba
Autora
2
El análisis de datos como base para la toma de decisiones en el sector Salud
Contenido
1. Fundamentos de la Analítica de Datos................. 4
1.1 ¿Qué es la inteligencia artificial?.................... 4
1.2 Herramientas de estadística descriptiva
para análisis de datos...................................... 7
1.3 Power BI en Analytics, Machine
Learning y Data Science.................................. 19
2. Construyendo modelos analíticos en Power BI..... 22
2.1 Análisis de la relevancia del
modelo para el negocio ................................. 25
2.2 Preparación de los datos de fuentes
estructuradas con Power BI ........................... 28
2.3 Analizar la calidad de los datos con Power Query 37
2.4 Power BI Dataflows.......................................... 40
2.5 Análisis Multidimensional............................... 41
2.6 Analítica descriptiva en Power BI.................... 46
3
1. Fundamentos de la Analítica de Datos
Hace solo unos años, la analítica de grandes volúmenes de
datos era considerada como una de las tendencias con mayor
propensión de influenciar el desarrollo de los negocios. Hoy, es una
realidad que las empresas deben enfrentar para poder competir
de forma más eficiente. Con este fin se ha preparado una guía,
en donde se dan a conocer al estudiante, los conceptos claves
relacionadas con la analítica de datos, tales como: la inteligencia
artificial y sus estadísticas. Así mismo, se le brindarán las bases
para crear herramientas que permitan transforman los datos en
conocimiento para su organización.
4
El análisis de datos como base para la toma de decisiones en el sector Salud
5
El evaluador debe interactuar con ambos utilizando la pantalla
del computador y las interfaces del teclado, para asegurarse de
que la máquina no está limitada en la prueba por su incapacidad
de hablar. Si el evaluador no puede distinguir entre la máquina y el
hombre, la prueba es satisfactoria, Así pues, la pregunta “¿Pueden
pensar las máquinas?” fue planteada mucho antes de que se
iniciara la inteligencia artificial como disciplina.
6
El análisis de datos como base para la toma de decisiones en el sector Salud
7
Si nos centramos en todo lo descrito anteriormente, ML y
AI se centran en un mismo objetivo, es decir, en encontrar una
solución que se adapte mediante el aprendizaje preprogramado o
ampliando el aprendizaje con nuevas experiencias, para mejorar la
resolución de problemas. Es aquí donde la computación cognitiva
amplia generosamente el campo de acción y va un paso más allá
en el sentido de que, simula un comportamiento similar al de la
cognición humana. Su funcionamiento se engrana de una manera
que pueda articularse para asemejarse a la mente humana, por
ejemplo, puede “pensar” aplicando ML para responder de forma
inteligente a través del procesamiento natural de lenguaje (IA), con
ello podemos identificar nuevas áreas de problemas y proponer/
construir soluciones nuevas en torno a ellas.
8
El análisis de datos como base para la toma de decisiones en el sector Salud
9
a) Características estadísticas
10
El análisis de datos como base para la toma de decisiones en el sector Salud
11
b) Distribuciones de probabilidad
• Distribución uniforme
12
El análisis de datos como base para la toma de decisiones en el sector Salud
• Distribución normal
Figura 5. Distribuciones normal
13
• Distribución de Poisson
14
El análisis de datos como base para la toma de decisiones en el sector Salud
c) Estadística Bayesiana
15
P(B) es la probabilidad de que la prueba real sea cierta. Utilízala
siempre que creas que tus datos a priori no serán una buena
representación de tus datos y resultados futuros.
d) Tendencia Central
• Moda
Si su variable de interés se mide en nivel nominal u ordinal
(categórico), la moda es la técnica más utilizada para medir
la tendencia central de sus datos. Encontrar la moda es fácil,
básicamente, es el valor que ocurre con mayor frecuencia en otras
palabras el valor que se repite más veces. Un ejemplo de esto
pueden ser los siguientes números 3, 25, 2, 8, 2, 9, 36, 2, 1, 78, 2,
9 y 7. De estos podemos concluir que la moda de este conjunto es
el número 2 ya que fue el que tuvo mayor frecuencia.
• Mediana
La segunda medida de tendencia central es la mediana. La
mediana no es más que el valor medio de sus observaciones
cuando están ordenadas de menor a mayor. Para ellos la “receta
de cocina” es sencilla, primero ordene sus casos de menor a mayor
y posterior encuentro la mediana.
• Media
17
e) Relación entre variables
• Correlación
• Causación
18
El análisis de datos como base para la toma de decisiones en el sector Salud
19
datos, exceles, CSV, etc.) o no-estructuradas (tweets, páginas
web, imágenes, audios, etc.) en un único lugar.
a) Servicios cognitivos
- ¿Qué es Python?
20
El análisis de datos como base para la toma de decisiones en el sector Salud
- ¿Qué es R?
21
2. Construyendo modelos analíticos
en Power BI
Figura 8. 8-Power BI
22
El análisis de datos como base para la toma de decisiones en el sector Salud
23
para ello y es este. Power Query es el componente que se
conecta a diferentes tipos de fuentes de datos, obtiene los
datos de éstas, le da la posibilidad de aplicar transformaciones
y, finalmente, carga los datos en su conjunto de datos de
Power BI. Este componente es parte de Power BI Desktop, esto
significa que cuando se instala Power BI Desktop, de inmediato
puede empezar a trabajar con él.
24
El análisis de datos como base para la toma de decisiones en el sector Salud
25
Crear
- Conexión a cientos de fuentes de datos: Entre estas, desde
las más estándar como bases de datos, páginas web, hasta
especializadas como Sap hana.
- Procesamiento de datos: Puedes transformar los datos
directamente en la herramienta sin necesidad de un ETL.
- Visualización: Tiene cientos de elementos desarrollados por el
fabricante y por equipos especializados, de hecho, usted mismo
puede crear estos elementos.
Colaborar y compartir
- Colabore con los funcionarios de su organización.
- Publique contenido en tiempo real para que puedan revisarlo
en la oficina o mientras viaja.
- Administre centralmente la inteligencia de negocios de su
organización.
- Controle el acceso de los usuarios con información específica
de cada rol y seguridad en el nivel de fila.
- Cumpla con las normativas locales sobre prestación de servicios,
residencia de datos, acceso y control con las nubes nacionales.
- Proteja sus datos de manera que cumpla con los estrictos
estándares y certificaciones del sector.
26
El análisis de datos como base para la toma de decisiones en el sector Salud
27
2.2 Preparación de los datos de fuentes estructuradas
con Power BI
28
El análisis de datos como base para la toma de decisiones en el sector Salud
Fuente. ?????????
29
1. Los cuatro menús más utilizados para trabajar los datos:
Inicio, Transformar, Añadir columna y Ver.
2. El panel de la lista de consultas (a la izquierda, en este ejemplo
solo tiene una y se llama clases analizando_covid) que son las
conexiones a las fuentes de datos.
3. La ventana Datos (central), donde se puede ver una muestra
de los datos de una consulta seleccionada.
4. El panel Configuración de la consulta (a la derecha “Query
Settings”) que contiene la lista de pasos utilizados para
transformar los datos.
5. La barra de fórmulas sobre los datos que muestra el código
(escrito en el lenguaje “M” de Power BI) que realiza el paso de
transformación seleccionado. Si no la encuentra tendrá que
ir al menú Ver (view) y activar la opción barra de fórmulas.
6. La Barra de estado (en la parte inferior de la ventana) que
indica información útil, como el número de filas y columnas
en una tabla de consulta, y la fecha en que se descargó el
conjunto de datos.
30
El análisis de datos como base para la toma de decisiones en el sector Salud
Menús
a) Inicio
Funcionalidad Descripción
Finaliza los pasos de procesamiento; guarda y
Cerrar y aplicar
cierra la consulta.
Permite integrar nuevos datos al modelo de
Nuevo Origen
información
Enumera todas las fuentes de datos recientes que
Orígenes recientes
ha utilizado.
Le permite añadir sus propios datos específicos en
Especificar datos
una tabla personalizada.
Configuración del Le permite gestionar la configuración de las
origen de datos fuentes de datos a las que ya se ha conectado.
Actualiza la vista previa de los datos. Usualmente,
Actualizar vista previa
lo hace con los primeros mil registros.
Muestra las transformaciones aplicadas con el
Editor avanzado
lenguaje M
31
Divide una columna en una o varias columnas
Dividir columna en un delimitador especificado o después de un
número de caracteres especificado.
Agrupa la tabla utilizando un conjunto especificado
Agrupar por de columnas y agrega cualquier cantidad de
columnas numéricas para esta agrupación.
Tipo de datos Aplica el tipo de datos elegido a la columna.
Usar la primera fila
Utiliza la primera fila como títulos de las columnas.
como encabezado
Realiza una operación de búsqueda y reemplazo
Reemplazar valores en los datos de una columna o columnas. Esto sólo
afecta a los datos completos de una columna.
Combinar consultas: Une una segunda tabla de
consulta a los resultados de la consulta actual y/o
agrega los datos de la segunda, a la primera.
Anexar consultas: Añade los datos de otra consulta,
Combinar
a la consulta actual en el mismo archivo de Power
BI Desktop.
Combinar archivos: Añade los datos de una serie
de archivos de estructura similar en una sola tabla.
a) Transformar
32
El análisis de datos como base para la toma de decisiones en el sector Salud
Funcionalidad Descripción
Agrupa la tabla utilizando un conjunto especificado de
Agrupar por columnas y agrega cualquier columna numérica a esta
agrupación.
Usar la primera fila
Utiliza la primera fila como títulos de las columnas.
como encabezado
Transponer Transforma las columnas en filas y las filas en columnas.
Tipo de datos Aplica el tipo de datos elegido a la columna.
Cambiar nombre Cambia el nombre de una columna.
Realiza una operación de búsqueda y reemplazo dentro
Reemplazar valores de una columna, sustituyendo un valor especificado por
otro valor.
Copia los datos de las celdas superiores o inferiores, en
Rellenar
las celdas vacías de la columna.
Crea un nuevo conjunto de columnas, utilizando los
Columna dinámica datos de la columna seleccionada, como los títulos de
las columnas.
Toma los valores de un conjunto de columnas y eliminar
Anular dinamización de la tabla pivote, creando dos nuevas columnas, utilizando
columna las cabeceras de las columnas como elementos
descriptivos.
Divide una columna en una o varias columnas, en un
Dividir columna delimitador especificado o después de un número de
caracteres especificado.
Modifica el formato de texto de los datos de una
Formato columna (mayúsculas, minúsculas, mayúsculas) o
elimina los espacios finales.
Reemplaza los datos de una columna utilizando un
subconjunto definido de los datos actuales.
Puede especificar un número de caracteres para
Extraer mantener desde el inicio o el final de la columna,
establecer un rango de caracteres que comience en un
carácter especificado, incluso enumerar la cantidad de
caracteres de la columna.
Devuelve la suma, la media, el máximo, el mínimo, la
Estadísticas
mediana, la desviación.
Aísla un elemento (día, mes, año, etc.) de un valor de
Fecha
fecha, en una columna.
Ejecutar script de
Ejecuta scripts de lenguajes como “R” y “Python”.
Python o R
33
b) Agregar Columna
Funcionalidad Descripción
Es una función muy interesante, ya que permite
utilizar una o más columnas como ejemplos. A
Columna a partir de
partir de esto, se generan diferentes escenarios de
ejemplos
transformación sin necesidad de utilizar M en ellos y
así crear una nueva columna.
Añade una nueva columna utilizando una fórmula
Columna personalizada
en M para crear el contenido de la columna.
Añade una nueva columna que se genera con
base en una condición definida. Por ejemplo, si la
Columna condicional
columna género es Hombre entonces será 1 de lo
contrario 0.
Añade un número secuencial en una nueva columna
Columna de índice
para identificar de forma exclusiva cada fila.
Duplicar columna Crea una copia de la columna seleccionada.
Modifica el formato de texto de los datos de una
Formato columna (mayúsculas y minúsculas) o elimina los
espacios finales.
Toma los datos de varias columnas y los coloca en
Fusionar columnas
una sola, añadiendo un carácter separador opcional.
Genera una nueva columna a partir de otra columna
Extraer
por ejemplo usando las tres primeras letras.
Devuelve la suma, la media, el máximo, el mínimo,
Estadísticas
la mediana, la desviación.
Aísla un elemento (día, mes, año, etc.) de un valor
de fecha en una columna.
Fecha Hora: Aísla un elemento (hora, minuto, segundo,
etc.) de un valor de fecha/hora u hora en una
columna.
34
El análisis de datos como base para la toma de decisiones en el sector Salud
c) Transformar datos
35
una serie de procesos que limpian los datos. Pueden incluir lo
siguiente:
36
El análisis de datos como base para la toma de decisiones en el sector Salud
37
Figura 11. Menú Vista
Fuente. ?????????
a) Calidad de columnas
Fuente. ?????????
b) Distribución de columnas
38
El análisis de datos como base para la toma de decisiones en el sector Salud
Fuente. ?????????
c) Perfil de columnas
Fuente. ?????????
39
2.4 Power BI Dataflows
40
El análisis de datos como base para la toma de decisiones en el sector Salud
a) Pensar en cuadrículas
41
b) Resaltar información importante
Fuente. ?????????
42
El análisis de datos como base para la toma de decisiones en el sector Salud
Fuente. ?????????
43
d) Enfoque Visual
44
El análisis de datos como base para la toma de decisiones en el sector Salud
45
2.6 Analítica descriptiva en Power BI
46
El análisis de datos como base para la toma de decisiones en el sector Salud
fila. Como ejemplo, pensemos que tenemos una tabla que tiene
importes de Ventas e importe de Costo. Para calcular el importe
de las ventas netas, puede tomar el importe de ventas, menos
el costo y, sumar el resultado de cada fila, como en la siguiente
fórmula:
Venta neta=SUMX(tabla_ventas,[ventas]-[costo])
47
c) Analizar resultados en periodos de tiempo
PARALLELPERIOD(<fechas>,<número_de_intervalos>,<intervalo>)
Ahora que puede calcular las ventas del mes del año anterior,
puede combinarlas con las ventas actuales para calcular el
crecimiento de las ventas mensuales de un año a otro.
48
El análisis de datos como base para la toma de decisiones en el sector Salud
49
Esto puede utilizarse como filtro en la función CALCULAR
para obtener las ventas durante los primeros 15 días del mes.
Si sólo se trata de periodos mensuales, se pueden utilizar las
funciones STARTOFMONTH y ENDOFMONTH (también las hay
para el año y el trimestre).
50
El análisis de datos como base para la toma de decisiones en el sector Salud
3. Taller práctico
51
Bibliografía
Banfi, V. (2020, 14 diciembre). What is The Turing Test? A Guide to
Running One With Slack. Botsociety Blog. https://botsociety.
io/blog/2018/03/the-turing-test/
KDnuggets. (s. f.). The 8 Basic Statistics Concepts for Data Science.
Recuperado 16 de junio de 2021, de https://www.kdnuggets.
com/2020/06/8-basic-statistics-concepts.html
The 8 Basic Statistics Concepts for Data Science. (s. f.). KDnuggets.
Recuperado 16 de junio de 2021, de https://www.kdnuggets.
com/2020/06/8-basic-statistics-concepts.html
52
El análisis de datos como base para la toma de decisiones en el sector Salud
@Redesconviniente
53