Está en la página 1de 24

Capítulo 4: Analítica

avanzada de datos y
aprendizaje automático

Big Data & Analytics

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 1
Capítulo 4: Secciones y objetivos
▪ 4.1 Analítica predictiva
• Identificar la probabilidad de los resultados futuros a través del
uso de datos, algoritmos estadísticos y técnicas de aprendizaje
automático en función de datos históricos.

▪ 4.2 Evaluación del modelo


• Examinar las diferentes métricas de evaluación utilizadas en el
análisis predictivo.

▪ 4.3 Preparación para las prácticas de laboratorio del


capítulo 4

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 2
4.1 Analítica predictiva

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 3
Aprendizaje automático
Con vista al futuro

▪ Características que distinguen


los datos masivos de los datos:
• Volumen
• Velocidad
• Diversidad
• Veracidad

▪ Los datos masivos se utilizan


para crear modelos predictivos
que responden las siguientes
preguntan:
• ¿Qué sucederá?
• ¿Cómo debemos actuar?

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 4
Aprendizaje automático
¿Qué es el aprendizaje automático?
▪ Kevin Patrick Murphey define el aprendizaje
automático como "un conjunto de métodos
que puede detectar automáticamente
patrones en datos y luego, utilizar los
patrones sin cobertura para predecir datos
futuros o tomar otros tipos de decisiones
en caso de incertidumbre".
• Los algoritmos de aprendizaje automático
mejoran su rendimiento en tareas específicas
según el rendimiento repetitivo de dichas
tareas. Los métodos de aprendizaje automático
se aplican a una amplia variedad de aplicaciones
que incluyen el reconocimiento de voz,
diagnósticos médicos, vehículos autoconducidos,
motor de recomendación de ventas, entre
muchas otras.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 5
Aprendizaje automático
Tipos de análisis de aprendizaje automático
▪ Existen dos categorías principales de algoritmos de
aprendizaje automático:
• Supervisados: comúnmente utilizado para el análisis predictivo. Se
utilizan para resolver problemas de regresión y clasificación.
• No supervisados: descubren patrones en los datos de forma autónoma.
Ejemplos de problemas resueltos con métodos no supervisados son el
clustrerizado y la asociación.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 6
Aprendizaje automático
Un proceso de aprendizaje automático
▪ El desarrollo de soluciones de aprendizaje automático se
puede simplificar en los siguientes pasos:
• Paso 1 – Preparar los datos
• Paso 2 – Crear un conjunto de aprendizaje
• Paso 3 – Crear un conjunto de prueba
• Paso 4 – Crear un bucle
• Paso 5 – Probar la solución
• Paso 6 – Implementar la solución

proceso de
aprendizaje
aprendizaje de algoritmo candidato modelo evaluación implementación
datos seleccionado modelo modelo

datos
elaborados
selección de modelo
mejora de modelo
selección de función
ajuste de modelo
datos de prueba
reservados
Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.
Información confidencial de Cisco 7
Aprendizaje automático
Aplicaciones comunes del aprendizaje automático
▪ Los algoritmos de la analítica predictiva
tienen una amplia variedad de aplicaciones,
incluido el uso de la tecnología analítica en
los campos de entretenimiento, agricultura,
medicina y ventas minoristas.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 8
Regresión
Análisis de regresión
▪ El análisis de regresión es uno de los métodos
más antiguos y más comúnmente utilizados
para analizar datos.
▪ El objetivo principal de la regresión es calificar
la relación matemática entre una o más
variables independientes (variables predictora)
y una dependiente (variable objetivo).

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 9
Regresión
Regresión lineal
▪ Las regresiones lineales son las más simples desde el punto
de vista matemático y de cálculo.
• El término "lineal" implica que la función de regresión intentará siempre
adaptarse a los datos mediante el promedio ponderado de otras
funciones, ya sea que esas funciones sean lineales o no.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 10
Regresión
Aplicaciones del análisis de regresión
▪ El análisis de regresión tiene muchas
aplicaciones. Se utiliza frecuentemente en
análisis comerciales y financieros con datos
históricos para informar estrategias de
acciones futuras.
▪ Se puede utilizar para predecir tendencias en
la economía y puede contribuir a la acción
política para abordar el crecimiento
económico.
▪ También se puede predecir el
comportamiento de los clientes para
distinguir conductas normales de conductas
posiblemente fraudulentas en áreas de
seguro y crédito para el consumo.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 11
Análisis estadístico
Problemas de clasificación
▪ La clasificación se puede considerar un
problema de regresión cuando la variable
objetivo es discreta y representa una
clase en la cual un experto humano ha
clasificado la muestra de datos.
• Por ejemplo: a una empresa de viajes en
Internet le interesa ofrecer una calificación de
confiabilidad de los vuelos que encuentra
para sus clientes. Mediante el error de prueba
de los diferentes modelos, se ha determinado
qué variables entre todas las del conjunto de
datos son más relevantes para las
clasificaciones. Esto también se conoce como
las variables con el poder discriminante más
alto. Solo se extraen estas características
relevantes de los datos, y se las utiliza para
entrenar al clasificador.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 12
Análisis estadístico
Algoritmos de clasificación
▪ k-nearest neighbor (k-NN): el k-vecino más cercano,
o k-NN, posiblemente sea el clasificador más simple y
utiliza la distancia entre ejemplos de entrenamiento
como medida de la similitud. Para visualizar cómo
funciona un clasificador k-NN, imagine que cada
muestra tiene dos funciones, cuyos valores pueden
representarse en Lun gráfico 2-D.
▪ Máquinas de vectores de apoyo (SVM): las
máquinas de vectores de apoyo (SVM) son ejemplos
de los clasificadores de aprendizaje automático
supervisados. En lugar de basar la asignación de
categorías en las distancias desde otros puntos, las
máquinas de vectores de apoyo calculan el borde
(o hiperplano) que mejor separa los grupos.
▪ Árboles de decisiones: los árboles de decisiones
representan un problema de clasificación como un
conjunto de decisiones basadas en los valores de las
características. Cada nodo del árbol representa un
umbral sobre el valor de una característica, y divide
las muestras de entrenamiento en dos conjuntos más
pequeños.
Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.
Información confidencial de Cisco 13
Análisis estadístico
Aplicaciones de clasificaciones
▪ Los algoritmos de clasificación tienen
muchas aplicaciones. Por ejemplo:
• Evaluación del riesgo: los sistemas de
clasificación se pueden utilizar para
determinar cuántos factores contribuyen
con la probabilidad de diversos riesgos.
• Diagnósticos médicos: los sistemas de
clasificación pueden utilizar preguntas
guiadas para construir un árbol de decisión
que pueda ayudar a diagnosticar varias
enfermedades y riesgos de enfermedades.
• Reconocimiento de imagen: en el
reconocimiento de escritura, un
sistema puede trabajar en la tarea
de identificar números manuscritos.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 14
4.2 Evaluación del modelo

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 15
Validez y confiabilidad
Problemas en el uso de análisis
▪ El proceso de seis pasos para
la investigación científica es el
siguiente:
• Hacer una pregunta sobre una
observación
• Realizar investigaciones
• Formar una hipótesis
• Probar la hipótesis
• Analizar los datos de los
experimentos para arribar a una
conclusión
• Comunicar los resultados

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 16
Validez y confiabilidad
Validez
▪ Si bien se utilizan muchos términos
para describir tipos de validez,
habitualmente los investigadores
distinguen cuatro:
• Validez constructiva: ¿el estudio mide en
realidad lo que afirma medir?
• Validez interna: ¿se diseñó correctamente
el experimento? ¿Incluye todos los pasos
del método científico?
• Validez externa: ¿se pueden aplicar las
conclusiones a otras situaciones o a otras
personas en otros lugares y en otros
momentos? ¿Existe alguna otra relación de
causalidad en el estudio que podría
explicar los resultados?
• Validez de conclusión: según la relación
entre los datos, ¿son razonables las
conclusiones del estudio?

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 17
Validez y confiabilidad
Confiabilidad
▪ Un experimento o un estudio confiable
significa que otros pueden realizarlos y
lograr los mismos resultados. Los
investigadores distinguen entre cuatro
tipos de confiabilidad:
• Confiabilidad de intercalificador: ¿qué
grado de similitud existe entre los puntajes
de distintas personas en la misma prueba?
• Confiabilidad de Prueba-Repetición de la
prueba: ¿cuánto varían los puntajes de la
misma persona que responde una prueba
varias veces?
• Confiabilidad de Formas paralelas: ¿qué
grado de similitud existe entre los puntajes
de dos pruebas diferentes creadas a partir
del mismo dominio de contenido?
• Confiabilidad de consistencia interna:
¿qué variación se registra en los resultados
correspondientes a diferentes puntos de la
misma prueba?
Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.
Información confidencial de Cisco 18
Error en análisis
Error en analítica de datos
▪ Los errores y, de forma más
general, la incertidumbre,
afectan el proceso de la
analítica de datos en diferentes
niveles:
• El primer tipo de error es el error de medición.
Cualquier dispositivo diseñado para tomar
mediciones está limitado en cuanto a su
precisión. Por lo tanto, todas las mediciones
tienen un componente de error incorporado.
• Otro tipo de error es el error de predicción.
En el aprendizaje supervisado, el error de
predicción se cuantifica como la diferencia
entre el valor que predijo el modelo y el valor
observado.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 19
Error en análisis
Tipos y fuentes de errores de medición
▪ Los errores de medición se pueden
dividir en tres grupos:
• Errores graves: son ocasionados por
un error en el instrumento que se
utiliza para realizar la medición o en el
registro de los resultados de la
medición.
• Errores aleatorios: son ocasionados Errores aleatorios
por factores que afectan de manera
aleatoria la medición sobre una
muestra de datos.
• Errores sistemáticos: son ocasionados
por factores instrumentales o
ambientales que afectan todas las
mediciones tomadas durante un
período determinado.
Errores sistemáticos
Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.
Información confidencial de Cisco 20
Error en análisis
Distribución de errores aleatorios
▪ Los errores aleatorios tienden a crear
una distribución normal alrededor del
promedio de la observación. Es posible
desarrollar un modelo estadístico del error
en el que los algoritmos de regresión y
clasificación de casos puedan
considerarlo fácilmente.

▪ Los errores sistemáticos tienden a


desviar la distribución de las observaciones
(lado derecho de la figura) en una dirección
u otra. En consecuencia, un error
sistemático es más difícil de manejar
porque se desconoce el valor real, de
modo que la única manera de detectarlo
es utilizar otro sistema de medición que
consideremos más confiable.

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 21
Error en análisis
Errores en analítica predictiva
▪ Un error de predicción es una diferencia entre el
valor que predijo el modelo de regresión o
clasificación y el valor medido.
▪ Un error de predicción es la distancia entre la
función de regresión y los puntos de datos. El error
de predicción tiene dos componentes
• El primer componente es consecuencia de la elección
del modelo… hacemos una suposición sobre cómo se
distribuyen los datos, lo cual es, inevitablemente, una
aproximación.
• Incluso cuando el modelo elegido refleje a la perfección
la distribución real, seguirá habiendo diferencias entre
los valores predichos y reales debido al error de
medición.
▪ En el aprendizaje automático, la primera causa de
error de predicción a menudo se llama sesgo de un
modelo, mientras que la primera es la variabilidad.
No es posible minimizarlas a ambas, y esta situación
suele llamarse compensación de variabilidad por
sesgo.
Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.
Información confidencial de Cisco 22
Evaluación del modelo
Investigaciones confusas
▪ Comprender el efecto de la validez, la
confiabilidad y los errores en un patrón de
datos es un primer paso importante para
asegurarse de que sus conclusiones se
basen en un diseño de investigación
firme.
▪ Las investigaciones confusas,
defectuosas o erróneas son más comunes
de lo que podría pensar. De hecho, John
P.A. Ioannidis señala que la mayoría de
los hallazgos de las investigaciones son
falsos

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 23
Evaluación del modelo
Pautas para evaluar resultados
▪ Puede seguir varias pautas cuando evalúe los
resultados reportados por un estudio de investigación
o por un informe de análisis de datos:
• Estadísticas: ¿el estudio presenta una muestra lo
suficientemente grande para respaldar los hallazgos?
• Diseño de investigación: ¿los arquitectos del estudio
siguen métodos de diseño de investigación generalmente
aceptados?
• Duración: ¿la investigación explica correctamente el
impacto sobre el tiempo?
• Correlación y causalidad: que dos variables se
correlacionen no implica que una haya ocasionado la
otra.
• Alineación con otros estudios: ¿los resultados
confirman o sea alinean con otros estudios en el
campo?
• Revisión de pares: ¿el estudio ha sido revisado por
expertos en el mismo campo?

Presentation_ID © 2008 Cisco Systems, Inc. Todos los derechos reservados.


Información confidencial de Cisco 24

También podría gustarte