Está en la página 1de 15

CAPITULO 4: ANALITICA AVANZADA Y

APRENDIZAJE AUTOMATICO
Aprendizaje automático: visión de futuro
Como sabemos, los datos masivos son caracterizados por su volumen, velocidad, variedad y veracidad. Estas
características distinguen los datos masivos de los datos que se han utilizado tradicionalmente para tomar
decisiones en un mundo anterior a los datos masivos. Estas cuatro V presentan no solo importantes desafíos,
sino también oportunidades considerables en muchas áreas.

Las cuatro V de los datos masivos son muy prometedoras para el análisis. Las plataformas y herramientas
siempre cambiantes ofrecen la capacidad de desarrollar modelos que aprendan de patrones existentes entre
variables y que apliquen dichos modelos para predecir de forma confiable qué sucederá en el futuro. Además,
mediante estos modelos, las simulaciones pueden desarrollarse no solo para responder la pregunta, “¿qué
sucederá?” sino también para responder la pregunta “¿cómo debemos actuar?” para reaccionar a las
tendencias.

El aprendizaje automático aborda los desafíos y las oportunidades presentados por el análisis de datos
masivos para modelar datos existentes y predecir los resultados futuros. Google ha creado un
excelente video que destaca algunos de los beneficios del aprendizaje automático y de la promesa que ofrece.

¿Qué es el aprendizaje automático?


En un artículo publicado en Wired, se afirmaba que Google no es realmente una empresa de búsqueda, sino
que es una empresa de aprendizaje automático. Entonces, ¿qué es el aprendizaje automático y por qué es
tan importante?

En su libro, Kevin Patrick Murphy define el aprendizaje automático como “…un conjunto de métodos que
pueden detectar automáticamente patrones en los datos, y luego utilizar los patrones detectados para predecir
los datos futuros, o realizar otros tipos de toma de decisiones bajo incertidumbre”. Por ejemplo, un programa
informático es diseñado por un servicio de video para recomendar películas que podrían gustarles a los
usuarios individuales. El algoritmo analiza las películas que los espectadores han visto ya y las películas que
las personas con preferencias similares de visualización calificaron con buena puntuación. El objetivo es
mejorar la satisfacción del cliente con el servicio de video.

Los métodos de aprendizaje automático se han aplicado a una amplia variedad de aplicaciones que incluyen
reconocimiento del habla, diagnósticos médicos, automóviles que conducen solos, motores de recomendación
de ventas y muchos otros.

Cualquiera sea la aplicación, los algoritmos de aprendizaje automático mejoran su rendimiento en las tareas
específicas según el rendimiento repetido de aquellas tareas, si el algoritmo y el modelo pueden enfrentar la
variabilidad creciente introducida por los datos adicionales. Este es el motivador fundamental para buscar
mejores modelos y algoritmos.

Tipos de análisis de aprendizaje automático


El aprendizaje automático incluye diversos algoritmos, algunos con una amplia gama de aplicabilidad,
mientras que otros se pueden personalizar para aplicaciones específicas. Estos algoritmos pueden dividirse
en dos categorías principales: supervisados y no supervisados. Los algoritmos de aprendizaje automáticos
supervisados son los algoritmos de aprendizaje automático más utilizados para el análisis predictivo. Estos
algoritmos dependen de conjuntos de datos que fueron procesados por los expertos humanos (por lo tanto, se
usa la palabra “supervisión”). Los algoritmos luego aprenden cómo realizar las mismas tareas de
procesamiento de forma independiente en los nuevos conjuntos de datos. En particular, los métodos
supervisados se utilizan para resolver problemas de regresión y clasificación:

• Problemas de regresión: son el cálculo de las relaciones matemáticas entre una variable continua y
una o más variables. Esta relación matemática luego puede utilizarse para calcular los valores de una
variable desconocida dados los valores conocidos de las demás. Los ejemplos de regresión son el
cálculo de la posición del automóvil y su velocidad con el GPS, la predicción de la trayectoria de un
tornado con datos meteorológicos, o la predicción del valor futuro de una acción mediante datos
históricos y otras fuentes de información. Para mostrar mentalmente el ejemplo más simple de
regresión, imagine dos variables, cuyos valores se muestran como los puntos en un diagrama
bidimensional similar a la imagen de la derecha de la Figura 1. La ejecución de la regresión significa
encontrar la línea que interpola mejor los valores. La línea puede tomar varias formas y se expresa
como función de regresión. Una función de regresión le permite estimar el valor de una variable dado
el valor de la otra, para los valores que no se han obtenido antes.

• Problemas de clasificación: se utilizan cuando la variable desconocida es discreta. Por lo general, el


problema comprende el cálculo al cual, de un conjunto de clases predefinidas, pertenece un ejemplo
específico. Los ejemplos típicos de clasificación son reconocimiento de la imagen, o diagnóstico de las
patologías de exámenes médicos, o identificación de rostros en una imagen. Una interpretación visual
de un problema de clasificación se puede considerar en dos dimensiones, donde los puntos que
pertenecen a diferentes clases se marcan con otro símbolo, similar a la imagen a la izquierda de la
Figura. 1. El algoritmo “aprende” ejemplos de la ubicación y la forma de la línea fronteriza entre las
clases. Esta línea fronteriza luego puede utilizarse para clasificar nuevos ejemplos.

• Los algoritmos de aprendizaje automático no supervisados no requieren expertos humanos de los que
aprender, sino que descubren patrones en los datos de forma autónoma. Algunos ejemplos de
problemas resueltos con métodos no supervisados son el agrupamiento y la asociación:

• Métodos de agrupamiento: estos se pueden ver como la detección automática de grupos de ejemplos
que tienen características similares, que pueden indicar posiblemente el hecho de que un miembro del
grupo pertenece a una clase bien definida. Por ejemplo, los algoritmos de agrupamiento se utilizan para
identificar grupos de usuarios basados en su historial de compras en línea, y luego envían avisos
dirigidos a cada miembro. En la Figura 2, el algoritmo de agrupamiento ha asignado automáticamente
un color diferente al grupo de observaciones que son “estrechas” entre sí.

• Métodos de asociación: estos son un problema muy relevante para los comerciantes en línea, y
consisten en detectar grupos de elementos que se observan con frecuencia en conjunto. Se usan para
sugerir compras adicionales a un usuario, según el contenido de su carrito de compras. Para un
resumen detallado de diez de los algoritmos de aprendizaje automático más utilizados, lea
este artículo en el sitio web de KDnuggets. KDnuggets es un excelente recurso para los científicos de
datos y los aprendices de científicos de datos.

Un proceso de aprendizaje automático


Desarrollar una solución de aprendizaje automático pocas veces es un proceso lineal. Varios pasos de prueba
y error son necesarios para ajustar la solución, como lo que hemos visto para el modelo de CRISP-DM. Sin
embargo, el proceso puede simplificarse:

Paso 1: Este es el paso de preparación de los datos. En este paso, incluimos los procedimientos de
limpieza de datos (es decir, la transformación a un formato estructurado, la eliminación de datos faltantes y las
observaciones de ruido/error).

Paso 2: Cree un conjunto de aprendizaje que se use realmente para entrenar el modelo.

Paso 3: Cree un conjunto de prueba que se use para evaluar el rendimiento del modelo. El paso de prueba
se realiza solo en caso de aprendizaje supervisado.

Paso 4: Cree un bucle. Se elige un algoritmo, según el problema necesario, y sus rendimientos se evalúan en
los datos de aprendizaje. Según el algoritmo elegido, podrían ser necesarios pasos de preprocesamiento,
como la extracción de características del conjunto de datos que sean relevantes para el problema. Por
ejemplo, si está tratando de analizar el nivel de actividad de una persona según una aplicación de seguimiento
del estado físico, las características como la cantidad de pasos, la elevación, la aceleración máxima, etc. se
pueden extraer de las mediciones sin procesar del sensor. Los pasos de posprocesamiento también se
pueden realizar en este punto, como el ajuste de los parámetros del modelo o algoritmo. Si el algoritmo y el
modelo alcanzan un rendimiento suficiente en los datos de aprendizaje, la solución se acepta en los datos de
prueba. De lo contrario, se presenta un modelo o algoritmo nuevo y se repite el proceso de aprendizaje.
Paso 5: La prueba de la solución en datos de prueba se denomina paso de evaluación del modelo. Los
rendimientos en los datos de aprendizaje no son necesariamente transferibles en datos de prueba. Cuanto
más complejo y ajustado sea el modelo, mayores probabilidades habrá de que se vuelva propenso al ajuste
excesivo. Imagine a un alumno que estudia para un examen. El aprendizaje del material de memoria no
garantiza un resultado positivo en el examen. De la misma manera, un algoritmo de aprendizaje automático
puede concentrarse demasiado en el conjunto de aprendizaje, y funcionar mal en la prueba. El ajuste excesivo
puede obligar a volver al proceso de aprendizaje modelo.

Paso 6: Cuando el modelo logra rendimientos satisfactorios en datos de prueba, el modelo


puede implementarse. Esto significa la ejecución de las tareas necesarias para ampliar la solución de
aprendizaje automático a datos masivos, y decidir qué componente de IdC realizará realmente cada paso.
¿Puede el cálculo hacerse en el dispositivo? ¿Requiere una infraestructura de nube? ¿El modelo de
computación de niebla ayuda con grandes cantidades de datos de transmisión? Todas estas preguntas se
pueden responder solo con una colaboración entre los expertos de diversos campos, como analistas de datos,
ingenieros de datos y gerentes empresariales.

Aplicaciones comunes del aprendizaje automático


Como se mencionó anteriormente, el análisis predictivo con algoritmos de aprendizaje automático tiene una
amplia gama de aplicaciones. Las aplicaciones reales de esta tecnología de análisis en los campos del
entretenimiento, la agricultura, la medicina, y las ventas minoristas se pueden encontrar en las figuras 1 a 4.

Análisis de regresión
El análisis de regresión es uno de los más antiguos y más comúnmente utilizados métodos estadísticos para
analizar los datos. La idea principal de la regresión es cuantificar la relación matemática entre una o más
variables independientes (también llamadas predictores) y una variable dependiente (también llamada
objetivo). Es un método supervisado, por lo que depende de un conjunto de datos de valores obtenidos de los
predictores y del objetivo Cuando se obtiene la relación (también denominada función de regresión) entre los
dos, se puede utilizar para calcular los valores de la variable dependiente fuera del alcance de los valores
obtenidos. Es decir que un modelo de regresión permite que el analista extrapole información fuera del
conjunto de datos disponible.

Al trabajar con datos de series de tiempo, por ejemplo, la regresión permite que el analista prediga los valores
futuros a partir de datos históricos. En principio, la regresión busca encontrar una relación entre cualquier tipo
de variable continua. En particular, intenta responder la pregunta genérica: "¿cuánto cambiará la variable V1
si la(s) variable(s) V2 (V3, V4, V5) cambia(n) por una cantidad X?" Una manera simple de mostrar una función
de regresión es imaginar un conjunto de puntos en dos dimensiones, como los que se encuentran en la figura.
La variable predictor, por convención trazada en el eje X, es la proporción de conductores autorizados en
diferentes áreas geográficas. En el eje Y, que se usa normalmente para la variable objetivo, se encuentra el
consumo de gasolina correspondiente. En este caso, una función de regresión posible está representada por
la línea roja. El hecho de que, en este ejemplo, sea una línea recta, sugiere un resultado muy intuitivo: un
aumento de los conductores autorizados en el área provocará un aumento proporcional en el consumo de
gasolina. Mientras que un examen visual simple de la distribución de los puntos de datos sugiere que una
línea es la mejor opción, la regresión no ofrece ninguna restricción en la forma de la función de regresión.
Puede afirmarse generalmente que cuanto más flexible es la forma de la función de regresión, más son los
parámetros que contiene el modelo, y mayor es la complicación del algoritmo desde un punto de vista
matemático y de cálculo.

Regresión lineal
Los métodos más comunes de regresión se denominan regresiones lineales. Estos son los más simples
desde el punto de vista del cálculo y las matemáticas; y por lo tanto, representan la primera opción para un
analista de datos que presenta un problema de regresión. A pesar del nombre, la regresión lineal no implica
pasar una línea a través de puntos de datos. El término lineal significa que la función de regresión intentará
siempre adaptarse a los datos mediante un promedio ponderado de otras funciones, ya sea que aquellas
funciones sean lineales o no. La propiedad de linealidad simplifica el cálculo de los parámetros del modelo de
regresión y, al mismo tiempo, permite que prácticamente se use cualquier forma para responder a las
observaciones. El caso más simple de regresión lineal consta de ajustar una línea recta. Esto también se
conoce como modelo lineal simple, como se muestra en la Figura 1.

Un alto porcentaje de correlación de Pearson indica que un modelo lineal simple es un buen candidato para
adaptarse a los datos. La Figura 2 muestra ejemplos de observaciones positivas y negativas correlacionadas
sólidas. El proceso de regresión, en este caso, consiste en encontrar de la pendiente y la intercepción de la
línea que minimiza la suma de las distancias entre la línea y todos los puntos de datos, como se muestra en la
Figura 3. Al utilizar modelos lineales, el algoritmo más común para calcular estos parámetros modelo óptimos
se denomina requisitos mínimos cuadráticos.

En la Figura 4 se pueden ver tres conjuntos de datos, cada uno con una variable objetivo y una variable
predictor. En los tres casos, se puede observar cómo, a pesar del ruido que afecta las observaciones, hay una
línea clara que captura la relación subyacente entre las variables. La línea roja representa el modelo de
regresión lineal que minimiza la distancia de todas las observaciones. Los modelos se obtuvieron mediante
regresión lineal.

Aplicaciones del análisis de regresión


El análisis de regresión tiene muchos usos. Se utiliza con frecuencia en el ámbito empresarial y el análisis
financiero con datos históricos para informar las estrategias de acción futura. Se puede utilizar para predecir
tendencias en la economía y puede contribuir a la acción política para abordar el crecimiento económico. El
comportamiento del cliente también se puede predecir para distinguir el comportamiento normal del
comportamiento posiblemente fraudulento en campos de crédito de seguro y del consumidor.

En servicios de salud, la regresión múltiple se puede utilizar para evaluar cuáles de diferentes variables
pueden influir en una variable objetivo. Por ejemplo, la relación entre un grupo de opciones de estilo de vida
como fumar, la cantidad de ejercicio y los hábitos alimenticios se puede analizar para determinar cómo
afectan a una variable de salud como la presión arterial, la diabetes o incluso la esperanza de vida.

Independientemente de la aplicación, cualquier modelo de aprendizaje automático requiere validación.


Algunos modelos son muy sensibles a los problemas periféricos o a las anomalías de datos. Otros modelos
pueden generar resultados que pueden ser inadecuados para responder la pregunta de investigación.
Analizaremos datos anómalos y algunos enfoques para evaluar el error en análisis más adelante en este
capítulo.
Práctica de laboratorio: Regresión lineal simple en Python
En esta práctica de laboratorio, se familiarizará con los conceptos de regresión lineal simple y el trabajo con
los datos provistos para realizar una predicción.

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione la práctica de laboratorio 4.1.2.4: Regresión lineal simple en Python.

Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.

Problemas de clasificación
La clasificación es otro problema de aprendizaje automático común que se adecua a la categoría de
aprendizaje supervisado. Mejoras constantes se han obtenido en la última década, especialmente en el
dominio del reconocimiento de imagen. La clasificación se puede considerar un problema de regresión cuando
la variable objetivo es discreta y representa una clase en la cual un experto humano ha clasificado la muestra
de datos. Es común, en los problemas de clasificación, proporcionar no solo un conjunto de puntos de datos
de ejemplo de cada clase, sino también establecer cuáles son las características de cada punto de datos más
útiles para estimar la clase correspondiente. Estas funciones pueden estar disponibles de inmediato de
sensores, pero más a menudo deben computarse (o ser extraídas) de datos sin procesar antes de ser
incluidas en el algoritmo de aprendizaje. La definición de funciones relevantes es un paso importante que, a
excepción de los algoritmos muy avanzados como la profundidad de aprendizaje, se basa en el conocimiento
del experto humano.

Por ejemplo, una empresa de viajes en Internet está interesada en ofrecer una calificación de fiabilidad para
los vuelos que encuentra para los clientes. Mediante el error de prueba de los diferentes modelos, se ha
determinado qué variables entre todas las del conjunto de datos son más relevantes para las clasificaciones.
Esto también se conoce como las variables con el poder discriminante más alto. Solo estas funciones
relevantes se extraen de los datos y se utilizan para entrenar el clasificador.

La empresa decidió utilizar un clasificador para predecir qué vuelos más probablemente pertenezcan a los
grupos de vuelos a tiempo, demorados o cancelados. Mediante el error de prueba de los diferentes modelos,
se ha determinado qué variables entre todas las del conjunto de datos son más relevantes para las
clasificaciones (también con el poder discriminante más alto). Solo estas funciones relevantes se extraen de
los datos y se utilizan para entrenar el clasificador. La calificación de fiabilidad está diseñada para comunicar
el grado de probabilidad de que un vuelo sea a tiempo, se demore o se cancele. La empresa de viajes tiene
acceso a una gran cantidad de datos históricos de diferentes aerolíneas, vuelos, orígenes y destinos, estados
de vuelo, y otra información.

Algoritmos de clasificación
Hay varios algoritmos de clasificadores que son comunes para diferentes fines. Analizaremos brevemente tres
de ellos:

• k-nearest neighbor (k-NN): k-NN es posiblemente el clasificador más simple, que utiliza la distancia
entre los ejemplos de entrenamiento como medida de similitud. Para visualizar cómo funciona un
clasificador k-NN, imagine que cada ejemplo tiene dos funciones, para las cuales los valores pueden
representarse en un diagrama bidimensional. En la Figura 2, los puntos de datos de cada clase se
marcan con otro símbolo. La distancia entre los puntos representa la diferencia entre los valores de sus
funciones. Dado un nuevo punto de datos, un clasificador k-NN debe ver los puntos de entrenamiento
más cercanos. La clase predicha para el nuevo punto será la clase más común entre los k neighbors.

• Máquinas de vector de soporte (SVM): las máquinas de vector de soporte (SVM), que se muestran en
la Figura 3, son ejemplos de clasificadores de aprendizaje automático supervisados. En lugar de basar
la asignación de membresía de la categoría en distancias de otros puntos, las máquinas de vector de
soporte computan la frontera, o el hiperplano, que mejor separa los grupos. En la figura, el H3 es el
hiperplano que maximiza la distancia entre puntos de entrenamiento de las dos clases, visibles en color
o en blanco y negro. Cuando se presenta un nuevo punto de datos, se clasifica según si se encuentra
en un lado o en el otro de H3.

• Árboles de decisión: los árboles de decisión representan un problema de clasificación como un


conjunto de decisiones basadas en los valores de las funciones. Cada nodo del árbol representa un
umbral sobre el valor de una función, y parte los ejemplos de entrenamiento en dos grupos más
pequeños. El proceso de decisión se repite sobre todas las características, con lo que el árbol crece
hasta que una manera óptima de dividir los ejemplos se computa. La clasificación de un nuevo ejemplo
luego puede obtenerse siguiendo las ramas del árbol según los valores de sus funciones. Una vista
simplificada de un árbol de decisión binario y de los tipos de nodos se muestra en la Figura 4.

Visualización de las clasificaciones


Varios tipos de visualizaciones mejoran las aplicaciones exploratorias de los algoritmos de clasificación:

• Figura 1: es una visualización para un análisis de k-NN que asigna nuevas observaciones a una de tres
clases. Las observaciones se clasifican según la pertenencia de la clase de 15 vecinos más cercanos.
Observe que el error existe en la mayoría de los modelos de aprendizaje automático y que la asignación
de membresía no siempre es uniforme, como se indica en las observaciones que se clasifican en
ocasiones incorrectamente.

• Figura 2: es una visualización muy simple del árbol de decisión para un clasificador creado para
predecir qué pasajeros del barco hundido Titanic serían supervivientes o víctimas. Observe que los
nodos del árbol de decisión incluyen una medida de la probabilidad y el porcentaje de la población de
pasajeros que está representada por cada nodo. Este árbol de decisión es muy útil para identificar los
factores, como el género, que tuvieron el mayor impacto en la supervivencia. Este sistema se podría
proporcionar a pasajeros ficticios y clasificaría con mucha precisión a nuevos pasajeros como resultado
de la supervivencia.

• Figura 3: este es un diagrama tridimensional de una máquina de vector de soporte. En este caso, el
hiperplano que separa a los dos grupos se obtiene a partir de tres variables para cada observación. Una
cantidad pequeña de error está presente, como se muestra en los puntos de datos que aparecen en el
lado equivocado del hiperplano.

Aplicaciones de la clasificación
Los algoritmos de clasificación tienen muchas aplicaciones. He aquí varios ejemplos:

• Evaluación de riesgos: los sistemas de clasificación se pueden utilizar para determinar cuáles de
muchos factores contribuyen a la probabilidad de diversos riesgos. Por ejemplo, varios factores pueden
utilizarse para clasificar a los usuarios de seguros de vehículo en categorías de bajo, medio y alto riesgo
y para ajustar las primas que los conductores pagan según el nivel de riesgo.

• Diagnósticos médicos: los sistemas de clasificación pueden utilizar preguntas orientadas para
construir un árbol de decisión que pueda ayudar a diagnosticar varias enfermedades y riesgos de
enfermedades. Los sistemas de clasificación de aprendizaje automático también pueden realizar el
análisis preliminar de una gran cantidad de imágenes de diagnóstico, y señalar las condiciones
sospechosas para la revisión de los médicos.

• Reconocimiento de imagen: por ejemplo, en el reconocimiento de escritura a mano, un sistema puede


trabajar desde la tarea de identificar números manuscritos. Los números 0 a 9 se pueden considerar
como clases. El clasificador recibe un ejemplo grande de números manuscritos, que se ha etiquetado en
cada instancia con el número real representado. El clasificador busca las funciones que probablemente
estén presentes y sean únicas para cada uno de los números.
Práctica de laboratorio: Clasificación del árbol de decisión
En esta práctica de laboratorio, utilizará un modelo de clasificadores del árbol de decisión para determinar
quién sobrevivió al desastre del barco Titanic

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione la práctica de laboratorio 4.1.3.5: Clasificación del árbol de decisión.

Para ver la vista previa de esta práctica de laboratorio, haga clic. aquí.

Problemas al utilizar el análisis


La detección científica proviene con frecuencia del uso del método científico. El método científico es un
proceso de seis pasos:

Paso 1: Hacer preguntas sobre una observación como qué, cuándo, cómo o por qué.

Paso 2: Hacer una investigación.

Paso 3: Formar una hipótesis de esta investigación.

Paso 4: Probar la hipótesis con la experimentación.

Paso 5: Analizar los datos de los experimentos para sacar una conclusión.

Paso 6: Comunicar los resultados del proceso.

El sensacionalismo prevalece a menudo en el seguimiento informativo de cualquier descubrimiento científico


que prometa cambiar el mundo como lo conocemos. Por ejemplo, en 1989, dos científicos afirmaron haber
creado la fusión en frío que proporcionaría un medio de bajo costo de obtención de energía limpia y
abundante.

Sin embargo, después de unos años, fue evidente para otros científicos que el experimento original estaba
dañado y que no podía repetirse. Las cuestiones de validez y fiabilidad son fundamentales para respaldar los
resultados afirmados en cualquier experimento o estudio.

Haga clic aquí para leer un artículo de Wired que resume el debate de la fusión en frío.

Validez
Otros científicos que analizaron el diseño de prueba de la fusión en frío hallaron que faltaban algunos
controles necesarios. Esto significaba que ahora se cuestionaba la validez de los experimentos originales.

Aunque existen muchos términos utilizados para describir tipos de validez, los investigadores distinguen
generalmente entre cuatro tipos de validez:

• Validez de construcción: ¿el estudio mide realmente lo que afirma medir?


• Validez interna: ¿el experimento se diseñó correctamente? ¿Incluye todos los pasos del método
científico?
• Validez externa: ¿las conclusiones se pueden aplicar a otras situaciones u otras personas en otros
lugares en otro momento? ¿Hay otras relaciones causales en el estudio que puedan explicar los
resultados?
• Validez de conclusión: según las relaciones en los datos, ¿las conclusiones del estudio son
razonables?
Fiabilidad
Un experimento o un estudio fiable significa que otra persona puede repetirlo y acceder a los mismos
resultados. Por ejemplo, los niños pueden repetir de manera fiable el experimento de mezclar bicarbonato de
sodio y vinagre para alcanzar los mismos resultados: un volcán.

Los investigadores distinguen entre cuatro tipos de fiabilidad:

• Fiabilidad de calificación interna: ¿con cuánta similitud diferentes personas obtienen resultados en la
misma prueba?

• Fiabilidad de prueba y nueva prueba: ¿cuánta variación hay entre los resultados de una persona que
realiza una prueba múltiples veces?

• Fiabilidad de formas paralelas: ¿cuánta similitud hay en los resultados de dos pruebas diferentes
construidas a partir del mismo contenido?

• Fiabilidad de consistencia interna: ¿cuál es la variación de los resultados para elementos diferentes
en la misma prueba?

En los ejemplos de la fusión en frío y el volcán, la verificación de la validez de las afirmaciones puede
efectuarse replicando el experimento. En el análisis de datos, sin embargo, repetir un experimento podría ser
muy costoso o incluso imposible. Un ejemplo es el sistema de clasificación de imágenes implementado por
Facebook, que permite a los usuarios buscar imágenes con una descripción de texto. Al desarrollar esa
solución, los científicos de datos de Facebook tienen acceso a millones de fotos con una descripción textual
proporcionada por expertos humanos. Pueden ajustar su algoritmo de clasificación para aumentar el
rendimiento pero no pueden saber cómo se comportará con las nuevas imágenes que los usuarios publiquen
en el futuro, y no pueden evaluar si proporcionará una respuesta correcta o no.

¿Entonces cómo pueden estar razonablemente seguros de que el sistema de clasificación funcionará con las
imágenes que no haya procesado antes? Recurren a un método denominado validación cruzada. La
validación cruzada es donde se entrena el algoritmo utilizando solo un ejemplo de datos seleccionado
aleatoriamente, denominado conjunto de entrenamiento. Luego, el modelo se analiza en el resto de los datos,
denominado conjunto de validación. El rendimiento de la clasificación que un sistema de clasificación muestra
en el conjunto de entrenamiento generalmente es mayor que el del conjunto de validación. Sin embargo, esto
representa de mejor manera cómo el algoritmo se comporta con ejemplos que no haya procesado antes.

El éxito del algoritmo de clasificación con las imágenes que el usuario publique en el futuro dependerá de
cuán bien el conjunto de entrenamiento representaba a todo el conjunto de datos. Si, por ejemplo, los usuarios
comienzan a publicar una imagen de un eclipse solar, el sistema sabrá cómo clasificar dicha imagen solo si
había ejemplos de un eclipse solar en el conjunto de entrenamiento.

Las soluciones de análisis de datos están a veces en el mismo plano de preferencia del usuario, porque esta
preferencia se expresa en los conjuntos de datos utilizados para entrenarlos. Haga clic aquí para leer sobre
algunos ejemplos de cómo esta preferencia puede provocar discriminación.

Error de análisis de los datos


Los errores, y más generalmente la incertidumbre, afectan el proceso de análisis de datos en niveles
diferentes. El primer tipo de error es el error de medición. Hemos dicho con frecuencia que los datos se
deben limpiar porque los valores de las variables pueden dañarse por el ruido. Pero, ¿de dónde viene este
ruido? A menudo, el error se debe al sensor, o a la lectura humana o su uso del sensor.

Cualquier dispositivo para tomar medidas es limitado en su precisión. Por lo tanto, todas las mediciones tienen
un componente integrado de error. Independientemente de qué humano lea la medición, el dispositivo tendrá
siempre este error incorporado. Por ejemplo, la cinta métrica utilizada para verificar la línea de corte en una
fracción de madera contrachapada tiene un error de medición incorporado. Un error de varios milímetros no
afecta la eficacia de los obturadores de tormentas. Sin embargo, quizás desee ser más preciso cuando corte
madera para los armarios de cocina.
Debido al error de medición, el verdadero valor no puede ser conocido, pero este error se puede estudiar
estadísticamente y explicarse, y se define como la diferencia entre un verdadero valor (que es desconocido) y
el valor medido.

Otro tipo de error es el error de predicción. En el aprendizaje supervisado, se cuantifica el error de


predicción como la diferencia entre el valor predicho por el modelo y el valor obtenido. El valor obtenido se ve
afectado por el error de medición, y si bien esto no puede descartarse, existen técnicas, como la validación
cruzada, para restringir sus efectos.

Tipos y fuentes de error de medición


Los errores de medición se pueden dividir aún más en estos tres grupos:

• Errores graves: estos son causados por un error en el instrumento que se utiliza para tomar la
medición o en el registro del resultado de medición. Por ejemplo, un observador registra 1,10 en lugar
de la medición real de 1,01.

• Errores aleatorios: como se muestra en la Figura 1, son causados por los factores que afectan de
manera aleatoria la medición sobre un ejemplo de datos. Por ejemplo, una balanza calibrada de la
verdulería puede tener un error de más/menos 1 gramo cada vez que se pesa el mismo elemento.

• Errores sistemáticos: como se muestra en la Figura 2, son causados por factores instrumentales o
ambientales que afectan todas las mediciones realizadas en un período determinado. Por ejemplo, una
balanza que no se calibró generará un error sistemático cada vez que se tome una medida.

Los errores aleatorios tienden a crear una distribución normal alrededor del medio de una observación (Figura
1). Es posible construir un modelo estadístico del error, en cuyo caso los algoritmos de regresión y
clasificación pueden tenerlo en cuenta fácilmente. Para algunos métodos, el hecho de que el error siga una
distribución normal es, en realidad, un requisito.

Los errores sistemáticos tienden a convertir la distribución de las observaciones (Figura 2) en una dirección u
otra. Un error sistemático, por lo tanto, es más difícil de gestionar, porque el verdadero valor es desconocido,
de modo que la única manera de detectar un error sistemático es utilizar otro sistema de medición que
juzguemos más confiable.

Errores de análisis predictivo


El error de predicción es una diferencia entre el valor esperado por la regresión o el modelo de clasificación y
el valor medido. Para la regresión, en la figura se proporciona una explicación visual simple del error.

El error de predicción es la distancia entre la función de regresión y los puntos de datos. En particular, es
común evaluar el error de predicción mediante el medio de la suma de distancias al cuadrado para todos los
puntos. Para la clasificación, el error es determinado por la cantidad de veces que la clase verdadera y la
clase estimada son diferentes. Se divide comúnmente por la cantidad de puntos de datos.

En la regresión, el error en el conjunto de entrenamiento es menor que el del conjunto de validación. El error
de predicción tiene dos componentes:

• El primer componente se debe a la elección del modelo. Sin importar el algoritmo, cada vez que
ajustamos un modelo de regresión o clasificación, tenemos una suposición sobre cómo se distribuyen
los datos, que es inevitablemente una aproximación. Por ejemplo, podemos ajustar un modelo que es
una buena aproximación solo para un rango determinado de ejemplos, pero no podemos capturar la
relación fuera de este, como se muestra en la figura. El antiguo lema de los analistas de datos dice:
“cada modelo es incorrecto, pero algunos de ellos son útiles”. La figura muestra la diferencia entre un
modelo polinomial de segundo orden (Figura 1) y un modelo de tercer orden (Figura 2). El modelo de
tercer orden claramente se realiza mejor en términos de error (Figura 3).
• Incluso cuando el modelo elegido refleja perfectamente la distribución verdadera, aún hay diferencias
entre los valores planificados y los reales debido a errores de medición. Esto no puede descartarse; y
por lo tanto, el error de medición influencia el modelo de regresión.

• En el aprendizaje automático, la primera causa del error de predicción se suele llamar parcialidad de un
modelo, mientras que la segunda es la variación. Uno no puede minimizar ambos; esta situación suele
denominarse compensación parcialidad-variación.

Práctica de laboratorio: Evaluación de los errores de ajuste en la regresión lineal


En esta práctica de laboratorio, utilizará los datos de ventas y el resultado de la regresión lineal de una
práctica de laboratorio anterior para evaluar la precisión del modelo.

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione la práctica de laboratorio 4.2.2.5: Evaluación de los errores de ajuste en la regresión lineal.

Para ver la vista previa de esta práctica de laboratorio, haga clic. aquí.

Investigación confusa
La comprensión del impacto de la validez, la fiabilidad y los errores en un patrón de datos es un primer paso
importante para garantizar que sus conclusiones se basen en un diseño sólido de investigación. También es el
primer paso en la evaluación de los resultados designados por otra persona.

La investigación confusa, deficiente o errónea es más frecuente de lo que imagina. De hecho, John P.A.
Ioannidis afirma que la mayor parte de los hallazgos de investigación son falsos. Haga clic aquí para leer
cómo la probabilidad de que un hallazgo de investigación sea verdadero se basa en seis corolarios.

Sensacionalismo de los hallazgos de investigación


Existen diversas voces en la cultura de hoy que desean captar su atención. Por lo tanto, no es raro ver títulos
engañosos o incorrectos de fuentes de algunos medios. Por ejemplo, haga clic en aquí para leer por qué
Cancer Research UK tuvo que refutar la afirmación de que el chocolate puede detectar el cáncer. En cambio,
la ingesta de una cucharada de azúcar antes de una MRI puede ayudar a detectar el cáncer. Pero, ¿qué título
obtiene más clics?

A veces puede haber grandes expectativas poco realistas sobre una tecnología nueva. Por ejemplo, el piloto
automático de Tesla , un sistema de asistencia de conducción, es un excelente ejemplo de aprendizaje
automático y análisis de datos masivos aplicados a los datos de sensores. Los automóviles con piloto
automático, principalmente gracias a Google, han estado en las noticias por años. Cuando Tesla lanzó su
sistema de piloto automático, el público asumió que el sistema podía reemplazar por completo al conductor.

Sin embargo, el piloto automático de Tesla no es una tecnología de autoconducción, porque se espera que el
conductor deje sus manos en el volante y controle la acción en cualquier momento. Después de que un
accidente de tráfico fatal reciente involucró a un Tesla, los medios hablaron en contra de los automóviles con
piloto automático y los acusaron de ser falsos.

Las expectativas infladas de una solución de inteligencia artificial llevan al uso indebido de la tecnología y a un
accidente por el cual se culpa a dicha tecnología. Un análisis de la falla del piloto automático de Tesla reveló
un límite en las cámaras y en el sistema de clasificación de la imagen. El sistema por sí mismo no fue
diseñado para reemplazar al conductor. Los automóviles con piloto automático son definitivamente posibles,
pero seguimos estando a varios años de un sistema que pueda reemplazar al conductor completamente, en
cualquier condición climática, y con una mayor seguridad.
Pautas para evaluar los resultados
Existen varias pautas que puede seguir al evaluar los resultados designados por un estudio de investigación o
un informe de análisis de datos:

• Estadísticas: ¿el estudio tiene un tamaño de muestra suficientemente grande para admitir los
hallazgos? Por ejemplo, un sondeo a nivel nacional debe tener un tamaño de muestra de al menos 1024
participantes para obtener un margen de error que sea menos del 3 %. Para los estudios científicos
clásicos, las estadísticas brindan un conjunto de herramientas para determinar exactamente cuántos
datos son necesarios. Para el análisis de datos, no es posible responder esta pregunta en general. La
validación cruzada es fundamental en este caso predecir cómo el modelo se generalizará fuera de los
datos disponibles.

• Diseño de investigación: ¿los arquitectos del estudio siguieron métodos generalmente aceptados de
diseño de investigación? ¿Utilizaron la observación o grupos de control ciegos, en caso de ser
necesario? ¿Explicaron su propia preferencia al realizar la investigación? ¿Quién pagó la investigación y
cuál es la motivación de esa organización?

• Duración: ¿la investigación tiene en cuenta adecuadamente el impacto del tiempo? ¿Cuánto tiempo
debe un equipo de investigación seguir a los participantes de un estudio para asegurarse de que los
resultados sean válidos? En el caso del modelo de análisis de datos para una solución de IdC, la
duración es importante debido a los cambios en el entorno. Un sistema de clasificación de imágenes
entrenado con imágenes de árboles en primavera podría fallar en reconocer dichas imágenes en
invierno.

• Correlación y causalidad: solo porque dos variables se correlacionan esto no implica que una sea
causa de la otra. Haga clic aquí para leer sobre la correlación entre las ventas de helado y el delito.
Pregunte si los investigadores explicaron las otras variables de confusión que podrían haber afectado el
estudio.

• Alineación con otros estudios: ¿los resultados confirman o se alinean con otros estudios en el
campo? Si no, ¿se puede replicar el estudio para explicar la fiabilidad de los hallazgos?

• Revisión de pares: ¿el estudio ha sido revisado por expertos en el mismo campo? ¿Hay expertos que
discrepen con los hallazgos?

Uso de scikit-learn para el análisis de regresión


En la primera práctica de laboratorio, utilizará el análisis de regresión para ver datos históricos sobre el
crecimiento del tráfico de Internet. Usted cuantificará la relación entre el año y la medición del tráfico de
Internet. Para hacer esto en Python, utilizará scikit-learn, una biblioteca popular de aprendizaje automático.
Esta biblioteca contiene muchas herramientas útiles para el análisis de datos y se basa en NumPy, SciPy y
matplotlib. Haga clic aquí para conocer más acerca de la biblioteca scikit-learn.

Nota: En Python, scikit-learn se llama uso de sklearn.

Hojas de estilo para los diagramas


También instalará pandas, numpy y matplotlib. La biblioteca matplotlib incluye diversos estilos para mostrar
los diagramas. La figura muestra el estilo de diagrama fivethirtyeight que utilizará en la práctica de laboratorio.
Haga clic aquí para ver otros estilos de diagrama.

Ajuste de datos
Para facilitar la regresión lineal en Python, se recurre a la clase de Numpy, polyfit. Aunque polyfit tiene
muchos argumentos, usted solo definirá los valores para x, y, y grado. El valor para x e y se utilizará para el
eje x y el eje y. El uso de polyfit le permitirá trazar la regresión lineal simple que se muestra en la figura. El
valor de grado definirá el grado de ajuste. Haga clic aquí para conocer más sobre Numpy polyfit.
Después, se recurre a la clase poly1d de Numpy para la regresión lineal simple a un modelo polinomial. Haga
clic aquí para conocer más sobre Numpy poly1d.

Práctica de laboratorio: regresión lineal del contador de Internet


En esta práctica de laboratorio, se familiarizará con los conceptos de regresión y predicción y el concepto de
trabajo con datos.

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione la práctica de laboratorio 4.3.1.4: Regresión lineal del contador de Internet.

Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.

Trazado en 3D
En la segunda práctica de laboratorio, mostrará datos en tres dimensiones. Para hacerlo, extenderá la
biblioteca matplotlib instalando la clase mpl_toolkits de la biblioteca mplot3d. Luego utilizará los datos del
contador de Internet para crear un diagrama 3D para mostrar tres ejes: velocidad de descarga (eje x);
velocidad de carga (eje y); y velocidad de ping (eje z). Esta vista muestra dónde se agrupan las velocidades
de la mayoría de los pings, como se muestra en la figura.

Haga clic aquí para conocer más sobre la clase mpl_toolkits.

Interacción con un diagrama 3D


Como una ayuda para la visualización del diagrama 3D, puede ser útil ver los datos desde diferentes ángulos.
Para lograr esto, se importará la clase interactiva de la biblioteca ipywidgets para agregar las herramientas
para ajustar el acimut y la elevación del diagrama 3D, como se muestra en la figura. El acimut le permitirá
rotar el diagrama horizontalmente. La elevación le permitirá rotar el diagrama verticalmente.

Haga clic aquí para obtener más información sobre ipywidgets y clase interactiva.

Detección de anomalías
Las anomalías pueden representar datos que son anómalos, o valores que son anómalos. Los datos pueden
dañarse o distorsionarse mediante muchos factores durante la medición, la transmisión o el almacenamiento.
Estos valores se consideran valores atípicos. Se desvían tanto de los valores esperados que podrían
distorsionar los resultados del análisis. Estas consideraciones se suelen eliminar del conjunto de datos
después de un estudio detallado.

Existen otros tipos de anomalías muy importantes. Estas anomalías pueden representar graves problemas
con el elemento de medición. Por ejemplo, las mediciones de temperatura o vibración inusualmente altas que
realizan los sensores conectados a una máquina podrían indicar que una pieza está por fallar. En este caso,
una aplicación de análisis de datos de transmisión en IdC podría enviar una alarma que alertaría al personal
de mantenimiento que la máquina requiere atención.

El resto de la práctica de laboratorio utiliza clases y funciones de matplotlib y Numpy. Observe en el diagrama
3D de la Figura 1 que existen varios puntos de datos que residen fuera del área agrupada. Estos valores
atípicos son anomalías. Las anomalías se pueden identificar al detectar puntos que se encuentran más allá
del promedio. Al medir la diferencia entre las coordinadas x, y, z de cada punto de datos y las coordinadas x,
y, z del medio, se obtiene una lista de distancias para cada punto de datos. La distancia se denomina
Euclidean.

Para detectar anomalías, deberá identificar el límite de la decisión que define si un punto de datos es normal o
es una anomalía. Para ello, primero se normalizan los datos de la distancia al establecer el trayecto más
lejano a 1. Luego se determina un umbral entre 0 y 1 que defina el umbral para el límite de la decisión. En la
práctica de laboratorio, establecerá el umbral en 0,1 y encriptará funciones para mostrar el diagrama 3D en la
Figura. 2. La esfera muestra el límite de la decisión entre los datos normales y los datos anómalos.
Práctica de laboratorio: Detección de anomalías del contador de Internet
En esta práctica de laboratorio, utilizará la detección de anomalías para ubicar los puntos de datos que se
destaquen de un patrón.

Utilice PL-App Launcher para conectarse a Raspberry Pi.

Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.

Seleccione la práctica de laboratorio 4.3.2.4: Detección de anomalías del contador de Internet.

Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.

Capítulo 4: Análisis de datos y aprendizaje automático avanzados


Este capítulo comenzó con una explicación sobre cómo los datos masivos son caracterizados por su volumen,
velocidad, variedad y veracidad. Continuó con el concepto de aprendizaje automático. El aprendizaje
automático es “…un conjunto de métodos que pueden detectar automáticamente patrones en los datos, y
utilizan patrones sin detectar para predecir los datos futuros o realizar otros tipos de toma de decisiones bajo
incertidumbre”.

Los análisis de regresión y clasificación son un ejemplo de los enfoques supervisados de aprendizaje
automático. Los análisis de agrupamiento y asociación son un ejemplo de aprendizaje automático no
supervisado.

El análisis de regresión es el método estadístico más utilizado para analizar datos. Es una técnica de
aprendizaje automático supervisado. La regresión utiliza la relación histórica entre una o más variables
independientes y una variable dependiente para predecir los valores futuros de la variable dependiente. El
objetivo de la regresión lineal consiste en crear una línea de tendencia que mejor se ajuste a los datos.

Junto al análisis de regresión, la clasificación es el tipo más común de aprendizaje automático utilizado en
análisis de datos masivos. El modelado de clasificación se realiza mediante una familia de algoritmos de
aprendizaje automático que son de uso general para asignar observaciones a grupos. Los modelos de
clasificación, también conocido como clasificadores, son algoritmos de aprendizaje automático supervisado.
Hay varios algoritmos clasificadores que son populares por diversos motivos: k-nearest neighbor (k-NN),
máquinas de vector de soporte (SVM) y árbol de decisión. La clasificación se puede considerar un problema
de regresión cuando la variable objetivo es discreta y representa una clase en la cual un experto humano ha
clasificado la muestra de datos. Es común, en los problemas de clasificación, proporcionar no solo un conjunto
de puntos de datos de ejemplo de cada clase, sino también establecer cuáles son las características de cada
punto de datos más útiles para estimar la clase correspondiente.

La siguiente sección analiza la evaluación de modelos y la detección científica. La detección científica


proviene con frecuencia del uso del método científico. El método científico es un proceso de seis pasos:

Paso 1: Hacer preguntas sobre una observación como qué, cuándo, cómo o por qué.

Paso 2: Hacer una investigación.

Paso 3: Formar las hipótesis de esta investigación.

Paso 4: Probar las hipótesis con la experimentación.

Paso 5: Analizar los datos de los experimentos para sacar una conclusión.

Paso 6: Comunicar los resultados del proceso.

Aunque existen muchos términos utilizados para describir los tipos de validez, los investigadores distinguen
generalmente entre cuatro tipos de validez: de construcción, interno, externo y de conclusión. Los
investigadores distinguen entre cuatro tipos de fiabilidad: de calificación interna, de prueba y nueva prueba, de
formas paralelas y de consistencia interna. El error es la diferencia entre el valor real y el valor medido de una
observación.

error = valor real - valor medido

Distinguimos dos tipos principales de errores en el análisis de datos, el error de medición y el error de
predicción. El error de medición se debe a una falla humana, un ruido o una falta de precisión del sistema de
medición o sensor. Existen tres tipos básicos de errores de medición: grave, sistemático y aleatorio. Los
errores aleatorios tienden a tener una distribución normal alrededor del medio de una observación. Los errores
sistemáticos tienden a convertir la distribución de las observaciones. El error de predicción es una diferencia
entre el valor esperado por la regresión o el modelo de clasificación y el valor medido. En el aprendizaje
automático, la primera causa del error de predicción a menudo se llama parcialidad de un modelo, mientras
que la segunda es la variación. Uno no puede minimizar ambos; esta situación suele
denominarse compensación parcialidad-variación.

La comprensión del impacto de la validez, la fiabilidad y los errores en un patrón de datos es un primer paso
importante para garantizar que sus conclusiones se basen en un diseño sólido de investigación.

En la sección final de este capítulo se analizaron la preparación para las prácticas de laboratorio del contador
de Internet. En la primera práctica de laboratorio, utilizó el análisis de regresión para ver datos históricos sobre
el crecimiento del tráfico de Internet. Usted cuantificó la relación entre el año y la medición del tráfico de
Internet. Instaló pandas, numpy y matplotlib. La biblioteca matplotlib incluye diversos estilos para mostrar los
diagramas.

En la segunda práctica de laboratorio, usted mostró datos en tres dimensiones. Para hacerlo, extendió la
biblioteca matplotlib instalando la clase mpl_toolkits de la biblioteca mplot3d. Luego utilizó los datos del
contador de Internet para crear un diagrama 3D para mostrar tres ejes: velocidad de descarga (eje x);
velocidad de carga (eje y); y velocidad de ping (eje z). Para detectar anomalías, identificó el límite de la
decisión que define si un punto de datos es normal o es una anomalía.

También podría gustarte