Documentos de Académico
Documentos de Profesional
Documentos de Cultura
APRENDIZAJE AUTOMATICO
Aprendizaje automático: visión de futuro
Como sabemos, los datos masivos son caracterizados por su volumen, velocidad, variedad y veracidad. Estas
características distinguen los datos masivos de los datos que se han utilizado tradicionalmente para tomar
decisiones en un mundo anterior a los datos masivos. Estas cuatro V presentan no solo importantes desafíos,
sino también oportunidades considerables en muchas áreas.
Las cuatro V de los datos masivos son muy prometedoras para el análisis. Las plataformas y herramientas
siempre cambiantes ofrecen la capacidad de desarrollar modelos que aprendan de patrones existentes entre
variables y que apliquen dichos modelos para predecir de forma confiable qué sucederá en el futuro. Además,
mediante estos modelos, las simulaciones pueden desarrollarse no solo para responder la pregunta, “¿qué
sucederá?” sino también para responder la pregunta “¿cómo debemos actuar?” para reaccionar a las
tendencias.
El aprendizaje automático aborda los desafíos y las oportunidades presentados por el análisis de datos
masivos para modelar datos existentes y predecir los resultados futuros. Google ha creado un
excelente video que destaca algunos de los beneficios del aprendizaje automático y de la promesa que ofrece.
En su libro, Kevin Patrick Murphy define el aprendizaje automático como “…un conjunto de métodos que
pueden detectar automáticamente patrones en los datos, y luego utilizar los patrones detectados para predecir
los datos futuros, o realizar otros tipos de toma de decisiones bajo incertidumbre”. Por ejemplo, un programa
informático es diseñado por un servicio de video para recomendar películas que podrían gustarles a los
usuarios individuales. El algoritmo analiza las películas que los espectadores han visto ya y las películas que
las personas con preferencias similares de visualización calificaron con buena puntuación. El objetivo es
mejorar la satisfacción del cliente con el servicio de video.
Los métodos de aprendizaje automático se han aplicado a una amplia variedad de aplicaciones que incluyen
reconocimiento del habla, diagnósticos médicos, automóviles que conducen solos, motores de recomendación
de ventas y muchos otros.
Cualquiera sea la aplicación, los algoritmos de aprendizaje automático mejoran su rendimiento en las tareas
específicas según el rendimiento repetido de aquellas tareas, si el algoritmo y el modelo pueden enfrentar la
variabilidad creciente introducida por los datos adicionales. Este es el motivador fundamental para buscar
mejores modelos y algoritmos.
• Problemas de regresión: son el cálculo de las relaciones matemáticas entre una variable continua y
una o más variables. Esta relación matemática luego puede utilizarse para calcular los valores de una
variable desconocida dados los valores conocidos de las demás. Los ejemplos de regresión son el
cálculo de la posición del automóvil y su velocidad con el GPS, la predicción de la trayectoria de un
tornado con datos meteorológicos, o la predicción del valor futuro de una acción mediante datos
históricos y otras fuentes de información. Para mostrar mentalmente el ejemplo más simple de
regresión, imagine dos variables, cuyos valores se muestran como los puntos en un diagrama
bidimensional similar a la imagen de la derecha de la Figura 1. La ejecución de la regresión significa
encontrar la línea que interpola mejor los valores. La línea puede tomar varias formas y se expresa
como función de regresión. Una función de regresión le permite estimar el valor de una variable dado
el valor de la otra, para los valores que no se han obtenido antes.
• Los algoritmos de aprendizaje automático no supervisados no requieren expertos humanos de los que
aprender, sino que descubren patrones en los datos de forma autónoma. Algunos ejemplos de
problemas resueltos con métodos no supervisados son el agrupamiento y la asociación:
• Métodos de agrupamiento: estos se pueden ver como la detección automática de grupos de ejemplos
que tienen características similares, que pueden indicar posiblemente el hecho de que un miembro del
grupo pertenece a una clase bien definida. Por ejemplo, los algoritmos de agrupamiento se utilizan para
identificar grupos de usuarios basados en su historial de compras en línea, y luego envían avisos
dirigidos a cada miembro. En la Figura 2, el algoritmo de agrupamiento ha asignado automáticamente
un color diferente al grupo de observaciones que son “estrechas” entre sí.
• Métodos de asociación: estos son un problema muy relevante para los comerciantes en línea, y
consisten en detectar grupos de elementos que se observan con frecuencia en conjunto. Se usan para
sugerir compras adicionales a un usuario, según el contenido de su carrito de compras. Para un
resumen detallado de diez de los algoritmos de aprendizaje automático más utilizados, lea
este artículo en el sitio web de KDnuggets. KDnuggets es un excelente recurso para los científicos de
datos y los aprendices de científicos de datos.
Paso 1: Este es el paso de preparación de los datos. En este paso, incluimos los procedimientos de
limpieza de datos (es decir, la transformación a un formato estructurado, la eliminación de datos faltantes y las
observaciones de ruido/error).
Paso 2: Cree un conjunto de aprendizaje que se use realmente para entrenar el modelo.
Paso 3: Cree un conjunto de prueba que se use para evaluar el rendimiento del modelo. El paso de prueba
se realiza solo en caso de aprendizaje supervisado.
Paso 4: Cree un bucle. Se elige un algoritmo, según el problema necesario, y sus rendimientos se evalúan en
los datos de aprendizaje. Según el algoritmo elegido, podrían ser necesarios pasos de preprocesamiento,
como la extracción de características del conjunto de datos que sean relevantes para el problema. Por
ejemplo, si está tratando de analizar el nivel de actividad de una persona según una aplicación de seguimiento
del estado físico, las características como la cantidad de pasos, la elevación, la aceleración máxima, etc. se
pueden extraer de las mediciones sin procesar del sensor. Los pasos de posprocesamiento también se
pueden realizar en este punto, como el ajuste de los parámetros del modelo o algoritmo. Si el algoritmo y el
modelo alcanzan un rendimiento suficiente en los datos de aprendizaje, la solución se acepta en los datos de
prueba. De lo contrario, se presenta un modelo o algoritmo nuevo y se repite el proceso de aprendizaje.
Paso 5: La prueba de la solución en datos de prueba se denomina paso de evaluación del modelo. Los
rendimientos en los datos de aprendizaje no son necesariamente transferibles en datos de prueba. Cuanto
más complejo y ajustado sea el modelo, mayores probabilidades habrá de que se vuelva propenso al ajuste
excesivo. Imagine a un alumno que estudia para un examen. El aprendizaje del material de memoria no
garantiza un resultado positivo en el examen. De la misma manera, un algoritmo de aprendizaje automático
puede concentrarse demasiado en el conjunto de aprendizaje, y funcionar mal en la prueba. El ajuste excesivo
puede obligar a volver al proceso de aprendizaje modelo.
Análisis de regresión
El análisis de regresión es uno de los más antiguos y más comúnmente utilizados métodos estadísticos para
analizar los datos. La idea principal de la regresión es cuantificar la relación matemática entre una o más
variables independientes (también llamadas predictores) y una variable dependiente (también llamada
objetivo). Es un método supervisado, por lo que depende de un conjunto de datos de valores obtenidos de los
predictores y del objetivo Cuando se obtiene la relación (también denominada función de regresión) entre los
dos, se puede utilizar para calcular los valores de la variable dependiente fuera del alcance de los valores
obtenidos. Es decir que un modelo de regresión permite que el analista extrapole información fuera del
conjunto de datos disponible.
Al trabajar con datos de series de tiempo, por ejemplo, la regresión permite que el analista prediga los valores
futuros a partir de datos históricos. En principio, la regresión busca encontrar una relación entre cualquier tipo
de variable continua. En particular, intenta responder la pregunta genérica: "¿cuánto cambiará la variable V1
si la(s) variable(s) V2 (V3, V4, V5) cambia(n) por una cantidad X?" Una manera simple de mostrar una función
de regresión es imaginar un conjunto de puntos en dos dimensiones, como los que se encuentran en la figura.
La variable predictor, por convención trazada en el eje X, es la proporción de conductores autorizados en
diferentes áreas geográficas. En el eje Y, que se usa normalmente para la variable objetivo, se encuentra el
consumo de gasolina correspondiente. En este caso, una función de regresión posible está representada por
la línea roja. El hecho de que, en este ejemplo, sea una línea recta, sugiere un resultado muy intuitivo: un
aumento de los conductores autorizados en el área provocará un aumento proporcional en el consumo de
gasolina. Mientras que un examen visual simple de la distribución de los puntos de datos sugiere que una
línea es la mejor opción, la regresión no ofrece ninguna restricción en la forma de la función de regresión.
Puede afirmarse generalmente que cuanto más flexible es la forma de la función de regresión, más son los
parámetros que contiene el modelo, y mayor es la complicación del algoritmo desde un punto de vista
matemático y de cálculo.
Regresión lineal
Los métodos más comunes de regresión se denominan regresiones lineales. Estos son los más simples
desde el punto de vista del cálculo y las matemáticas; y por lo tanto, representan la primera opción para un
analista de datos que presenta un problema de regresión. A pesar del nombre, la regresión lineal no implica
pasar una línea a través de puntos de datos. El término lineal significa que la función de regresión intentará
siempre adaptarse a los datos mediante un promedio ponderado de otras funciones, ya sea que aquellas
funciones sean lineales o no. La propiedad de linealidad simplifica el cálculo de los parámetros del modelo de
regresión y, al mismo tiempo, permite que prácticamente se use cualquier forma para responder a las
observaciones. El caso más simple de regresión lineal consta de ajustar una línea recta. Esto también se
conoce como modelo lineal simple, como se muestra en la Figura 1.
Un alto porcentaje de correlación de Pearson indica que un modelo lineal simple es un buen candidato para
adaptarse a los datos. La Figura 2 muestra ejemplos de observaciones positivas y negativas correlacionadas
sólidas. El proceso de regresión, en este caso, consiste en encontrar de la pendiente y la intercepción de la
línea que minimiza la suma de las distancias entre la línea y todos los puntos de datos, como se muestra en la
Figura 3. Al utilizar modelos lineales, el algoritmo más común para calcular estos parámetros modelo óptimos
se denomina requisitos mínimos cuadráticos.
En la Figura 4 se pueden ver tres conjuntos de datos, cada uno con una variable objetivo y una variable
predictor. En los tres casos, se puede observar cómo, a pesar del ruido que afecta las observaciones, hay una
línea clara que captura la relación subyacente entre las variables. La línea roja representa el modelo de
regresión lineal que minimiza la distancia de todas las observaciones. Los modelos se obtuvieron mediante
regresión lineal.
En servicios de salud, la regresión múltiple se puede utilizar para evaluar cuáles de diferentes variables
pueden influir en una variable objetivo. Por ejemplo, la relación entre un grupo de opciones de estilo de vida
como fumar, la cantidad de ejercicio y los hábitos alimenticios se puede analizar para determinar cómo
afectan a una variable de salud como la presión arterial, la diabetes o incluso la esperanza de vida.
Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.
Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.
Problemas de clasificación
La clasificación es otro problema de aprendizaje automático común que se adecua a la categoría de
aprendizaje supervisado. Mejoras constantes se han obtenido en la última década, especialmente en el
dominio del reconocimiento de imagen. La clasificación se puede considerar un problema de regresión cuando
la variable objetivo es discreta y representa una clase en la cual un experto humano ha clasificado la muestra
de datos. Es común, en los problemas de clasificación, proporcionar no solo un conjunto de puntos de datos
de ejemplo de cada clase, sino también establecer cuáles son las características de cada punto de datos más
útiles para estimar la clase correspondiente. Estas funciones pueden estar disponibles de inmediato de
sensores, pero más a menudo deben computarse (o ser extraídas) de datos sin procesar antes de ser
incluidas en el algoritmo de aprendizaje. La definición de funciones relevantes es un paso importante que, a
excepción de los algoritmos muy avanzados como la profundidad de aprendizaje, se basa en el conocimiento
del experto humano.
Por ejemplo, una empresa de viajes en Internet está interesada en ofrecer una calificación de fiabilidad para
los vuelos que encuentra para los clientes. Mediante el error de prueba de los diferentes modelos, se ha
determinado qué variables entre todas las del conjunto de datos son más relevantes para las clasificaciones.
Esto también se conoce como las variables con el poder discriminante más alto. Solo estas funciones
relevantes se extraen de los datos y se utilizan para entrenar el clasificador.
La empresa decidió utilizar un clasificador para predecir qué vuelos más probablemente pertenezcan a los
grupos de vuelos a tiempo, demorados o cancelados. Mediante el error de prueba de los diferentes modelos,
se ha determinado qué variables entre todas las del conjunto de datos son más relevantes para las
clasificaciones (también con el poder discriminante más alto). Solo estas funciones relevantes se extraen de
los datos y se utilizan para entrenar el clasificador. La calificación de fiabilidad está diseñada para comunicar
el grado de probabilidad de que un vuelo sea a tiempo, se demore o se cancele. La empresa de viajes tiene
acceso a una gran cantidad de datos históricos de diferentes aerolíneas, vuelos, orígenes y destinos, estados
de vuelo, y otra información.
Algoritmos de clasificación
Hay varios algoritmos de clasificadores que son comunes para diferentes fines. Analizaremos brevemente tres
de ellos:
• k-nearest neighbor (k-NN): k-NN es posiblemente el clasificador más simple, que utiliza la distancia
entre los ejemplos de entrenamiento como medida de similitud. Para visualizar cómo funciona un
clasificador k-NN, imagine que cada ejemplo tiene dos funciones, para las cuales los valores pueden
representarse en un diagrama bidimensional. En la Figura 2, los puntos de datos de cada clase se
marcan con otro símbolo. La distancia entre los puntos representa la diferencia entre los valores de sus
funciones. Dado un nuevo punto de datos, un clasificador k-NN debe ver los puntos de entrenamiento
más cercanos. La clase predicha para el nuevo punto será la clase más común entre los k neighbors.
• Máquinas de vector de soporte (SVM): las máquinas de vector de soporte (SVM), que se muestran en
la Figura 3, son ejemplos de clasificadores de aprendizaje automático supervisados. En lugar de basar
la asignación de membresía de la categoría en distancias de otros puntos, las máquinas de vector de
soporte computan la frontera, o el hiperplano, que mejor separa los grupos. En la figura, el H3 es el
hiperplano que maximiza la distancia entre puntos de entrenamiento de las dos clases, visibles en color
o en blanco y negro. Cuando se presenta un nuevo punto de datos, se clasifica según si se encuentra
en un lado o en el otro de H3.
• Figura 1: es una visualización para un análisis de k-NN que asigna nuevas observaciones a una de tres
clases. Las observaciones se clasifican según la pertenencia de la clase de 15 vecinos más cercanos.
Observe que el error existe en la mayoría de los modelos de aprendizaje automático y que la asignación
de membresía no siempre es uniforme, como se indica en las observaciones que se clasifican en
ocasiones incorrectamente.
• Figura 2: es una visualización muy simple del árbol de decisión para un clasificador creado para
predecir qué pasajeros del barco hundido Titanic serían supervivientes o víctimas. Observe que los
nodos del árbol de decisión incluyen una medida de la probabilidad y el porcentaje de la población de
pasajeros que está representada por cada nodo. Este árbol de decisión es muy útil para identificar los
factores, como el género, que tuvieron el mayor impacto en la supervivencia. Este sistema se podría
proporcionar a pasajeros ficticios y clasificaría con mucha precisión a nuevos pasajeros como resultado
de la supervivencia.
• Figura 3: este es un diagrama tridimensional de una máquina de vector de soporte. En este caso, el
hiperplano que separa a los dos grupos se obtiene a partir de tres variables para cada observación. Una
cantidad pequeña de error está presente, como se muestra en los puntos de datos que aparecen en el
lado equivocado del hiperplano.
Aplicaciones de la clasificación
Los algoritmos de clasificación tienen muchas aplicaciones. He aquí varios ejemplos:
• Evaluación de riesgos: los sistemas de clasificación se pueden utilizar para determinar cuáles de
muchos factores contribuyen a la probabilidad de diversos riesgos. Por ejemplo, varios factores pueden
utilizarse para clasificar a los usuarios de seguros de vehículo en categorías de bajo, medio y alto riesgo
y para ajustar las primas que los conductores pagan según el nivel de riesgo.
• Diagnósticos médicos: los sistemas de clasificación pueden utilizar preguntas orientadas para
construir un árbol de decisión que pueda ayudar a diagnosticar varias enfermedades y riesgos de
enfermedades. Los sistemas de clasificación de aprendizaje automático también pueden realizar el
análisis preliminar de una gran cantidad de imágenes de diagnóstico, y señalar las condiciones
sospechosas para la revisión de los médicos.
Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.
Para ver la vista previa de esta práctica de laboratorio, haga clic. aquí.
Paso 1: Hacer preguntas sobre una observación como qué, cuándo, cómo o por qué.
Paso 5: Analizar los datos de los experimentos para sacar una conclusión.
Sin embargo, después de unos años, fue evidente para otros científicos que el experimento original estaba
dañado y que no podía repetirse. Las cuestiones de validez y fiabilidad son fundamentales para respaldar los
resultados afirmados en cualquier experimento o estudio.
Haga clic aquí para leer un artículo de Wired que resume el debate de la fusión en frío.
Validez
Otros científicos que analizaron el diseño de prueba de la fusión en frío hallaron que faltaban algunos
controles necesarios. Esto significaba que ahora se cuestionaba la validez de los experimentos originales.
Aunque existen muchos términos utilizados para describir tipos de validez, los investigadores distinguen
generalmente entre cuatro tipos de validez:
• Fiabilidad de calificación interna: ¿con cuánta similitud diferentes personas obtienen resultados en la
misma prueba?
• Fiabilidad de prueba y nueva prueba: ¿cuánta variación hay entre los resultados de una persona que
realiza una prueba múltiples veces?
• Fiabilidad de formas paralelas: ¿cuánta similitud hay en los resultados de dos pruebas diferentes
construidas a partir del mismo contenido?
• Fiabilidad de consistencia interna: ¿cuál es la variación de los resultados para elementos diferentes
en la misma prueba?
En los ejemplos de la fusión en frío y el volcán, la verificación de la validez de las afirmaciones puede
efectuarse replicando el experimento. En el análisis de datos, sin embargo, repetir un experimento podría ser
muy costoso o incluso imposible. Un ejemplo es el sistema de clasificación de imágenes implementado por
Facebook, que permite a los usuarios buscar imágenes con una descripción de texto. Al desarrollar esa
solución, los científicos de datos de Facebook tienen acceso a millones de fotos con una descripción textual
proporcionada por expertos humanos. Pueden ajustar su algoritmo de clasificación para aumentar el
rendimiento pero no pueden saber cómo se comportará con las nuevas imágenes que los usuarios publiquen
en el futuro, y no pueden evaluar si proporcionará una respuesta correcta o no.
¿Entonces cómo pueden estar razonablemente seguros de que el sistema de clasificación funcionará con las
imágenes que no haya procesado antes? Recurren a un método denominado validación cruzada. La
validación cruzada es donde se entrena el algoritmo utilizando solo un ejemplo de datos seleccionado
aleatoriamente, denominado conjunto de entrenamiento. Luego, el modelo se analiza en el resto de los datos,
denominado conjunto de validación. El rendimiento de la clasificación que un sistema de clasificación muestra
en el conjunto de entrenamiento generalmente es mayor que el del conjunto de validación. Sin embargo, esto
representa de mejor manera cómo el algoritmo se comporta con ejemplos que no haya procesado antes.
El éxito del algoritmo de clasificación con las imágenes que el usuario publique en el futuro dependerá de
cuán bien el conjunto de entrenamiento representaba a todo el conjunto de datos. Si, por ejemplo, los usuarios
comienzan a publicar una imagen de un eclipse solar, el sistema sabrá cómo clasificar dicha imagen solo si
había ejemplos de un eclipse solar en el conjunto de entrenamiento.
Las soluciones de análisis de datos están a veces en el mismo plano de preferencia del usuario, porque esta
preferencia se expresa en los conjuntos de datos utilizados para entrenarlos. Haga clic aquí para leer sobre
algunos ejemplos de cómo esta preferencia puede provocar discriminación.
Cualquier dispositivo para tomar medidas es limitado en su precisión. Por lo tanto, todas las mediciones tienen
un componente integrado de error. Independientemente de qué humano lea la medición, el dispositivo tendrá
siempre este error incorporado. Por ejemplo, la cinta métrica utilizada para verificar la línea de corte en una
fracción de madera contrachapada tiene un error de medición incorporado. Un error de varios milímetros no
afecta la eficacia de los obturadores de tormentas. Sin embargo, quizás desee ser más preciso cuando corte
madera para los armarios de cocina.
Debido al error de medición, el verdadero valor no puede ser conocido, pero este error se puede estudiar
estadísticamente y explicarse, y se define como la diferencia entre un verdadero valor (que es desconocido) y
el valor medido.
• Errores graves: estos son causados por un error en el instrumento que se utiliza para tomar la
medición o en el registro del resultado de medición. Por ejemplo, un observador registra 1,10 en lugar
de la medición real de 1,01.
• Errores aleatorios: como se muestra en la Figura 1, son causados por los factores que afectan de
manera aleatoria la medición sobre un ejemplo de datos. Por ejemplo, una balanza calibrada de la
verdulería puede tener un error de más/menos 1 gramo cada vez que se pesa el mismo elemento.
• Errores sistemáticos: como se muestra en la Figura 2, son causados por factores instrumentales o
ambientales que afectan todas las mediciones realizadas en un período determinado. Por ejemplo, una
balanza que no se calibró generará un error sistemático cada vez que se tome una medida.
Los errores aleatorios tienden a crear una distribución normal alrededor del medio de una observación (Figura
1). Es posible construir un modelo estadístico del error, en cuyo caso los algoritmos de regresión y
clasificación pueden tenerlo en cuenta fácilmente. Para algunos métodos, el hecho de que el error siga una
distribución normal es, en realidad, un requisito.
Los errores sistemáticos tienden a convertir la distribución de las observaciones (Figura 2) en una dirección u
otra. Un error sistemático, por lo tanto, es más difícil de gestionar, porque el verdadero valor es desconocido,
de modo que la única manera de detectar un error sistemático es utilizar otro sistema de medición que
juzguemos más confiable.
El error de predicción es la distancia entre la función de regresión y los puntos de datos. En particular, es
común evaluar el error de predicción mediante el medio de la suma de distancias al cuadrado para todos los
puntos. Para la clasificación, el error es determinado por la cantidad de veces que la clase verdadera y la
clase estimada son diferentes. Se divide comúnmente por la cantidad de puntos de datos.
En la regresión, el error en el conjunto de entrenamiento es menor que el del conjunto de validación. El error
de predicción tiene dos componentes:
• El primer componente se debe a la elección del modelo. Sin importar el algoritmo, cada vez que
ajustamos un modelo de regresión o clasificación, tenemos una suposición sobre cómo se distribuyen
los datos, que es inevitablemente una aproximación. Por ejemplo, podemos ajustar un modelo que es
una buena aproximación solo para un rango determinado de ejemplos, pero no podemos capturar la
relación fuera de este, como se muestra en la figura. El antiguo lema de los analistas de datos dice:
“cada modelo es incorrecto, pero algunos de ellos son útiles”. La figura muestra la diferencia entre un
modelo polinomial de segundo orden (Figura 1) y un modelo de tercer orden (Figura 2). El modelo de
tercer orden claramente se realiza mejor en términos de error (Figura 3).
• Incluso cuando el modelo elegido refleja perfectamente la distribución verdadera, aún hay diferencias
entre los valores planificados y los reales debido a errores de medición. Esto no puede descartarse; y
por lo tanto, el error de medición influencia el modelo de regresión.
• En el aprendizaje automático, la primera causa del error de predicción se suele llamar parcialidad de un
modelo, mientras que la segunda es la variación. Uno no puede minimizar ambos; esta situación suele
denominarse compensación parcialidad-variación.
Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.
Seleccione la práctica de laboratorio 4.2.2.5: Evaluación de los errores de ajuste en la regresión lineal.
Para ver la vista previa de esta práctica de laboratorio, haga clic. aquí.
Investigación confusa
La comprensión del impacto de la validez, la fiabilidad y los errores en un patrón de datos es un primer paso
importante para garantizar que sus conclusiones se basen en un diseño sólido de investigación. También es el
primer paso en la evaluación de los resultados designados por otra persona.
La investigación confusa, deficiente o errónea es más frecuente de lo que imagina. De hecho, John P.A.
Ioannidis afirma que la mayor parte de los hallazgos de investigación son falsos. Haga clic aquí para leer
cómo la probabilidad de que un hallazgo de investigación sea verdadero se basa en seis corolarios.
A veces puede haber grandes expectativas poco realistas sobre una tecnología nueva. Por ejemplo, el piloto
automático de Tesla , un sistema de asistencia de conducción, es un excelente ejemplo de aprendizaje
automático y análisis de datos masivos aplicados a los datos de sensores. Los automóviles con piloto
automático, principalmente gracias a Google, han estado en las noticias por años. Cuando Tesla lanzó su
sistema de piloto automático, el público asumió que el sistema podía reemplazar por completo al conductor.
Sin embargo, el piloto automático de Tesla no es una tecnología de autoconducción, porque se espera que el
conductor deje sus manos en el volante y controle la acción en cualquier momento. Después de que un
accidente de tráfico fatal reciente involucró a un Tesla, los medios hablaron en contra de los automóviles con
piloto automático y los acusaron de ser falsos.
Las expectativas infladas de una solución de inteligencia artificial llevan al uso indebido de la tecnología y a un
accidente por el cual se culpa a dicha tecnología. Un análisis de la falla del piloto automático de Tesla reveló
un límite en las cámaras y en el sistema de clasificación de la imagen. El sistema por sí mismo no fue
diseñado para reemplazar al conductor. Los automóviles con piloto automático son definitivamente posibles,
pero seguimos estando a varios años de un sistema que pueda reemplazar al conductor completamente, en
cualquier condición climática, y con una mayor seguridad.
Pautas para evaluar los resultados
Existen varias pautas que puede seguir al evaluar los resultados designados por un estudio de investigación o
un informe de análisis de datos:
• Estadísticas: ¿el estudio tiene un tamaño de muestra suficientemente grande para admitir los
hallazgos? Por ejemplo, un sondeo a nivel nacional debe tener un tamaño de muestra de al menos 1024
participantes para obtener un margen de error que sea menos del 3 %. Para los estudios científicos
clásicos, las estadísticas brindan un conjunto de herramientas para determinar exactamente cuántos
datos son necesarios. Para el análisis de datos, no es posible responder esta pregunta en general. La
validación cruzada es fundamental en este caso predecir cómo el modelo se generalizará fuera de los
datos disponibles.
• Diseño de investigación: ¿los arquitectos del estudio siguieron métodos generalmente aceptados de
diseño de investigación? ¿Utilizaron la observación o grupos de control ciegos, en caso de ser
necesario? ¿Explicaron su propia preferencia al realizar la investigación? ¿Quién pagó la investigación y
cuál es la motivación de esa organización?
• Duración: ¿la investigación tiene en cuenta adecuadamente el impacto del tiempo? ¿Cuánto tiempo
debe un equipo de investigación seguir a los participantes de un estudio para asegurarse de que los
resultados sean válidos? En el caso del modelo de análisis de datos para una solución de IdC, la
duración es importante debido a los cambios en el entorno. Un sistema de clasificación de imágenes
entrenado con imágenes de árboles en primavera podría fallar en reconocer dichas imágenes en
invierno.
• Correlación y causalidad: solo porque dos variables se correlacionan esto no implica que una sea
causa de la otra. Haga clic aquí para leer sobre la correlación entre las ventas de helado y el delito.
Pregunte si los investigadores explicaron las otras variables de confusión que podrían haber afectado el
estudio.
• Alineación con otros estudios: ¿los resultados confirman o se alinean con otros estudios en el
campo? Si no, ¿se puede replicar el estudio para explicar la fiabilidad de los hallazgos?
• Revisión de pares: ¿el estudio ha sido revisado por expertos en el mismo campo? ¿Hay expertos que
discrepen con los hallazgos?
Ajuste de datos
Para facilitar la regresión lineal en Python, se recurre a la clase de Numpy, polyfit. Aunque polyfit tiene
muchos argumentos, usted solo definirá los valores para x, y, y grado. El valor para x e y se utilizará para el
eje x y el eje y. El uso de polyfit le permitirá trazar la regresión lineal simple que se muestra en la figura. El
valor de grado definirá el grado de ajuste. Haga clic aquí para conocer más sobre Numpy polyfit.
Después, se recurre a la clase poly1d de Numpy para la regresión lineal simple a un modelo polinomial. Haga
clic aquí para conocer más sobre Numpy poly1d.
Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.
Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.
Trazado en 3D
En la segunda práctica de laboratorio, mostrará datos en tres dimensiones. Para hacerlo, extenderá la
biblioteca matplotlib instalando la clase mpl_toolkits de la biblioteca mplot3d. Luego utilizará los datos del
contador de Internet para crear un diagrama 3D para mostrar tres ejes: velocidad de descarga (eje x);
velocidad de carga (eje y); y velocidad de ping (eje z). Esta vista muestra dónde se agrupan las velocidades
de la mayoría de los pings, como se muestra en la figura.
Haga clic aquí para obtener más información sobre ipywidgets y clase interactiva.
Detección de anomalías
Las anomalías pueden representar datos que son anómalos, o valores que son anómalos. Los datos pueden
dañarse o distorsionarse mediante muchos factores durante la medición, la transmisión o el almacenamiento.
Estos valores se consideran valores atípicos. Se desvían tanto de los valores esperados que podrían
distorsionar los resultados del análisis. Estas consideraciones se suelen eliminar del conjunto de datos
después de un estudio detallado.
Existen otros tipos de anomalías muy importantes. Estas anomalías pueden representar graves problemas
con el elemento de medición. Por ejemplo, las mediciones de temperatura o vibración inusualmente altas que
realizan los sensores conectados a una máquina podrían indicar que una pieza está por fallar. En este caso,
una aplicación de análisis de datos de transmisión en IdC podría enviar una alarma que alertaría al personal
de mantenimiento que la máquina requiere atención.
El resto de la práctica de laboratorio utiliza clases y funciones de matplotlib y Numpy. Observe en el diagrama
3D de la Figura 1 que existen varios puntos de datos que residen fuera del área agrupada. Estos valores
atípicos son anomalías. Las anomalías se pueden identificar al detectar puntos que se encuentran más allá
del promedio. Al medir la diferencia entre las coordinadas x, y, z de cada punto de datos y las coordinadas x,
y, z del medio, se obtiene una lista de distancias para cada punto de datos. La distancia se denomina
Euclidean.
Para detectar anomalías, deberá identificar el límite de la decisión que define si un punto de datos es normal o
es una anomalía. Para ello, primero se normalizan los datos de la distancia al establecer el trayecto más
lejano a 1. Luego se determina un umbral entre 0 y 1 que defina el umbral para el límite de la decisión. En la
práctica de laboratorio, establecerá el umbral en 0,1 y encriptará funciones para mostrar el diagrama 3D en la
Figura. 2. La esfera muestra el límite de la decisión entre los datos normales y los datos anómalos.
Práctica de laboratorio: Detección de anomalías del contador de Internet
En esta práctica de laboratorio, utilizará la detección de anomalías para ubicar los puntos de datos que se
destaquen de un patrón.
Seleccione el enlace para la carpeta de los materiales del curso y luego el enlace para la carpeta de datos
masivos y análisis.
Para ver una vista previa de esta práctica de laboratorio, haga clic aquí.
Los análisis de regresión y clasificación son un ejemplo de los enfoques supervisados de aprendizaje
automático. Los análisis de agrupamiento y asociación son un ejemplo de aprendizaje automático no
supervisado.
El análisis de regresión es el método estadístico más utilizado para analizar datos. Es una técnica de
aprendizaje automático supervisado. La regresión utiliza la relación histórica entre una o más variables
independientes y una variable dependiente para predecir los valores futuros de la variable dependiente. El
objetivo de la regresión lineal consiste en crear una línea de tendencia que mejor se ajuste a los datos.
Junto al análisis de regresión, la clasificación es el tipo más común de aprendizaje automático utilizado en
análisis de datos masivos. El modelado de clasificación se realiza mediante una familia de algoritmos de
aprendizaje automático que son de uso general para asignar observaciones a grupos. Los modelos de
clasificación, también conocido como clasificadores, son algoritmos de aprendizaje automático supervisado.
Hay varios algoritmos clasificadores que son populares por diversos motivos: k-nearest neighbor (k-NN),
máquinas de vector de soporte (SVM) y árbol de decisión. La clasificación se puede considerar un problema
de regresión cuando la variable objetivo es discreta y representa una clase en la cual un experto humano ha
clasificado la muestra de datos. Es común, en los problemas de clasificación, proporcionar no solo un conjunto
de puntos de datos de ejemplo de cada clase, sino también establecer cuáles son las características de cada
punto de datos más útiles para estimar la clase correspondiente.
Paso 1: Hacer preguntas sobre una observación como qué, cuándo, cómo o por qué.
Paso 5: Analizar los datos de los experimentos para sacar una conclusión.
Aunque existen muchos términos utilizados para describir los tipos de validez, los investigadores distinguen
generalmente entre cuatro tipos de validez: de construcción, interno, externo y de conclusión. Los
investigadores distinguen entre cuatro tipos de fiabilidad: de calificación interna, de prueba y nueva prueba, de
formas paralelas y de consistencia interna. El error es la diferencia entre el valor real y el valor medido de una
observación.
Distinguimos dos tipos principales de errores en el análisis de datos, el error de medición y el error de
predicción. El error de medición se debe a una falla humana, un ruido o una falta de precisión del sistema de
medición o sensor. Existen tres tipos básicos de errores de medición: grave, sistemático y aleatorio. Los
errores aleatorios tienden a tener una distribución normal alrededor del medio de una observación. Los errores
sistemáticos tienden a convertir la distribución de las observaciones. El error de predicción es una diferencia
entre el valor esperado por la regresión o el modelo de clasificación y el valor medido. En el aprendizaje
automático, la primera causa del error de predicción a menudo se llama parcialidad de un modelo, mientras
que la segunda es la variación. Uno no puede minimizar ambos; esta situación suele
denominarse compensación parcialidad-variación.
La comprensión del impacto de la validez, la fiabilidad y los errores en un patrón de datos es un primer paso
importante para garantizar que sus conclusiones se basen en un diseño sólido de investigación.
En la sección final de este capítulo se analizaron la preparación para las prácticas de laboratorio del contador
de Internet. En la primera práctica de laboratorio, utilizó el análisis de regresión para ver datos históricos sobre
el crecimiento del tráfico de Internet. Usted cuantificó la relación entre el año y la medición del tráfico de
Internet. Instaló pandas, numpy y matplotlib. La biblioteca matplotlib incluye diversos estilos para mostrar los
diagramas.
En la segunda práctica de laboratorio, usted mostró datos en tres dimensiones. Para hacerlo, extendió la
biblioteca matplotlib instalando la clase mpl_toolkits de la biblioteca mplot3d. Luego utilizó los datos del
contador de Internet para crear un diagrama 3D para mostrar tres ejes: velocidad de descarga (eje x);
velocidad de carga (eje y); y velocidad de ping (eje z). Para detectar anomalías, identificó el límite de la
decisión que define si un punto de datos es normal o es una anomalía.