Está en la página 1de 11

Proyecto financiado por la Unión Europea

Machine Learning y Big Data


Curso Introductorio
Objetivos
Comprender los términos y las situaciones en las que Machine Learning
(ML) y Big Data (BD) son necesarios, reconocer los casos de uso clásicos
en los que han mostrado ser efectivas, y clasificar la información
relevante en un problema real que habilita una toma de decisión
informada sobre los algoritmos de ML y BD necesarios para resolverlo.
Contenidos Machine Learning
Información
Probabilidad
Definiciones de Machine Learning
Clasificación vs Predicción
Aprendizaje supervisado vs no supervisado
Tratamiento de datos
Aprendizaje en línea vs offline
Regresión lineal
Redes neuronales
K-means
Contenidos Big Data
¿Por qué nos interesa Big Data?
¿Qué es Big Data?
Historia de Big Data
Ejemplo de Casos
Algoritmos Básicos
Plataformas
Retos y Oportunidades
Machine Learning
Blogs of the European Geosciences Union (GeoLog Network Divisions)
Explosión de la información
Como humanidad tendemos a generar y registrar más información, de forma exponencial.

Tipo 1. Expansión de la cantidad de campos recolectados (collect more).


Tipo 2. Reemplazo de colecciones de datos generales con colecciones específicas (collect specifically).
Tipo 3. Todas las personas recolectan datos (collect if you can).

Para almacenar toda la información publicada hasta antes de 1986, se necesitaría 1 CD-ROM por cada
persona en la tierra. En 2007 se necesitaría 61 CD-ROM por persona.
Datos vs Información

Con tantos datos, es necesario desarrollar técnicas eficientes para su


manipulación y para obtener información valiosa
Probabilidad
Es una medida numérica que nos dice qué tan cierto es que algo pase. Es una medida de la certeza.

El valor esperado de un experimento estocástico es un resultado que representa a todos los resultados del
experimento. La varianza representa qué tan parecidos son todos los resultados del experimento.

Para estimar el valor esperado se puede recurrir a un promedio (ejemplo: calcular el valor esperado de la edad
de los participantes del curso).

Si los resultados de un experimento tienen una varianza alta, quiere decir que los resultados no se parecen
mucho entre sí. En un set de datos con una varianza alta, se necesita tener mucha información para que el
promedio se parezca al valor esperado.
Machine Learning
Se dice que un programa computacional aprende de la Los algoritmos de aprendizaje de máquina pasan
experiencia E con respecto a alguna tarea T y alguna por un proceso de entrenamiento, en el que el
medida de desempeño P , si el desempeño T, medido por algoritmo va cambiando su modelo (configuración)
P, mejora con la experiencia E. (1998, Mitchel). a medida que va analizando más datos. Este
proceso es precisamente a lo que en la definición
Suponga que hay un programa que revisa los correos
se le conoce como experiencia. Generalmente la
electrónicos, y los marca (o no) como spam. Basado en
forma en que se evalúa la calidad de un algoritmo
los correos que recibe, decide cómo filtrar de manera
es a través de una medida de desempeño (como la
más efectiva los correos spam.
cantidad de correos bien clasificados, respecto de
la totalidad).

También podría gustarte