Estadística Avanzada y Aprendizaje Automático (Machine Learning) - Primera Clase

UNIVERSIDAD TÉCNICA DE ORURO
FACULTAD DE CIENCIAS AGRARIAS Y NATURALES

Departamento de Agronomía
Carrera de Ingeniería Agronómica
CAPACITACIÓN:
ESTADÍSTICA MATEMÁTICA
CURSO
ESTADÍSTICA AVANZADA Y
MODELOS DE APRENDIZAJE
AUTOMÁTICO EN MEDIO AMBIENTE
ING. Alfredo ANCASI MAMANI

Ciencia de Datos y Análisis profundo
Acreditada
Webinar
ÍNDICE DE CONTENIDOS Alfredo ANCASI M.

Ciencia de Datos
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Métodos estadísticos Bayesianos Albert Einstein
A. Automático (Machine Learning)

Comparación y selección de modelos
Casos de estudio
Modelos estadísticos Capacitaciones

LA INVESTIGACIÓN
CIENTÍFICA
Playground
Ancasi, A. (2023)
Investigación científica
Alfredo ANCASI M.
¿Lógica de razonamiento? Ciencia de Datos
Es un método o procedimiento que

1b. Definir una pregunta (1a. (2. Recopilar información de consiste en la: observación
Observación / teoría) antecedentes) sistemática, medición, formulación
experimentación, análisis y
modificación de las hipótesis
(Oxford Dictionary).
6. Publicar los resultados 3a. Construir una(s) hipótesis

científica (y 3b. Predicción)
5. Analizar los datos y 4. Diseñar una investigación

probar las hipótesis (Ho/H1) y obtener datos
Modelos estadísticos Webinar avanzado

Alfredo ANCASI M.
¿Ejemplo de aplicación? Ciencia de Datos
1.- Observación de fenómeno: Un pez dorado tiene aletas en un

acuario en Inglaterra.
2.- Planificación: El objetivo de la investigación es determinar si todos
los peces tienen aletas.
3.- Hipótesis: Todos los peces tienen aletas.
4.- Nuevas observaciones: Los peces en los acuarios de Europa
tienen aletas.
5.- Análisis de datos: Los datos apoyan la hipótesis.
6.- Derivación inductiva de una generalización: Todos los peces
tienen aletas.
7.- Confirmación de la hipótesis: Los peces en los acuarios de Asia,
América y África tienen aletas.
8.- Nuevas observaciones: Hay un pez sin aletas en un lago en
Australia.
9.- Revisión de la hipótesis: La hipótesis es rechazada.
Alfredo ANCASI M.
¿Planificación: Preguntas por observación? Ciencia de Datos
Bolivia, un país con una mega biodiversidad
Ejemplo: ¿La abundancia de flamencos varía

entre las lagunas altiplánicas de Oruro según
la condición de agua (pH, salinidad, etc.)?

Alfredo ANCASI M.
¿Nivel de investigación? Ciencia de Datos
Se refiere al grado de profundidad con que se Entendimiento del tema

aborda un fenómeno o un evento de estudio.

Alfredo ANCASI M.
¿Ejemplo de aplicación? Ciencia de Datos
MG= 3%
Leche estandarizada %P= 10%
Es importante entender cual el la finalidad
de recabar y analizar datos, es decir cual es Ultra filtración Queso fresco
la respuesta que se desea saber con los Pasteurización

Tº= 80-90 ºC
t= 5 minutos
datos ¿hacer predicciones?, ¿identificar
asociaciones?.. Etc. Enfriamiento Tº= 35 ºC
0,5 – 2%
Adición de CaCl2
pH>5,2
T= 2-3 horas Maduración 1
2-3 ºDr0nic
pH>5,2
T= 22-34ºC Coagulación 3% de cuajo
Corte de la cuajada y desuerado

Moldeado
Control pH y
Foto: Moldeado del queso. Ancasi, A,(2022) humedad Prensado
Almacenado Maduración Secado Salado

Investigación científica – IA
Alfredo ANCASI M.
Algunas inteligencias artificiales Ciencia de Datos
Nuevos descubrimientos: La IA se puede utilizar para generar nuevas hipótesis y teorías. Esto
puede conducir a nuevos descubrimientos en áreas de investigación que antes eran inaccesibles.
la IA tiene el potencial de revolucionar el método científico, haciendo que la investigación científica
sea más eficiente, precisa y efectiva.

Alfredo ANCASI M.
Algunos sitios web para acceder a datos Ciencia de Datos
Nuevos descubrimientos: En la actualidad existe una gran disposición

de datos sobre todo: satelitales, sitios web, etc. Y no solo eso, el ser
humano genera millones de datos

Alfredo ANCASI M.
Algunos sitios web para acceder a datos Ciencia de Datos
Para descargar información Para información de Imágenes satelitales y

de Biodiversidad herbarios modelos de elevación digital
https://www.gbif.org/ https://herbariovaa.org/ https://earthexplorer.usgs.gov/
Nuevos descubrimientos: Existen sitios web específicos para acceder

a información, inclusive en temas distintos a Ciencias Agrarias.

La historia de la inteligencia artificial comenzó en 1943 con Alfredo ANCASI M.

Ciencia de Datos
sus primeras investigaciones. Sin embargo la mayo
cantidad de articulo científicos inicia del año 2000 para
adelante

Uno de los proyectos iniciales de éxito mas importantes Alfredo ANCASI M.

Ciencia de Datos
en la Inteligencia Artificial es ALPHAGO
https://www.youtube.com/watch?v=GIJ7zr4sYx4

Uno de los proyectos iniciales de éxito mas importantes Alfredo ANCASI M.

Ciencia de Datos
en la Inteligencia Artificial es ALPHAGO
Basado en
DATOS
https://chat.openai.com

¿Aprendizaje profundo (Deep Learning) en Alfredo ANCASI M.

Ciencia de Datos
industria de alimentos?
Es útil por su alta eficacia para reconocer tipos de alimentos, detectar
defectos y clasificar en función de aspecto y pautas aprendidas previamente.
https://www.clearviewimaging.com/es/blog/dee
p-learning-para-la-industria-alimentaria

¿Inteligencia artificial? Alfredo ANCASI M.

Ciencia de Datos
[Software y programación]
Utilización de Playground para imágenes. IA gratis = 1000 imágenes/día

¿Aprendizaje profundo (Deep Learning? Alfredo ANCASI M.

Ciencia de Datos
en medio ambiente?
Una diversidad de
datos de la NASA,
y otras fuentes.
[Algunas ciertas
fallas].

¿Consideraciones importantes? Alfredo ANCASI M.

Ciencia de Datos
Coherencia
Consistencia
Originalidad
Objetividad
A. Descriptivo
A. Inferencial
Modelos
Naturaleza del proyecto

¿Combinación de herramientas?

Webinar

Ciencia de Datos

Casos de estudio

PENSAMIENTO EN DATOS
(STORYTELLING)
Playground
Ancasi, A. (2023)
Storytelling
1.- Importancia del contexto Alfredo ANCASI M.

Ciencia de Datos
¿A quién se está comunicando?, ¿Qué quiere que su

audiencia sepa o haga?, ¿Cómo puede usar los datos para
ayudar a expresar su punto?.
2- Elegir una imagen efectiva
¿Cuál es el gráfico correcto para esta situación?, para

responder esta pregunta es elegir la que sea más fácil de leer
para la audiencia.
A los gráficos que se genera también pueden realizarse

modificaciones que son diseñados para llamar la atención
agregando líneas o resaltándolas.

Storytelling
Alfredo ANCASI M.
3.- El desorden es el enemigo Ciencia de Datos
Comprende los elementos visuales que ocupan espacio pero no

aumentan la comprensión. El desorden puede hacer que algo
parezca más complicado de lo que realmente es.
Cuando nuestras imágenes se ven complicadas, se corre el

riesgo de que la audiencia decida que no quiere tomarse el
tiempo para entender lo que estamos mostrando,
4- Pensando como un diseñador

• El color
Que es una técnica de resaltado efectiva cuando se usa con
moderación y generalmente en conjunto con otras técnicas.
• Utilizar Negrita, cursiva y subrayado

Utilizarlo para títulos, etiquetas, subtítulos, secuencia de palabras
cortas para diferenciar elementos.

Storytelling
¿Storytelling? Alfredo ANCASI M.

Ciencia de Datos
A) B)
TOP TAX RATE TOP TAX RATE
42% 45%
Cifras 35.0% 39.6%
40%
40% Cifras
39.6% 35%
Unidades (%)
Unidades (%)
30%
38% ≠ 25%
20%
36%
35.0%
? 15%
10%
5%
34% 0%
NOW NOW
JAN. 1,2013 JAN. 1,2013
Evaluados Evaluados
Creativo Marca Contenido Valioso Emoción Marketing Comunicación Compartir Viralizar

Webinar

Ciencia de Datos

Casos de estudio

MÉTODOS ESTADÍSTICOS
MULTIVARIADOS
Playground
Ancasi, A. (2023)
Estadística y matemática
Alfredo ANCASI M.
¿Estadística: Evolución? Ciencia de Datos
>95% 50% NHST

1999 – 2000 2019 – 2020 35% Model comp.
NHST
10% Bayesiana
Métodos
>70% S/Prog. >80% R

30% SAS
Software
Fuente de cuadros: Análisis estadísticos utilizados en la ecología (Ecología, J.

applied ecología, Functional ecology, Ecography, etc. Naoki 2020).
¿Estadística: Modelos generales univariados? Alfredo ANCASI M.

Ciencia de Datos
Supuestos
Muchos fenómenos que se observan siguen una
tendencia normal pero eso no significa que todo
lo observado siga una tendencia normal
Modelos estadísticos Basado en Ancasi, A (2022)

¿Estadística: Modelos generales univariados? Alfredo ANCASI M.

Ciencia de Datos
Independiente (x)
Numérica Categórica
Dependiente Numérica Regresión ANOVA

(y)
Categórica Regresión logística Análisis de frecuencia
En función al tipo de datos que se analiza
Modelos Prueba de hipótesis
 Ho: µ1 = µ2 = µ3 = µ4 = …. µt
 H1: Ӡij µ1 ≠ µ2 ≠ µ3 ≠ µ4 ≠ …. µt
 H1: Al menos, un µ1 es diferente del resto

¿Producción de Néctar de mango? Alfredo ANCASI M.

Ciencia de Datos
[Ing. Agronómica – Orinoca ]
El entendimiento del tema y la selección de variables a utilizar definirá mucho

el diseño del trabajo y el modelo matemático a utilizar. Es importante tener
claro ¿Cuál es la respuesta que se desea conocer?
Escaldado Pelado de fruta Filtrado
Fotografías Ancasi, A. (2022). Encargado del proyecto


Ciencia de Datos
[Ing. Agronómica – Orinoca ]
Entendimiento del tema y en base al mismo determinar ¿Aplicar estadística,

simulaciones, Machine y/o Deep learning?, ¿Cómo extraemos los datos y que
tipo de datos?, ¿Qué cantidad de datos?
Elaboración Embotellado Almacenamiento


Ciencia de Datos
Gráfico de contornos (A. Ancasi) Gráfico de superficie (A. Ancasi)
Modelo ensayo 1 de 3: -2.25540 + 0.008277*x + 0.06390*y -0.0000157*x*x - 0.000440*y*y - 0.0000134*x*y

¿Modelos generales univariados? Alfredo ANCASI M.

Ciencia de Datos
[Efectos fijos]
Ejemplo: Volumen masa de pan P (3, 12 ; 0,95) = 5,66 ; P = 0,0119 < 0,05
Análisis de la varianza
 Problemática
Variable N R² R² Aj CV
 Cumplimiento
Volumen (𝑐𝑚3 ) 16 0.59 0.48 2.52
de supuestos
Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F p-valor Una panadería desea
Modelo 9220.50 3 3073.50 5.66 0.0119 probar 4 temperaturas de
horneado de pan (100,
Temperatura 9220.50 3 3073.50 5.66 0.0119 130, 160 y 190 ºC) con el
Error 6515.50 12 542.96 fin de verificar si existen
Total 15736.00 15 diferencias en el volumen
del pan obtenido.

Alfredo ANCASI M.
Ciencia de Datos
Procedimientos:
 Clásicos
 modernos

¿Espacio multivariante? Alfredo ANCASI M.

Ciencia de Datos

¿Datos multivariantes? Alfredo ANCASI M.

Ciencia de Datos
Tabla de datos identificando el tipo de variable
¿Variable Dependiente?
¿Variable Independiente?

¿Modelos estadísticos multivariados? Alfredo ANCASI M.

Ciencia de Datos
Dependiendo la literatura Pero los métodos estadísticos multivariados se clasifican

en métodos de clasificación, ordenamiento e inferencia.
[Clasificación] [Ordenamiento] [Inferencia]
Análisis Clúster Componentes principales Árboles de regresión

Análisis discriminante Correspondencia múltiple Manova
Árboles de clasificación Procrustes generalizado Med. Repetidas-tiempo
Fotografías Curso de estadística


Ciencia de Datos
Distancia de Minkowsi
B r B r B r B r
d A, B  r x x
1
A
1  x x
A
2 2  x x
A
3 3  ...  x  x
A
p p
Distancia de Manhattan
d A, B  x1A  x1B  x2A  x2B  x3A  x3B  ...  x pA  x Bp
Distancia Euclídea
 x1A  x1B    x2A  x2B    x3A  x3B   ...   x pA  x pB 

2 2 2 2
d A, B 
Fotografías Curso de estadística


Ciencia de Datos
Cuando estudiamos diversas variables independiente

simultáneamente y el objetivo es clasificación
Árbol de recorrido mínimo Objetivos:
SC(ARM)=33.785
5.00 Reducir dimensión mediante obtención de un
numero pequeño de variables no
Portugal
correlacionadas que explican casi toda la
Pescado información (variabilidad) presente en las
3.00 Frutas yVegetales variables originales.
España
Em butidos
CP 2 (18.4%)
1.00
FrutosSecos
Huevos
Bulgaria
Rumania
Croacia
-1.00 Leche
CarneCerdo
Cereal Albania
-3.00
-5.00 -2.50 0.00 2.50 5.00
CP 1 (45.1%)
Modelos estadísticos Webinar


Ciencia de Datos
La reducción de variables en
clasificación y combinación
con otros modelos o ajustar
hiperparametros
Lineal vs Cuadrático
Covarianza fija vs variable


Ciencia de Datos
El análisis estadístico en general

requiere un entendimiento de los
datos y de la temática que se
estudia.
Fuente: Proceso catalítico de la ureasa en el suelo, cuando el pH es:

a) <6.3 y b) mayor a 6.3 Castillo, J (2021). Uso de análisis factorial mixto
para caracterizar variables climáticas
(MO), C, nitrato (NO3), fósforo disponible (P-dis), escurrimiento y pérdida de Fuente: Estadística y Biometría
suelo evaluados en sistemas de siembra directa (SD) y labranza convencional (LC). Balzarini, M. (2008)


Ciencia de Datos


Ciencia de Datos
[PCA – Caso Medio ambiente]
Árbol de recorrido mínimo

SC(ARM)=46,060
5,00
Cd-Sora sora
Cd-Pacopampa
Cd-Machacamarca
3,13
Suelo
CP 2 (19,3%)
Sn-Sora sora
1,25 Sn-Pacopampa
Sn-Machacamarca
Agua Pb-Machacamarca
-0,63 Vegetales
As-Machacamarca
Pb-Pacopampa
As-Pacopampa
Leche
Pb-Sora sora
As-Sora sora
-2,50
-3,00 -1,00 1,00 3,00 5,00
CP 1 (77,6%)
Proceso Ancasi, A. (2016). PCA


Ciencia de Datos
[AD – Caso Medio ambiente]
DF1 = 2,71*Petal.L – 1,54*Sepal.L

Objetivos:
+ 2,04*Petal.A. – media (LD)
DF2 = - 2,62*Petal.L + 1,59*Sepal.L 1. Discriminación: encontrar las funciones

+ 4,72*Petal.A. – media (LD) (lineales) para separar entre los
grupos.
Petal A 2. Predicción: Usar la función discriminante
resultante para predecir el grupo al
Petal L que pertenece un individuo.
3. Selección de variables: Seleccionar la

combinación de variables útiles para la
separación de grupos
Sepal L
Proceso Ancasi, A. (2016). AD

Webinar

Ciencia de Datos

Casos de estudio

MÉTODOS ESTADÍSTICOS
BAYESIANOS
Playground
Ancasi, A. (2023)
¿Modelos Generalizados? Alfredo ANCASI M.

Ciencia de Datos
UNIVARIADOS [verosimilitud y probabilidad]
Probabilidad Verosimilitud
 P (x | ɸ)  L (ɸ | x)
 ɸ (parámetro) es fijo: Ho: ρ = 0.5  X(muestra) es fijo: # de hembras = 7
 X (muestra) varía: # de hembras = 0~10  ɸ (parámetro) varía: ρ = 0~1
 La suma = 1.  La suma ≠ 1.
 N cálculos con una distribución.  ∞ cálculos con ∞ distribuciones.
=𝟏 ≠𝟏
Plato frutas
Distribución binomial Verosimilitud

𝒏 𝒙
𝒑 𝒙 = 𝒑 (𝟏 − 𝒑)𝒏−𝒙 𝑳(𝑯𝒊 𝒅𝒂𝒕𝒐𝒔 = 𝒑 𝒅𝒂𝒕𝒐𝒔 𝑯𝒊 )
𝒙
Modelos estadísticos GLMM


Ciencia de Datos
UNIVARIADOS [Efectos fijos]
Cuando se necesita un enfoque más flexible para
analizar los datos. La variable dependiente no
sigue una distribución normal
Fam. Errores Función Descripción
Normal Identidad Proc. Normal
Poisson Log Conteos rraros
Binomial Logit Dicotomica
Gamma Reciproca CV constante
Modelos estadísticos GLMM


Ciencia de Datos
UNIVARIADOS [Efectos fijos]
Cuando se necesita un enfoque más flexible para analizar los datos. La variable
dependiente no sigue una distribución normal
Generación de modelo usando Poisson (1) Pan de quinua
Escala de Likert
161.7 Gráfico Box-plot
Val Harina Tiempo

132.8
2 2.1 0.9
Y
103.9
1 2.2 0.8
75.0
3 2.0 0.9
46.1
(2) Café de quinua. E1 E2 E3 E7
Ensayo
E8 E9 E10
Modelos estadísticos Basado en Carrascal, L


Ciencia de Datos
Existen muchas elecciones de

la función de enlace. Pero
debe ser siempre monótoma y
diferenciable.
La varianza de la variable de
respuesta no es constante.
En el caso que la respuesta

sea de Poisson, la varianza de
respuesta es igual a la media.
Modelos estadísticos GLMM en software

¿Modelos Bayesianos? Alfredo ANCASI M.

Ciencia de Datos
Incorpora información externa al estudio que se está realizando, de forma que la

probabilidad de un determinado suceso puede verse modificada por la información previa
de que dispongamos sobre el suceso en cuestión. Así, la información obtenida a priori se
utiliza para establecer una probabilidad a posteriori. M. Molina (2020)
Priori Posteriori
Pichitanka
 Distribución de credibilidades a  Distribución de credibilidades a

priori: la distribución de: credibilidades posteriori: la distribución de la credibilidad
antes de datos (observación). reasignada, incorporando la información (datos)
https://anestesiar.org/2020/rioja-o-ribera-estadistica-frecuentista-vs-bayesiana/

Ciencia de Datos
Teorema de Bayes: Es la teoría de la probabilidad planteada por el filósofo inglés

Thomas Bayes (1702-1761) en 1763 “la probabilidad condicional de un evento
aleatorio A dado B se puede expresar por los términos de la distribución de
probabilidad condicional del evento B dado A, la distribución de probabilidad marginal
de A y B.”
p(A|B) = p(B|A) p(A) / p(B)
Probabilidad bayesiana Probabilidad frecuentista

Prob. Posteriori
Probabilidad
La distribución depende de los datos y la dist. La distribución no indica nada del valor de µ
probabilidad a priori.


Ciencia de Datos
Cadenas de Markov : Es un proceso estocástico que describe una secuencia de

eventos posibles, la probabilidad de cada evento depedente del estado del evento
anterior. Andrei Markov (1856 – 1922)


Ciencia de Datos
Interpretación: La temperatura afectó positivamente al crecimiento de la biomasa de

plantas C4 en el Altiplano de Oruro (mediana de beta1 = 4,71, HDI de 95% = 3,61 –
5,84)
===============================================================================
El picaflor no puede
memorizar el numero de
flores, sectores visitados,
etc.

Webinar

Ciencia de Datos

Casos de estudio

MACHINE LEARNING
Playground
Ancasi, A. (2023)
Machine Learning
¿Conceptos importantes? Alfredo ANCASI M.

Ciencia de Datos
Ciencia de datos: La ciencia de datos combina matemáticas y estadística,

programación especializada, análisis avanzados, inteligencia artificial (IA) y machine
learning con experiencia en distintas materias para descubrir información práctica
oculta en los datos de una organización. IBM
 ROLES Comprensión
del negocio
Comprensión
de datos
 CRISP – DM
 Gerente de
proyectos
Preparación
 Ingeniero de datos de los datos
 Analista de datos
 Especialista del área Despliegue Modelación
Evaluació
n
Ciencia de Datos – IA Alfredo Ancasi

Machine Learning
¿Roles en disciplinas de datos? Alfredo ANCASI M.

Ciencia de Datos
Ingeniería de Despliegue en Análisis del Infraestructura

Modelado
datos producción negocio IA
Ciencia de
datos SI SI SI
Ingeniero de
Machine SI SI SI
Learning
Analista de
datos SI SI
Ingeniero de
software – SI SI SI
ML
Ingeniero de
software SI SI
Fuente: Machine learning en español.com

Machine Learning
¿Aplicación del análisis de datos en deporte? Alfredo ANCASI M.

Ciencia de Datos
Gráficas de densidad kernel que muestran la

distribución de los eventos posiciones durante
el partido. Cuanto más oscuro es el verde,
mayor es el número de eventos en una zona de
campo específica.

Machine Learning
¿Artículos científicos? Alfredo ANCASI M.

Ciencia de Datos

Fuente:.https://www.researchgate.net/publication/328141079_Using_Network_Science_to_Analyse_Football_Passing_Netw
orks_Dynamics_Space_Time_and_the_Multilayer_Nature_of_the_Game
Machine Learning
¿Artículos científicos? Alfredo ANCASI M.

Ciencia de Datos
FIGURE 1 | Construction of a passing network. In this example, passes from the match Real Madrid –Barcelona of the
Spanish national league “La Liga”, season 2017/2018. In the upper row, initial position of all passes made by Barcelona (A)
and Real Madrid (B). In the bottom row, Barcelona (C) and Real Madrid (D) passing networks, where link widths are
proportional to the number of passes between players,

Machine Learning
¿Aprendizaje supervisado? Alfredo ANCASI M.

Ciencia de Datos
Inteligencia artificial
programas informáticos que imitan la
capacidad de aprendizaje, razonamiento
y toma de decisiones propias de los seres
humanos.
Machine learning
[Aprendizaje automático]
Algoritmos y modelos que permiten a
las máquinas aprender de los datos y
mejorar su rendimiento sin necesidad
de ser programadas explícitamente.
Deep learning
[Aprendizaje profundo]
Redes neuronales con varias capas para analizar grandes
cantidades de datos, permitiendo a las máquinas
aprender y realizar tareas complejas de forma autónoma.
https://empresas.blogthinkbig.com/que-algoritmo-elegir-en-ml-aprendizaje/
Machine Learning

Ciencia de Datos
Los algoritmos trabajan

con datos “etiquetados”,
intentado encontrar una
función que, dadas las
variables de entrada, les
asigne la etiqueta de
salida adecuada.
Salario E. Civil Deuda (Bs)
X1 X2 X3 Y
3.000 Soltero 0 SI
3.500 Casado 2.000 SI
2.500 Soltero 3.500 NO
8.000 Soltero 120 SI
7.500 Casado 350 NO
Machine Learning

Ciencia de Datos
El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la

etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida.
Simeone, 2018
Machine Learning

Ciencia de Datos
Los algoritmos más habituales se dividen en dos grupos: regresión y clasificación
1.- Regresión lineal 2.- Regresión Ridge y Lasso 3.- Support Vector regression
4.- Árboles de regresión 5.- Random Forest
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning

Ciencia de Datos
Maquina de soporte vectorial (regresión)
En este caso el modelo de soporte vectorial con kernel radial es el se ajusta mejor a los datos
Machine Learning

Ciencia de Datos
Los algoritmos más habituales se dividen en dos grupos: regresión y clasificación

1.- Regresión logística 2.- árboles de decisión 3.- Support Vector machine
4.- K- Nearest Neighbors 5.- Naive Bayes
Machine Learning

Ciencia de Datos
Ejemplo: Maquina de soporte vectorial (clasificación)
Nube de puntos Generación de rectas
Machine Learning

Ciencia de Datos
[[0.44359863 3.11530945]
Maximización en las rectas Posición de puntos [2.33812285 3.43116792]
Con N= 50 Datos [2.06156753 1.96918596]]
Machine Learning

Ciencia de Datos
De los resultados anteriores podría mejorarse aun mas el análisis. Veamos:
[[0.44359863 3.11530945] [[0.44359863 3.11530945] [[0.44359863 3.11530945]

[1.8155981 1.11969719]] [2.93521475 1.40919482] [1.25566754 3.38204112]
[0.45976418 1.26145537]] [0.83685684 2.13635938]]
Con N= 10 Datos Con N= 30 Datos Con N= 100 Datos
Machine Learning

Ciencia de Datos
Es importante que una vez construido el modelo, este debe ser evaluado. Y luego
evaluar muy aparte todo el proyecto.
https://www.kaggle.com/code/fernandobordi/fb-aprendizaje-autom-tico-regresi-n /
Machine Learning

Ciencia de Datos
La evaluación incluye otros aspectos como: ¿Qué es cross validation?
La cross validation es un método que consiste en

evaluar y probar el rendimiento de un modelo de
machine learning,
Precisión del modelo 1

Tiempo de entrenamiento
del modelo 2 3 Complejidad
del modelo
Número de
parámetros del 4 5 Número de
características
modelo
Machine Learning

Ciencia de Datos
Puede ser importante considerar combinar modelos, para generar mejores resultados
SVM en:
Reconocimiento facial
Machine Learning

Ciencia de Datos
La combinación de modelos es bastante útil para entender mejor los

resultados. En la práctica es mucho mas eficiente las redes neuronales
artificiales que el SVM. (para este caso los pixeles son de la misma
magnitud, la misma resolución, etc.).
Machine Learning
¿Aprendizaje no supervisado? Alfredo ANCASI M.

Ciencia de Datos
Tiene lugar cuando no

se dispone de datos
“etiquetados” para el
entrenamiento. Sólo
conocemos los datos
de entrada.
Salario E. Civil Deuda (Bs)

X1 X2 X3 Y
3.000 Soltero 0 ?
3.500 Casado 2.000 ?
2.500 Soltero 3.500 ?
8.000 Soltero 120 ?
7.500 Casado 350 ?
Machine Learning

Ciencia de Datos
Los algoritmos más habituales se dividen en tres grupos: clustering y reducción de

dimensionalidad y asociación
1.- K- Means 2.- DBSCAN 3.- Agglomerative Hierarchical

Machine Learning

Ciencia de Datos

1.- PCA 2.- t-SNE 3.- LDA

Machine Learning

Ciencia de Datos

1.- A priori 2.- FP- Growth 3.- ESCLAT

Machine Learning
¿Redes neuronales artificiales? Alfredo ANCASI M.

Ciencia de Datos
Las redes neuronales artificiales son un modelo computacional evolucionado a partir de

diversas aportaciones científicas que están registradas en la historia. Consiste en un conjunto
de unidades, llamadas neuronas artificiales, conectadas entre sí para transmitirse señales.
Wikipedia 2022
Del modelo
Una buena configuración

será usar el 80% de los
datos para entrenamiento
y el 20% para validación y
prueba.

Machine Learning

Ciencia de Datos
DIGITAL WORLD
Marilin Vega León
Les presento a la
gatita Missi.
La imagen se filtra usando una máscara, y

la descompone en píxeles. Con las
máscaras, podemos representar las
conexiones entre las neuronas y las capas
previas. Si usamos diferentes máscaras,
obtendremos distintos resultados.
La idea entonces es ir aprendiendo de
manera progresiva las características de
la capa anterior.
https://blog.spainbs.com/2020/10/891/hagamoslo-facil-deep-learning-y-redes-convolucionales
Machine Learning

Ciencia de Datos
Percepción simple [Ejemplo: crédito bancario]
ENTRADA: Clasificación de clientes Bias / sesgo / umbral

[Conocido]
b1
Edad X1 Salida
0: Denegado
w1 1: Aprobado
Predicción
[Desconocido]
w2
Composición del perceptron simple

Ahorro X2 Entrada, pesos, suma ponderada,
Pesos función de activación y salida

Machine Learning

Ciencia de Datos
Python [Ejemplo: crédito bancario]
El procedimiento es manual. En la actualidad es

mas rápido y con pocas líneas de código. Usando
librerías como: Sklearn y Tensorflow
Fuente: Basado en: Gutiérrez-García, J.O. [Código Máquina]. (2022, 17 de Enero).

Machine Learning

Ciencia de Datos
Python + Libreria [Ejemplo: crédito bancario]
from sklearn.linear_model import Perceptron

perceptron = Perceptron().fit(personas, clases)
Capa de entrada= 2 neuronas [edad y ganancias]

Capa de salida= 1 neurona [Clas binaria: 0 y 1]
Capas ocultas= 0 “perceptron no posee”
Si el problema es linealmente separable, el

Perceptrón puede lograr una buena precisión de
clasificación sin capas ocultas. Pero si el
problema es más complejo y los datos no son
linealmente separables, es posible tener que
utilizar redes neuronales con capas ocultas y
algoritmos de entrenamiento más avanzados.

Machine Learning

Ciencia de Datos
Perceptrón multicapa
W2 11
1 1
X1 E1 S1
2 2 Y
X2 E2 S2
3 W2 33 3
Capa de entrada Capas ocultas Capa de salida

Machine Learning

Ciencia de Datos
Perceptrón multicapa

Machine Learning

Ciencia de Datos
En el mundo real, se aplican modelos sofisticados basados en redes neuronales artificiales (Como las
redes neuronales convoluciones, además existen librerías especializadas, con redes neuronales
preentrenadas ).
hay grupos de investigación que dedican su vida a

desarrollar tipos de arquitecturas de redes
convolucionales que funcionen y entrenarlas en
datasets enormes
Link: https://keepcoding.io/blog/tipos-arquitecturas-redes-convolucionales/
Webinar

Ciencia de Datos

Casos de estudio

COMPARACIÓN Y
SELECCIÓN DE MODELOS
Playground
Ancasi, A. (2023)
¿Conceptualización? Alfredo ANCASI M.
Ciencia de Datos
 Estadística clásica (P - value, hipótesis nula)  Estadística moderna (Comparación de modelos)
o Meta: Rechazar o no la Ho (sin patrón) o Meta: Seleccionar / aceptar H1

o Cómo: La probabilidad muestral de Ho (p - o Cómo: La verosimilitud de H1 (Criterio de
value) información, la probabilidad a posteriori)
o Controla el error tipo I (Rechazar la Ho o Problema: Comparación de H1 / estimación de
verdadera) parámetros H1.
Y
o Problema: Cuando se rechaza la Ho no se o Se sabe la incertidumbre de H1 (Control del error
sabe la incertidumbre de H1 (sin control del de tipo II)
error tipo II)
o Se pueden comparar varias hipótesis
Tampoco es posible comparar varias hipótesis simultáneamente
𝑹𝟐 F P K AIC BIC 𝑨𝑰 𝑾𝒊 (%)

Fotos: https://medium.com/nerd-for-tech/vgg-16-easiest-explanation-12453b599526
¿Ajuste del modelo? Alfredo ANCASI M.
Ciencia de Datos
Sobreajuste Ajuste perfecto Falta de ajuste
Clasificación
Regresión

Fotos: https://la.mathworks.com/discovery/overfitting.html
¿Comparación de modelos estadísticos? Alfredo ANCASI M.
Ciencia de Datos
Modelo estadístico con tres criterios de clasificación ¿Efectos fijos y efectos

aleatorios?
yijk = µ + i + j + ij + k(i) + m +  ijkm
Control de malezas para la siembra de

cultivos industriales.

Ciencia de Datos
MODELO 1 MODELO 2
Definir la parte Fija del modelo Incorporamos a los bloques como un factor
(No varía entre las distintas opciones) aleatorio. Marcamos a los bloques en la
constante ya que recibieron a todos los
tratamientos.
MODELO 3 MODELO 4
Y
Incorporamos a las parcelas como Simplificamos el modelo: Quitamos a los
factor aleatorio (tenemos varias bloques como factor aleatorio. Quedan
observaciones por parcela), anidado únicamente las parcelas como factor
en los bloques (cada parcela fue aleatorio.
medida en un solo bloque)
Evaluación de modelos estadísticos, este procedimiento puede consistir en

comparar de 2 a 10 modelos por lo regular. Sin embargo pueden ser
muchos mas, ajustando parámetros e hiperparametros.

Ciencia de Datos
Res.cond.estand.Pearson
1.5
1.5
0.5
0.5
-0.5
-0.5
-1.5
-1.5
2002 2004
Ano
2006 E G1
Trat
Y
G2
En la pestaña de efectos
fijos y efectos aleatorios
son el primer paso para
asignar las variables
1.5
1.5
Cuantiles muestrales
0.5
0.5
-0.5
-0.5
La tabla de ANOVA que se genera involucra esta vez salidas de efectos
fijos y salidas de efectos aleatorios.
-1.5
-1.5
0 5 10 15 -2 -1 0 1 2
Ciencia de Datos – IA Alfredo Ancasi Valores ajustados Cuantiles teóricos
1.5
1.5
0.5
0.5
Ciencia de Datos
-0.5
-0.5
-1.5
-1.5
2002 2004 2006 E G1 G2
Ano Trat
Y
1.5
1.5
Cuantiles muestrales
AIC
0.5
0.5
mas bajo
-0.5
-0.5
-1.5
-1.5
0 5 10 15 -2 -1 0 1 2
Valores ajustados Cuantiles teóricos

Webinar

Ciencia de Datos

Casos de estudio

CASOS DE ESTUDIO
Playground
Ancasi, A. (2023)
Casos de estudio
¿Machine Learning en imagen satelital? Alfredo ANCASI M.
Ciencia de Datos

Casos de estudio
Ciencia de Datos
Librerias de python
(Rasterio)

Casos de estudio
Ciencia de Datos
Modelo [8] SVM
Data scientists Y

Casos de estudio
Ciencia de Datos
Modelo [1] Naive Bayes
Data scientists Y

Casos de estudio
Alfredo ANCASI M.
Ciencia de Datos
Figura 1. Precisión modelos ensemble Figura 2. F-1 Score modelo Naive Bayes
Fuente: Elaboración propia Ancasi, A. (2022) Fuente: Elaboración propia Ancasi, A. (2022) Y
Grupo 1 2 3 4 5
1 12 0 0 0 0
2 0 12 0 0 0
3 0 0 10 1 0
4 0 0 1 16 0
5 0 0 0 0 8
Total 12 12 10 17 8
Tabla 1. Matriz de confusión SVM
Figura 8. Profundidad, modelo Decisión Tree Fuente: Elaboración propia Ancasi, A. (2022)
Fuente: Elaboración propia Ancasi, A. (2022)

Casos de estudio
Ciencia de Datos
Finalmente el modelo puede ser utilizado con nuevos valores desconocidos.

Casos de estudio
Alfredo ANCASI M.
Ciencia de Datos
Es importante evaluar
las métricas de cada
modelo entrenado y su
validación

Casos de estudio
¿Machine Learning : Enfermedad de plantas? Alfredo ANCASI M.
Ciencia de Datos
Aplicación de modelos de aprendizaje automático en enfermedades del cultivo

de la papa. Equipo: Ing. Jorge Abrego, Ing. Ángel Blanco, Ing. Alfredo Ancasi
Nuestro equipo Data scientists

Y

Casos de estudio
Ciencia de Datos
Diversas alternativas de solución Hoja de papa sana

Escogemos el método basado en DL
para la identificación oportuna 152imágenes
Hoja de papa
Tizón temprano
Y
1,000 imágenes
Hoja de papa
Tizón tardio
1,000 imágenes

Casos de estudio
Ciencia de Datos
Finalmente se realiza la evaluación de métricas en el proyecto

¡Gracias!FACULTAD DE CIENCIAS AGRARIAS
Y NATURALES
ALFREDO ANCASI M. INGENIERÍA AGROINDUSTRIAL
alam_fcapv@hotmail.com INGENIERÍA AGRONÓMICA

Estadística Avanzada y Aprendizaje Automático (Machine Learning) - Primera Clase

Cargado por

Información del documento

Título original

Derechos de autor

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Estadística Avanzada y Aprendizaje Automático (Machine Learning) - Primera Clase

Cargado por

Copyright:

UNIVERSIDAD TÉCNICA DE ORURO

FACULTAD DE CIENCIAS AGRARIAS Y NATURALES

ING. Alfredo ANCASI MAMANI

ÍNDICE DE CONTENIDOS Alfredo ANCASI M.

Métodos estadísticos Bayesianos Albert Einstein

A. Automático (Machine Learning)

Modelos estadísticos Capacitaciones

Es un método o procedimiento que

6. Publicar los resultados 3a. Construir una(s) hipótesis

5. Analizar los datos y 4. Diseñar una investigación

Modelos estadísticos Webinar avanzado

1.- Observación de fenómeno: Un pez dorado tiene aletas en un

Bolivia, un país con una mega biodiversidad

Ejemplo: ¿La abundancia de flamencos varía

Modelos estadísticos Webinar avanzado

Se refiere al grado de profundidad con que se Entendimiento del tema

Modelos estadísticos Webinar avanzado

la respuesta que se desea saber con los Pasteurización

Corte de la cuajada y desuerado

Almacenado Maduración Secado Salado

Modelos estadísticos Webinar avanzado

Modelos estadísticos Webinar avanzado

Nuevos descubrimientos: En la actualidad existe una gran disposición

Modelos estadísticos Webinar avanzado

Para descargar información Para información de Imágenes satelitales y

https://www.gbif.org/ https://herbariovaa.org/ https://earthexplorer.usgs.gov/

Nuevos descubrimientos: Existen sitios web específicos para acceder

Modelos estadísticos Webinar avanzado

La historia de la inteligencia artificial comenzó en 1943 con Alfredo ANCASI M.

Modelos estadísticos Webinar avanzado

Uno de los proyectos iniciales de éxito mas importantes Alfredo ANCASI M.

Modelos estadísticos Webinar avanzado

Uno de los proyectos iniciales de éxito mas importantes Alfredo ANCASI M.

Modelos estadísticos Webinar avanzado

¿Aprendizaje profundo (Deep Learning) en Alfredo ANCASI M.

Modelos estadísticos Webinar avanzado

¿Inteligencia artificial? Alfredo ANCASI M.

Modelos estadísticos Webinar avanzado

¿Aprendizaje profundo (Deep Learning? Alfredo ANCASI M.

Modelos estadísticos Webinar avanzado

¿Consideraciones importantes? Alfredo ANCASI M.

Naturaleza del proyecto

Modelos estadísticos Webinar avanzado

ÍNDICE DE CONTENIDOS Alfredo ANCASI M.

Métodos estadísticos Bayesianos Albert Einstein

A. Automático (Machine Learning)

Modelos estadísticos Capacitaciones

1.- Importancia del contexto Alfredo ANCASI M.

¿A quién se está comunicando?, ¿Qué quiere que su

2- Elegir una imagen efectiva

¿Cuál es el gráfico correcto para esta situación?, para

A los gráficos que se genera también pueden realizarse

Modelos estadísticos Webinar avanzado

Comprende los elementos visuales que ocupan espacio pero no

Cuando nuestras imágenes se ven complicadas, se corre el

4- Pensando como un diseñador

• Utilizar Negrita, cursiva y subrayado

Modelos estadísticos Webinar avanzado

¿Storytelling? Alfredo ANCASI M.

Creativo Marca Contenido Valioso Emoción Marketing Comunicación Compartir Viralizar

Modelos estadísticos Webinar avanzado

ÍNDICE DE CONTENIDOS Alfredo ANCASI M.

Métodos estadísticos Bayesianos Albert Einstein

A. Automático (Machine Learning)

Modelos estadísticos Capacitaciones

>95% 50% NHST

Modelo ensayo 1 de 3: -2.25540 + 0.008277x + 0.06390y -0.0000157xx - 0.000440yy - 0.0000134xy

DF1 = 2,71Petal.L – 1,54Sepal.L

DF2 = - 2,62Petal.L + 1,59Sepal.L 1. Discriminación: encontrar las funciones