Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPACITACIÓN:
ESTADÍSTICA MATEMÁTICA
CURSO
ESTADÍSTICA AVANZADA Y
MODELOS DE APRENDIZAJE
AUTOMÁTICO EN MEDIO AMBIENTE
Acreditada
Webinar
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Investigación científica
Alfredo ANCASI M.
¿Lógica de razonamiento? Ciencia de Datos
Alfredo ANCASI M.
¿Ejemplo de aplicación? Ciencia de Datos
Alfredo ANCASI M.
¿Planificación: Preguntas por observación? Ciencia de Datos
Alfredo ANCASI M.
¿Nivel de investigación? Ciencia de Datos
Alfredo ANCASI M.
¿Ejemplo de aplicación? Ciencia de Datos
MG= 3%
Leche estandarizada %P= 10%
Es importante entender cual el la finalidad
de recabar y analizar datos, es decir cual es Ultra filtración Queso fresco
0,5 – 2%
Adición de CaCl2
pH>5,2
T= 2-3 horas Maduración 1
2-3 ºDr0nic
pH>5,2
T= 22-34ºC Coagulación 3% de cuajo
Alfredo ANCASI M.
Algunas inteligencias artificiales Ciencia de Datos
Nuevos descubrimientos: La IA se puede utilizar para generar nuevas hipótesis y teorías. Esto
puede conducir a nuevos descubrimientos en áreas de investigación que antes eran inaccesibles.
la IA tiene el potencial de revolucionar el método científico, haciendo que la investigación científica
sea más eficiente, precisa y efectiva.
Alfredo ANCASI M.
Algunos sitios web para acceder a datos Ciencia de Datos
Alfredo ANCASI M.
Algunos sitios web para acceder a datos Ciencia de Datos
https://www.youtube.com/watch?v=GIJ7zr4sYx4
Basado en
DATOS
https://chat.openai.com
https://www.clearviewimaging.com/es/blog/dee
p-learning-para-la-industria-alimentaria
Una diversidad de
datos de la NASA,
y otras fuentes.
[Algunas ciertas
fallas].
Coherencia
Consistencia
Originalidad
Objetividad
A. Descriptivo
A. Inferencial
Modelos
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Storytelling
Alfredo ANCASI M.
3.- El desorden es el enemigo Ciencia de Datos
A) B)
TOP TAX RATE TOP TAX RATE
42% 45%
Cifras 35.0% 39.6%
40%
40% Cifras
39.6% 35%
Unidades (%)
Unidades (%)
30%
38% ≠ 25%
20%
36%
35.0%
? 15%
10%
5%
34% 0%
NOW NOW
JAN. 1,2013 JAN. 1,2013
Evaluados Evaluados
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Estadística y matemática
Alfredo ANCASI M.
¿Estadística: Evolución? Ciencia de Datos
Métodos
Software
Supuestos
Muchos fenómenos que se observan siguen una
tendencia normal pero eso no significa que todo
lo observado siga una tendencia normal
Independiente (x)
Numérica Categórica
Ho: µ1 = µ2 = µ3 = µ4 = …. µt
H1: Ӡij µ1 ≠ µ2 ≠ µ3 ≠ µ4 ≠ …. µt
H1: Al menos, un µ1 es diferente del resto
[Efectos fijos]
Ejemplo: Volumen masa de pan P (3, 12 ; 0,95) = 5,66 ; P = 0,0119 < 0,05
Análisis de la varianza
Problemática
Variable N R² R² Aj CV
Cumplimiento
Volumen (𝑐𝑚3 ) 16 0.59 0.48 2.52
de supuestos
Alfredo ANCASI M.
Ciencia de Datos
Procedimientos:
Clásicos
modernos
¿Variable Dependiente?
¿Variable Independiente?
Distancia de Minkowsi
B r B r B r B r
d A, B r x x
1
A
1 x x
A
2 2 x x
A
3 3 ... x x
A
p p
Distancia de Manhattan
Distancia Euclídea
1.00
FrutosSecos
Huevos
Bulgaria
Rumania
Croacia
-1.00 Leche
CarneCerdo
Cereal Albania
-3.00
-5.00 -2.50 0.00 2.50 5.00
CP 1 (45.1%)
La reducción de variables en
clasificación y combinación
con otros modelos o ajustar
hiperparametros
Lineal vs Cuadrático
Covarianza fija vs variable
(MO), C, nitrato (NO3), fósforo disponible (P-dis), escurrimiento y pérdida de Fuente: Estadística y Biometría
suelo evaluados en sistemas de siembra directa (SD) y labranza convencional (LC). Balzarini, M. (2008)
Cd-Machacamarca
3,13
Suelo
CP 2 (19,3%)
Sn-Sora sora
1,25 Sn-Pacopampa
Sn-Machacamarca
Agua Pb-Machacamarca
-0,63 Vegetales
As-Machacamarca
Pb-Pacopampa
As-Pacopampa
Leche
Pb-Sora sora
As-Sora sora
-2,50
-3,00 -1,00 1,00 3,00 5,00
CP 1 (77,6%)
Sepal L
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Estadística y matemática
=𝟏 ≠𝟏
Plato frutas
Escala de Likert
161.7 Gráfico Box-plot
2 2.1 0.9
Y
103.9
1 2.2 0.8
75.0
3 2.0 0.9
46.1
(2) Café de quinua. E1 E2 E3 E7
Ensayo
E8 E9 E10
La varianza de la variable de
respuesta no es constante.
Priori Posteriori
Pichitanka
https://anestesiar.org/2020/rioja-o-ribera-estadistica-frecuentista-vs-bayesiana/
Estadística y matemática
Probabilidad
La distribución depende de los datos y la dist. La distribución no indica nada del valor de µ
probabilidad a priori.
===============================================================================
El picaflor no puede
memorizar el numero de
flores, sectores visitados,
etc.
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Machine Learning
ROLES Comprensión
del negocio
Comprensión
de datos
CRISP – DM
Gerente de
proyectos
Preparación
Ingeniero de datos de los datos
Analista de datos
Especialista del área Despliegue Modelación
Evaluació
n
Ciencia de
datos SI SI SI
Ingeniero de
Machine SI SI SI
Learning
Analista de
datos SI SI
Ingeniero de
software – SI SI SI
ML
Ingeniero de
software SI SI
Fuente: Machine learning en español.com
FIGURE 1 | Construction of a passing network. In this example, passes from the match Real Madrid –Barcelona of the
Spanish national league “La Liga”, season 2017/2018. In the upper row, initial position of all passes made by Barcelona (A)
and Real Madrid (B). In the bottom row, Barcelona (C) and Real Madrid (D) passing networks, where link widths are
proportional to the number of passes between players,
Machine learning
[Aprendizaje automático]
Algoritmos y modelos que permiten a
las máquinas aprender de los datos y
mejorar su rendimiento sin necesidad
de ser programadas explícitamente.
Deep learning
[Aprendizaje profundo]
Redes neuronales con varias capas para analizar grandes
cantidades de datos, permitiendo a las máquinas
aprender y realizar tareas complejas de forma autónoma.
https://empresas.blogthinkbig.com/que-algoritmo-elegir-en-ml-aprendizaje/
Machine Learning
3.000 Soltero 0 SI
https://empresas.blogthinkbig.com/que-algoritmo-elegir-en-ml-aprendizaje/
Machine Learning
https://empresas.blogthinkbig.com/que-algoritmo-elegir-en-ml-aprendizaje/
Machine Learning
1.- Regresión lineal 2.- Regresión Ridge y Lasso 3.- Support Vector regression
4.- Árboles de regresión 5.- Random Forest
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning
En este caso el modelo de soporte vectorial con kernel radial es el se ajusta mejor a los datos
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning
[[0.44359863 3.11530945]
Maximización en las rectas Posición de puntos [2.33812285 3.43116792]
Con N= 50 Datos [2.06156753 1.96918596]]
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning
https://www.kaggle.com/code/micheldc55/arboles-de-regresion/
Machine Learning
Es importante que una vez construido el modelo, este debe ser evaluado. Y luego
evaluar muy aparte todo el proyecto.
https://www.kaggle.com/code/fernandobordi/fb-aprendizaje-autom-tico-regresi-n /
Machine Learning
Número de
parámetros del 4 5 Número de
características
modelo
https://www.kaggle.com/code/fernandobordi/fb-aprendizaje-autom-tico-regresi-n /
Machine Learning
Puede ser importante considerar combinar modelos, para generar mejores resultados
SVM en:
Reconocimiento facial
https://www.kaggle.com/code/fernandobordi/fb-aprendizaje-autom-tico-regresi-n /
Machine Learning
https://www.kaggle.com/code/fernandobordi/fb-aprendizaje-autom-tico-regresi-n /
Machine Learning
3.000 Soltero 0 ?
https://empresas.blogthinkbig.com/que-algoritmo-elegir-en-ml-aprendizaje/
Machine Learning
Del modelo
DIGITAL WORLD
Marilin Vega León
Les presento a la
gatita Missi.
https://blog.spainbs.com/2020/10/891/hagamoslo-facil-deep-learning-y-redes-convolucionales
Machine Learning
0: Denegado
w1 1: Aprobado
Predicción
[Desconocido]
w2
X1 E1 S1
2 2 Y
X2 E2 S2
3 W2 33 3
En el mundo real, se aplican modelos sofisticados basados en redes neuronales artificiales (Como las
redes neuronales convoluciones, además existen librerías especializadas, con redes neuronales
preentrenadas ).
Link: https://keepcoding.io/blog/tipos-arquitecturas-redes-convolucionales/
Webinar
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Comparación y selección de modelos
¿Conceptualización? Alfredo ANCASI M.
Ciencia de Datos
Clasificación
Regresión
MODELO 1 MODELO 2
Definir la parte Fija del modelo Incorporamos a los bloques como un factor
(No varía entre las distintas opciones) aleatorio. Marcamos a los bloques en la
constante ya que recibieron a todos los
tratamientos.
MODELO 3 MODELO 4
Y
Incorporamos a las parcelas como Simplificamos el modelo: Quitamos a los
factor aleatorio (tenemos varias bloques como factor aleatorio. Quedan
observaciones por parcela), anidado únicamente las parcelas como factor
en los bloques (cada parcela fue aleatorio.
medida en un solo bloque)
Res.cond.estand.Pearson
Res.cond.estand.Pearson
1.5
1.5
0.5
0.5
-0.5
-0.5
-1.5
-1.5
2002 2004
Ano
2006 E G1
Trat
Y
G2
En la pestaña de efectos
fijos y efectos aleatorios
son el primer paso para
asignar las variables
Res.cond.estand.Pearson
1.5
1.5
Cuantiles muestrales
0.5
0.5
-0.5
-0.5
La tabla de ANOVA que se genera involucra esta vez salidas de efectos
fijos y salidas de efectos aleatorios.
-1.5
-1.5
0 5 10 15 -2 -1 0 1 2
Fotos: https://la.mathworks.com/discovery/overfitting.html
Comparación y selección de modelos
Res.cond.estand.Pearson
Res.cond.estand.Pearson
1.5
1.5
0.5
0.5
¿Comparación de modelos estadísticos? Alfredo ANCASI M.
Ciencia de Datos
-0.5
-0.5
-1.5
-1.5
2002 2004 2006 E G1 G2
Ano Trat
Y
Res.cond.estand.Pearson
1.5
1.5
Cuantiles muestrales
AIC
0.5
0.5
mas bajo
-0.5
-0.5
-1.5
-1.5
0 5 10 15 -2 -1 0 1 2
La Investigación científica
La mente que se abre a
Pensamiento en datos (Storytelling) una nueva idea, jamás
volverá a su tamaño
Métodos estadísticos multivariados original
Playground
Ancasi, A. (2023)
Casos de estudio
¿Machine Learning en imagen satelital? Alfredo ANCASI M.
Ciencia de Datos
Librerias de python
(Rasterio)
Data scientists Y
Data scientists Y
Figura 1. Precisión modelos ensemble Figura 2. F-1 Score modelo Naive Bayes
Fuente: Elaboración propia Ancasi, A. (2022) Fuente: Elaboración propia Ancasi, A. (2022) Y
Grupo 1 2 3 4 5
1 12 0 0 0 0
2 0 12 0 0 0
3 0 0 10 1 0
4 0 0 1 16 0
5 0 0 0 0 8
Total 12 12 10 17 8
Tabla 1. Matriz de confusión SVM
Figura 8. Profundidad, modelo Decisión Tree Fuente: Elaboración propia Ancasi, A. (2022)
Fuente: Elaboración propia Ancasi, A. (2022)
Es importante evaluar
las métricas de cada
modelo entrenado y su
validación
Hoja de papa
Tizón temprano
Y
1,000 imágenes
Hoja de papa
Tizón tardio
1,000 imágenes