Está en la página 1de 27

Seminario de Ciencia de Datos

Diego Fernndez Slezak - Alejo Salles


Operativas
6 Mdulos - 6 Tericas - 6 Prcticas

Python (6 libreras!)

Orientacin prctica

Evaluacin
Programa
Mdulo Librera Duracin

Introduccin/
numpy/scipy 2 Semanas
Estadstica

Series Temporales pandas 2 Semanas

Probabilidad e
- 3 Semanas
Inferencia

Machine Learning scikit-learn 3 Semanas

Redes Complejas networkx 3 Semanas

Anlisis de Texto nltk 3 Semanas


Qu es Data Science?
Qu tareas realiza un Data Scientist?

scipy Modelado /
networkx Estadstica
nltk
/ Anlisis
numpy
pandas

Machine
Dataset
Learning /
Datos Pre-procesamiento
Predicciones
crudos scikit-learn
Qu habilidades requiere
un Data Scientist?

Hacer la pregunta correcta

Saber interpretar los datos y su estructura

Sintetizar y visualizar conclusiones


Mdulo 1: Estadstica
Tirada Resultado

1 0
2 0
3 0
4 0
5 0
6 0
7 0
Est cargada la moneda?
8 0
9 0 Hiptesis/Modelo

Estadstica: nos permite sacar


conclusiones del mundo exterior
Libreras del Mdulo
numpy scipy
import numpy as np from scipy import stats

Manipulacin de datos Librera cientfica


numricos
Basada en numpy
Define array (no
confundir con listas!) Special functions, integration,
optimization, interpolation, Fourier
transforms, signal processing, linear
Subyace muchas libreras algebra, spatial data structures and
algorithms, statistics,
Libreras Extra
matplotlib seaborn
import matplotlib.pyplot as plt import seaborn as sns

Grficos Grficos lindos!

Originalmente imitaba No hay que hacer


Matlab, hoy estndar nada, slo importar y
para graficar en python usar matplotlib

statsmodels Estadstica avanzada


Test Binomial scipy.stats.binom_test

Hiptesis: resultados distribuidos binomialmente



n k
p(k| ) = (1 )n k
Hiptesis/Modelo
k
n
X
Cul es la probabilidad de obtener 1
p k=
m o ms caras de n tiradas? 2
k m

Cul es la probabilidad de obtener un


resultado tan o ms extremo?
n
X
p k=
1

+
nXm
p k=
1

El p-valor!
2 2
k=m k=0
Test Binomial scipy.stats.binom_test

n
X nXm
1 1
p= p k= + p k=
2 2
k=m k=0

p-valor para 12 caras de 12 tiradas


12
X
1
p= p k=
2
k=12
X0
1
+ p k=
2
k=0
= 0.00049
Cmo ver datos
Scatter plots Histogramas
t-test(s) de Student
Muestras independientes scipy.stats.ttest_ind

1 muestra scipy.stats.ttest_1samp

Muestras apareadas scipy.stats.ttest_rel

Como antes: una cola o dos colas, segn el caso


t-test(s) - Hiptesis
Variables distribudas normalmente (Gaussianas)
Shapiro-Wilk o Kolmogorov-Smirnov
Igual varianza
F-test, y si no, Welch t-test
Muestras independientes

Generalmente, cuanto ms fuertes las hiptesis, ms poderoso el test


t-test scipy.stats.ttest_ind
Muestras independientes
Alturas (cm)
mujeres varones Cul es la probabilidad de que
las muestras vengan de una
162 181
distribuciones con igual media?
171 187

157 161
t = 1.445, p = 0.199
165

174 Distribucin
Estadstico

conocida
t-test scipy.stats.ttest_1samp
Muestra nica

Alturas (cm)
Sabemos que la altura media de la
161
gente en Noruega es 175 cm.
171 Es distinta nuestra altura?
157

181 Cul es la probabilidad de que las


187
muestras vengan de una distribucin
con media distinta de cero?
(u otro valor fijo de referencia)
t-test scipy.stats.ttest_rel
Muestras apareadas
Alumno Prueba 1 Prueba 2 Cul es la probabilidad de que
1 6 8 las muestras vengan de
distribuciones con igual media?
2 7 9

3 10 9 Ms poderoso que el de 2
4 9 10 muestras independientes
5 5 5
Tiene que haber una constante
entre muestras (aqu el alumno)

Y si no valen las hiptesis? Tests no-paramtricos!


Tests de rank sum, Mann-Whitney U, Wilcoxon

Alturas (cm)
orden triunfos v
mujeres varones
v 3
162 181 3
v
3
171 187 v
2
m
1
157 161 v

165 m suma
v
174 m U=12, p=0.12
Tests de rank sum, Mann-Whitney U, Wilcoxon

scipy.stats.ranksums
Muestras independientes
scipy.stats.mannwhitneyu

Muestras apareadas scipy.stats.wilcoxon


Test de Permutaciones
Alturas (cm)
altura etiqueta altura
altura etiqueta
etiqueta
mujeres varones
162 m 162
162 vm

162 181 171 m 171


171 vv
157 m 157
157 vv
171 187 shuffle
181 v 181
181 vm

157 161 187 v 187


187 mv
161 v 161
161 mv
165
165 v 165
165 vv

174 174 v 174


174 vm

0 = hv hm = 10.27 1 2
Test de Permutaciones
altura etiqueta
162 m
171 m
157 m
181 v
187 v
161 v
165 v
174 v

0 = hv hm = 10.27 p=0.11
Correlacin de Pearson scipy.stats.pearsonr

2 [ 1, 1]
Mide correlacin lineal de los datos, asumidos normales

6 = 0.39 p = 0.24
= 0.98 p < 10
ANOVA scipy.stats.f_oneway

mujeres varones otros


Test para una variable
162 181 167 categrica con
171 187 188 mltiples valores
157 161 172
Generalizacin del t-test a
165 muchos grupos
174

Variantes: N-way, ANCOVA,


Atencin! correlacin 6) causalidad
Atencin!
Falta de evidencia 6= inexistencia del efecto

mujeres varones
t = 1.445, p = 0.199, t-test
162 181

171 187 Qu significa este resultado?


157 161 Que los varones no son ms
165 altos que las mujeres?
174
No: que no tenemos suficiente
evidencia para afirmar que s lo son
Anscombes Quartet

Misma x media, y media, varianza de x, varianza de y,


correlacin entre x e y, regresin lineal
Cheat sheet
numpy.loadtxt()

Para acceder numpy.array: data[i],


data2D[i,j], data2D[i][j]

Operador de slice: data[:], data2D[:,i]

plt.plot(), plt.bar(), plt.hist()

plt.show()!