Está en la página 1de 5

● df : muestra la base de datos

● pd.options.display.max_rows=None : muestra todas las filas de la base de


datos
● df.info() : Muestra información de la base de datos
● df.loc[2] : Muestra los datos del pasajero 3
● df.describe() : te da un resumen numérico de la base de datos
● df.head() : muestra los 5 primeros pasajeros
● df.tail() : Muestra los últimos 5 pasajeros
● df.shape : te da el número de filas y columnas
○ df.shape[0] : número de filas
○ df.shape[1] : número de columnas
● df.Survived.unique() : valores que en este caso la variable Survived toma.
● df['Name'] : muestra la columna Name
● df[ ['Name','Age','Survived'] ] : Muestra la columna de Name, Age y
Survived
● df.Age.max() : Muestra la edad máxima
● df.Age.min() : Muestra la edad mínima
● df.Age.mean() : Muestra la edad promedio
● df.Age.std() : Muestra la desviación estándar
● df1=df[ df.Sex=='female' ] : Muestra los pasajeros female
● df1 : muestra df1
● df1= df[ (df.Sex=='male') & (df.Pclass==3) & (df.Age>=5) & (df.Age<=20) ]
: Muestra la población : varones,clase 3, edad [5-20]

● df1=df[(df.Sex=='female')& (df.Age>=0)&(df.Age<=7) ] : Población de niñas


de 0 a 7 años
● df1 = df[ ((df.Sex=='female') & (df.Pclass==2) ) | ((df.Sex=='male') &
(df.Pclass==1) )] : mostrar la población : (damas,clase 2) o (varones, clase
1)
● df.Pclass.value_counts() : Te cuenta la cantidad que cada valor de Pclass
que se repite.
● df['nueva_columna1']=100 : Agrega una nueva columna a df (en este caso
100).
● df['Parientes']= df.Parch + df.SibSp : Agrega una nueva columna al df que
sera la sumar de Parch y SibSp.
● df['Categoría']= np.where(df.Parientes<=3,'A','B' ) : Agrega una columna al
df donde a aquellos pasajeros que tienen 3 o menos parientes en la columna
parientes, les ponen A y los restantes, B. NOTA: UTILIZA COMANDO DE
LA LIBRERIA NUMPY


● df.groupby('Sex').Survived.value_counts() : Agrupa la sobrevivencia por
sexo.


● df.groupby( ['Pclass','Sex'] ).Survived.value_counts() : Agrupa la
supervivencia por clase y sexo.
● df.Pclass.value_counts() : Cantidad de pasajeros por clase
● df.groupby('Pclass').Age.mean() : Edad promedio por clase


● GRÁFICOS CON SEABORN:


● NOTA: PARA QUE SEAN 2 LIENZOS, EN col Tiene que haber una
variable con 2 posibles valores.


RESUMEN GRÁFICOS:
● POR DEFECTO JUPYTER: siempre va “f,ax = plt.subplots(1,2,figsize=(16,7))”
○ df.Sex.value_counts().plot(kind='bar',ax=ax[0],color=['pink','brown'] )
○ df.Sex.value_counts().plot(kind='pie',ax=ax[1],autopct='%.2f%%',colors=
['brown','pink'] )

● Libreria SEABORN:
○ sns.countplot(df.Survived,hue=df.Embarked) PSDTA: 1 LIENZO
○ sns.catplot( x='Pclass',hue='Survived',col='Sex',data=df ,kind='count')
PSDTA: 2 LIENZOS, NOTA: PARA QUE SEAN 2 LIENZOS, EN col Tiene
que haber una variable con 2 posibles valores.
○ sns.histplot(df[df.Pclass==1].Fare,ax=ax[0],color=['green']) PSDTA:
PARA DISTRIBUCION

MACHINE LEARNING CON PYTHON/JUPYTER:


● PARA EL MACHINE LEARNING, ES NECESARIO UTILIZAR VALORES
NUMÉRICOS Y NO DE LETRAS, POR ENDE AQUELLAS VARIABLES A
UTILIZAR SE LES TENDRÁ QUE ASIGNAR UN VALOR NUMÉRICO. TAMBIÉN
SE TENDRÁ QUE REEMPLAZAR LOS VALORES FALTANTES O NULOS.
● 1)


● 2) ELIMINAR LAS COLUMNAS QUE NO APORTAN NADA A LA PREDICCION:


● 3) Eliminar todas las filas cuyos valores sean todos valores faltantes (NaN).


● UNA VEZ REALIZADO LOS 3 PASOS, PODEMOS INICIAR CON EL MACHINE
LEARNING:
● 1) CREAR 2 DF: UNA CON V.I Y EL OTRO CON V.D

● 2) INTRODUCIR DATOS DE ENTRENAMIENTO, TESTEO, ETC…


● 3) APLICAR ALGORITMOS DE MACHINE LEARNING:

También podría gustarte