Clase #3

Estos tipos de datos lo que nos dan es la probabilidad de que pertenezca a cierta categoría.
Si los puntos en una regresión logística(grafico) están juntas no nos permiten diferenciar los
datos entre las 2 clases de datos.
La probabilidad tenemos más acierto en el modelo vale imaginaros pues es lo que tenemos
que a partir de que la probabilidad es de los 7 por encima de 07 tenemos una una precisión
muy elevada vale acertamos en un me lo estoy inventando en un en 180 o en un 85% de los
casos hoy es podemos establecer deslumbran a partir de 07 yo considero que el tumor es
maligno vale este tipo de decisiones al final tenéis que tener en cuenta que dependen un poco
de problemas que se aborde vale y de lo crítico que sea equivocarnos o no vale imaginaros en
el caso del cáncer no bueno pues hay que establecer una solución de compromiso vale si si
resulta que este modelo lo hacemos para detección precoz del cáncer vale para adelantarnos a
que una persona tenga que someterse a un tratamiento más agresivo a posteriori YY se puede
hacer algo de forma adelantada para evitar que se tratamiento que no es agresivo vale la la
opción ahí sería a lo mejor irnos a probabilidades más bajas vale por qué porque queremos
detectar indicios de que el tumor es maligno para poder actuar antes vale entonces ahí no me
importa tanto equivocarme en caso es que yo digo que sí que son malignos y no llegan a serlo
vale porque es actuar en avance pero para prevenir un mal mayor vale y sin embargo me
importa más que casos que sí que son reales no me los pierda vale caso es que sí que son
malignos no diga que son benignos entonces en ese caso pues lo que lo que hay que hacer es
establecer un umbral que en el que a lo mejor no acierte tanto pero que casos que sí que son
que sí que son malignos los pille vale te resulta que el problema que tenemos es el contrario
vale que que nos cuesta mucho cuando pues por ejemplo a ver hola detectar por ejemplo
fraude bancario o detectar pues eso clientes o clientes que que están haciendo un fraude por
ejemplo a la entidad vale pues si yo no estoy muy seguro de que el cliente me está viendo un
fraude a mí yo le voy a decir al cliente o sea no voy a ir contra el cliente vale porque al final eso
repercute en la en las reputación de la entidad en la relación con el cliente es mucho más grave
equivocarte si realmente el cliente no estaba cometiendo un fraude qué al contrario vale
entonces en ese caso por ejemplo nos iríamos a probabilidades muy altas o sea yo solo voy a
actuar si estoy súper seguro de que en los casos que yo detecto estoy acercando vale solo me
voy a ir por ejemplo imaginaros aprobado Elías por encima del 90% para realmente hacer algo
adelantándome YY gestionándolo con el cliente por qué pues porque la penalización que yo
tengo si me equivoco es muy gorda porque el cliente lo voy a perder vale en el caso del cáncer
pues al contrario me voy a ir a probabilidades bajas a lo mejor si estoy por encima del 05 por
100 del 50% de probabilidad ya voy a voy a hablar con ese con ese paciente y le voy a someter
a un tratamiento preventivo vale por qué porque no me importa equivocarme si realmente el
tumor era Benigno y lo que me importa es pillar casos que siempre son malos vale para poder
adelantarme que no vaya entendido sí.
tras
puesta que se diga nuestra nuestro vector de parámetros la representación es igual que
teníamos en el modelo de regresión
Probabilidad tiene que tener valor entre 0 hoy esta función se representa no se puede
representar con una recta vale y se representa como una simoné vale que es la función de la
actriz que veis que faltan valores de la zeta hoy entre 1 más elevado a menos 30 entonces para
valores de z horas nos vayamos hacia el eje negativo pues ese valor tiene la acción y si me voy a
hoy con lo cual así nos aseguramos de que la salida del modelo vamos a ver el tercero y 1 y
cumple el principio de la probabilidad y el valor que tenemos
En lugar de tener directamente que la h dieta es el vector del parlamento expuesto por la
matriz x pues en este caso es el lector de mano en el sector la matriz de x se están dentro de
las funciones explode pero realmente lo que tenemos aquí es lo mismo vale vamos a tener una
serie de variables independientes que vamos a tratar de utilizar para predecir nuestra variable
dependiente y a cada una de ellas le tendremos que estimar el parámetro con el que van a
influir sobre sobre la variable objetivo que sería el parámetro vale x es la la matriz de variables
explicativas lo que os decía y que tras puesto es el lector que hemos puesto de los parámetros
que tenemos que determinar pues en ese sentido es igual vale para cada variable que
entramos en un modelo le tenemos que estimar su programa hoy en lugar de tener como
resultado de la predicción directamente el producto de ese vector de parámetros hoy en en
Estafeta de aquí y se evalúa el ritmo n para que eso se traduzca en una probabilidad vale
simplemente simplemente es hola vale pues eh la superficie o límite de decisión esto es un
poco bueno esto es lo que hablábamos antes del umbral vale de nombrar a partir del cual yo
considero que mis datos tengan.
EXPLICACION DEL EJERCICIO
A manipulación de datos que son más habituales en un par de hits ondas hoy después
cargamos las librerías que son específicas ya para el modelo de regresión y para obtener
métricas hola bueno pues estadísticas del del parámetro o el cociente reajustado el símbolo
para gráficos vale luego aquí nos importamos los modelos que que nos van a permitir los los
modelos de regresión y por último pues estás para poder obtener por un lado la los eh bueno
30 este split vale ese hola lección del del set de datos que va a ir el entrenamiento y el set de
datos que va a ir AA test para hacer la partición y bueno pues métricas que vamos a ver
después vale hos nos importamos las librerías y vamos a cargar los datos del cáncer que habéis
estado utilizando vale entonces nos creemos el hoy te parece estamos con acabamos de
empezar estamos con el ejemplo de versión también el notebook hola vale simplemente pues
hemos hecho el cargado de de las librerías y nos hemos importado los datos en CV que van a
ser los mismos que habéis estado trabajando en el análisis exploratorio de datos vale porque
como habíamos dicho pues claramente es un problema de clasificación en el que tenemos que
clasificar y un amor por sus características pues va a ser maligno o Benigno vale entonces
bueno pues nos hemos importado este de datos con el que vosotros habéis estado trabajando
que tiene todas esas características de los tumores YY la variable target que sería la diagnosis
vale entonces lo que hacemos es para poder utilizar pues nuestra tarde empinarias en el
modelo de regresión logístico la pasamos a numérica vale entonces vamos a decir que si el
valor de la variable diagnosis es m vale si es maligno vamos a decir que en la tarde vale 1 y en
caso contrario pues la tarde de hoy hoy nos hacemos un brownie para ver qué número de
casos tenemos en cada una de las clases en la variable diagnosis vale tenemos 212 casos en en
valor maligno 212 casos de cáncer y 357 casos hay más casos de tumores de hola y
comprobamos ahora que la target cuando la hemos pasado a valor numérico efectivamente se
corresponde lo mismo vale que en el valor m que que es el de tumor maligno tenemos los
mismos 212 casos en mal olor de la tarde numérica 1 y que la B que es el tumor Benigno pues
se corresponde con la tardemos creado y que serían 357 cables que simplemente para
comprobar que el paso del la target o de la variable diagnosis que están en categórica a
numérica para nuestro modelo de regresión logística pues lo hemos hecho hola pues hacemos
un display que esto lo habéis hecho también en el en el Eva pues para ver un poco que
variables tenemos hoy eso el el número de registros que tenemos 569 de casos y bueno pues si
lo vemos aquí podríamos sacar el número de variables que tienen nulos pero bueno en general
como se da clases ya lo conocemos sabemos y bueno pues a este disco y nos da los valores de
los estadísticos descriptivos de referencia el valor medio desviación típica en mínimo el
máximo y luego los percentiles 2550 que sería la mediana y el hoy como el colon vemos todas
las columnas que tenemos en el data set y con el declive vemos el tipo de datos que tenemos
en cada una de las películas vale como lo veis el id que bueno es un identificador del registro
vale realmente no nos aporta información la diagnosis que teníamos nuestra tablet que era
homérica vale porque era categórica y ya tenemos aquí nuestra tarjeta numérica que ya sí que
es un entero vale y el resto de variables que todas son pues hoy seleccionamos aquí las
variables independientes que vamos a utilizar para para llevar a cabo nuestro modelo de
regresión logística aquí yo he hecho una una selección por ejemplo de las variables que tienen
el valor medio vale pero podríamos escoger las que nosotros hoy por ejemplo aquí hemos
cogido el Radio FM textura perímetro fractal dimensión el snes que sería la actualidad y hola
bueno pues hacemos un disco de esta vale y aquí por ejemplo pues podemos hacer un gráfico
un histograma de 2 variables vale del radio y del fractal de horale pues esto sería y realmente
lo que tendríamos que hacer es el el el análisis de datos como que sabes llevar a cabo en la
actividad vale pero como ya lo hemos abordado en otros entonces no nos detenemos hoy
vamos a definir ahora a seleccionar la variable que vamos a pedir vale lo importante aquí que
seleccionemos la variable que nos pasado a numérica que no cogemos la categórica vale
entonces seleccionamos nuestra variable i que va a ser la tarde vale y utilizamos la función
rentaste split como siempre para seleccionar los datos que van a ir al tren y los que van a ir a
test vale y por ejemplo pues a para test hemos dicho que cogíamos un 20% de los gatos hoy
cero dos vale y recordar este parámetro de error hola actividad de 1 de los de regresión vale
que nos sirve para fijar la semilla holea toria mi que si reproducimos o si volvemos a ejecutar
esta sentencia nos vuelva a separar los mismos datos que en test y entren vale para que si
iteramos no nos cambien los datos sobre los que entendamos el modelo y que de esa manera
podamos podamos sacar conclusiones de los resultados que tengamos porque sean sobre el
mismo hoy esa aleatoriedad del cambio de datos cada vez que hacemos una idea entonces con
esto ya y si usted se pone 100 de bueno es un es por convención pero puedes poner otro dar
otro valor si pones otro valor la selección nunca te va a hacer desde límites va a ser de otro set
de datos vale pero si lo vuelves a repetir te va te va a dar la misma es un poco por convención
pero puedes poner otros algunos de acción función del valor que tú pones para la semilla pues
eso pues eleccion unos datos u otros para para El Tren del test pero lo importante es que si tú
fijas fijas esa semilla cuando lo vuelvas a ejecutar decide de separándolos hotel Ibiza vais a
tener datos distintos en cada una hola si tú mantienes eso pues perfecto deberán mantener
siempre el mismo valor claro hombre lo que no vale es ahora ejecutarlo con 100 y que en la
siguiente lo ejecutes con 10 cuando está cambiado te ha cambiado de datos vale lo tienes que
ejecutar la misma vale entonces bueno aquí como siempre pues mostramos el número de
datos que nos ha separado en el tren y en el test vale en este caso tenemos el 20% que serían
114 registro para 3 y 455 para el tren vale te entrenamos sobre 455 datos y nos reservamos
114 en casos que no van a formar parte del entrenamiento para luego evaluar si el modelo lo
está haciendo bien sobre sobre esos casos y ver sobre todo si tenemos bueno esto justo le
vamos a ver en en el la clase después vamos a ver si tenemos mucha diferencia o no entre el
entrenamiento y el y el test vale que lo importante es que no haya mucha diferencia porque si
hay mucha diferencia si lo hacemos súper bien en el entrenamiento pero luego en el test el
modelo lo hace fatal pues no me sirve de nada vale porque a mí lo que me importa es que el
modelo me permita clasificar casos nuevos casos que no haya visto en el entrenamiento vale
para que utilizarían los modelos de este tipo hola bueno que este tipo de modelos
normalmente en medicina que se usan eh pues con con imágenes de de tumores tener vale de
ecografías o de resonancias ya se pasan por modelos de de machine learning para poder
detectar parámetros que anticipen que un tumor es maligno que va a ser maligno pues eso
antes de que se esté ya en estadios hoy lo que me interesa es que yo pueda entrenar con datos
que ya tengo y que el día de mañana si me viene un paciente nuevo y yo tengo unas pruebas
nuevas lo pueda pasar por mi modelo y me anticipe si ese modelo va a evolucionar hacia
maligno hacia Benigno eso es lo que a mí me importa que con datos nuevos funciona bien que
con los datos que ya tengo funciona bien perfecto pero es que es lo normal porque si con eso
no funciona bien con los nuevos va a funcionar peor vale bueno entonces construimos nuestro
modelo de regresión logística vale en este caso de la librería linear model tenemos que ser
seleccionar logístic relación vale hot con el punto fit recordad que es con el que entrenarnos y
con el punto predictores con el que luego ya le pasamos un set de datos siempre decimos vale
hacemos las predicciones hola final que nos darán un vale que sacamos las predicciones sobre
tren evaluando con el punto previo los modelos de regresión logística sobre el data set de
entrenamiento vale y obtenemos las predicciones de test evaluando nuestro modelo conel
punto de vista sobre el x 3 vale sobre las variables que hemos metido a modelo pero para la
parte de atrás hoy vemos ahora y las los datos que los coeficientes que hemos obtenido para
cada una de las variables tenemos vale y bueno pues hoy las variables que teníamos
recordamos vamos a ver aquí cuáles eran columns vale para descargarlo aquí hoteles que
tenemos son el reviews min texto armin preminger 1000 actualemente en min desnudas 1000
y compartes tu compartes vale entonces cada 1 de estos continentes se asocian a cada una de
esas variables vale el primero será el radio el segundo será será el de la textura el tercero es el
del perímetro el siguiente es el de El fractal de dimensión la suavidad y la compartida vale y
luego tendremos nuestro término independiente bueno vamos a evaluar el modelo con
diferentes métricas vale y me voy a detener un poco aquí para explicaros las que son vale
porque realmente más que hay algo que quería hacer con este ejercicio es pues una bueno
pues que tengáis un primer punto de referencia para hacer un modelo de regresión logística
pero sobre todo explicarnos la parte de métricas que me parecen más interesantes aquí pues
obviamente para hacer esto súper bien primero hay que hacer un análisis exploratorio de datos
como el que vosotros habéis hecho en la actividad luego pues lo suyo es pues es normalizar las
variables meterlas en el hacer un estudio exhaustivo de qué variables que queremos hacer
diferentes interacciones vale esto es un modelo súper sencillito para explicaros un poco como
vale pero lo importante luego es que sepamos interpretar los resultados del modelo que
hemos hecho vale entonces tenemos aquí diferentes formas de evaluar vale que la parte
teórica pues venían veníamos eso la parte como más teórica vale pero realmente es la práctica
lo que es el suelo utilizar es hoy por un lado lo que normalmente se mira es el acura así en en
este tipo de modelos y en otros que no que no tienen por qué ser de regresión logística vale
pero en los modelos de clasificación normalmente se mira en algunas vale voy a explicar un
poco ahora que América son con la pizza vale y se mira también bueno en este caso lo
importante por ejemplo ves que tenemos 1092 y 1091 prácticamente entre inventes pues hoy
el modelo está aprendiendo bastante bien vale porque la curva sí que tiene que ser elevada y
además nos da muy similar en los dos casos en el caso del tren y en el de test vale me voy en la
pizarra para enseñaros hola enseñar un poco cómo se suelen evaluar estos modelos.
MATRIZ DE CONFUSIONÇ
Reedición con mi modelo de regresión hola pero puede ser un modelo de otro tipo lo conocí
redes neuronales un modelo de boosting vale un modelo es que al final te sirvan para clasificar
pero teniendo en cuenta que ahora estamos hablando de la logística pues oye esto es lo que
me dice mi modelo hola vale y esto es la realidad hombre si yo enfrento la realidad a lo que yo
establezco con mi modelo aquí obviamente tener en cuenta que hemos tenido que establecer
en umbral para clasificar entre positivo y negativo vale el positivo sería el 1 vale hoy el negativo
sería cero vale pero obviamente para hacer esa clasificación y para poder tener esta matriz de
confusión hemos tenido previamente que que hacer ese ese análisis y establecer el umbral vale
muchas veces también ha tenido confusión sirve para revaluar el umbral que utilizamos vale
gracias os explico os explico lo que significa nuestras pues como valor real podemos tener un
valor positivo y un valor negativo de la hoy positivos del 1 y cómo valor que que yo digo que
tiene con mi modelo pues lo mismo tendré mi predicción de una en mi predicción etc entonces
si yo estaba dispuesta a Madrid diferencia cuatro versus vale los extremos la diagonal van a ser
los casos en los que estoy acercando vale por eso se pone como t vale Trump positivo hoy en el
truco positivo pues yo con mi predicción digo que es positivo y si me voy aquí abajo la realidad
me dice que efectivamente era positivo y yo estoy acerca entonces estos eran los esperados
verdaderos positivos vale y en el caso de de caso de los negativos pues igual yo también acierto
si digo que un valor va a ser cero y en la realidad también es cero hola con lo cual esto será
verdaderos positivos pero no los verdaderos negativos son negativos vale en estos dos casos
pues los días viendo bien hora tengo casos en los que me equivoco siempre todos los modelos
tienen una parte de red y habrá casos en los que entonces estos casos vale los que son falsos
positivos falsos positivos porque yo digo que es positivo pero la realidad es que es muy
negativo me estoy equivocando vale esto es en los casos en los que yo digo que es cáncer y no
lo ves hola y luego tenemos que verlo de otro lado obviamente pues el el caso contrario vale
bolsa negra yo digo que es un libro realmente es un 1 hoy qué ocurre por ejemplo en este caso
del cáncer vale a mí que me va a importar hoy nosotros que intentaríamos el caso de detección
de hoy también hosea pensad que con o sea como médicos quieres adelantar el adelantarte
por si es un cáncer vale y dar un tratamiento preventivo por si imaginaros que se trata también
preventivo en el caso de que no sea un cáncer tampoco tiene consecuencias en la vida del
paciente vale porque otra cosa sería que las tuviera vale pero imaginaros que es un
tratamiento preventivo que da el caso de que pasara un cáncer es que no puedo para el
paciente y en el caso de que sí que sea un cáncer permite prevenir las consecuencias
posteriores vale entonces si estuvierais en esa situación qué pensáis que debe primar hosea a
ver nosotros nosotros ahí lo que nos importa es detectar los que sí que son vale que serán los
chupos hoy a ver estos falsos positivos pues no van a importar tanto no porque realmente si yo
le doy ese tratamiento si yo le dije tratamiento al paciente no le va a pasar nada no le voy a
perjudicar si lees el tratamiento hoy con lo cual yo voy a querer adelantarme a los positivos
vale entonces aunque este valor sea alto aunque el valor del foro es posible sea alto no me
importa si este también lo es es decir también que más me interesa en ese caso es el de los
trucos y vale voy a tratar de establecer este umbral vale entre positivo y negativo de modo que
yo maximice este trozo de la matriz este este cuadrante vale mientras que los verdaderos
positivos se maximizan me da igual aunque ese valor de falsos positivos también sea alto vale
porque a sus pacientes realmente no les voy a perjudicar vale hh y Por otro lado me va a
importar los falsos megas vale por qué porque son casos donde yo digo que no pero sí que
alcanza pues voy a tratar de que este sea máximo de que los grupos y sea máximo y de que el
falso negativo sea hola me da importa en ese caso el kotts negativo que el cual es posi hole y
ponerlos por ejemplo en la situación de fraude bancario vale yo quiero si no tenía importante
los dos los dos superiores porque si yo le he bajado un poco el porcentaje para poder alertar
un propio con claro hoy va a haber un porcentaje alto también que me va a dar falsos positivos
podría colarse o 1 que se que es real que le ha salido negativo pero que sí es positivo eso sería
en este este hola lo que tú dices es cásate yo digo que que no y que realmente es positivo vale
pues yo voy a tratar de maximizar este y minimizar este abajo aunque este como consecuencia
se me ha vale hola vale entonces poneos en el caso que hemos hablado al principio de la clase
de de fraude bancario vale imaginaros en este caso cambia la situación vale yo quiero acertar
en los que me los que me producen en los que me van a intentar estafar comunididad hombre
estamo no y se considera el fraude cuando el cliente desde el minuto cero no paga nada vale
pues bueno hay casos que serán así vale bueno serán sobre todo pues en préstamos o
microcréditos no en préstamos de pequeña cantidad que hay gente que defrauda y
directamente vos no piensa pagar desde el principio y bueno pues eso se considera fraude
bancario no pues así 1 de los fraudes bancarios entonces imaginaros que se da esa situación
vale tú tienes un tienes una entidad imaginaos que tienes una entidad financiera pequeña y
que para ti eso pues se supone que te supone bastante coste vale pero Por otro lado el coste
reputación al que te supone el el tomar medidas preventivas o el bueno concederle el
préstamo a un cliente porque tiene las sospechas de que te puede de que te puede defraudar
pues ahí es un coste muy alto porque porque necesitas tener cartera de clientes vale y
necesitas hacerte hacerte un nombre entonces en este caso por ejemplo tenemos que estar
súper seguros de que hoy de que nos van a cometer fraude porque si no el el impacto que
tenemos o las consecuencias que tenemos y nos equivocamos son gordas vale imaginaos esa
situación que trataríamos de maximizar y minimizar en esa situación hola rosy home maximizar
el grupo positive y minimizar el hoy lo más serio hoy si yo digo que alguien que si que si que
una cometer fraude YE inicie incluso o puede iniciar determinadas acciones si me estoy
equivocando la penalización es muy grave vale entonces en ese caso trataré de minimizar los
casos positivo entendido vale entonces esta hacer esta matriz de confusión vale muchas veces
sirve para tomar la decisión de dónde puedo comprar vale entonces imaginaos que hemos
puesto el umbral en una probabilidad eh que me da que aún así en este último caso en el
fraude ese número o ese porcentaje hoy en porcentaje para tener la perspectiva de de de
cómo se reparte en total vale YY ver qué porcentaje me cae en cada casilla entonces eh tú
estableces un determinado umbral en la probabilidad que te parece que tiene sentido pero
luego al trasladarlo a esta matriz resulta que tienes aquí es muy elevado pues lo tienes que
revaluar vale pues esto es un poco un proceso interactivo y esta matriz al final te da esa
visibilidad de cómo se reparten el total de tus de tus casos vale hola vale pues me vuelvo.
ACCURACY = TP + TN/P+N
PRECISION= TP/TP + FP
RECALL = TP/TP + FP ES IGUAL A TOTAL DE TODOS LOS CASOS REALES POSITIVOS.

tanto
Están muy alejadas del valor real que es el del centro de la diana no bueno pues si tenemos esa
gran distancia entre el valor de la predicción de nosotros años y el valor real eso quiere decir
que nos promoverlas bien sensual hoy días en tenemos Por otro lado estamos viendo que los
valores de las predicciones que nosotros estamos dando están súper concentrados eso quiere
decir que la varianza de nuestras de nuestro modelo es baja porque en todas las valores que
nosotros predecimos están en torno al mismo valor vale entonces aquí tenemos al otro día hoy
luego en ese caso de aquí de la derecha tenemos que nuestros valores están bastante disperso

Clase #3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase #3

Cargado por

Copyright:

Formatos disponibles

Estos tipos de datos lo que nos dan es la probabilidad de que pertenezca a cierta categoría.

RECALL = TP/TP + FP ES IGUAL A TOTAL DE TODOS LOS CASOS REALES POSITIVOS.

También podría gustarte