Está en la página 1de 13

y este por favor les debe estar llegando ahorita a un power point ya les debió llegar a todos y

me falta otro más listo hola hola espera entonces ahí está por favor los que puedan usarse
aunque sea que estén en el carro muestren si necesito que aparezcan en cambio y cuál es la
idea como toda institución necesita ver qie está haciendo bien las cosas en que está haciendo
mal las cosas para mejorar como en cualquier cosa entonces se ha pedido que los estudiantes
nosotros como profesores y decimos esto en la mañana y nos pidieron que hagamos eso con
los estudiantes de acuerdo entonces tendría por favor como digo en grupos les voy a pedir que
llenen esto yo creo que no pasa de 10 minutos la mayoría debería terminar en ese lapso tal vez
un poco más pero alrededor los grises también y tratarían de esto el archivo Excel que vieron
ahí sería donde ustedes van a llenar la información qué es lo que tienen ustedes aquí primero
les voy a grabar un ratito con con ustedes en ese grupito de acuerdo no sé si se calle
funcionará diferente un segundito no se queda entonces compartir y ustedes van a aparecer
acá en teoría deberían estarse mostrando ustedes y debería estarse mostrando el power point
de fondo alguien que me confirme en el power point no debe ahí cómo están ahí ahí se ve la
portada bueno no creo que todos pero en todo caso la gran mayoría deben estar por ahí el
estoy muriendo por favor si pueden mostrarse en cámaras le agradezco ahorita me estoy
moviendo algunas para la que aparezcan José y yesenia Fernando Roberto apareció Olga te
aparece proyecta en el carro y hoy está por ahí en todo caso les voy a poner aquí también para
que que se Note que estamos trabajando ya cuál es el pedir por favor revisen el archivo que es
el que tiene en grupitos y a desordenó y hablan de lo que ustedes se encuentran a nivel de
fortaleza oportunidades debilidades y amenazas que pueda tener su educación de acuerdo
esto no sé ya depende de cada 1 de los grupos que se formen puede ser bastante largo o
bastante corto pero obviamente van a tener que hacer algunas cositas por favor entonces les
voy a generar grupos que puede generar grupos para que hagan eso estamos entonces Maite
hola buenas tardes hola compañeros con relación a este a este a esta matriz que necesito
compartiendo inge va en nuestro criterio en función de todo el todo el tiempo que hemos
pasado de Universidad o es en este último nivel no todos saben lo que ustedes han visto y
obviamente yo sé que muchos estarán agradecidos otros aceptarán la situación y otros dirán
no es lo que yo quería es natural que suceda eso en todo caso sean respetuosos cuando
tengan que ser un poco fuertes y tampoco exageren cuando deban decir que es excelente la
cosa respetuosamente pero lo normal se supone que la idea es que nosotros podamos mejorar
las cosas y trataremos de hacerlo así con la ayuda de usted usted es bueno ya están de salida
no hay problema pero esa mejora sería para las nuevas generaciones que entren tanto su
programa como a los chicos de qué sistema Nobel del servicio esencial ay esto lo hacen cada
qué tiempo hizo porque no recuerdo haberlo hecho antes se supone que lo hicimos hace 3
años está durmiendo ustedes todavía no estaban ni en la entonces ahora que es la primera vez
en mi caso ya usted no está año y medio o dos por la noche entonces es lógico que ustedes no
hicieron eso estamos entonces la y ya que creo que dejen grabar desde aquí con una pantallita
de a ver muchachos Ricky sonríe porque le voy a tomar una captura ay quiero posterizado
llegando al asiento d ya quedó los dejo de compartir y les creo unos minutos como digo no
importa el número que ustedes son estamos 21 d 3 grupos de 7 les parece que aunque está
mucho pero podría ser no hacemos un grupito de 5 o 5 o 5 como perfil creo que de 5 
Mucha Ahora sí cómo les fue muchachos a los 15 ya se agradece el trabajito como digo todo lo
que le pueda ayudar como institución a mejorar se toma en cuenta ya era necesario que
también a ustedes se les incluya en este tema de cosas como digo ustedes ya están de salida
gracias perdón hola mi amorcito y a las 8 ya bajo ya Iván por si acaso los mismos que le están
invitando a la ****** tu madre bueno que les ayuda van a ayudar a sus compañeros que
vienen a futuro y obviamente sería una referencia para familiares conocidos suyos que quieran
también estudiar a través de la misma Universidad entonces por favor los que hayan estado
ahí como secretario sadoc de esto por favor manden por correo durante la noche no hay
problema que sea hoy estamos bueno entonces como les decía vamos a a completar la teoría
de esto van a venir van a tener un directo de una vez el mando este chat qué es lo que le voy a
incluir en en en esta clase es necesario que ustedes la vean desde aquí pueden ver
tranquilamente en su tiempo libre de hoy el día miércoles creo que el jueves tenemos que
hacer nuevamente entonces ahí lo pueden ver sin problema le mando al chat el video por
favor para que lo veas entonces le voy a contar el video a este y ahí y eso estaría el video
necesario que estén conmigo siento solo recordar algunas cositas que ustedes ya vieron
inteligencia artificial a ver todo lo que tiene que ver con medidas de presión tiene que ver con
estadística así de sí de acuerdo perdón dentro de algunas de esas cosas que ustedes han visto
he ahí el tema de rango la dimensión media varianza desviación típica son datos que ustedes
deben recordar lo que vamos a hacer las en la siguiente parte el otro día ahí sí es jugar con un
lenguaje o el pitón necesito que hasta el último instante practiquen Python sería el agregado
de la carrera para que vaya al conocimiento del país todas vamos a hacer eso compactos pero
Estas son las cosas que debemos recordar esto ustedes deben recordar se acuerdan de la
presentación que teníamos en en Python de la parte de estadísticas en la que la estadística se
puede dividir digamos en dos partes la una que se llama descriptiva y la otra que es diferencial
en el caso del la descriptiva lo que nosotros hacemos es recopilar datos y presentarlo de forma
informática o sea lo que hacemos normalmente el caso del inferenciales los que realmente
está haciendo cualquier cosa en especial que es efectuar estimaciones hipótesis y se basa en
probabilidades lo que les echaba como resultado alguno de sus algoritmos y la descriptiva
obviamente maneja normalmente a partir de datos poblacionales de muestras numéricas la
inferencial en cambio hace suposiciones de algunas cosas para llegar a los resultados a veces la
inferencial y también puede utilizar De hecho muchas cosas que utilizar las características
cualitativas no cuantitativas significa que en función de palabras no de números puedes llegar
a estimaciones de algo de acuerdo ahora dentro de eso también ustedes deben acordarse
alguna cosita como de la población individuo muestra muestreo valor y un dato espero que se
acuerden porque dicen pasaron esa materia entonces deberían más o menos tenerla fresca de
acuerdo y es lo que ustedes deben recordar así como ingenieros por más básico que sea es lo
que deben recordar de acuerdo de ahí viene formalmente algo de utilización no lo de las
medidas de tendencia central que son mejor chocó bastante frecuencia para resumir datos de
lo que sería un conjunto de cantidades o números que describen datos ojo cuantitativos
cuantidad ósea cantidades valor numérico de acuerdo dentro de algunos de los y que los que
se emplea dentro de lo que es líneas de tendencia central pero de datos no agrupados ojo es la
media la mediana la moda la media ponderada y la geométrica es ustedes deben acordarse al
menos lo que sería la medida que se utiliza bastantísimo inteligencia artificial es la la moda
también se puede utilizar aunque no lo hemos empleado mucho y la gente cuando tengamos
que utilizar de acuerdo que tiene especial esto de estas medidas normalmente primero deben
llevar el concepto de que son medidas que están basadas en conjunto de datos ya poblaciones
de chicas poblaciones de varones poblaciones de europeos poblaciones de norteamericanos
población de estudiantes chicas población de estudiantes varones se compara entonces
queremos comprobar la estatura promedio de los norteamericanos versus la estatura
promedio de los europeos versus la estatura promedio de los hispanoamericanos eso puede
puede hacer si debería hacerse características que nosotros deberíamos estar manejando en
esto no y ir sies que los conjuntos que estamos analizando tienen características totales
parciales al menos alguna característica para eso les va a servir eso identificar esa parte son
datos o son cosas que van a tener que calcularse o sea debemos calcular para quién de alguna
forma de describir lo que selló la gran mayoría mide en metros 75 en los Estados Unidos
****** y como promedio 1 m 79 los europeos dependiendo de la zona pueden tener un
promedio de 1 m 81 cosas decir se descripción de acuerdo que nos permite sacar algunas
veces pues bueno si hacemos la media estaríamos hablando de los valores que mayormente
describen a esa población que estamos estudiando que selló la media de Estados Unidos 1 m
80 media de Europa m 81 media de Sudamérica 1 m 70 y sí esos son los más representativos
hay valores que son más grandes valores que son más cortos pero son esos qué más
obviamente y eso ya está dicho sirven para resumir características de la población del
muestreo que estamos haciendo así de simple no hay más que hacer y ventaja de esto de que
para hacer este tipo de cosas nosotros tenemos fórmulas y a preestablecidas o sea no hay que
estar ahí haciéndonos cosas complicadas hay fórmulas que se utilizan muchas de esas De
hecho ustedes ya deben ya las vieron entonces hay que solamente refrescarlas de acuerdo
dentro de esas por ejemplo que tenemos lo dicho no la aritmética la mediana la geométrica y
la armónica la primera hasta la tercera creo que hemos de recordar la mayoría las dos últimas
serían las que toca revisarlas pero en todo caso qué es la aritmética haber maldita Ah perdón
dicen puede leerla o se acuerda mejor Abel América media aritmética y puede acordar la metí
la media es un concepto perdón y puede acordarse mejor si es que no se acuerda mucho a
hecho la lectura mucho veamos el escaparse por eso es este tipo de la tela la media es un
concepto estadístico básico que representa en un valor las características que presenta una
variable de un conjunto de datos y solo puede usarse con variables cuantitativas la media
puede considerarse un concepto base para la comprensión de variable aleatoria y sus
distribuciones ya que la distribución se caracteriza principalmente por las medidas de
tendencia central y de dispersión siendo frecuentemente la media 1 de los parámetros de las
distribuciones estrellas 2016 ahí más o menos les da la formulita no y ustedes se acuerdan de
estadística que veíamos que sumamos todos los valores que están en el grupo de análisis y
dividimos eso la suma entre el total de elementos de eso y sacamos el que representa o sea la
madre no hay más que hacer y quién me ayuda a mediana igualmente si se pueden recordar
les agradezco porque es importante que recuerden ojo tengo examen de fin de grado no les
van a decir lean el documentos no tienen que esforzarse a recordar es su preparación
entonces a anda por ahí hola dedo la lectura es el valor del elemento central del conjunto para
encontrar la mediana primero arreglar los valores del conjunto de acuerdo a su magnitud es
decir arreglar los valores del más pequeño al más grande o del más grande al más pequeño y
después localizar el valor central es decir el número de valores sobre la mediana es el mismo
que el número de valores debajo de la mediana bueno aquí si es el paso previo y obligatorio el
ordenamiento de datos marca aquí baloncesto forma centro descendente para poder
encontrar la mediana es el número de valores es un conjunto de datos no agrupados que es
par no hay mediana verdadera alguien que pueda explicar eso Ricky tal vez podría traducir esta
última parte y es que conjunto de datos no tiene número 8 si es par por qie será eso que tiene
problemas deja de interpretar y qué tal la mediana es el valor que está en medio si es que
tenemos un conjunto par de datos por ejemplo 2446 entonces la la mediana no es no es visible
y se le puede sacar mediante el promedio de los valores que están en el haber un poquito de
explicación IAE la mediana es el valor que se encuentra en medio de una serie de datos
entonces si es que tenemos un número par de datos por ejemplo 6810 datos no es visible la
mediana porque serían dos valores los que están en medio entonces la mediana ahí se obtiene
sacando el promedio de esos dos valores que están en eso me haces lo menos y cuando
tenemos un número impar de datos por ejemplo si se puede hallar la mediana o se utiliza una
fórmula también cuando ya tenemos un varios varios datos o sea digamos unos 100 1 ahí ya
tenemos que sacar 1 utilizar una forma bueno básicamente lo que dice Roberto está bien cuál
es la idea nosotros si tenemos números pares de datos ahí que significaría que cuando
cogemos o queremos dividir todo ese rango el número donde debería estar ubicándose o le
pertenece a una parte superior a una parte inferior no hay una forma de repartir los datos
exactamente hacer el pan 1 de esos valores necesariamente va a estar ejemplo si son 101 que
va a suceder 50 antes 50 después y el 1 que queda ahí 101 de acuerdo si tienen dos lanchas
bueno primero dos no tiene gracia no pero digamos que son 20 si son 20 y 920 sacamos la
medida significaría que tratando de hacer la media que debían 1010 pero no funciona debería
ser 21 o 19 para tener que 88 perdón 99 y 1 en el mes para poder comparar ese contra los
superiores y contra los inferiores De Del valor no esa es la idea con este tipo de cosas gracias
RT a mí anda por ahí a ver ahora sí ya que está invitado a la merienda hoy nos colaboró en
cambio acá tamb hay recoloquemos hola es el varón se repite varias veces estaba pensando
resumir ahora cárgale la lectura el si se acordó también llamado modo o promedio típico del
conjunto de valores la moda es el valor el cual ocurre más frecuentemente en el conjunto si un
valor es seleccionado al azar del conjunto dado un valor modal es el valor más probable a ser
seleccionado así la moda es generalmente considerada como el valor más típico es una serie
de datos la cual es llamada por su corazón una modal un conjunto pequeño de datos en el que
no se repite valores medidos carece de moda cuando dos valores no adyacentes son casi
iguales en cuanto a las frecuencias máximas asociadas con ellos la distribución se llama
bimodal aquella varias modas se llama moda gracias bueno eso debe acordarse normalmente
y nosotros estamos utilizando o usando mejor dicho un modelo sea normal es bolas hola una
sola moda en el conjunto no o sea se repiten 20 veces el 3 se repiten que se dio o cuatro veces
el 5 cosas decir pero si ustedes tienen varias repiten el 5 el 7 el 11 pues lógico va a haber hay
varias varias veces pero a ver esto ya podría ser algo que no vimos en y triste pero deberían
espero que se puedan acordar tal vez quién está por ahí Pablo ya que no muestra Cámara
puede ayudarme con lo que es media geométrica para los dedos a las dos hablo medio las 3
cambiamos Edgar anda por ahí desde ahí está con lo que sería media geométrica lo hice pero si
no se acuerda sí si la media geométrica de un conjunto de valores de raíz enésima del
producto de los valores de dicho conjunto si hay dos valores de raíz cuadrada del producto de
estos dos si son 3 es la raíz cúbica de los productos de los 3 valores rango el rango del conjunto
de números es la diferencia entre el mayor y el menor de todos hay dos maneras de
expresarlas de esta medida la diferencia de entre los dos valores es mayor y menor los valores
los valores mayor y menor del grupo gracias la geométrica ustedes le dieron cuando
estábamos viendo por ejemplo los supervisados ahí aparece una de estas posibles qué cosa
más uso de esto no no se acuerden nosotros hacíamos solamente pero cómo se llama
programas con algo sencillito pero en la práctica cuando ya tienen grupos medios especiales y
toca calcular si habían fórmulas para eso y había algunas de las relaciones de ese estilo de
acuerdo entonces ahí se aplicaba como digo eso no es tan común porque obviamente no
llegamos a eso pero deben recordarse finalmente lo que quisiera es un poco tenga presente
este tipo de gráfica de acuerdo ahí como ven la parte más interior dice distribución asimétrica
hacia la izquierda simétrica y asimétrica a la derecha de acuerdo era un caso cómo cómo se
fijan al lado izquierdo asimétrico a la izquierda que es que la media no está dándose y como tal
la que se está dando con mayor frecuencia es una moda y la mediana se convierte casi casi en
la media de acuerdo la media en el caso del asimétrica que es y eso es la famosa campana de
gauss que ustedes deben acordarse desde chiquitos que es que todo está distribuido
uniformemente o sea todos los datos están tanto la izquierda como la derecha uniformemente
ubicados obviamente ustedes van a decir hay valores que de pronto salen de la curva sí es
cierto pero la gran mayoría la gran mayoría si están distribuidos adecuadamente de acuerdo
en el caso de lo que está la asimetría hacia el lado derecho mire nuevamente la moda se queda
como el principal la mediana casi casi como la media y la media termina siendo la más
pequeña del grupo entonces en donde van a utilizar eso ustedes cuando tengan que hacer
análisis de alguno de sus trabajos de titulación de graduación de acuerdo ya espera ahorita les
pondría el tema del video como digo no necesitan verlo aquí y no les voy a atender pero si
tienen que leerlo por eso tienen ustedes el enlace leerán porque el día jueves de todo como
usted es cierto la siguiente clase miércoles según el miércoles a ver si tiene 8 a 10 ya entonces
miércoles has estado todo por ahí ahí haríamos práctica como digo con lenguaje falto
completamos algo con ella que se llama o análisis voluntario de datos en español Y digamos
con Python eso o sea los conceptos tienen que recordar muchachos no hay opcional aquí no se
recuerda esto es como la escuelita ustedes aprendí de aprendieron las tablas diabéticas de
multiplicar sumar tienen que aprenderse esto y velas pero estos conceptos tienen que
recordar de acuerdo avisaros que en las pruebas que tienen mejor y saben que tienen de fin de
grado algunas de estas preguntas en la parte de matemáticas si les aparece entonces por favor
a recordar estamos ya entonces esperemos segundito verme un segundito entonces ahorita
les tomaría lista ustedes tienen el el tema de él el enlace al video leerlo recuerden esta ocasión
miércoles el miércoles que arrancamos un poco recordando lo que sería edad y hacemos com
esto todo lo demás de acuerdo pero ahorita les voy a tomar la lista estamos bueno después de
aclarar lo del video hagamos el tema de la de la de la lista un segundito la intervención me
duele todo muchachos lo que me dice un dolor de cuerpo una secreción nasal y de cuando en
cuando una fiebrecita kovic griego ya perdón prueba mi esposa fue primero hoy quisieron o
sea le hicieron el DF 
 
------------------------------------------------------------------------------------------------------------------------------
------------- 
SEMANA 2 
Ya dame a ver muchos no hacen medio rápido como digo es por adelantar las cosas entonces
no nos vamos a complicar mucho gracias parte de las cosas que ustedes como habíamos visto
en el semestre anterior con la parte de estadística la idea es que ustedes obviaron algunas
cositas después de la de las matemáticas que supone deberían tener que la idea es que de
alguna manera con lo que estamos haciendo en este primer momento ustedes en el tema este
y retomen eso o al menos lo tengan presente de acuerdo ustedes para que no queden vacías
las cosas ahí obviamente a nivel de tener todo esto como un semestre de clases no se puede
eso ya sería un una matriz exclusivamente para por eso pero en todo caso que tengan ustedes
la noción clara de lo que van a hacer o por quién lo están haciendo es básicamente el tema de
esta semana la segunda parte de lo que hemos estado viendo es formalmente el tema como se
llama formalmente Elena qué es esto el exploratorio data analysis en español y qué es eso
análisis de datos exploratorios qué es eso normalmente ustedes como hacían sus ejercicios de
inteligencia artificial cogían los datos que venían en los data Center de acuerdo y eso se
alimentaban al algoritmo que sea necesario para conducir y hacer lo que sea nos saltamos que
trabajar con niveles de estadística un poco más más rigurosos digamos que se necesita nos
saltamos el hecho de hacer el trabajo sucio de coger los datos el data cero o sea haber
capturado datos de nuestra cuenta y haberlos procesado para entregarlos y usarlos ya por qie
porque cogíamos datos que ya estaban hechizos capturados ya filtrados de algún lado si se
acuerdan 1 de nuestros proveedores era cable es una una institución que maneja algoritmos
de inteligencia artificial está metida te llena lo que es estadísticas tiene muy buen conjunto de
datos y de ahí normalmente nos vaciamos con varias cositas para trabajar de acuerdo pero eso
no es la vida normal y normalmente ustedes van a tener datos sucios georgi que dicen los
gringos que es datos que ustedes acumularon por varios dispositivos de varias personas y que
simplemente capturaron o sea no se detuvieron preocupando de ser algunas cosas de acuerdo
entonces el era es eso justamente permite analizar los datos que se tienen en un data set pero
ya te acerque ustedes de alguna forma han analizado han hecho de manera intuitiva y gráfica
nuevamente se repite eso de que una gráfica dice más que 1000 palabras y de esa manera que
poder mejorar lo que sería algunas cosas que son particular particulares de ese tipo de datos y
de y de lograr así una mejor comparte comprensión digamos de lo que se está viendo o sea no
es tan novedoso para ustedes porque ya lo han hecho pero esto ya está un poco por debajo es
él y digamos que dos graditas antes de lo que ustedes ya cogieron contingencia de acuerdo
entonces eso es lo que vamos hay un poco la definición que que esperaría que la tengan
presente aunque eso sí no está en sus exámenes y sus les garantizo no está en estadística el
análisis voluntario de datos es un enfoque para analizar conjuntos datos para resumir sus
principales carácter a menudo o métodos visuales se hace las gráficas de la cuenta se puede
usar o no un modelo estadístico actuales que ustedes tienen ahí varias cosas para hacer eso
pero principalmente era el análisis por el periodo es para ver qué nos pueden decir los datos
más allá al modelado formal OA la tarea de prueba de hipótesis que pruebe entonces es
justamente el explorar los resultados se les acaban ustedes con sus algoritmos de acuerdo qué
es lo que tenemos que hacer por esto tenemos que hacer un CD es una mirada a casa de 1 sea
una revisión por adentro DEC e para preparar los datos que vamos a utilizar que normalmente
tendrían que hacer cuáles son los problemas que ustedes se topan normalmente con archivos
de Excel en el día a día de su trabajo qie problemas normalmente suelen tener por ejemplo
con datos que están en su base de datos que que vienen del trabajo qué es lo más le suele
suceder puente bueno formatos de fechas diferentes si pico año mes y 10 porque los
ingenieros son sordos los ingenieros tenemos un estándar que se llama highlands que es de la
dice que para formatos de fechas son año de cuatro dígitos y un medio mes de 2 dígitos
numéricos guión medio dos dígitos de día después separación horario de 2 dígitos de cero a
24: AY el separador de cero a 59 para los minutos los puntos 920051 segundos y así van
resumiendo los subniveles incluso de microsegundos si todo mundo utiliza el estándar no tenía
problemas pero el problema es que no usamos entonces tengo que estar en esto de acuerdo y
otro problemita suele darse quién se pelean ustedes por ejemplo con el Excel que es 1 de los
que más como creo que todo mundo utilizamos a diario no se ha peleado con el feo lo creo
seguro sabes no la haber típico problema se supone que debería ir a alguna celda de las
columnas con datos y no hay el dato ya está vacío no hay datos de Veracruz se supone que
deberían estar nos entrando por ejemplo las que son tipo y sueldo por ejemplo 850 dólares
con 25 centavos ya con el descuento y todo y resulta que el campo está con punto o está con
coma o; Porque kk porque la máquina del contador está en teclado gringo está controlado por
Estados Unidos y se utiliza el formato de decimales diferente al nuestro ya otro problema
edificó la cédula ustedes quieren meter cédulas algunos de ustedes son personas que que
tienen cédulas que comienzan con ser los que somos deficiencia cuando estamos con 17 la
gran mayoría entonces los de Villa no tenemos problema siempre es difícil ya sabemos qué va
pero algunos de ustedes son 040506 y eso se desaparece en el cero normalmente en el archivo
de Excel orto gran problema es nada a veces es ario el tener el número de celular de ustedes
en sus datos y oh sorpresa también el 06 el cero 9 08 desaparecidos toca cuadrar otro tipo de
datos que suelen darse por como problemas se supone que por ejemplo ustedes utilizan algún
código de producto lo sé digamos que están usando 10 casi como una serie pero alguien en vez
de poner el código del producto se le ocurrió poner la descripción del producto ahí
posiblemente la desesperación de la estación de llenar los datos para presentar a los jefes a las
áreas y obligó a tener una solución creativa al menos por ahí se entiende lo que es verdad
funcione pero nosotros no porque nosotros autorizamos el proceso no podemos no hacemos
nuestras computadoras hagan eso en fin entonces ahí hay un grupito de problemas que suelen
dar medio Emilio común otro que es más todavía más complicado a veces nosotros tenemos
columnas en Excel hablando no que se supone que son números para su magia va toda la
columna y el formato tal como el almacenado y el sistema le ha puesto características de texto
sabemos como número pero realmente es text suben se puede entonces ahí cuando procesa
el sistema unidos todo funciona sea porq no funciona el sistema que paso llamen al
programador no el dato que está llegando no está en el formato adecuado nadie le hizo la
conversión esos son algunos de los que problemas que pueden darse no es aquí algunas de las
cosas que pueden darse si hacemos las cosas bien si estructuramos lo ha dado bien que es
podemos hablarnos mucho trabajo créame que ustedes no han tenido esa suerte o mala
suerte de procesar archivos que tienen gatos Emilio extraño pero no han vivido no puedes
llamar si gente de tecnología pelearse con los datos cuando son así eso es de valientes
encontrar el problema ya antes que tenía toda la tecnología digo está con la música antes que
tuvieran herramientas o sean tan comúnmente usados de herramientas como Python otros
juguetitos que Pablo rey normalmente usábamos los ingenieros algo que se llama a doble UK
alguno de ustedes conoce eso a doble bk es una herramienta del mundo de los unix unix Linux
es un manipulador de cadenas de texto pero era tan tan poderoso esa cosa que hasta ahora se
sigue utilizando qué hace ustedes le dan parámetros de búsqueda le dan parámetros de donde
debe comenzar la búsqueda hay algo que se llama y cómo se llama esto que código de cómo es
código regularse ya alguno de ustedes puede interesar código de regular que se encontraba
patrones que nosotros le indicamos que nos daba reemplazando por lo que correspondía eso
realmente era manipular los datos al antiguo maestro ojo a doble BK todavía existe y también
existe para Windows no entonces ustedes pueden bajarse utilizar pero para eso posiblemente
ya pixeles mucho más práctico holográfico power reí también podría ser más que útil para eso
entonces no se complique mucho solo si es que están trabajando como ingenieros puros puros
tendrían que quitar ese tema de un equipo único que trabaja con ese tipo de herramienta ahí
si les toca aprender por fuerza ya la otra que es es que no estamos usando adecuadamente
eso vamos a perder la data aquí que se tiene es el pequeño problemita entonces lo que lo que
va a hacer y el análisis de datos que es entre lo más común no 5 fases recopilación y carga de
datos que es coger los datos que pueden venir de diferentes fuentes o construirlos ustedes de
su cuenta normalmente eso es lo más común ustedes van a construir esos datos porque por
ejemplo datos del pozo petrolero eso hacen mis colegas ingenieros geólogos hacen con la
calculadora depende del software que estemos usando captura estoy pensando en razón
porque leve por ahí entonces capturan a sus datos y los van a cancelar algunos trabajan en una
empresa por ejemplo de telefonía telefónica capturan todos los datos de los sistemas que
hacen el tema de facturación recogen todito esos datos y tienen que estar analizando yo que si
van a tener que hacer qie van a hacer una de esas es limpieza de datos limpieza de datos
incluye buscar datos que están mal formados o sea que no corresponden al tipo corregir datos
que se supone que deberían estar y no estar por ejemplo campos nulos o vacíos hay que
corregirlos OA su vez poner datos que se suelen utilizar eso eso decimos en inteligencia pero
es una de las técnicas no por ejemplo ustedes tienen un montón de datos que podrían
corresponder a a datos de un por medio de algo que está en calculado opción 1 quitó el dato o
los registros que se pone al dato que no tengo loquito completamente válido pero puede
afectarnos el tema del entendimiento entonces capaz que no otra pongo un dato que puede
ser como el mínimo el máximo de los datos podría alterar un poco los parámetros que tienen y
1/3 o 1/4 mejor dicho que es calcular el promedio de los datos que tengas incluido obviamente
es que nos falta y ese promedio usarlo para rellenar los campos que están faltando entonces
hay varias formas de cómo completar ese tipo de datos ya dependería luego que nos tocaría
ver esto quería ver si es que el tipo de análisis que nosotros estamos haciendo corresponde a
una sola variable nosotros en inteligencia usamos 1 es como como un dato podría ser que esté
usado dos variables puede ser o algo un poco más extremo que sería multivariada que significa
que tengamos dependencia de más de 2 variables para trabajar como ven eso está asociado
por fuerza con el que gerencia artificial porque nosotros ahí teníamos vemos que utilizaban
ese tipo de cosas 12 o más variables obviamente es delantero para hacer esto vamos a hacer
un codiguito muchachos que está por aquí esto debe acordarse ustedes es cierto 
18:16 

 
 

 
Lo cierto que era por favor utilicen su su colapso vamos a abrir un archivito bandas para Quero
la fuerza muchachos para que era panda pero que justo esto que estamos haciendo es para
forzarlos a ustedes que vayan con un nivel al menos de conocimiento básico de Python tienen
que colgarse que era faldas para qué servía faldas para manipular y analizar los datos bueno
todos a Nicolás esos pandas desde el equivalente a un manejo de hoja de calc es como
mandarnos un Excel ahí y el Atlas del PD es justamente el objeto que maneja una una hoja del
libro de Excel ya nup y toda la parte de álgebra lineal se amatrice números aleatorios todo eso
que está ahí el sabor espero que se acuerden era tan notorio se abor es como el muñequito de
matlab que es los permite hacer gráficas pero las gráficas de sabor son mucho más estilizadas
nos permite sacar más detalles que el más flojo solito de acuerdo imagino como conocen es
simplemente para sacar dibujos asociados con la parte matemática del país ya la que tiene
aquí se acuerdan estudia un poco por compatibilidad necesario que utilicemos ciertos grupos y
cosas y hay toros o Júpiter c en línea propios de nuestras máquinas o compartidos como las de
Google collar y a grafican directamente entonces denles más compatibilidad antiguas que les
toca pero ya no están en ser utilizado estamos entonces tienen parte de eso ya qie es lo que
vamos a hacer vamos a traernos un archivito vamos a hacer un juegos medio especial vamos a
trabajar con un archivo a ver aquí les voy a mandar esto para que tengan ustedes y arreglen las
cosas y les mandó ahorita al chat para que lo bajen de una vez control está aquí lo van desde el
archivo que vamos a utilizar cómo lo hacíamos cómo hacíamos para bajarnos un archivo desde
el colapso se acuerda sin vida déjeme hacerle la movida de acá hola compartir compartir ya ahí
supuestamente les estoy mostrando cierto entonces le voy a decir un nuevo cuaderno igualito
este bueno se tuvo que abordar le voy a llamar al da ETA sero dos b porque ya tengo 1 anterior
de acuerdo aquí el archivo que les acabo de copiar si se pone un poquito se acuerdan para
conseguir cosas que doble guión doble vigueta doble b guión y el nombre del archivo que les
mande doble vi pega y ejecutamos esto debería de darse en esta parte cita no cierto refresh de
aquí y deberíamos tener el archivito por acá todo mundo ya hola niña Maite Dani Diego Joseph
Cristian Ramiro buenas noches cómo estáis hola quiero hacer una a llegar cuando mande el
nombre del archivo sí sí lo tengo a no el nombre del archivo tengo una url si está aquí le estaba
haciendo recuerdo que debían hacer para bajarse un archivo no recogiéndolo directamente
entonces usando el doble de gente ok entonces qué más hay ahí en esto la otra parte necesito
no necesito el tema de las cabeceras que le estamos para correr el el archivo steam no me
interesa como vieron ya no necesito los legé chuto quiero qué es lo que luego vamos a tener
que hacer y vamos a tener que traer el el archivo para ser usado archivo este del marketing
que nos está pidiendo entonces confiemos a ver más fácil para que no estén ahí les doy el sitio
donde estamos viendo el ejercicio este para que lo tengan a la mano con eso pueden seguirle
está en el en la por si acaso es el sitio completito ya lo vieron si es el mismo entonces qué va a
suceder es el archivo que me acabo de bajar marketing análisis es v lo que se acuerda que
significaba que no tenga tanta cosa ahí o sea el del uso desayuno ya aquí vamos a toparnos
con un pequeño problema porque ejecutiva no es solamente para que vea lo que va a suceder
Ah no si la leyó le leyó pensé que iba a darme problemas un posible problema de esto es que
el tipo de datos que venga en el CC v no está en el formato que corresponda entonces ahí sí a
tocar a meter mano en todo caso y las pongas ya hemos encontrado todo bien y lo que nos
está sugiriendo es que veamos cómo está la estructura de esa base de datos del marketing no
control ve y le digo ejecuta dice que tenemos 45213 registros y que tiene 19 campos cuáles
son esos campos eso lo vamos a ver con qué se cura con el genio ojo esto no es inteligencia
artificial simplemente estamos manipulando el tema de de los archivos para ir analizando qué
contenido tiene el archivo que estamos revisando no pues no no hay nada medio raro de aquí
normalito aquí por ejemplo serían los datos que nosotros tenemos por acá a ver aquí estoy
estoy normal y si ustedes también no hay un pequeño una pequeña diferencia de la página
versus el archivo que nosotros tenemos porque creen que puede hacer 
Justo normal y si ustedes están viendo hay un pequeño una pequeña diferencia de la página
versus el archivo que nosotros tenemos porque creen que puede hacer Estas son las super
cabeceras del archivo pero eso no puede darse entonces vamos a tener que editar
primeramente el archivito entonces déjeme editarlo o sea me va a tocar bajarlo primero a mi
máquina y hecho eso que vamos a tener que volverlo a subir F dos lo voy a bajar de stargard si
nota en esta cabecera que está subrayada es diferente a lo que ustedes tienen el archivito
entonces tenemos que dejarle igual y retrajo la suerte medio grandecito 85 bueno ya ahí está
ahora estoy tratando de abrirla con Excel y hace abrió con celo pero no tenga algo en las
cabeceras de lo que nos está pidiendo está medio diferente algo que realmente tenemos
entonces nos va a tocar hacer algunos cambios aquí 1 de esos cambios me parece que es el
tema de quitarle estas dos customer salary albaranes Education es del que estamos cambiando
lo que necesito es el curso de la dht raid esto por si acaso espero que me estén siguiendo lo
único que estoy haciendo es cogiendo el archivo y haciendo de que salgas solamente la
cabecera que corresponde y los datos que corresponden para eso qué es lo que tienen que
hacer fijarse cómo está la data ahí adentro entonces miren la cabecera making marketing dice
esto no me interesa injusto merengue y no me interesa solo me interesa lo que está por abajo
entonces todo esto eliminar guardar qué más tengo por aquí el y se customer id no tengo
problema está el 1 edge mi vecino que será el 58 después dice salary dice 100000 ya le creo y
marital el balance dice que 2143 ya chévere manita significa estado estatus de casado soltero
en Madrid dice Mari de aquí no hay problema aquí me da un poco de problema porque dice yo
Edu entonces miren aquí está entre comillas y tengo dos dice Management hayter diario qué
más tiene por aquí transfiere default is now the folks y no no no acá nuevamente tiene entre
comillas mayo 217 el 5 de mayo de 2017 Estas son estas estas fechas de acá que significa que
el archivo lo que está leyendo es una estructura que está fuera así mayo coma 2017 sería la
fecha como tal eso no es tan común para nosotros pero así está el archivo entonces hay que
que fijarse después que dice 21 SEC según imaginan y así están varias fechas listo entonces
aquí hay que tenerle cuidado este tipo este que está aquí y no sé si logran verlo se tener
cuidado porque es un solo campo que está con coma unir y así van a estar todos los demás
elementos de nuestra misma colum hay que tener cuidado de acuerdo hecho esto bueno y le
voy a guardar por guardar listo el Guardia con Alexis dos por si acaso listo entonces ya que
tengo acá y éste ya no me sirve le voy a subir el que acabe de procesar entonces se llamaba
Martínez dos sí sabemos que se va a ir después que lo utilice este coso nuestro cambiarle
porque ya es le cambiamos de nombre por cierto entonces que tiene que ser dos todo mundo
ahí todo mundo está haciendo lo mismo José Jonathan Maite Christian Dani entonces
ejecutemos para que esté en memoria hasta aquí no me ha dado problemas acaba de volarle
un registro según esos son dos 45211 vemos con lo que 
31:56 
1211 vemos con lo que tenía aquí que las tenía sería el archivo según eso si yo tengo igual que
con lo que supuestamente nos dio listo hecho esto ejecutivamente para ver cómo están las
cabeceras esta cosa está desplazada pero en todo caso supone que estamos bien a menos que
algo me esté equivocando pero se supone que si estoy bien miren aquí aparentemente algo
está desfasado bueno sigamos en la pista lo que está haciendo bien la chica me avisan hasta
donde andan gracias por explicar otra vez lo que le le cambio le hizo en el archivo Excel la
cabecera de este del archivo original contenía un otra cabecera o sea eran dos cabeceras
entonces le volví a la primera y solo deje desde donde comienza el costumbre de instalar
desde ahí para lo que veo es que está medio esto está medio extraño que no entiendo qie por
qué no debería salir de estas cosas no deben aparecer todos ahí hay algún problemita porque
se supone que no deben aparecer me va a tocar meter mano a ver eso creo que estaban
muchachos les cuento ya te dije por ejemplo a mí me salió como en
tablas con Excel mismo así es como debe ofrecer mucho menos 1 ratito en pantalla porque
aquí no está bien ser mioo definitivamente no está bien ahora por qué puede ser eso puede
ser que mi sistema esté agregándole; Como separadores de la compra así vale está bien eso sí
es correcto o porque igual en Excel a usted le había salido con coma todo bien igualmente Leo
en Colombia sí pero los suyos sin estar reconociendo esa es la forma en cómo debe aparecer a
mí como ven que está saliendo de otra forma entonces eso muchachos revisen ustedes ahí por
si acaso debería salir como lo que le está pasando a Cristiano es el correcto a mí me toca verle
en el Excel que pasó el mío sale peor muestra Ah no ese es el original que teníamos tranquilo
Pablo a ese es el que toca volarle la primera línea eso decía es la primera que está bueno voy a
hacer en el mío para que vean el caso que tengan la misma situación porque eso es todo lo
que hay que lo que hay que arreglar no hay dos espérame compartir compartir compartir ya
voy a abrir el Excel se supone que tengo todavía el archivo original que me bajé está aquí este
ya esto es lo que ustedes la mayoría o todos rollo deberían tenerlo cierto si está compartido ya
entonces este primerito es el que les decía que no me aporta nada son cabeceras innecesarias
entonces eso de Word ahorita como se fijaron el mío cuando le saca el pitón le está incluyendo
el tema de la de la como parte del DDDDD el texto y eso no es posible no debe de hacer eso
entonces tenemos dos formas y de arreglar eso sería esto y la otra antes de meterme en eso
voy a tratar de abrirle com déjeme ver si aquí me da chance ser igual comillas dobles, la coma
pero no estoy seguro si sea por por ahí es problema en todo caso veamos ejecuto esto por
ejecuto no no es por ahí la cosa estas cosas que están viendo aquí no deberían mostrarse es el
problema de acuerdo tienen que salir como le salió a bueno entonces metamos la mano acá
en este caso ustedes saben técnicas eso es parte del trabajito que se hace es convertir esto
que tenemos acá en kek datos bien los texto en columnas entonces qué le digo delimitados sí
qué voy a hacer voy a usar el no esto sino voy a usar y coma y también voy a utilizar el de las
comillas porque algunas comillas vieron ustedes que teníamos 1 que me sale ahí 200 aquí
serían a ver el Madrid este de aquí que decía Management Madrid Madrid Madrid que tengo
que revisar aquí por ejemplo está bien dice mamá es mi territorio suena bien entonces
digamos lo que sí reviso sí ya esto es lo que evitó el caso del señor morocho si le salió bien
pero en el caso mío no se parece que él está convirtiendo alguna cosa en algún tema entonces
reviso esto con sobre de ley salario sí estamos bien para siesta Mario está el Edu aquí sí está
bien porque deben aparecer en algunos casos doble coma perfecto darte 10 default login el
Daisy está bien corresponde entonces el trabajo que ustedes deberían hacer con Excel
normalmente ya convertir los datos entonces ahora le voy a Guardar como Guardar como por
comer y le voy a mandar como valor 3 normalmente es de guardarse su bebé tiene dos
formatos el que se llama CC v estilo normal de común o sea de Windows pero a veces sabe dar
lata versus XSV que se tienen los equipos unix Linux porque kk porque el tema este del se sube
normalmente incluido un 
Para que la gente que creen ustedes hacer pero se difiere en en los niños porque ahí incluye
abre Tour el vacc las ERE que es el formato del cierre del IMSS entonces espero que estés
viendo la pista pero en todo caso puede ser eso guardo y vamos a subirle nuevamente borro
este de aquí logró el de acá bueno dijimos bueno está subir en abril eso lo estamos haciendo
es parte del trabajito no debe ser toca jugar con los datos de haber ya entonces nuevamente
nos toca hacer un borrado de cosas x se llama 3 ya le cambie 3 entonces bueno el separador
creo que es necesario ahorita pero si es que me da lata lo usamos nuevamente entonces lo
traemos dijo que sí aquí me dice que solo tengo 1 peor error ajá aquí en cambio mi sistema le
convirtió en separador de campos el; Si están viendo entonces aquí se así aquí si me toca hacer
el cambio excepto igual pronto y coma ya ahí sí volvió nuevamente tener 19 veamos qué dice e
y a muchachos corregido está sí nota entonces eso puede depender porq mi máquina o la
forma en como mi máquina asignó el tema de separadores de campo de CV es diferente de
como el pito no estaba interpretando en el caso de quién era sé que era apellido chavo pero
no me acuerdo y me imagino que la máquina del estará bien configurada En este sentido
bueno no bien si no configuro de esa manera y bueno así es la cosa que puedo hacer esto de
aquí que vamos a hacer y tendríamos esta información que usted está haciendo la pista ya y lo
que vamos a hacer es que vamos a tratar de sacar los datos que corresponden al club aire para
ver qie hay con eso entonces vuelve a ser necesario y agregó el siguiente el justo la idea era el
primer campo entonces vamos a ver qué pasa aquí quiero nuevamente ver cómo está el tema
de esto solamente de de cabeceras para ver qué qué datos estoy filtrando ya chévere hasta ahí
salíamos bien ahora si queremos entre comillas parcialmente arreglado el tipo de datos incluso
el formato de 
Queremos entre comillas parcialmente arreglado el tipo de datos incluso el formato del dcc v
entonces qué vamos a hacer vamos AA sacar los datos o vamos a describir la información que
se tiene que en ese data cero ahí están bien ustedes que se puede utilizar el tema de del info
no digamos que no devuelve esta cosa bueno este es trabajo de pandas obviamente nos está
definiendo que hay número de columnas tenemos se supone que hay 17 columnas la contador
del cero no ustedes vieron que decía 19 pero era porque el agrega el índice entonces no le va a
ganar cuenta esas son las columnas reales de datos que vienen en el archivo ya aquí que están
ustedes viendo ojos parte de identificar lo que decía el proceso modalidad e identifica que tipo
de dato dice que es flotante de cuatro entero un objeto porque objeto porque está incluyendo
letras en general por ahí el tema de cuánto está ocupando el tamañito dice que utiliza
alrededor de un poco más de 6.7 mira eso es información útil para ustedes incluso para poder
llevar qué pueden hacer también pueden identificar cuáles son las columnas efectivamente
que tienen que ir vieron que le salió pero en todo caso pueden hacerle de manera pues esto
defunción las columnas pues las que tienen ustedes por acá definidas son las que tienen de
acuerdo la otra cómo vamos a verificar cuáles son valores que sean diferentes a nulo o que
puedan tener duda por si acaso estoy siguiendo la pista del mismo documento que tienen
ustedes no lo único que trato es un poco de explicar lo que se está haciendo ahí control quién
puede leer lo que está ahí literalmente lo que está en esa institución hay muchachos como
buenos programadores me imagino que está sumando sies que es nulo la base de datos que
tenemos del database si es nulo súmese a contabilice aquellos que están con ese problema
bueno no problema simplemente es que tiene entonces por ejemplo aquí en 20 elementos de
edad esto 20 no tienen los datos ya salario balance estado civil todos esos tienen datos donde
tenemos otro problema tenemos problema en México hay 50 elementos que no están
incluyendo el mes o sea no aparece el mes que me hacían y tenemos 30 elementos él también
está embarcando con récords que está faltando entonces ya se imaginarán por donde nos toca
estar arreglando los datos para para hacerlo no nuevamente qué vamos a hacer vamos a
copiar los datos para ver por dónde vamos otra vez del jefe para hacer el trabajito son los que
se emplean normalmente eso ya sabíamos y qué vamos a hacer vamos a tratar de ver a
aquellos que y tienen o no tienen información cómo van a hacer eso ustedes aplicamos el
semestre pasado los famosos Lanzas que son igual que los lambdas que se tienen otras
funciones De hecho yo creo haciéndole más rápido que los lambdas fueron robados de Del
concepto de Python que es funciones que no tienen que tener un nombre de función en otras
palabras ponen y contenido de la función y directamente se ejecutan al paso no es cierto qie
es lo que vamos a hacer con eso F ese trabajito a ver este trabajito hay que entenderle bien el
código a ver esto es cierto no la histórica que digo yo ***** muro que dice el tema de técnico
secundario no yo Education Landa qie es Landa le estoy diciendo es una función sin nombre de
función que el estado separado por un espacio separado por un átomo de dónde del único
elemento que yo tengo aquí o sea del que estoy viendo ya en otras palabras estoy separándole
que que tipo de Job tiene y posiblemente después el tema de tipo de educación y educación
que hacemos cogemos el mismo y separamos ahora por el siguiente elemento será en este
caso que sería el Edu como tal de acuerdo ahora como esto es un función que está con los
campos reales estamos literalmente alterando el archivo colocando los datos ya procesados
los Con la derecha al final pero algo está fallando aquí por qué debería estar separado a ver no
sí estoy bien si estoy tiene todo pero que separa el final final de la Cruz IA ya yo Madame
educación terciaria o sea tercer nivel secundario técnico secundario en emprendedor
desconocido luego cola collar azul José ya pero está haciendo no estamos agregando listo por
eso al de acá hecho esto ahora qie es lo que nosotros necesitaríamos ver dice que se ha
generado lo mismo con 5200 registros se ha agregado una columna más en ahora sí ya
comentamos las 20 y lo que vamos a hacer que se encargue vamos a eliminar una que nos está
haciendo mal tercio se hacemos la iniciales con el famoso drop que ustedes están viendo en el
código drop quitarlo qie estoy sacando eje 1 igualito que antes me voy hasta el final ahora sí
hay unas un par de técnicas que están deben estar leyendo ustedes que se conocen como el
emishi aéreo mis incomplete ahorrando qué es manejar ciertos datos que se manejan de
forma aleatoria en este caso particular hay otro que ustedes están viendo ahí espero que siga
en el archivo el Martini sin adorándole después de una caracterizado que lo lo lo limitamos o el
etna mi signo agregando que es que alguna razón para faltar entonces el una de las cosas que
estamos viendo ahora que tenían las edades nosotros vamos a copiar que el peso aqui voy a
borrar aquellos que no tengan edades bueno De hecho la verdad no necesita edades que por
eso no la vamos a utilizar qué hago aquí una vez si es nula edad ni que esto sume todo eso y
haga el nuevo cambio entonces me estoy yendo por ahí y ejecutamos a ver qué sale ya antes
tenía 211 ahora tengo 191 significa 20 años marchado de aquí eran los 20 que veríamos
ustedes guerra luego qué vamos a hacer no ahora vamos a manejar en cambio el tema de los
que serían meses según esto que estamos haciendo hablamos de eso pero aquí si no entendió
que quiere hacer porque supuestamente él dónde estás noviembre acuerdos en noviembre
visita noviembre diciembre todo de esas mismas épocas y este mayo aparentemente está
fuera del del foco en este caso veamos qué hacemos ahora llenamos esto con algún valor que
este de los vacíos vamos a ver acero no tengo todos están llenos y finalmente qué vamos a
hacer e y manejamos los faltantes en lo que es el responde que tienen ustedes por ahí y está
por si acaso ustedes también tienen el archivo ahí no el caso de que vayan atrás de esto
entonces ya tenemos todos los datos que si tienen o sea que no son nulos mejor dicho toditos
tienen algo ya no hay nada más que me esté de bien ahora dice por ejemplo que vamos a
hacer o que podríamos hacer qie al análisis sobre una de las variables en este caso podría ser
contar cuántos tipos de trabajo hay en su matizar el número de trabajos que ustedes pueden
encontrar ahí o sea cuántos abogados cuántos técnicos cuántos bueno que qué tipos de
trabajos tienen no entonces los collar azul o sea los los cafecitos los que andan ahí de oficina
9722 administrativos 9421 técnicos 7500 haber realizado de servicios retirados estudiantes o
sea falsa la cuenta 238 y temas de trabajo desconocidos o sea voy dos que dicen los gringos de
pronto son 288 que dice por ahí de acuerdo entonces andamos bien luego qué podemos hacer
e se acuerdan una una de las cosas que nosotros hacíamos 
54: 07 

También podría gustarte