Está en la página 1de 14

Universidad Católica Andrés Bello.

Facultad de Ingeniería.

Escuela de Ingeniería en Telecomunicaciones.

Electiva: Análisis de Datos.

Proyecto práctico 2

Profesor: Alumnos:

José Luis Quintero Dávila Andrés Bartolomé C. I. 29.608.523

Daniel Córdova C. I. 30.005.793

José Rodríguez C. I. 28.444.377

Miguel Vieira C. I. 27.661.968

Caracas, 7 de junio de 2023.


1. Realice un breve ensayo sobre Epistemología e Inteligencia Artificial.

La epistemología es la rama de la filosofía que estudia la naturaleza del


conocimiento. Se pregunta qué es el conocimiento, cómo podemos adquirirlo y
cuáles son sus límites, por lo menos, en el contexto de la Inteligencia Artificial, la
epistemología se vuelve aún más relevante, ya que el objetivo de la IA es replicar el
proceso de pensamiento humano para crear sistemas que puedan aprender,
razonar y tomar decisiones de manera autónoma. Por otro lado, la inteligencia
artificial (IA) es un campo de la informática cuyo objetivo es crear máquinas
inteligentes que puedan pensar y actuar como los humanos a través de los datos
analizados.

La epistemología y la IA son campos estrechamente relacionados. La


investigación en IA suele estar motivada por el deseo de crear máquinas que
puedan adquirir y utilizar el conocimiento del mismo modo que los humanos con el
fin de automatizar tareas. La epistemología, por su parte, puede beneficiarse de la
investigación en IA aportando nuevas ideas sobre la naturaleza del conocimiento y
cómo puede adquirirse.

Los investigadores de inteligencia artificial se enfrentan al reto de representar


el conocimiento de forma que pueda ser procesado por las computadoras y
máquinas. El conocimiento puede representarse de muchas formas distintas, y la
epistemología puede ayudar a los investigadores a entender estas diferentes
representaciones y a elegir la más adecuada para una tarea concreta.

El razonamiento es otro de los retos que tienen los investigadores de la IA.


Las computadoras y máquinas que trabajen con IA deben ser capaces de hacer
inferencias, sacar conclusiones y resolver problemas utilizando los conocimientos
que se les han proporcionado, sea a través de prompts que le da el investigador o
de datos extraídos de internet. La epistemología puede ayudar a los investigadores
a entender cómo razonan los humanos y a desarrollar sistemas para que las IA
puedan razonar de forma similar.

Tanto la epistemología como la inteligencia artificial son campos en rápida


evolución. A medida que progrese la investigación de la IA, es probable que la
epistemología se beneficie de nuevas ideas sobre la naturaleza del conocimiento y
cómo puede adquirirse. Al mismo tiempo, este proceso puede ocurrir al contrario, ya
que, la investigación de la IA puede beneficiarse de los conocimientos de la
epistemología, porque trata de crear máquinas que puedan pensar y actuar como
los humanos.

Entre algunos ejemplos tenemos:

● La epistemología puede ayudar a los investigadores de la inteligencia


artificial a comprender las distintas formas en que puede representarse el
conocimiento. Por ejemplo, la epistemología puede ayudar a los
investigadores a comprender la diferencia entre el conocimiento proposicional
(conocimiento de los hechos) y el conocimiento procedimental (conocimiento
de cómo hacer las cosas).
● También nos ayuda a comprender los distintos tipos de razonamiento
que utilizan los seres humanos. Por ejemplo, la epistemología puede ayudar
a los investigadores a comprender la diferencia entre el razonamiento
deductivo (razonamiento desde las premisas hasta las conclusiones) y el
razonamiento inductivo (razonamiento desde las observaciones hasta las
generalizaciones).
● Otro punto en donde entra la epistemología es en elaborar directrices
éticas para el desarrollo y el uso de la IA. Por ejemplo, la epistemología
puede ayudar a los investigadores a comprender la diferencia entre el
conocimiento que se adquiere de forma ética y el que se adquiere de forma
no ética. Sin embargo, está claro que estos dos campos tienen mucho que
ofrecerse mutuamente.

La relación entre la epistemología y la IA es compleja y está en constante


evolución. Sin embargo, está claro que estos dos campos tienen mucho que
ofrecerse mutuamente. La epistemología puede ayudar a los investigadores en IA a
desarrollar máquinas más inteligentes y capaces, y la investigación en IA puede
ayudar a la epistemología a desarrollar una mejor comprensión de la naturaleza del
conocimiento.
2. Usando el conjunto de datos criminalidad, use la técnica del vecino más
cercano, el vecino más lejano y del promedio para producir
conglomerados expresados en un dendograma. Use el algoritmo de k
medias con k igual a 5 y luego con k igual 10. Establezca conclusiones.

El conjunto de datos de criminalidad que nos proporcionan contiene un


conjunto de 50 vectores de datos, los cuales están referidos a cada uno de los
estados de los Estados Unidos; a cada uno de estos vectores se le analizan los
siguientes parámetros: ASESINATO, VIOLACION, ARREBATOS, ASALTO,
INMUEBLE, HURTO, CARRO.

Para la actividad nos solicitan producir conglomerados utilizando las técnicas


de vecino más cercano, vecino más lejano y promedio, todo esto a través del
dendograma. A partir del software de R Studio podemos producir cada una de las
siguientes gráficas:

Vecino más cercano

Dendograma:

Dendograma dividiéndolo en 5 y 10 clusters:


Análisis de vecino más cercanos: En este análisis podemos observar que
California es el estado que se encuentra más alejado de los demás por lo que la
podemos considerar como un dato atípico con respecto a los demás, y puede
considerarse como un conglomerado por sí mismo; seguidamente tenemos unos
conglomerados que se encuentra aún alejados de todos los demás datos, el primero
está compuesto por: Florida, Nevada y Virginia; y el segundo por: Arizona y Hawái.
Como estamos trabajando con el método de vecino más cercano, podemos deducir
que en cada conjunto se están agrupando por tener parámetros cercanos. En R
podemos dividir los conglomerados del dendograma según la cantidad de conjunto
que seleccionemos, realizando esta división obtenemos:

● Para 5 conglomerados: Vemos que se separan en distintos conglomerados,


los estados que se encuentran más separados quedando, 4 conjuntos de
pocos estados y un solo conjunto donde se agrupan los estados más
cercanos entre ellos.
● Para 10 conglomerados: En este caso se vuelven más selectivos los
conglomerados, teniendo que tener una gran cercanía para poder pertenecer
al mismo conjunto, lo notamos porque se forman 6 conglomerados de solo 1
estado.

Vecino más lejano:

Dendograma:

Dendograma dividiendo en 5 y 10 clusters:


Análisis de Vecinos más lejanos: En este caso a diferencia del anterior,
vemos una mayor paridad en cuanto a niveles, siendo que realizando esta técnica
de jerarquización no hay ningún estado que se considere un dato atípico, se
observan pocas ramas por lo que si quisiéramos dividir en k conglomerados
obtendremos a diferencia del anterior una mayor igualdad en los estados dentro de
cada conglomerado. Realizando la misma división que en el caso anterior vemos:

● Para 5 conglomerados: Notamos que a diferencia del anterior no existe


ningún conjunto de un solo elemento, esto por lo mencionado anteriormente
de que no hay datos atípicos, se crean 5 conjuntos los cuales tiene mayor
cantidad en los extremos, mientras que en el medio se encuentran los
conjuntos con menor cantidad.
● Para 10 conglomerados: En este caso se forma los conjuntos más
selectivos, pero igualmente a diferencia de la técnica de vecino más cercano,
la diferencia entre la cantidad de estados entre conjuntos no es tan dispareja;
aquí solo se forma un conjunto de un solo estado (West Virginia) a diferencia
de los 6 que se formaron en el caso anterior.

Promedio:

Dendograma:

Dendograma dividiendo en 5 y 10 clusters:


Análisis de Promedio: Aquí se genera una gráfica parecida a la anterior,
aunque con algunas pequeñas diferencias ya que se aprecian algunos conjuntos
levemente separados del resto; ya que estamos trabajando con la técnica de
promedio, podemos analizar de que estos conjuntos tienen una mayor variación en
sus parámetros comparados al resto, pero sigue habiendo en cierto nivel una mayor
aglutinación de los datos si lo comparamos con la técnica de vecino más cercano.
Cuando realizamos la división obtenemos:

● Para 5 conglomerados: Se agrupan de una forma similar a la anteriormente


analizada, se crean pequeños conjuntos con los estados en un nivel
levemente superior y se forman grandes grupos en los extremos donde están
la mayoría de los estados.
● Para 10 conglomerados: De la misma forma al aumentar el número de
conjuntos, se crean los conjuntos de solo un estado (Uno con California y otro
con West Virginia), además algunos conjuntos permanecen intactos mientras
el conjunto de mayor cantidad de estados se subdivide para lograr la cantidad
de 10 conglomerados.

Lo siguiente es analizar utilizando el algoritmo de k medias nuestro conjunto


de datos, para este caso realizaremos el estudio primero usando una k=5 y luego
una k=10 dando los siguientes resultados:

Algoritmo de K medias (Usando K=5)


Análisis: A partir de este algoritmo le indicamos que divida los datos en 5
conglomerados, y obtuvimos estos resultados en los cuales podemos observar lo
siguiente: Si vemos los valores de los centroides, el conglomerado 1 es el que tiene
los mayores valores en general y el conglomerado 2 el que tiene los menores.
Luego analizando la cantidad de estados por conglomerado los que tienen mayor
cantidad de estados son el tercero y el quinto; cabe destacar que guiándonos a
partir del número de estados por conglomerado la técnica que más se asimila a
estos resultados es el de vecino más lejano. Ya por último se indica que solo
necesitó tres iteraciones para armar los 5 conglomerados, por lo que existe gran
afinidad entre los parámetros que pueden relacionarse y armar los conglomerados.

Algoritmo de K medias (Usando K=10)

Análisis: Ahora usamos el algoritmo para 10 conglomerados, y obtuvimos los


resultados en los cuales podemos observar lo siguiente: Si vemos los valores de los
centroides, el conglomerado 9 es el que tiene los mayores valores en general y el
conglomerado 10 el que tiene los menores. Luego analizando la cantidad de
estados por conglomerado los que tienen mayor cantidad de estados son el séptimo
y el octavo; cabe destacar que guiándonos a partir del número de estados por
conglomerado la técnica que más se asimila a estos resultados igual que en el
análisis anterior es el de vecino más lejano, por lo que a partir de estos dos
resultados podemos deducir que para este conjunto de datos, la técnica de vecino
más lejano es una buena opción para crear los conglomerados.
3. Usando el conjunto de datos titanic construya 3 árboles de clasificación
considerando en cada caso un conjunto de tres variables explicativas.
Para cada caso use dos datos nuevos para realizar la predicción en
cada caso. Use el 80% de los datos para entrenamiento y el otro 20%
para datos de prueba.

Veremos a continuación cómo se llevó a cabo el proceso para poder realizar


el análisis correspondiente que se pedía. Primero vimos las librerías a usar, además
de llevar los datos que nos proporcionaban. Con esto ya podíamos construir los
árboles solicitados para saber que pasajeros tenían más probabilidades de
sobrevivir, además de saber que variables tienen mayor influencia en este resultado.

Primero lo que hacemos es que R detecte la cantidad total de datos


explorando cada fila, luego lo que hacemos es dividir el 80% de los datos para
entrenamiento y el 20% a datos de prueba.

Se crearon los tres árboles donde cada árbol tomábamos en cuenta variables
distintas.

1) Primer árbol: Tomamos en cuenta las variables Sex, Pclass y SibSp.


Análisis Primer Árbol: Como vemos, de la muestra tomada hays un 62%
que no sobrevivió y un 38% que si, ahora esta muestra se divide con la pregunta
sobre si es hombre o mujer, al dividirse vemos como ahora el cuadro de hombre
esta aún mas verde lo cual nos indica que el hecho de que no sobrevivió un hombre
es mayor, en este caso vemos que es de un 88%, en cuanto a las mujeres, vemos
como el cuadro ahora es azul debido a que sucedió el caso contrario donde la
mujeres tuvieron un mayor porcentaje de sobrevivir, con un porcentaje de 84%.

Ahora solo en el lado de mujeres se nos crearon más ramas con los variables
que teníamos, con respecto a la segunda variable se le pregunta a cada mujer si
estaba en una clase mayor o igual 2.5 o menor a ella; Si estaba en una clase menor
vemos un recuadro con un azul más oscuro debido a que hora el porcentaje de
sobrevivir aumentó hasta un 96% si cumple que es mujer y estuvo en una clase
menor a 2.5, ahora para el caso de estar en una clase más alta, se obtuvo una
disminución en cuanto a la posibilidad de sobrevivir, llegando a un porcentaje de
69%.

Para la última variable vemos que se encuentra en el caso donde es mujer y


está en una clase superior a 2.5, ahora se ve la influencia del número de hermanos
que tiene, si tiene más de 2 hermanos vemos como disminuye aún más la
probabilidad de sobrevivir, solo tendría un 25%, mientra que en el caso de no tener
más de 2 hermanos las probabilidades de una mujer que está en una clase superior
a la segunda es de 74%

2) Segundo árbol: Tomamos en cuenta las variables Sex, Pclass y Age.


Análisis Segundo Árbol: Para la primera variable se pregunta nuevamente
si es mujer o hombre, en el caso de ser mujer el análisis es más simple ya que las
otras variables no tienen tanto efecto en este caso y entonces se podría decir
directamente que las mujeres tienen un 84% de sobrevivir, para los hombre vemos
como ese 64% solo tienen un 12% de sobrevivir.

Ahora con la segunda variable, vemos que del 64% de la muestra de


hombres, 62% superan la edad de 4 años, para ellos su probabilidad de sobrevivir
sigue siendo baja, de solo un 11%. Para los hombres menores de 4 años, que solo
es un 2% del 64% que teníamos de hombres, vemos que ellos tienen un 56% de
sobrevivir.

Para la última variable, vemos si los hombre menores de 4 años que solo es
un 2% tienen distintas probabilidades dependiendo de la clase, lo cual es así, si está
en una clase inferior a 2 tiene hasta un 91% de sobrevivir, viendo que solo tenemos
1% de la muestra original de los pasajeros, para el caso en una clase superior a 2
también solo tenemos 1% pero con una probabilidad de sobrevivir de 29%.

3) Para el último árbol usamos las variables: Parch, SibSp y Age.


Análisis Tercer Árbol: Como vemos cada variable tiene más importancia en
este árbol. La primera variable que escogió R fue la cantidad de hijos, donde se
pregunta si tiene hijos o no, el 77% de la muestra original no tienen hijos y por lo
tanto tienen una probabilidad de sobrevivir de 33%, para el caso de tener hijos
vemos como solo 23% tienen hijos pero estos tienen una mayor probabilidad de
sobrevivir, de hasta 53%.

Para la segunda variables, vemos que tenemos la cantidad de hermanos,


básicamente se pregunta también si en cada caso (de tener hijos o no) si tiene
hermanos o no, para el caso de no tener hijos y no tener hermanos vemos cómo
esta rama se termina con 60% de la muestra original, y esta muestra tiene un 29%
de sobrevivir, ahora la muestra que no tienen hijos pero sí hermanos es de 17% y
tienen una probabilidad de sobrevivir de 49%. En cuanto al porcentaje que tiene
hijos se le pregunta lo mismo y se ve que el porcentaje las personas que tienen hijos
y además tienen más de 2 hermanos es de solo 4% y solo tienen una probabilidad
de sobrevivir de 17% mientras que las personas que tienen hijos pero menos de 2
hermanos son 19% y tienen una probabilidad de sobrevivir de 61%, de esta maner
cierra completamente esta rama de la derecha.

Ahora para la última variable, sólo se toma en cuenta las personas que no
tienen hijos pero tienen hermanos,ahora si además son menores de 45 años, tienen
un 45% de probabilidades de sobrevivir tomando en cuenta que el porcentaje que
cumple estas especificaciones es de 13%, pero ahora si tienen menos de 45 años
pero más de 21 años tienen un 42% de sobrevivir sabiendo que solo hay 12% de la
muestra original que cumpla todo, pero si es menor de 45 y a su vez menor de 21
tiene hasta un 65% de sobrevivir sabiendo que de la muestra original solo 2%
cumplen todos los requisitos; por último tenemos el caso de no tener hijos pero sí
hermanos y además tener más de 45 años, solo 3% cumplen estas
especificaciones, ellos tienen un 66% de sobrevivir.
Conclusión del análisis realizado con los árboles.

Es importante observar cómo cada árbol desprende una rama que se origina
desde el principio y que cada dato que se va observando a medida que se
desarrolla la rama tiene que ver con la muestra original, además de siempre
relacionar los porcentajes que se ven con la muestra original.

Vemos cómo en cada árbol trabaja con 3 variables, como vemos cada
variable tiene un efecto distinto sobre las otras, en algunos caso las variables no
afectan de una manera significativa a las otras por lo que en algunos casos vemos
como las ramas terminaban rápidamente.

Con R vemos como directamente tiene un algoritmo de elección donde elige


qué variable tiene más prioridad con respecto a las otras, en pocas palabras, Y
decide cuál es la variable que se debe estudiar primero antes de poder pasar a las
siguientes.
Bibliografía
Russell, S. J., & Norvig, P. (2009). Inteligencia artificial: Un enfoque moderno
(3a ed.). Pearson Educación.

EY. (s.f.). Inteligencia artificial (IA) - EY Venezuela. Recuperado el 26 de


mayo de 2023, de https://www.ey.com/es_ve/ai

Wikipedia. (2023, mayo 22). Inteligencia artificial. En Wikipedia, la


enciclopedia libre. Recuperado el 26 de mayo de 2023, de
https://es.wikipedia.org/wiki/Inteligencia_artificial

Wikipedia. (2023, mayo 24). Epistemología. En Wikipedia, la enciclopedia


libre. Recuperado el 26 de mayo de 2023, de
https://es.wikipedia.org/wiki/Epistemolog%C3%ADa

Wilensky, R. (1978). Epistemología y inteligencia artificial. Inteligencia


Artificial, 11(1-2), 11-35. JSTOR, www.jstor.org/stable/2373386.

Carrillo, J. (2014). La epistemología y su relación con la investigación


científica. Revista Scientific. Recuperado de
http://www.indteca.com/ojs/index.php/Revista_Scientific/article/view/204/239

También podría gustarte