Mineria de Datos

Tecnológico Nacional De México
Instituto Tecnológico De Tijuana

Departamento De Sistemas Y Computación
Carrera: Ingeniería en Sistemas Computacionales.
Materia: Minería de datos.
Profesor: Jose de Jesus Parra Galaviz.
Horario: 17:00 a 18:00 horas.
Conceptos.
Alumno:
Bautista Vargas Jorge Damian #14212003
Índice.
Clasificacion 2
Arboles de decision 3
Regresion lineal 5
Representacion del conocimiento 5
Bibliografia 6
1
Clasificación.
Clasificación se refiere a definir una categoría a un grupo de datos que contienen

características en común, lo cual permite colocarlos en un grupo. La clasificación es
un proceso de dos pasos, en el primero se crea un modelo basado en un grupo de
datos mientras que el segundo paso se determina si el modelo tiene la exactitud
necesaria, si es asi, se usa el modelo para clasificar los datos en común, caso
contrario se regresa al paso uno a buscar una mejor forma de agruparlos.
Estas clasificaciones son necesarias ya que al agrupar los datos en categorías nos
permite revisar diferentes cosas, por ejemplo, para un banco permite separar los
clientes cumplidos a incumplidos para la obtención de préstamos, así como
encontrar las condiciones en común de los clientes para otorgarles facilidades o
promociones.
Cómo lo antes mencionado, la clasificación es un proceso de dos pasos, el primero

conlleva a crear un clasificador con un grupo determinado de datos a los cuales se
les da una etiqueta en común, esta última funciona como un paso de aprendizaje
donde el sistema se entrena a encontrar los patrones y se busca sea lo más exacto
posible, las tuplas se pueden referir como ejemplos, instancias, data points u
objetos.
2
En la imagen podemos observar como se toma un grupo de datos muestra, que
será nuestra training data para el modelo, de estos datos se crea un algoritmo de
clasificación en el cual se tomarán las reglas, llamadas reglas de clasificación,
para entrar a ese grupo de datos que tendrá una etiqueta que los permitira entrar a
ese nuevo grupo de clasificación de datos.
Con las reglas definidas para el clasificador, tomamos un nuevo grupo de datos para
realizar las pruebas, en este caso podemos observar como con los datos mostrados
podemos empezar a agrupar los datos con la clasificación correcta, en este punto se
puede decir que hemos pasado al segundo paso el cual consiste en la
comprobación de la exactitud, en caso de que el modelo tenga las reglas suficientes
y la exactitud necesaria (comprobandose con más pruebas) podemos definir que
este efectivamente es un grupo clasificador exitoso, en caso contrario se debe
volver al paso y crear un nuevo grupo que busque satisfacer correctamente las
necesidades de la clasificación.
Con el modelo de clasificación ya definido podemos implementar diferentes métodos

para manejar estos datos en la toma de decisiones, algunos de estos son por
ejemplo: Árboles de decisión y modelos lineales.
Árboles de decisión: Un árbol de decisión es un diagrama tipo Flowchart donde

cada nodo representa un atributo diferente que pueden llegar a intercomunicarse
con otro atributo en común que ayuden a tomar una decisión más personalizada o
más exacta según las condiciones presentadas.
3
En la imagen se puede observar cómo pueden salir diferentes nodos (también
llamados hojas padre) salen pequeños nodos (llamados hojas hijo) que pueden
representar las diferentes características que pueden presentar los atributos, en el
caso de la edad, si es joven se puede concluir que es estudiante, si es mayor se
puede concluir que ya tiene un historial crediticio.
Ahora un método más completo de como funciona, podemos observar el siguiente

pseudo código de cómo estos se comportan:
1. Se crea el nodo N.
2. SI las tuplas estan en D son todos de la misma clase C, ENTONCES
3. Regresar N como un nodo con etiqueta (hoja) dentro de la clase C
4. SI atributo esta vacio ENTONCES
5. Regresar N como un nodo hoja en la clase D //Mayoría de votos
6. Aplicamos un nuevo metodo para encontrar el mejor criterio_de_separacion
7. El Nodo N se ejecuta en el metodo criterio_de_separacion
8. SI el criterio_de_separacion es de un valor discreto
9. FOR EACH el resultante “j” de criterio_de_separacion
10. Dejamos que Dj sea el set de la tupla de datos que satisfagan D con
resultante j
11. SI Dj esta vacio ENTONCES
12. La hoja conjunta con la mayoria de la clase D se va con Nodo N
13. ELSE adjunta el nodo regresado por Generar_arbol_decision (Dj, atributo)
a Nodo N
14. ENDFOR
15. Regresar N
4
Regresión lineal: Los modelos de regresión lineal son aquellos que buscar
encontrar una aproximación en la relación de una dependencia de una variable a
otras que son independientes.
Ahora, existen diferente tipos de regresión lineal los cuales son para mencionar
alguna: Regresión lineal simple, regresion lineal multiple, relación lineal multiple,
regresion polinomica y la comparación de curvas experimentales.
Representación del conocimiento.
En la representación del conocimiento existen roles cruciales para la mejor

comprensión del concepto, los cuales son:
● Una representación del conocimiento es fundamentalmente un sustituto, un

reemplazo de la cosa misma, utilizado para permitir a una entidad
determinar consecuencias pensando en lugar de actuar, es decir,
razonando sobre el mundo en lugar de actuando en él.
● Es un conjunto de compromisos ontológicos, es decir, una respuesta a la
pregunta: ¿en qué términos debo pensar sobre el mundo?
● Es una teoría parcial del razonamiento inteligente, expresada en términos
de tres componentes:
○ la concepción fundamental de la representación del razonamiento
inteligente;
○ el conjunto de inferencias que la representación establece;
○ el conjunto de inferencias que recomienda.
● Es un medio para la computación pragmáticamente eficiente, es decir, el
entorno computacional en el que se realiza el pensamiento. Una
contribución a esta eficiencia pragmática es la que aporta la orientación que
proporciona una representación para organizar la información a fin de
facilitar la realización de las inferencias recomendadas.
● Es un medio de expresión humana, es decir, una lengua en la que decimos
cosas sobre el mundo.
5
Bibliografía.
Data mining. Concepts and Techniques, Third Edition, Jiawei Han, Micheline
Kamber, Jian Pei (2012)
Modelos lineales, Francesc Carmona (2001)
Whats is a Knowledge Representation? Ai Magazine, R. Davis, H. Shrobe, P.

Szolovits (1993).

Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Tecnológico Nacional De México

Instituto Tecnológico De Tijuana

Carrera: Ingeniería en Sistemas Computacionales.

Materia: Minería de datos.

Profesor: Jose de Jesus Parra Galaviz.

Horario: 17:00 a 18:00 horas.

Clasificación se refiere a definir una categoría a un grupo de datos que contienen

Cómo lo antes mencionado, la clasificación es un proceso de dos pasos, el primero

Con el modelo de clasificación ya definido podemos implementar diferentes métodos

Árboles de decisión: Un árbol de decisión es un diagrama tipo Flowchart donde

Ahora un método más completo de como funciona, podemos observar el siguiente

Representación del conocimiento.

En la representación del conocimiento existen roles cruciales para la mejor

● Una representación del conocimiento es fundamentalmente un sustituto, un

Modelos lineales, Francesc Carmona (2001)

Whats is a Knowledge Representation? Ai Magazine, R. Davis, H. Shrobe, P.

También podría gustarte

Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Tecnológico Nacional De México

Instituto Tecnológico De Tijuana

Carrera:​ Ingeniería en Sistemas Computacionales.

Materia:​ Minería de datos.

Profesor:​ Jose de Jesus Parra Galaviz.

Horario:​ 17:00 a 18:00 horas.

Clasificación se refiere a definir una categoría a un grupo de datos que contienen

Cómo lo antes mencionado, la clasificación es un proceso de dos pasos, el primero

Con el modelo de clasificación ya definido podemos implementar diferentes métodos

Árboles de decisión: ​Un árbol de decisión es un diagrama tipo Flowchart donde

Ahora un método más completo de como funciona, podemos observar el siguiente

Representación del conocimiento.

En la representación del conocimiento existen roles cruciales para la mejor

● Una representación del conocimiento es fundamentalmente un sustituto, un

Modelos lineales, Francesc Carmona (2001)

Whats is a Knowledge Representation? Ai Magazine, R. Davis, H. Shrobe, P.

También podría gustarte

Carrera: Ingeniería en Sistemas Computacionales.

Materia: Minería de datos.

Profesor: Jose de Jesus Parra Galaviz.

Horario: 17:00 a 18:00 horas.

Árboles de decisión: Un árbol de decisión es un diagrama tipo Flowchart donde