Está en la página 1de 8

ETAPA 1 - INTRODUCCIÓN AL ANÁLISIS DE DATOS

Estudiante:

Fabian Eduardo Peña Pineda

Grupo:

202016908_41

Tutor:

Javier Leonardo Pineda Uribe

Universidad Nacional Abierta y a Distancia (UNAD)

Escuela de Ciencias Básicas, Tecnología e Ingeniería (ECBTI)

Ingeniería de Sistemas

Análisis de Datos

Bogotá – Agosto 2023

1
INTRODUCCIÓN

2
CUADRO COMPARATIVO

MODELO ESTADISTICO MACHINE LEARNING


Objetivos Aprender de los datos. Regresión lineal.
Es un algoritmo que puede
Es la formalización de las
aprender de los datos sin
relaciones entre variables
depender de la
en los datos en forma de
programación basada en
Definición ecuaciones matemáticas,
reglas, aquí se trata de
aquí las estadísticas son
predicciones. Aprendizaje
sobre muestra, población e
supervisado, aprendizaje
hipótesis.
no supervisado.
Es un subcampo de la
Es un subcampo de las ciencia de la computación y
matemáticas, que trata de la inteligencia artificial. Se
Área de estudio encontrar relaciones entre trata en la construcción de
las variables para predecir sistemas que pueden
los resultados. aprender de los datos sin
programación explícita.
Fue definido por científicos
informáticos por la década
de 1950, floreciendo den
los 90, emergiendo de la
Ha existido por siglos, sus
informática y evolucionando
Orígenes orígenes datan del siglo
del estudio del
XVII.
reconocimiento de patrones
y la teoría del aprendizaje
computacional en la
inteligencia artificial.
Puede predecir datos sobre
Utiliza una pequeña
la marcha y son capaces
cantidad de datos con
de aprender de billones de
menos atributos y, como
observaciones, una por
Cantidad de datos tal, existe una buena
una. Se utiliza mejor con
posibilidad de que se
datos que tienen una gran
produzca un ajuste
cantidad de atributos y un
excesivo.
número de observación.
Suposiciones en Incorporan un conjunto de No requiere suposiciones
los datos suposiciones sobre la previas sobre las relaciones
generación de los datos subyacentes entre las
observados y datos variables, solo debe
similares de poblaciones ingresar todos los datos
más grandes. que tenga, y el algoritmo
procesa los datos y
descubre patrones, con los
cuales puede hacer

3
predicciones sobre el
nuevo conjunto de datos.
Se requiere un mínimo
esfuerzo humano, ya que la
carga de trabajo
Se requiere que el
involucrada en la
modelador comprenda la
informática se coloca
Esfuerzo humano relaciones entre las
directamente en la
variables antes de ingresar
máquina, ya que se
los datos.
encuentra “en forma” y
“entrenada” para encontrar
patrones en los datos.

Puede parecer que Machine Learning y el Modelo estadístico son dos ramas
diferentes del modelado predictivo, pero la diferencia entre ambos se ha
reducido significativamente en la última década, ambas ramas aprendieron
mucho el uno del otro y continuarán acercándose en el futuro.

LISTADO DE DEFINICIONES

1. Población: se refiere al conjunto de elementos que se quiere investigar,


estos elementos pueden ser objetos, acontecimientos, situaciones o grupo de
personas.

2. Muestra: es un subconjunto de casos o individuos de una población. Em


diversas aplicaciones, interesa que una muestra sea representativa, y para ellos
debe escogerse una técnica de muestra adecuada que produzca una muestra
aleatoria adecuada.

3. Parámetros vs estadísticos: Un parámetro estadístico o simplemente un


estadístico muestral es cualquier valor calculado a partir de una muestra. Por
ejemplo, la media, la varianza o una proporción que describe a una población y
puede estimarse a partir de una muestra. Un estadístico muestral es un tipo de
variable aleatoria y, como tal, tiene una distribución de probabilidad concreta,
frecuentemente caracterizada por un conjunto finito de parámetros.

4. Media: También llamada promedio o simplemente media, se obtiene con la


suma de un conjunto de valores dividida entre el número total de sumandos.
Además de en matemáticas y estadística, la media aritmética se utiliza con
frecuencia en economía, antropología, historia y en casa todos los campos
académicos en cierta medida. Por ejemplo, la renta per cápita es la renta media
aritmética de la población de un país.

4
5. Mediana: representa el valor de la variable de posición central de un
conjunto de datos ordenados.
Si la serie tiene un número par de puntuaciones, la mediana es la media entre las
dos puntuaciones centrales.
Ejemplo:
7, 8, 9, 10, 11, 12
Me=9,5 = (9+10) /2

6. Moda: es el valor que aparece con mayor frecuencia en un conjunto de


datos. Esto va en forma de una columna cuando encontremos dos modas, es
decir, dos datos que tengan la misma frecuencia absoluta máxima. Una
distribución trimodal de los datos es en la que encontramos tres modas. En el caso
de la distribución uniforme discreta, cuando todos los datos tienen una misma
frecuencia, se puede definir las modas como indicado, pero estos valores no
tienen utilidad. Por eso algunos matemáticos califican esta distribución como “sin
moda”.

7. Medidas de variación: También llamadas variabilidad, dispersión o


propagación, es el grado en que una distribución se estira o se comprime.
Ejemplos comunes de medidas de dispersión estadística son la varianza, la
desviación estándar y el rango intercuartil.

8. Rango: es la diferencia numérica ente el valor máximo y el valor mínimo;


por ello, comparte unidades con los datos. Permite obtener una idea de la
dispersión de los datos, cuanto mayor es el rango, aún más dispersos están los
datos (sin considerar la afectación de los valores externos). El rango, también es
llamado amplitud o recorrido de medida.

9. Varianza: es una medida de dispersión definida como la esperanza del


cuadrado de la desviación de dicha variable respecto a su media. Su unidad de
medida corresponde al cuadrado de la unidad de la medida de la variable: por
ejemplo, si la variable mide una distancia en metros, la varianza se expresa en
metros al cuadrado. La varianza tiene como valor mínimo 0.

10. Desviación estándar: es una medida que se utiliza ara cuantificar la


variación o la dispersión de un conjunto de datos numéricos.
Una desviación estándar baja indica que la mayor parte de los datos de una
muestra tienden a estar agrupados ceca de su media (también denominada el
valor esperado), mientras que una desviación estándar alta indica que los datos se
extienden sobre un rango de valores más amplio.

11. Cuartiles: Son cuantiles que se multiplican por un cuarto de un conjunto de


datos. La diferencia entre el tercer cuartil y el primero se conoce como rango

5
intercuartílico. Se representa gráficamente como la achura de las cajas en los
llamados diagramas de cajas.

Dada una serie de valores X1, X2, X3,… Xn ordenados en forma creciente, podemos
pensar que su cálculo podría efectuarse:
 Primer cuartil (Q1) como la mediana de la primera mitad de valores.
 Segundo cuartil (Q2) como la propia mediana de la serie.
 Tercer cuartil (Q3) como la mediana de la segunda mitad de valores.

12. Prueba de hipótesis: también denominado test de hipótesis o prueba de


significación, es un procedimiento para juzgar si una propiedad que se supone en
una población estadística es compatible con lo observado en una muestra de
dicha población.

13. Distribución normal: En estadística y probabilidad también es llamada


distribución de Gauss, distribución gaussiana, distribución de Laplace-Gauss o
normalidad estadística a una de las distribuciones de probabilidad de variable
continua que con más frecuencia aparece en estadística y en la teoría de
probabilidades.

14. Chi cuadrado: En teoría de la probabilidad y en estadística, la distribución ji


al cuadrado también llamada distribución de Pearson o distribución X 2 con x ϵ N
grados de libertad es la distribución de la suma del cuadrado de k variables
aleatorias independientes con distribución normal estándar. La distribución chi
cuadrada es un caso especial de la distribución gamma y es una de las
distribuciones de probabilidad más usadas en inferencia estadística,
principalmente en pruebas de hipótesis y en la construcción de intervalos de
confianza.

La distribución chi-cuadrado se utiliza en las pruebas chi-cuadrado comunes de


bondad de ajuste de una distribución observada a una teórica, la independencia
de dos criterios de clasificación de datos cualitativos, y en la estimación del
intervalo de confianza para una desviación estándar poblacional de una
distribución normal a partir de una desviación estándar muestral. Muchas otras
pruebas estadísticas también utilizan esta distribución, como el análisis de
varianza por rangos de Friedman.

15. ANOVA: Análisis de Varianza (ANOVA por sus siglas en inglés, Analysis Of
Variance) es una colección de modelos estadísticos y sus procedimientos
asociados, en el cual la varianza está particionada en ciertos componentes
debidos a diferentes variables explicativas. Se utiliza de forma intensiva en el
análisis y diseño de experimentos para evaluar el efecto de tratamientos en la
variabilidad de la variable respuesta.
El análisis de la varianza parte del concepto de regresión lineal, cuya funcionalidad
amplía. Así, un análisis de la varianza permite, por ejemplo, si deferentes
tratamientos médicos (es decir, un grupo de más de dos tratamientos) muestran

6
diferencias significativas en sus resultados o si por el contrario puede suponerse
que sus medias poblacionales no difieren. De este modo el análisis de la varianza
permite superar las limitaciones de hacer contrastes bilaterales por parejas entre
todos los tratamientos posibles, lo que sería un mal método para determinar si un
conjunto de variables con n>2 difieren entre sí. El primer concepto fundamental es
suponer que too valor observado puede expresarse mediante la siguiente función:

y ij =μ+ τ i+ ϵ ij

Donde:
y ij sería el valor observado (variable dependiente) [valor j-ésimo del tratamiento i-
ésimo], y τ i es el efecto del tratamiento i.
μ sería una constante que en la recta de regresión equivale a la ordenada en el
origen.
τ i es una variable que varía de tratamiento a tratamiento.
ϵ ij es una variable aleatoria que añade a la función cierto error que desvía la
puntuación observada de la puntuación pronosticada.

7
REFERENCIAS BIBLIOGRÁFICAS

Análisis de la varianza, Wikipedia, https://es.wikipedia.org/wiki/An


%C3%A1lisis_de_la_varianza, 02 de mayo de 2023.

Contraste de hipótesis, Wikipedia, https://es.wikipedia.org/wiki/Contraste_de_hip


%C3%B3tesis, 23 de junio de 2023.

Cuartil, Wikipedia, https://es.wikipedia.org/wiki/Cuartil, 12 de diciembre de 2021.

Definiciones estadísticas, https://www.ine.gob.cl/ine-ciudadano/definiciones-


estadisticas/poblacion/que-es-poblacion

Desviación típica, Wikipedia, https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t


%C3%ADpica, 10 de mayo de 2023.

Diferencias entre el modelo estadístico y el machine learning,


https://aprendeia.com/diferencias-entre-el-modelado-estadistico-y-machine-
learning/

Distribución normal, Wikipedia, https://es.wikipedia.org/wiki/Distribuci


%C3%B3n_normal, 03 de mayo de 2023.

Distribución X2, Wikipedia, https://es.wikipedia.org/wiki/Distribuci%C3%B3n_%CF


%87%C2%B2, 16 de abril de 2023.

Mediana (estadística), Wikipedia https://es.wikipedia.org/wiki/Mediana_(estad


%C3%ADstica), 23 de mayo de 2023.

Mediana aritmética, Wikipedia https://es.wikipedia.org/wiki/Media_aritm


%C3%A9tica, 05 de julio de 2023.

Medidas de dispersión, Wikipedia


https://es.wikipedia.org/wiki/Medidas_de_dispersi%C3%B3n, 17 de octubre
de 2022.

Moda (estadística), Wikipedia https://es.wikipedia.org/wiki/Moda_(estad


%C3%ADstica), 03 de junio de 2023.

Muestra estadística, Wikipedia https://es.wikipedia.org/wiki/Muestra_estad


%C3%ADstica 23 de marzo de 2023.

Rango (estadística), Wikipedia, https://es.wikipedia.org/wiki/Rango_(estad


%C3%ADstica), 12 de diciembre de 2022.

Varianza, Wikipedia, https://es.wikipedia.org/wiki/Varianza, 14 de junio de 2023.

También podría gustarte