Está en la página 1de 47

“AÑO DE LA UNIDAD, LA PAZ Y EL DESARROLLO”

FACULTAD DE CIENCIAS AGRARIA

ESCUELA PROFESIONAL DE AGRONOMÍA

DOCENTE: ING.M.SC. Juan Francisco Agreda Vega

CICLO: II

CURSO: Estadística General

INTEGRANTES: Brayan Conthy Llanos Fasabi


Cristian Viery Llanos Fasabi

Tarapoto-Perú
2023

1
ÍNDICE
Introducción...............................................................................................................................................3
1.TERMINOLOGÍA ESTADÍSTICA:.........................................................................................................4
1.1 Definiciones básicas..........................................................................................................................4
2. ORGANIZACIÓN Y RECOLECCIÓN E INTERPRETACIÓN DE DATOS........................................6
2.1 Variables y clases de variables........................................................................................................6
2.2 La encuesta y sus características.....................................................................................................8
2.3 Tablas de frecuencias Unidimensionales y Bidimensionales.........................................................9
3. MEDIDAS DE RESUMEN ESTADÍSTICO......................................................................................10
3.1 Medidas de tendencia central (media, mediana y moda)............................................................10
3.2 Medidas de posición: cuartiles, deciles y percentiles...................................................................16
4. MEDIDAS DE RESUMEN ESTADÍSTICO......................................................................................17
4.1 Medidas de dispersión (varianza, desviación estándar y C. V.)..................................................17
4.2 Medidas de forma (Asimetría y Kurtosis)....................................................................................19
5. REGRESIÓN Y PROBABILIDADES:..............................................................................................22
5.1 Regresión y correlación lineal simple...........................................................................................22
5.2 Correlación Lineal Simple.............................................................................................................23
5.3 Probabilidades................................................................................................................................25
LABORATORIO DE ESTADÍSTICA GENERAL -UNIDAD II.......................................................................30

2
Introducción
La estadística se refiere a un conjunto de métodos para manejar la obtención, presentación y
análisis de observaciones numéricas. Sus objetivos son describir el conjunto de datos obtenidos y
tomar decisiones o realizar generalizaciones acerca de las características de todas las posibles
observaciones bajo consideración.
Los métodos estadísticos son ampliamente utilizados en diferentes áreas del quehacer humano: el
gobierno, los negocios, la educación, la psicología, la sociología, la antropología, las ciencias del
comportamiento, la agricultura, la medicina, la biología y la física, entre otras.
Existen dos grandes ramas en esta disciplina, una es la estadística descriptiva y se refiere a la
obtención, organización, presentación y descripción de la información numérica. Por otro lado, la
estadística inferencial es una técnica mediante la cual se obtienen generalizaciones o se toman
decisiones con base en información parcial o incompleta, obtenida mediante técnicas
descriptivas.
En la ilustración 1 se muestra el proceso de aplicación de los métodos estadísticos en su dos
grandes ramas. Con la estadística descriptiva se obtienen los estadísticos muestrales utilizados
por la estadística inferencial para hacer inferencias y estimaciones de los parámetros de una
población.

Ilustración 1. La estadística descriptiva y la estadística inferencial. Porras, A.


(2014).

3
1.TERMINOLOGÍA ESTADÍSTICA:

1.1 Definiciones básicas


 Población (universo)
Conjunto de todas las posibles unidades de observación que son objeto del problema a
considerar. Es el objeto real de interés del cual la muestra escogida constituye un subconjunto
particular. Por ejemplo: los niños de diez años en México.
Una población es finita si el proceso de conteo de las unidades que la conforman puede
completarse o si incluye un número limitado de medidas u observaciones. Ejemplo: todas las
personas que viven en el hemisferio norte o los estudiantes de secundaria en México.
En cambio, una población infinita incluye un gran conjunto de medidas que no puede obtenerse
por conteo. Ejemplo: la población de dígitos extraída con reemplazo de una urna o la colección
de todos los números positivos.
 Muestra
Parte o subconjunto de una población. Subconjunto de medidas u observaciones tomadas a partir
de una población dada. Se utiliza una muestra por razones prácticas, económicas o de tiempo que
no permiten considerar a toda la población. Ejemplo: un centenar de niños de diez años
 Parámetros
Se refieren a las características medibles de una población y a los valores verdaderos que las
describen. Ejemplo: estatura promedio de la población de 15 años en México. No es posible
conocer este dato si la población es infinita. Una población tiene sólo un valor para un parámetro
en particular (valor verdadero), pero puede tener diferentes valores para el estadístico muestral
correspondiente.
• Estadístico muestral
Característica medible de una muestra. Coeficiente intelectual, estatura, peso, etc.
• Inferencia
La propuesta de una característica en la población (parámetro) estimada según la evaluación de la
característica en la muestra (estadístico). Ejemplo: el número de piezas defectuosas obtenidas en
un proceso de fabricación.
Nomenclatura
. Parámetros
Se trata de los valores calculados de las características medibles que describen a la población, los
cuales son representados con letras griegas. Por ejemplo, la media y la desviación estándar se
denotan por  y  .
. Estadísticos muestrales
Los valores calculados para una muestra son designados por las letras del alfabeto latino. La
media se representa con m o 𝑿̅ y la desviación estándar, mediante la letra s.
Abusos de la estadística
En la vida cotidiana es común encontrar ejemplos del uso indebido de la estadística, ya sea por
una interpretación incorrecta de la información o por presentarla de manera parcial.

4
Una conocida frase, que algunas veces se atribuye a Benjamin Disraeli y otras a Mark Twain,
dice “Existen tres tipos de mentiras: las mentiras, las malditas mentiras y la estadística”.
El uso incorrecto de la estadística puede deberse a la realización de un muestreo erróneo y la
presentación engañosa de los datos; contar con datos insuficientes, o no representativos llevará a
conclusiones falsas.
Características de un estimador
Como se mencionó, los estadísticos muestrales pueden fungir como estimadores de los
parámetros de una población. Algunas características de los estimadores son:
* Exactitud
Es el grado de aproximación de los resultados de la observación (de la medida, del cálculo o de
la estimación) con respecto al valor verdadero (o que se considera como tal) o a un valor de
referencia.
* Precisión
Desde el punto de vista estadístico, resulta del agrupamiento de los datos obtenidos por la
repetición de una medida. Sólo se ve afectada por factores aleatorios y no guarda relación con el
valor aceptado como real. Una varianza pequeña nos indica que hay mayor precisión.
* Sesgo
Se dice que los datos presentan un sesgo cuando todas las mediciones están cargadas hacia un
mismo lado del valor real. En este caso, el valor esperado del estadístico muestral difiere del
parámetro correspondiente.
En la ilustración 2 se muestran gráficamente las características de un estimador. Supongamos que
te encuentras frente a un tablero de tiro al blanco y que el punto central representa el valor del
parámetro real de una población; mientras que cada tiro (representado en la ilustración mediante
una estrella de color rojo) equivale al valor de un estimador de dicho parámetro, tomado a partir
de una muestra.

5
Ilustración 2. Características de un estimador. Porras, A. (2014).
En el caso “a” se tiene que los tiros realizados (estimadores) son exactos porque tienden a dar en
el blanco, es decir que son precisos, están agrupados y varían poco; no hay sesgo porque los
estimados son similares al valor real.
En el caso “b”, a diferencia del primero, los estimadores no dieron en el blanco (no son exactos),
sin embargo, varían poco (son precisos) y tienen un sesgo porque los tiros están cargados hacia
un lado del valor real.
En lo que respecta a la opción “c”, los estimadores no son exactos porque no dan en el blanco,
son imprecisos en tanto que los tiros están dispersos en el espacio y no hay sesgo, es decir, los
estimadores no se agrupan en una dirección preferencial.
Finalmente, en el caso “d”, los estimadores no son exactos porque no dan en el blanco, son
imprecisos porque están dispersos, y hay un sesgo debido a que sí hay una dirección en la cual
tienden a agruparse los estimadores.
Algunos ejemplos de abusos en el uso de la estadística
Aquí se muestran algunas afirmaciones que denotan el uso inadecuado de la estadística:
 Datos insuficientes. Un vendedor de pólizas, basado en cuatro visitas, afirma que un cuarto de
sus reuniones es exitoso.
 Datos muestrales no representativos. Supongamos que los gastos mensuales de una muestra de
estudiantes son: 2000,1900, 2300, 1800, 1700, 2100, 2200 y 10, 000.Con todos los estudiantes, el
gasto promedio total asciende a 3000, pero sin el último de ellos, decae a 2000.
 Falsas conclusiones. Según las estadísticas, un estadounidense que viaja en avión está más
seguro que otro que permanece en casa, pues en un año hubo solamente 395 accidentes aéreos
fatales, mientras que ocurrieron29,000 accidentes fatales en el hogar.
Aplicaciones de la Estadística
 Interpretaciones y conclusiones de la investigación.
 Meta-análisis de las revisiones de la literatura.
 Diseño del ensayo clínico.
 Diseño de encuestas.
 Estudios epidemiológicos.
 Modelado estadístico.

2. ORGANIZACIÓN Y RECOLECCIÓN E INTERPRETACIÓN DE DATOS

2.1 Variables y clases de variables

¿Qué es y para qué sirve una variable estadística?

Se define a una variable estadística como una característica de una población o muestra
estadística para que adopten diferentes valoraciones. Las variables estadísticas se destacan por ser
cualidades que van adoptando forma numérica.
Un ejemplo de esto puede ser la altura de una persona, que sería de 175 centímetros. La variable
estadística en este caso es esa altura, mientras que la medida es la unidad, que son los
centímetros.

Otro ejemplo que puede aplicar: se puede argumentar que el dueño de una asociación empresarial
obtiene ingresos aproximados de más de un millón de pesos por mes. Aquí aplica lo mismo, la
6
variable estadística es el número, el millón, mientras que la medida es el peso chileno. Ambas
variables se expresan en números porque son cuantitativas. (López, 2020)

Características
Ahora bien, es necesario aclarar que no todas las variables estadísticas son idénticas y que, por
ende, no todas se expresan de forma numérica (cuantitativamente). Las variables tienen la
característica de cambiar, así que también pueden ser cualitativas, como el color de ojos de una
persona.

Por ejemplo: Martín tiene ojos marrones y Julieta azules. En ambos casos, la variable estadística
es el color de ojos, no existiendo una medida numérica para abordarlo. (López, 2020)

Tipos de variables estadísticas

Las variables presentan distintos tipos y cada cual cuenta con sus propias subdivisiones y
características. Principalmente, las variables se dividen en cuantitativas y cualitativas.

Variables cualitativas
Las variables cualitativas se caracterizan por ser clasificadas por palabras y no por números o
expresiones matemáticas. A su vez, estas se clasifican en:
Nominal: estas variables no siguen un orden en particular.
Ordinal: siguen un orden determinado o una jerarquía específica.
Binaria: este tipo de variable da lugar a la obtención de dos tipos de resultados a la vez.

Ahora vamos a explicarte el segundo tipo de variable estadística, la cuantitativa.

Variables cuantitativas
Estas, al contrario que las cualitativas, si se expresan mediante números y cálculos matemáticos.
También cuentan con subdivisiones:
Discreta: se destaca por el uso de valores enteros, en vez de los finitos.
Continua: se aplican valores objetivos y a su vez finitos, dejando de lado los enteros, ya que se
usan expresiones decimales.

Una vez comprendas los distintos tipos y características que poseen las variables estadísticas
queda mostrarte ejemplos para que puedas extender tu comprensión. Pero antes, explicaremos
otros subtipos no tan conocidos de las mismas. (López, 2020)

Otras variantes
Además de las variables explicadas antes, que vienen a ser los tipos principales, no está de más
decir que también hay otros tipos menos aplicados. Existen otras variables de tipo categóricas;
económicas; dependientes; independientes; dicotómicas y cardinales. Por dar un ejemplo, una
variable puede ser, a su vez, discreta, dependiente y cuantitativa.

Además, también es necesario explicar que, si una variable cualitativa se expresa o representa
con un nombre, no significa que automáticamente ya no pueda pertenecer a un modelo
matemático.

Se puede crear una variable cuantitativa sobre una que de origen es cualitativa. ¿Suena muy
extraño? Vamos con un ejemplo: podemos tomar los posibles colores de cabello y darles una
variable numérica. Al color negro un 1, al rubio un 2 y al colorado un 3. También pueden
aplicarse variables dicotómicas para indicar resultados por SI o NO. (López, 2020)

Ejemplos de variables
7
Vamos a darte ejemplos más que claros para que comprendas todos los tipos de variables
estadísticas que existen:

Cuantitativa: las horas laborales de los empleados durante una semana o un mes.
Continua: al tratarse de valores finitos y decimales, podemos tomar por ejemplo el peso de una
persona, que nunca es exacto. Tal como 75,8 KG.
Discreta: aquí son valores enteros, puede ser el peso de un producto de mercado, una distancia
en kilómetros con un número par o bien la cantidad de invitados a una fiesta.
Cualitativa: un buen ejemplo de esto puede ser la forma en la que se ubican los espectadores de
un concierto. Se diferencian por su localización en el lugar, ya sean las gradas, el campo o la
zona VIP.
Ordinal: ejemplos de esto pueden ser los niveles sociales y económicos de una sociedad, o el
orden de llegada de una carrera de coches.
Nominal: no se sigue un orden, así que pueden ser elementos elegidos de forma azarosa, como
una lista con colores.
Binaria: únicamente dos posibles resultados, pueden ser: si o no, blanco y negro u hombre y
mujer. (López, 2020)

2.2 La encuesta y sus características.

Una encuesta es un método de recopilación de datos que implica hacer preguntas a una muestra
de personas con el fin de obtener información sobre sus opiniones, actitudes, comportamientos o
características demográficas. Sus principales características son:

. Muestreo: Se recopilan datos de un grupo representativo de la población en lugar de encuestar


a todos.
. Preguntas estructuradas: Las preguntas suelen ser predefinidas y estandarizadas para facilitar
el análisis de los resultados.
. Anonimato: Las respuestas suelen ser anónimas para fomentar la sinceridad de los encuestados.
. Propósito definido: Las encuestas se realizan con un objetivo específico, como obtener
información para la toma de decisiones.
. Métodos de recopilación: Pueden ser realizadas por teléfono, en persona, en línea, etc
. Análisis de datos: Los datos recopilados se analizan para obtener conclusiones significativas.
. Escalas de medición: A menudo se utilizan escalas (por ejemplo, de Likert) para medir la
intensidad de las respuestas.

Ejemplos de encuestas comunes:


Encuestas de satisfacción del cliente en restaurantes.
Encuestas políticas para medir la intención de voto.
Encuestas de mercado para evaluar la demanda de un producto.
Encuestas de empleados para evaluar el clima laboral.
Encuestas en línea sobre preferencias de películas o música.

Técnicas de recopilación de datos.


Técnicas de Recopilación de Datos: se refiere a los métodos utilizados para obtener información
de interés de manera sistemática. Algunas técnicas comunes incluyen encuestas, entrevistas,
observación, análisis de documentos y datos secundarios. Cada técnica tiene sus ventajas y
desventajas, y la elección depende de los objetivos de investigación y los recursos disponibles.
La recopilación de datos puede ser cuantitativa (basada en números) o cualitativa (basada en
descripciones y opiniones). Es esencial diseñar un plan de recopilación de datos eficiente y ético
para obtener resultados precisos y significativos.

8
Ejemplos de técnicas de recopilación de datos:
. Encuestas: Utilización de cuestionarios para obtener respuestas de personas sobre un tema
específico.

. Entrevistas: Conversaciones en profundidad con individuos o grupos para obtener información


detallada.
. Observación: Registro directo de comportamientos o eventos.
. Análisis de documentos: Estudio de informes, registros o documentos escritos existentes.
. Datos secundarios: Uso de información previamente recopilada por otras fuentes.
. Grupos de discusión: Reuniones de personas para discutir temas en profundidad y registrar
opiniones.
. Experimentos: Investigaciones controladas que manipulan variables para observar efectos.

2.3 Tablas de frecuencias Unidimensionales y Bidimensionales.

Tablas de Frecuencias Unidimensionales: Estas tablas se utilizan para resumir datos


unidimensionales, es decir, una sola variable. Se muestran las frecuencias de cada valor o
intervalo de la variable, junto con porcentajes o proporciones. Son útiles para visualizar la
distribución de una variable y calcular medidas resumen como la media, la mediana y la moda.

Tabla de Frecuencias Unidimensional (para una variable):

Supongamos que estamos recopilando datos sobre la edad de un grupo de personas y queremos
crear una tabla de frecuencias para resumir la distribución de edades. Aquí está un ejemplo de
una tabla de frecuencias unidimensional:

En esta tabla, hemos agrupado las edades en intervalos de 10 años y contado cuántas personas se
encuentran en cada intervalo.

Tablas de Frecuencias Bidimensionales: Estas tablas se emplean cuando se desean resumir dos
variables en conjunto. Se muestran las frecuencias conjuntas de las combinaciones de valores de
ambas variables, lo que permite analizar las relaciones entre ellas. Se utilizan frecuentemente en
estadísticas descriptivas y en la prueba de hipótesis.

Tabla de Frecuencias Bidimensionales (para dos variables):

Imaginemos que estamos estudiando la relación entre el género y la preferencia de deportes en un


grupo de estudiantes. Aquí está un ejemplo de una tabla de frecuencias bidimensionales:

9
En esta tabla, hemos resumido las preferencias deportivas de hombres y mujeres. Por ejemplo, 20
hombres prefieren el fútbol, 15 prefieren el baloncesto, y 5 prefieren el tenis. Del mismo modo,
10 mujeres prefieren el fútbol, 12 el baloncesto y 18 el tenis. Esta tabla muestra cómo se
distribuyen las preferencias deportivas entre los dos grupos.

3. MEDIDAS DE RESUMEN ESTADÍSTICO

3.1 Medidas de tendencia central (media, mediana y moda)


¿Qué son las medidas de tendencia central?
Una medida de tendencia central es un único valor con el que se pretende describir un conjunto de
datos, a través de la identificación de la posición central del mismo. Como tal, las medidas de
tendencia central a veces se denominan medidas de ubicación central, también se catalogan como un
resumen estadístico.

La

media (a menudo llamada promedio) es probablemente la medida de tendencia central con la que
estás familiarizado, pero existen otras, como la mediana y la moda. (EIG, s.f)

10
La Media
La media, también conocida como media aritmética y frecuentemente llamada como promedio, es
una medida de tendencia central que se obtiene al sumar cada uno de los datos y dividirlos entre la
cantidad de los mismos. Por otra parte, si la media es obtenida dentro de una población la media se
ha de representar con la letra miu (µ) y si esta se calcula dentro de una muestra se representará con
una x que llevará una raya en la parte superior.
Es importante mencionar que este tipo de medida, se puede calcular tanto en variables continuas y
discretas.
Formula de la Media para Datos Agrupados
En el caso del cálculo de la media para datos agrupados, la fórmula cambia en gran medida
debido a que se tienen en cuenta una serie de factores nuevos. Ya que en esta tenemos en cuenta
la marca de clase y la frecuencia absoluta.

Resumiendo, la formula, debemos sumar cada frecuencia absoluta con la marca de clase en cada
intervalo y luego dividirla en la cantidad total de datos.

Ejemplos resueltos sobre la Media


b) La siguiente tabla de frecuencias expresa el peso para 40 trabajadores, por tanto, nos piden
calcular la media para dichos datos agrupados.

11
Solución:
En este caso la media se aplica para datos agrupados, por tanto, tenemos que tener en cuenta la
marca de clase (xi) y la frecuencia absoluta acumulada (fi). Recuerda que la sumatoria indica que
debemos sumar dentro de los cinco intervalos el producto de la frecuencia absoluta junto a la marca
de clase, en este caso en la tabla se expresa como la suma de todos estos productos es 2868. (EIG,
s.f)

La Mediana

La mediana es el valor intermedio que se encuentra entre el conjunto de datos, una vez que estos
están ordenados. Es importante precisar que un 50% de los datos está por encima de la mediana y
el otro 50% está por debajo de la misma.

El símbolo de la mediana es Me, tanto para datos agrupados y no agrupados.

Formula de la Mediana para Datos Agrupados


En el caso de que tengamos nuestros datos agrupados, la fórmula que debemos aplicar es la
siguiente:

12
. En donde i sería el intervalo con una frecuencia acumulada que supera el valor de n/2.

. Li es el límite inferior del intervalo en donde la frecuencia acumulada supero el valor de n/2.

. El valor de n es el total de datos de nuestra muestra.

. Fi-1 es la frecuencia acumulada que está en el intervalo anterior a la mediana.

. fi es la frecuencia absoluta en el intervalo de la mediana.

. Y finalmente a, es la amplitud que tiene nuestro intervalo.

Cálculo de la Mediana para datos agrupados

c) Tenemos la distribución de frecuencias de la cantidad de hogares que no tienen servicio de


luz, en 212 municipios. Para ello el investigador no solicita hallar la mediana de dichos datos.

Solución:

Iniciamos determinando en que intervalo se encuentra la mediana, para ello debe cumplir que el
valor de n/2 sea menor igual que la frecuencia absoluta acumulada (Fi):

En nuestro caso el intervalo de la mediana se


encuentra en el primer intervalo en donde la
frecuencia absoluta acumulada sea mayor o
igual a 106, por tanto, el intervalo a usar es el
que tiene la frecuencia absoluta acumulada
como 150. El valor de 70 que es el anterior
no nos sirve, ya que es menor que 106.

13
En este caso i=6, que es el número del intervalo a tener en cuenta. Por tanto, cada una de las
variables que necesitamos son:

Finalmente, calculamos la mediana reemplazando cada uno de los datos hallados: (EIG, s.f)

La Moda
La moda es el valor que se repite con mayor frecuencia en nuestro conjunto de datos. Es
importante aclarar que un conjunto de datos puede presentar desde una moda, varias modas o
ninguna. En un histograma de frecuencias absolutas, la moda es la barra más alta de nuestro
gráfico.
El símbolo de la moda es Mo, tanto para datos agrupados y no agrupados.
Formula de la Moda para Datos Agrupados
La fórmula que usaremos para el cálculo de la moda, en el caso de que tengamos datos agrupados
será:

14
. Li es el límite inferior del intervalo con mayor frecuencia absoluta.
. fi-1 es la frecuencia absoluta anterior a la de mayor frecuencia.
. fi+1 es la frecuencia absoluta del siguiente intervalo al de mayor frecuencia absoluta.
. a es la amplitud del intervalo de mayor frecuencia absoluta.
Cálculo de la moda para datos agrupados
d) Dada la siguiente distribución de frecuencias, calcular lo moda para dicha muestra.

Solución:
En este caso estamos abordando un ejercicio con datos agrupados en intervalos, por ende,
debemos usar la fórmula para tal caso.
Por definición la moda para datos agrupados es: (EIG, s.f)

15
3.2 Medidas de posición: cuartiles, deciles y percentiles

Aunque la varianza y la desviación estándar son las medidas de dispersión más útiles en análisis
estadístico, existen otras técnicas con las cuales puede medirse la dispersión de un conjunto de
datos. Estas medidas adicionales de dispersión son los cuartiles, los deciles y los percentiles.
Cuartiles
Son valores de la variable que dividen los datos ordenados en cuartos; cada conjunto de datos
tiene tres cuartiles. El primer cuartil, Q1, es un número tal que a lo sumo 25% de los datos son
menores en valor que Q3 y a lo sumo 75% son mayores. El segundo cuartil es la mediana (50%).
El tercer cuartil, Q3, es un número tal que a lo sumo 75% de los datos son menores en valor que
Q3 y a lo sumo 25% son mayores (Pacuala,2023).

Para hallar la posición:


Pasos a seguir:
a). Ordenar los datos en forma ascendente.
b). Calcular Q2 es decir hallar la Mediana:
Si la cantidad de datos es impar, el dato que está en el centro será la Mediana o sea Q2.
Si la cantidad de datos es par, se suman los 2datos centrales y se divide entre 2.

16
Deciles
Son valores de la variable que dividen los datos ordenados en diez partes iguales (9 divisiones).

Percentiles
Son los valores de la variable que dividen un conjunto de datos clasificados en 100subconjuntos
iguales; cada conjunto de datos tiene 99 percentiles. El k-ésimo percentil, Pk, es un valor que a lo
sumo k% de los datos son menores en valor que k Py a lo sumo (100 - k) %de los datos son
mayores (Pacuala, 2023)

4. MEDIDAS DE RESUMEN ESTADÍSTICO

4.1 Medidas de dispersión (varianza, desviación estándar y C. V.)


Las medidas de dispersión son números que indican si una variable se mueve mucho, poco, más
o menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una
característica de la variable estudiada. En este sentido, deben acompañar a las medidas de
tendencia central. Juntas, ofrecen información de un sólo vistazo que luego podremos utilizar
para comparar y, si fuera preciso, tomar decisiones. (lopez 2019)
Varianza
La varianza es una medida de dispersión que representa la variabilidad de una serie de datos
respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos
entre el total de observaciones. Su formula es la siguiente (lopez 2019)

17
X → Variable sobre la que se pretenden calcular la varianza
xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
N → Número de observaciones.
x̄ → Es la media de la variable .
Desviación estándar
La desviación estándar es una de las principales medidas estadísticas que intervienen en el
cálculo de la muestra de una investigación, y también es una medida de riesgo que utilizan los
analistas, los gestores de carteras y los asesores.
En este artículo te describiremos en qué consiste, cuáles son sus usos y cómo obtenerla paso a
paso.
Formula de la desviación estándar

• X → Variable sobre la que se pretenden calcular la varianza


• xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
• N → Número de observaciones.
• x̄ → Es la media de la variable X.
Coeficiente de Variación
Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del
conjunto y por lo general se expresa en porcentaje para su mejor comprensión.

18
• X → Variable sobre la que se pretenden calcular la varianza
• σx → Desviación típica de la variable X.
• | x̄ | → Es la media de la variable X en valor absoluto con x̄ ≠ 0

4.2 Medidas de forma (Asimetría y Kurtosis)


Asimetría
La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la
media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría
indican si hay el mismo número de elementos a izquierda y derecha de la media.
Existen tres tipos de curva de distribución:
. Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media.
. Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso,
coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de
Gauss, o distribución normal.
. Asimetría positiva: la cola de la distribución se alarga (a la derecha) para valores superiores a
la media.

El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x. Cuanto
mayor sea la suma ∑(xi–x)3, mayor será la asimetría. Sea el conjunto X= (x1, x2, …, xN),
entonces la fórmula de la asimetría de Fisher es:

Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de
asimetría de Fisher se convierte en:

19
Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que la
media. Si CAF=0: la distribución es simétrica.
Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media
Coeficiente de Karl Pearson

Donde:
= media aritmética.
Md = Mediana.
s = desviación típica o estándar.
Nota:
El Coeficiente de Pearson varía entre -3 y 3
Si As < 0 ? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
Medida de Yule Bowley o Medida Cuartílica

Donde:
= Cuartil uno; = Cuartil dos= Mediana; =Cuartil tres.
KURTOSIS
La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la
distribución normal, es decir, mide cuán puntiaguda es una distribución. (ibujes).
TIPOS DE CURTOSIS
La curtosis determina el grado de concentración que presentan los valores en la región central de
la distribución. Así puede ser:
Leptocúrtica. - Existe una gran concentración.
Mesocúrtica. - Existe una concentración normal.

20
Platicúrtica. - Existe una baja concentración.

MEDIDAS DE KURTOSIS
Medida de Fisher
Para datos sin agrupar se emplea la siguiente fórmula:

Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:

Para datos agrupados en intervalos se emplea la siguiente fórmula:

Donde:
=cada uno de los valores; n = número de datos; = media aritmética;
=Cuádruplo, de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca de clase
Nota:
Si a < 3 ? la distribución es platicúrtica
Si a = 3 ? la distribución es normal o mesocúrtica
Si a > 3 ? la distribución es leptocúrtica
Ejemplo ilustrativo: Determinar qué tipo de curtosis tiene la siguiente distribución: 6, 9, 9, 12,12,
12, 15 y 17. Emplear la medida de Fisher y el coeficiente percentil de curtosis.
Solución: Calculando la media aritmética se obtiene

21
Calculando la desviación estándar poblacional se obtiene:

Coeficiente de Kurtosis
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del
conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el
conjunto X= (x1, x2,…, xN), entonces el coeficiente de curtosis será:

En la fórmula se resta 3 porque es la curtosis de una distribución Normal. Entonces la curtosis


valdrá 0 para la Normal, tomándose a ésta como referencia.
Cuando los datos están agrupados o agrupados en intervalos, la fórmula del coeficiente de curtosis
se convierte en:

5. REGRESIÓN Y PROBABILIDADES:

5.1 Regresión y correlación lineal simple.


La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos, conviene
destacar algunas diferencias:
• La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión
lineal consiste en generar una ecuación (modelo) que, basándose en la relación existente entre
ambas variables, permita predecir el valor de una a partir de la otra.
• El cálculo de la correlación entre dos variables es independiente del orden o asignación de cada
variable a X e Y, mide únicamente la relación entre ambas sin considerar dependencias. En el
caso de la regresión lineal, el modelo varía según qué variable se considere dependiente de la otra
(lo cual no implica causa-efecto).
• A nivel experimental, la correlación se suele emplear cuando ninguna de las variables se ha
controlado, simplemente se han medido ambas y se desea saber si están relacionadas. En el caso

22
de estudios de regresión lineal, es más común que una de las variables se controle (tiempo,
concentración de reactivo, temperatura…) y se mida la otra.
• Por norma general, los estudios de correlación lineal preceden a la generación de modelos de
regresión lineal. Primero se analiza si ambas variables están correlacionadas y, en caso de estarlo,
se procede a generar el modelo de regresión.
5.2 Correlación Lineal Simple
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de
parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza,
que indica el grado de variación conjunta de dos variables aleatorias (Amat,2016)

siendo x¯ e y¯ la media de cada variable y xi e yi el valor de las variables para la observación i.


La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es
comparable entre distintos pares de variables. Para poder hacer comparaciones se estandariza la
covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes
tipos, de entre los que destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
• Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una
correlación negativa perfecta.
• Se emplean como medida de fuerza de asociación (tamaño del efecto):
- 0: asociación nula.
- 0.1: asociación pequeña.
- 0.3: asociación mediana.
- 0.5: asociación moderada.
- 0.7: asociación alta.
- 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
• La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución
normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante
robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos
alternativas.
• La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien
cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden
transformar a rangos. Es un método no paramétrico.
• La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación
que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la
misma posición en el rango, es decir, cuando hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario calcular su
significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y esta
será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente
de correlación a +1+1 o −1−1, si no es significativo, se ha de interpretar que la correlación de
ambas variables es 0, ya que el valor observado puede deberse a simple aleatoriedad.

23
El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-
test. Al igual que ocurre siempre que se trabaja con muestras, por un lado, está el parámetro
estimado (en este caso el coeficiente de correlación) y por otro su significancia a la hora de
considerar la población entera. Si se calcula el coeficiente de correlación entre X e Y en
diferentes muestras de una misma población, el valor va a variar dependiendo de las muestras
utilizadas. Por esta razón se tiene que calcular la significancia de la correlación obtenida y su
intervalo de confianza.

Para este test de hipótesis, H0 considera que las variables son independientes (coeficiente de
correlación poblacional = 0) mientras que, la Ha, considera que existe relación (coeficiente de
correlación poblacional ≠≠ 0)

La correlación lineal entre dos variables, además del valor del coeficiente de correlación y de su
significancia, también tiene un tamaño de efecto asociado. Se conoce como coeficiente de
determinación R2. Se interpreta como la cantidad de varianza de Y explicada por X. En el caso
del coeficiente de Pearson y el de Spearman, R2 se obtiene elevando al cuadrado el coeficiente de
correlación. En el caso de Kendall no se puede calcular de este modo. (No he encontrado como se
calcula) (Amat,2016).
Mediante bootstrapping también se puede calcular la significancia de un coeficiente de
correlación. Es una alternativa no paramétrica al t-test. Resampling: Test de permutación,
Simulación de Monte Carlo y Bootstrapping).
Regresión Lineal Simple
La información aquí presente recoge los principales conceptos de la regresión lineal. Se puede
encontrar una descripción mucho más detallada en los libros. Introduction to Statistical Learning
y en Linear Models with R.

La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta)
que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o
respuesta se le identifica como Y y a la variable predictora o independiente como X.
El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
Y=β0+β1X1+ϵ
Siendo β0 la ordenada en el origen, β1 la pendiente y ϵ el error aleatorio. Este último representa
la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas
variables que influyen en Y pero que no se incluyen en el modelo como predictores. Al error
aleatorio también se le conoce como residuo.

En la gran mayoría de casos, los valores β0 y β1 poblacionales son desconocidos, por lo que, a
partir de una muestra, se obtienen sus estimaciones β^0 y β^1. Estas estimaciones se conocen
como coeficientes de regresión o least square coefficient estimates, ya que toman aquellos
valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más

24
cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las
estimaciones de los coeficientes).

Donde Sy y Sx son las desviaciones típicas de cada variable y R el coeficiente de correlación.


β^0 es el valor esperado la variable Y cuando X = 0, es decir, la intersección de la recta con el eje
y. Es un dato necesario para generar la recta, pero en ocasiones, no tiene interpretación práctica
(situaciones en las que X no puede adquirir el valor 0).

Una recta de regresión puede emplearse para diferentes propósitos y dependiendo de ellos es
necesario satisfacer distintas condiciones. En caso de querer medir la relación lineal entre dos
variables, la recta de regresión lo va a indicar de forma directa (ya que calcula la correlación). Sin
embargo, en caso de querer predecir el valor de una variable en función de la otra, no solo se
necesita calcular la recta, sino que además hay que asegurar que el modelo sea bueno
(Amat,2016).

5.3 Probabilidades

¿Qué es la probabilidad?
El término probabilidad proviene de lo probable, o sea, de aquello que es más posible que ocurra,
y se entiende como el mayor o menor grado de posibilidad de que un evento aleatorio ocurra,
expresado en una cifra entre 1 (posibilidad total) y 0 (imposibilidad absoluta), o bien en
porcentajes entre el 100% o el 0%, respectivamente.
Para obtener la probabilidad de un suceso, generalmente se determina la frecuencia con la que
ocurre (en experimentos aleatorios bajo condiciones estables), y se procede a realizar cálculos
teóricos.
Para ello se sigue lo establecido por la Teoría de la probabilidad, una rama de las matemáticas
dedicada al estudio de la probabilidad. Esta disciplina es largamente empleada por otras ciencias
naturales y sociales como disciplina auxiliar, ya que les permite manejar escenarios posibles en
base a generalizaciones.
El origen de la probabilidad reside en la necesidad del ser humano de anticiparse a los hechos, y
de predecir en cierta medida el futuro. Así, en su empeño por percibir patrones y conexiones en la
realidad, se enfrentó constantemente al azar, o sea, a lo que carece de orden.

25
Las primeras consideraciones formales sobre esta materia provienen del siglo XVII,
específicamente de la correspondencia entre Pierre de Fermat y Blaise Pascal en 1654, o de los
estudios de Christiaan Huygens en 1657 y de la Kybeia de Juan Caramuel en 1649, texto hoy en
día perdido. (EE, 2022)

Tipos de probabilidad
Existen los siguientes tipos de probabilidad:
Frecuencial. Aquella que determina la cantidad de veces que un fenómeno puede ocurrir,
considerando un número determinado de oportunidades, a través de la experimentación.
Matemática. Pertenece al ámbito de la aritmética, y aspira al cálculo en cifras de la probabilidad
de que determinados eventos aleatorios tengan lugar, a partir de la lógica formal y no de su
experimentación.
Binomial. Aquella en la que se estudia el éxito o fracaso de un evento, o cualquier otro tipo de
escenario probable que tenga dos posibles resultados únicamente.
Objetiva. Se denomina así a toda probabilidad en la que conocemos de antemano la frecuencia
de un evento, y simplemente se dan a conocer los casos probables de que ocurra dicho evento.
Subjetiva. Contrapuesta a la matemática, se sustenta en ciertas eventualidades que permiten
inferir la probabilidad de un evento, aunque alejada de una probabilidad certera o calculable. De
allí su subjetividad.
Hipergeométrica. Aquella que se obtiene gracias a técnicas de muestreo, creando grupos de
eventos según su aparición.
Lógica. La que posee como rasgo característico que establece la posibilidad de ocurrencia de un
hecho a partir de las leyes de la lógica inductiva.
Condicionada. Aquella que se emplea para comprender la causalidad entre dos hechos distintos,
cuando puede determinarse la ocurrencia de uno tras la ocurrencia del otro. (EE, 2022)
Ejemplos de probabilidad.
La probabilidad se halla continuamente a nuestro alrededor. Los ejemplos más obvios de ella
tienen que ver con juegos de azar: los dados, por ejemplo. Es posible determinar la frecuencia de
aparición de cada cara, a partir de una serie continua de lanzamientos del dado. O también puede
hacerse con la lotería, aunque ello exige cálculos tan enormes que, virtualmente, los hace
imposibles de predecir.
También lidiamos con la probabilidad cuando consultamos el pronóstico del tiempo, y se nos
advierte un cierto porcentaje de probabilidad de lluvia. Dependiendo de la cifra, será más o
menos probable que llueva, pero podría ocurrir que no suceda, dado que se trata de una
predicción, no de una certeza. (EE, 2022)
Fórmula para calcular la probabilidad
El cálculo de las probabilidades se lleva a cabo según la fórmula siguiente:
Probabilidad = Casos favorables / casos posibles x 100 (para llevarlo a porcentaje)
Así, por ejemplo, podemos calcular la probabilidad de que una moneda salga cara en un único
lanzamiento, pensando que sólo puede salir una cara (1) de las dos que hay (2), esto es, 1 / 2 x
100 = 50% de probabilidad.
26
En cambio, si decidimos calcular cuántas veces saldrá la misma cara en dos lanzamientos
seguidos, deberemos pensar que el caso favorable (cara y cara o sello y sello) es uno entre cuatro
posibilidades de resultado (cara y cara, cara y sello, sello y cara, sello y sello). Por ende, 1 / 4 x
100 = 25% de probabilidad. (EE, 2022)

Aplicaciones de la probabilidad
El cálculo de la probabilidad tiene numerosas aplicaciones en la vida cotidiana, como son:
El análisis de riesgo empresarial. Según el cual se estiman las posibilidades de caída de precio
de las acciones bursátiles, y se intenta predecir la conveniencia o no de la inversión en una u otra
empresa.
El análisis estadístico de la conducta. De importancia para la sociología, emplea la
probabilidad para evaluar la posible conducta de la población, y así predecir tendencias de
pensamiento o de opinión. Es común verlo en las campañas electorales.
La determinación de garantías y seguros. Procesos en los que se evalúa la probabilidad de
avería de los productos o la fiabilidad de un servicio (o de un asegurado, por ejemplo), para así
saber cuánto tiempo de garantía conviene ofrecer, o a quiénes conviene asegurar y por cuánto.
En la ubicación de partículas subatómicas. Según el Principio de Incertidumbre de
Heisenberg, el cual establece que no podemos saber dónde está una partícula subatómica en un
momento determinado y al mismo tiempo a qué velocidad se mueve, de modo que los cálculos en
la materia se realizan normalmente en términos probabilísticos: existe X por ciento de
probabilidades de que la partícula esté allí.
En la investigación biomédica. Se calculan porcentajes de éxito y de fracaso de las drogas
médicas o de las vacunas, para así saber si son fiables o no, y si conviene o no producirlas en
masa, o a qué porcentaje de la población podrán causarle determinados efectos secundarios. (EE,
2022)
Teorema de Bayes
El teorema de Bayes es utilizado para calcular la probabilidad de un suceso, teniendo
información de antemano sobre ese suceso
Podemos calcular la probabilidad de un suceso A, sabiendo además que ese A cumple cierta
característica que condiciona su probabilidad. El teorema de Bayes entiende la probabilidad de
forma inversa al teorema de la probabilidad total. El teorema de la probabilidad total hace
inferencia sobre un suceso B, a partir de los resultados de los sucesos A. Por su parte, Bayes
calcula la probabilidad de A condicionado a B.
El teorema de Bayes ha sido muy cuestionado. Lo cual se ha debido, principalmente, a su mala
aplicación. Ya que, mientras se cumplan los supuestos de sucesos disjuntos y exhaustivos, el
teorema es totalmente válido. (López, 2018)
Fórmula del teorema de Bayes
Para calcular la probabilidad tal como la definió Bayes en este tipo de sucesos, necesitamos una
fórmula. La fórmula se define matemáticamente como:

27
Donde B es el suceso sobre el que tenemos información previa y A(n) son los distintos sucesos
condicionados. En la parte del numerador tenemos la probabilidad condicionada, y en la parte de
abajo la probabilidad total. En cualquier caso, aunque la fórmula parezca un poco abstracta, es
muy sencilla. Para demostrarlo, utilizaremos un ejemplo en el que en lugar de A (1), A (2) y A
(3), utilizaremos directamente A, B y C. (López, 2018)

Ejemplo del teorema de Bayes


Una empresa tiene una fábrica en Estados Unidos que dispone de tres máquinas A, B y C, que
producen envases para botellas de agua. Se sabe que la máquina A produce un 40% de la
cantidad total, la máquina B un 30%, y la máquina C un 30%. También se sabe que cada máquina
produce envases defectuosos. De tal manera que la máquina A produce un 2% de envases
defectuosos sobre el total de su producción, la máquina B un 3%, y la máquina C un 5%. Dicho
esto, se plantean dos cuestiones:
P(A) = 0,40 P(D/A) = 0,02
P(B) = 0,30 P(D/B) = 0,03
P(C) = 0,30 P(D/C) = 0,05
Si un envase ha sido fabricado por la fábrica de esta empresa en Estados Unidos ¿Cuál es la
probabilidad de que sea defectuoso?
Se calcula la probabilidad total. Ya que, a partir los diferentes sucesos, calculamos la
probabilidad de que sea defectuoso.
P(D) = [ P(A) x P(D/A)] + [ P(B) x P(D/B)] + [ P(C) x P(D/C)] = [ 0,4 x 0,02] + [ 0,3 x 0,03] +
[ 0,3 x 0,05] = 0,032
Expresado en porcentaje, diríamos que la probabilidad de que un envase fabricado por la fábrica
de esta empresa en Estados Unidos sea defectuoso es del 3,2%.
Siguiendo con la pregunta anterior, si se adquiere un envase y este es defectuoso ¿Cuáles es la
probabilidad de que haya sido fabricado por la máquina A? ¿Y por la máquina B? ¿Y por la
máquina C?
Aquí se utiliza el teorema de Bayes. Tenemos información previa, es decir, sabemos que el
envase es defectuoso. Claro que, sabiendo que es defectuoso, queremos saber cuál es la
probabilidad de que se haya producido por una de las máquinas.
P(A/D) = [P(A) x P(D/A)] / P(D) = [0,40 x 0,02] / 0,032 = 0,25
P(B/D) = [P(B) x P(D/B)] / P(D) = [0,30 x 0,03] / 0,032 = 0,28
P(C/D) = [P(C) x P(D/C)] / P(D) = [0,30 x 0,05] / 0,032 = 0,47
Sabiendo que un envase es defectuoso, la probabilidad de que haya sido producido por la
máquina A es del 25%, de que haya sido producido por la máquina B es del 28% y de que haya
sido producido por la máquina C es del 47%. (López, 2018)

28
LABORATORIO DE ESTADÍSTICA GENERAL -UNIDAD II

Parte A: Medidas de resumenestadístico.

1. Explica en qué consisten las medidas de tendencia central y proporciona


ejemplos de tres medidas de tendencia central comunes.

29
Las medidas de dependencia central son estadísticas que resumen la ubicación
de un conjunto de datos. Algunas de las más comunes son la media, la mediana
y la moda. La media es el promedio, la mediana es el valor del medio cuando
los datos están ordenados, y la moda es el valor que aparece con mayor
frecuencia. Estas medidas ofrecen diferentes perspectivas sobre la tendencia
central de los datos.
. Media:
- Datos: 8, 12, 18, 24, 30
- Media: (8 + 12 + 18 + 24 + 30) / 5 = 18

. Mediana:
- Datos: 4, 7, 9, 12, 15
- Mediana: 9 (valor medio cuando se ordenan los datos)

. Moda:
- Datos: 3, 5, 5, 8, 10
- Moda: 5 (valor más frecuente)

2. Define las medidas dedispersióny proporciona un ejemplo de cómo se


utilizan en la interpretación de datos.
Las medidas de dispersión son estadísticas que describen cuánto varían los
datos en un conjunto de datos. Algunos ejemplos de medidas de dispersión
son:

. Rango: La diferencia entre el valor más alto y el valor más bajo en un


conjunto de datos. Por ejemplo, si tienes las edades de un grupo de personas
que son 20, 25, 30 y 35, el rango sería 35 - 20 = 15 años.

. Varianza: Es la media de las diferencias al cuadrado entre cada número del


conjunto de datos y la media del conjunto. Esto se utiliza para medir cuán
dispersos están los datos.

. Desviación estándar: Es la raíz cuadrada de la varianza y proporciona una


medida de la dispersión que está en las mismas unidades que los datos
originales. Por ejemplo, si estás analizando las calificaciones de los
estudiantes, la desviación estándar te diría cuánto se desvían las calificaciones
individuales de la calificación media.

. Coeficiente de variación: Es la desviación estándar dividida por la media, y


se utiliza para comparar la variabilidad de dos o más conjuntos de datos que
tienen diferentes unidades de medida o medias muy diferentes.

30
Estas medidas se utilizan para interpretar datos en muchas áreas, desde la
investigación científica hasta la economía. Por ejemplo, un economista podría
usar la varianza y la desviación estándar para analizar la volatilidad de los
precios de las acciones. Un rango alto y una desviación estándar alta
indicarían que los precios de las acciones fluctúan mucho, lo que podría ser
un signo de riesgo para los inversores.

3. Enumera al menos tres medidas de posición utilizadas en estadísticas y


explica cuándo es apropiado utilizar cada una.
Las medidas de posición son estadísticas que nos ayudan a entender cómo se
distribuyen los datos en un conjunto. Estos son algunos ejemplos:

. Percentiles: Los percentiles dividen un conjunto de datos en 100 partes


iguales. Por ejemplo, si estás en el percentil 90 de altura, eso significa que
eres más alto que el 90% de las personas. Los percentiles son especialmente
útiles cuando queremos comparar la posición de un valor individual en
relación con el resto del conjunto de datos.

. Cuartiles: Los cuartiles dividen un conjunto de datos en cuatro partes


iguales. El primer cuartil (Q1) es el valor por debajo del cual se encuentra el
25% de los datos. El segundo cuartil (Q2) es la mediana, y el tercer cuartil
(Q3) es el valor por debajo del cual se encuentra el 75% de los datos. Los
cuartiles son útiles cuando queremos entender la distribución de los datos y
detectar valores atípicos.

. Deciles: Los deciles dividen un conjunto de datos en diez partes iguales. Al


igual que los percentiles y los cuartiles, los deciles nos ayudan a entender la
posición de un valor individual en relación con el conjunto de datos.

Cada una de estas medidas de posición es apropiada en diferentes situaciones,


dependiendo de lo que estés tratando de entender sobre tus datos. Por
ejemplo, si estás analizando los salarios en una empresa y quieres saber qué
porcentaje de empleados gana menos que un cierto valor, podrías usar
percentiles. Si estás interesado en entender la distribución de los datos y
detectar valores atípicos, los cuartiles serían una buena opción. Y si quieres
una visión más detallada de la distribución de los datos, podrías usar deciles.

4. ¿Qué son las medidas de forma en estadísticas y por qué son importantes?.
Proporciona un ejemplo de una medida de forma.

Las medidas de forma en estadísticas son indicadores que nos permiten


describir y analizar la distribución de un conjunto de datos. Algunos ejemplos
comunes de medidas de forma son la asimetría y la curtosis.

31
La asimetría se refiere a la falta de simetría en una distribución de datos. Un
conjunto de datos es simétrico si, cuando lo trazas en un gráfico, los dos lados
del gráfico son imágenes especulares uno del otro. Si un conjunto de datos no
es simétrico, entonces tiene asimetría. La asimetría puede ser positiva (la cola
del gráfico se extiende hacia la derecha) o negativa (la cola se extiende hacia
la izquierda).

La curtosis, por otro lado, mide la "pesadez" de las colas de una distribución.
Una distribución con alta curtosis tiene colas más pesadas, lo que significa
que es más probable que tenga valores extremos.

Estas medidas de forma son importantes porque nos ayudan a entender la


naturaleza de la distribución de un conjunto de datos. Nos permiten ver si los
datos están sesgados de alguna manera, o si son propensos a tener valores
extremos.

Por ejemplo, si estás analizando los tiempos de ejecución de un grupo de


corredores en una carrera, la asimetría podría indicarte si hay un pequeño
número de corredores que son significativamente más rápidos o más lentos
que el resto. La curtosis podría mostrarte si hay muchos corredores que
terminan la carrera en tiempos muy similares (baja curtosis), o si hay una gran
variabilidad en los tiempos de finalización (alta curtosis).

5. En un estudio sobre la reforestaciónen la Amazonía peruana, se recopilaron


datos sobre el número de árboles plantados por diferentes organizaciones
en una muestra de 50 parcelas de tierra. Estos datos se agruparon en
intervalos de plantación. Los datos agrupados se presentan a continuación:

32
Usando los datos agrupados proporcionados, responde las siguientes preguntas:

a) Calcula la marca de clase para cada intervalo.

b) Calcula la media, la mediana y la moda de la cantidadde árboles


plantados por las organizaciones.

33
c) Calcula la desviación estándar de la cantidad de árboles plantados.

34
d) Determina el rango intercuartílico de los intervalos de plantación.

35
e) Calcula la Asimetría. Interpretar

36
37
f) Calcula la Curtosis. Interpretar

g) Representa los datos agrupados en un histograma.

38
Parte B: Regresión Lineal Simple

1. Define la regresión lineal simple y explica en qué tipo de situaciones se


utiliza comúnmente.
La regresión lineal simple es un método estadístico que permite resumir y
estudiar las relaciones entre dos variables continuas. Una de estas
variables, conocida como variable dependiente, es lo que estás tratando
de entender o predecir, y la otra, la variable independiente, es la que se
utiliza para hacer las predicciones.

En términos más simples, la regresión lineal simple es como trazar una


línea de mejor ajuste a través de un conjunto de datos. Esta línea se
utiliza luego para predecir los valores futuros.

Este método se utiliza comúnmente en situaciones donde necesitas


entender el impacto de una variable sobre otra. Por ejemplo, podría ser
útil para predecir las ventas futuras en función de la cantidad de dinero
gastada en publicidad, o para predecir el rendimiento de un estudiante
en función de las horas que pasa estudiando.

Es importante recordar que la regresión lineal simple sólo es útil cuando


existe una relación lineal entre las dos variables. Si la relación es más
compleja, podrías necesitar utilizar otros métodos estadísticos.

2.Supón que estás analizando la relación entre la cantidad de estudio (en horas) y el
puntaje en un examen (en puntos, 0 a 100 puntos). Realiza una regresión lineal
simple, utilizando los siguientes datos:

39
x y x.y x
2
y
2

2 70 140 4 4900
3 75 225 9 5625
5 85 425 25 7225
6 88 528 36 7744
8 92 736 64 8464
∑ x =¿ 24 ¿ ∑ y=¿ ¿410 ∑ xy =¿ ¿205 ∑ x 2=¿ ¿13 ∑ y 2=¿ ¿33 958
4 8

3. Calcula la ecuación de la recta de regresión, el coeficiente de correlación (r), R2. Explica

el significado de estos resultados.

Ecuación de la recta de regresión Y =ax+ b


Hallamos b:
n ( ∑ xy ) −( ∑ x )( ∑ y )
a= 2
n ∑ x −( ∑ x )
2

5 ( 2054 )−(24)(410)
a= 2
5(138)− ( 24 )
10270−9840
a=
690−576
430
a=
114
a=3.771
 Hallamos a:

b=
∑ y−a ∑ x
n
410−(3.771)(24)
b=
5
410−90.504
b=
5

40
319.496
b=
5
b=63.89
 Ecuación de la recta de regresión: Y =3.771 x +63.892

Coeficiente de correlación (r)


n ∑ xy−( ∑ x)( ∑ y)
r=
√ [n ∑ x −(∑ x ) ]¿ ¿ ¿
2 2

5(2054 )−(24)(410)
r=
√ [5 ( 138 )− ( 24 ) ][5 ( 33962 )−( 410 ) ]
2 2

10270−9840
r=
√ [690−576][169810−168100]
430
r=
√ [114 ][1710]
430
r=
√ 194940
430
r=
441.52
r =0.973

Coeficiente de determinación (r 2):


2 2
r =(0.973)
2
r =0.946
2
r =94.6 %

41
Parte C: Probabilidad

1. Define la probabilidad clásica y proporciona un ejemplo de un experimento


aleatorio donde se pueda aplicar.
La probabilidad clásica es un caso particular del cálculo de la probabilidad de
un evento. Se define como el cociente entre los eventos favorables a dicho
evento y el total de eventos posibles, con la condición de que cada uno de estos
eventos sean todos igualmente probables.

Un ejemplo de un experimento aleatorio donde se puede aplicar la probabilidad


clásica es el lanzamiento de una moneda. Si lanzamos una moneda al aire, los
resultados posibles son cara o cruz. Como la moneda es equilibrada, cada
resultado tiene la misma probabilidad de ocurrir. Por lo tanto, la probabilidad de
que salga cara es 1/2 y la probabilidad de que salga cruz es ½.

2. Explica el concepto de probabilidad condicional y proporciona un ejemplo que


ilustre su uso.
La probabilidad condicional es la probabilidad de que un evento ocurra, dado
que otro evento ya ha ocurrido. Se denota como P(A|B), donde A y B son dos
eventos

Un ejemplo de probabilidad condicional es el siguiente: Supongamos que una


urna contiene 3 bolas rojas y 2 bolas azules. Si sacamos una bola al azar, la
probabilidad de que sea roja es 3/5 y la probabilidad de que sea azul es 2/5.
Ahora, supongamos que sabemos que la bola que sacamos es roja. ¿Cuál es la
probabilidad de que la siguiente bola que saquemos también sea roja? La
respuesta es que la probabilidad de que la siguiente bola sea roja depende de si
reemplazamos o no la bola que sacamos. Si reemplazamos la bola, entonces la
probabilidad de que la siguiente bola sea roja sigue siendo 3/5. Pero si no
reemplazamos la bola, entonces la probabilidad de que la siguiente bola sea roja
es 2/4 o 1/2, ya que solo quedan 2 bolas rojas y 4 bolas en total

42
Define el teoremade Bayes y cómose utiliza en la probabilidad. Proporciona un
ejemplo quemuestre suaplicació n .

El teorema de Bayes es un principio fundamental en la teoría de la


probabilidad y la estadística que se utiliza para actualizar la probabilidad de
un evento en función de nueva información. Se expresa de la siguiente
manera:
P(A|B) = P(B|A).P(A)/P(B) Donde:
P(A|B) es la probabilidad condicional de que ocurra el evento A dado que ha
ocurrido el evento B.
P(B|A) es la probabilidad condicional de que ocurra el evento B dado que ha
ocurrido el evento A.
P(A) es la probabilidad previa de que ocurra el evento A.
P(B) es la probabilidad previa de que ocurra el evento B. Un ejemplo de
aplicación del teorema de Bayes es en pruebas médicas. Supongamos que
estamos realizando una prueba de detección de una enfermedad rara. La
probabilidad de que una persona tenga la enfermedad antes de hacer la
prueba es baja, digamos un 1% (esto sería P(A) = 0.01). La prueba es 95%
precisa, lo que significa que la probabilidad de que la prueba sea positiva
dado que la persona tiene la enfermedad es P(B|A) = 0.95, y la probabilidad
de que la prueba sea positiva dado que la persona no tiene la enfermedad es
P(B|\ A) = 0.05.
Utilizando el teorema de Bayes, podemos calcular la probabilidad de que
una persona tenga la enfermedad dado que la prueba es positiva
((P(A|B)). Esto nos ayuda a evaluar la probabilidad de que una persona
realmente tenga la enfermedad después de realizar la prueba, teniendo en
cuenta la precisión de la prueba y la probabilidad inicial de la enfermedad.

43
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General

En unestudio sobre latalade árboles en el Perú, se han recopilado datos sobre dos
3.
eventos: A (talailegal de árboles) y B (tala legal de árboles).

• En el 60% de las áreas forestales, se lleva a la tala legal de árboles (evento B).
cabo lleva latalailegal de árboles (evento A).
• En el 40% de las áreas forestales, se a cabo

Además, se haobservado que:

• El 25% de las áreas donde se latalailegal de á rboles tambié nse realiza latala
realiza legal (es decir, P(B|A) =
0.25).
• El 75% de las áreas donde se latalailegal de árboles nose realiza latala legal
realiza (es decir, P(B'|A) = 0.75).

Entonces, calcula la probabilidadde que serealice la tala legal de árboles en cualquier

área forestalenel Perú (P(B)).

a) Calcula la probabilidad de que se realice la tala ilegal de árboles en cualquier


área forestalenel Perú (P(A)).

b) Calcula la probabilidad de que se realice la tala legal de árboles dado que ya


se ha realizado latalailegal de árboles enun área forestal (P(B|A)).

c) Calcula la probabilidadde que nose realice la tala legal de árboles dado que
yaseha realizado latalailegal de árboles enun área forestal (P(B'|A)).

Para resolver este problema utilizando las reglas de la probabilidad


condicional, podemos seguir los datos proporcionados:
Dado:
- P(B) es la probabilidad de la tala legal de árboles.
- P(A) es la probabilidad de la tala ilegal de árboles.
- P(B|A) es la probabilidad de la tala legal de árboles dado que se ha realizado
la tala ilegal de árboles.

1
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
- P(B'|A) es la probabilidad de no realizar la tala legal de árboles dado que se
ha realizado la tala ilegal de árboles.
Los valores proporcionados son:
- P(B) = 0.60 (probabilidad de tala legal de árboles)
- P(A) = 0.40 (probabilidad de tala ilegal de árboles)
-(P(B|A) = 0.25 (probabilidad de tala legal dado que se ha realizado tala ilegal)
- P(B'|A) = 0.75 (probabilidad de no realizar tala legal dado que se ha realizado
tala ilegal)
Vamos a resolver cada uno de los incisos:

a) Calcular la probabilidad de que se realice la tala ilegal de árboles en


cualquier área forestal en Perú (P(A)):
P(A) = 0.40

b) Calcular la probabilidad de que se realice la tala legal de árboles dado


que ya se ha realizado la tala ilegal de árboles en un área forestal (P(B|
A)):
P(B|A) = 0.25

c) Calcular la probabilidad de que no se realice la tala legal de árboles


dado que ya se ha realizado la tala ilegal de árboles en un área forestal
(P(B'|A)):
P(B'|A) = 0.75
Para calcular la probabilidad de que se realice la tala legal de árboles en
cualquier área forestal en Perú (P(B)), podemos utilizar el teorema de la
probabilidad total:
P(B) = P(B|A) × P(A) + P(B|A') × P(A')
Donde:
- P(B|A') es la probabilidad de la tala legal dado que no se ha realizado la
tala ilegal.
- P(A') es la probabilidad de no realizar la tala ilegal de árboles.
Para enconrar P(B|A'), usamos la regla complementaria: P(B|A') = 1 - P(B'|
A') ya que, si no se realiza la tala ilegal, la única otra posibilidad es realizar
la tala legal.

2
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
Calculamos:
P(B|A') = 1 - P(B'|A')
P(B|A') = 1 - 0.75
P(B|A') = 0.25
Ahora, utilizamos la fórmula de la probabilidad total para encontrar
(P(B):
P(B) = P(B|A) × P(A) + P(B|A') × P(A')
P(B) = 0.25 × 0.40 + 0.25 × 0.60
P(B) = 0.1 + 0.15
P(B) = 0.25
Por lo tanto, la probabilidad de que se realice la tala legal de árboles en
cualquier área forestal en Perú es (0.25) o (25)

3
Docente: Ing. M. Sc. Juan francisco Agreda Vega ASIGNATURA:
Estadística General
REFERENCIAS:

BENALCÁZAR, Marco, (2002), Unidades para Producir


Medios Instruccionales en Educación , SUÁREZ, Mario
Ed. Graficolor, Ibarra, Ecuador .

DAZA, Jorge, (2006), Estadística Aplicada con


Microsoft Excel , Grupo Editorial Megabyte.

ALEA, V. et al. (1999) Estadística Aplicada a les Ciències Econòmiques i Socials. Barcelona:
Edicions McGraw-Hill EUB.

CANAVOS, G. (1988) Probabilidad y Estadística. Aplicaciones y Métodos. México: McGraw-


Hill.

DURA PEIRó, J. M. y LóPEZ CUñAT, J.M. (1992) Fundamentos de Estadística. Estadística


Descriptiva y Modelos Probabilísticos para la Inferencia. Madrid: Ariel Editorial.

ESCUDER, R. y SANTIAGO, J. (1995) Estadística aplicada. Economía y Ciencias


Sociales. Valencia: Tirant lo Blanch.

FERNáNDEZ CUESTA, C., y FUENTES GARCíA, F. (1995) Curso de Estadística Descriptiva.


Teoría y Práctica. Madrid: Ariel.

También podría gustarte