Pular para conteúdo

Estatística amostral

Warning

Esta biblioteca está em desenvolvimento, nenhuma das soluções apresentadas está disponível para download.

Este módulo permite calcular parâmetros de amostragem simples e estratificada com base nos volumes das unidades amostrais.


Parâmetros da Classe

SamplingStats(volume_df)
Parâmetros Descrição
volume_df O dataframe contendo os dados de volume por unidade amostral.

Funções da Classe

funções e parâmetros
  SamplingStats.simple(total_area, plot_id, plot_area,
                       volume, error_lim=10, conf=95)#(1)!
  SamplingStats.stratified(total_area, stratum_id, stratum_area,
                           plot_id, plot_area, volume, error_lim=10, conf=95)#(2)!
  SamplingStats.stratified_anova()

  1. total_area = Nome da coluna que contém o valor da área total em metros quadrados do povoamento florestal avaliado.
    plot_id = Nome da coluna que contém o identificador único da parcela/unidade amostral.
    plot_area = Nome da coluna que contém a área em metros quadrados da parcela/unidade amostral.
    volume = Nome da coluna que contém os valores de volume em metros cúbicos de cada parcela/unidade amostral.
    error_lim = (Opcional) Valor númerico ou nome da coluna que contenha o limite de erro tolerado em valor percentual.
    conf = (opcional) Valor numérico ou nome da coluna que representa o nível de confiança (por exemplo, 95%) a ser utilizado nos cálculos estatísticos.

  2. total_area = Nome da coluna que contém o valor da área total em metros quadrados do povoamento florestal avaliado.
    stratum_id = Nome da coluna que contém o identificador único do estrato.
    plot_id = Nome da coluna que contém o identificador único da parcela/unidade amostral.
    plot_area = Nome da coluna que contém a área em metros quadrados da parcela/unidade amostral.
    volume = Nome da coluna que contém os valores de volume em metros cúbicos de cada parcela/unidade amostral.
    error_lim = (Opcional) Valor númerico ou nome da coluna que contenha o limite de erro tolerado em valor percentual.
    conf = (opcional) Valor numérico ou nome da coluna que representa o nível de confiança (por exemplo, 95%) a ser utilizado nos cálculos estatísticos.

Parâmetros Descrição
.simple() Retorna um DataFrame contendo os parâmetros estatísticos e a suficiência amostral para amostragem aleatória simples.
.stratified() Retorna um DataFrame contendo os parâmetros estatísticos e a suficiência amostral para amostragem estratificada.
.stratified_anova() Retorna um DataFrame contendo análise de variância (ANOVA) da estratificação realizada com o método .stratified().

Amostragem simples

Exemplo de Uso

Considere a adaptação do exemplo utilizado por Sanquetta et al. (2014) para exemplificar o cálculo das estatísticas do processo de amostragem aleatória simples.

Fazenda Parcela area_total (m²) area_parcela (m²) Volume (m³) limite_erro(%) nivel_confianca(%)
Fazenda 1 1 400000 600 20,85 10 95
Fazenda 1 2 400000 600 19,47 10 95
Fazenda 1 3 400000 600 24,13 10 95
Fazenda 1 4 400000 600 24,34 10 95
Fazenda 1 5 400000 600 25,13 10 95
Fazenda 1 6 400000 600 22,37 10 95
Fazenda 1 7 400000 600 22,51 10 95
Fazenda 1 8 400000 600 19,78 10 95
Fazenda 1 9 400000 600 25,05 10 95
Fazenda 1 10 400000 600 28,84 10 95
Fazenda 1 11 400000 600 23,70 10 95
Fazenda 1 12 400000 600 24,78 10 95
Fazenda 1 13 400000 600 22,58 10 95
Fazenda 1 14 400000 600 23,70 10 95
Fazenda 1 15 400000 600 36,16 10 95
Fazenda 1 16 400000 600 17,83 10 95

Fazer download do arquivo.

sampling_stats_simple_example.py
1
2
3
from fptools.sampling_stats import SamplingStats#(1)!

import pandas as pd#(2)!

  1. Importa a classe SamplingStats.
  2. Importa o pandas para manipulação de dados.

sampling_stats_simple_example.py
df = pd.read_excel(r'sua_pasta/volume_parcelas_simples_pt.xlsx')#(1)!

ss = SamplingStats(df)#(2)!

ss_results = ss.simple(total_area='area_total (m²)', plot_id='Parcela',
                       plot_area ='area_parcela (m²)',volume = 'Volume (m³)',
                       error_lim='limite_erro(%)', conf='nivel_confianca(%)')#(3)!

ss_results.to_excel('simple_sampling_stats.xlsx', index=False)#(4)!

  1. Carrega arquivo xlsx contendo os dados.
  2. Cria a variável ss contendo a classe SamplingStats e recebendo o DataFrame df.
  3. Indica o nome das colunas para cada parâmetro da função .simple() e salve os resultados na variável ss_result.
  4. Salva os resultados em um arquivo simple_sampling_stats.xls para posterior visualização.
Uma mensagem aparecerá na saída do executor do código informando sobre sucesso dos cálculos.
output

As seguintes informações serão geradas pela função simple()

metric value
population finite
real_n_par 16
ideal_n_par 15
mean_stratified (m³/plot) 23,83
variance (m³/plot) 17,82
st_deviation (m³/plot) 4,22
coeff_variation (%) 17,72
variance_of_the_mean (m³/plot) 1,09
st_error_of_the_mean (m³/plot) 1,04
abs_sampl_error (m³/plot) 2,24
rel_sampl_error (%) 9,39
mean_confidence_interval (m³) (21.59, 26.06)
confidence_interval_total population (m³) (14400.52, 17383.7)
total (m³/ha) 397,3
total_population (m³) 15892,11

Amostragem estratificada

Exemplo de Uso

sampling_stats_stratified_example.py
1
2
3
from fptools.sampling_stats import SamplingStats#(1)!

import pandas as pd#(2)!

  1. Importa a classe SamplingStats.
  2. Importa o pandas para manipulação de dados.

sampling_stats_stratified_example.py
df_stratified = pd.read_excel(r'sua_pasta/volume_parcelas_estratificado_pt.xlsx')#(1)!

ss = SamplingStats(df_stratified)#(2)!

ss_results = ss.simpless.stratified(total_area='area_total (m²)',
                           stratum_id='Estrato',
                           stratum_area='Área do estrato (m²)',
                           plot_id='Parcela',
                           plot_area = 'area_parcela (m²)',
                           volume="Volume (m³)",
                           error_lim='limite_erro(%)',
                           conf='nivel_confianca(%)')#(3)!

ss_results.to_excel('stratified_sampling_stats.xlsx', index=False)#(4)!
anova = ss.stratified_anova()#(5)!
anova.to_excel("anova.xlsx", index=False)#(6)!

  1. Carrega o arquivo xlsx contendo os dados.
  2. Cria a variável ss contendo a classe SamplingStats e recebendo o DataFrame df_stratified.
  3. Indica o nome das colunas para cada parâmetro da função .stratified() e salve os resultados na variável ss_result.
  4. Salva os resultados em um arquivo stratified_sampling_stats.xlsx para posterior visualização.
  5. Salva os valores da análise de variância na variável anova.
  6. Salva a análise de variância em um arquivo anova.xlsx

Para esse exemplo, também usaremos os valores obtidos em Sanquetta et al. (2014).
Fazer download do arquivo.

As seguintes informações serão geradas pela função stratified(). Nesse caso, são gerados os resumos estatísticos tanto para o total quanto para os estratos individuais.

metrics total Estrato 1 Estrato 2
population finite finite finite
real_n_par 24 12 12
ideal_n_par 8 5,2 2,8
mean (m³/plot) 107,25 89,08 125,42
variance (m³/plot) 137,91 71,54 261,17
st_deviation (m³/plot) 11,15 8,46 16,16
coeff_variation (%) 10,4 9,49 12,89
variance_of_the_mean (m³/plot) 5,05 5,85 21,02
st_error_of_the_mean (m³/plot) 2,25 2,42 4,58
abs_sampl_error (m³) 5,5 5,92 11,22
rel_sampl_error (%) 5,13 6,64 8,94
mean_confidence_interval (m³) (101.75, 112.75) (83.16, 95.0) (114.2, 136.63)
confidence_interval_total population (m³) (101752.9, 112747.1) (54056.81, 61751.53) (39969.52, 47822.15)
total (m³/ha) 107,25 89,08 125,42
total_population (m³) 107250 57904,17 43895,83

Análise de variância (ANOVA) gerada:

Source of Variation SS df MS F F_critical H0
Between Strata 7920,667 1 7920,667 47,61273 4,30095 Rejected
Within Strata 3659,833 22 166,356
Total 11580,5 23

Equações utilizadas

  • Simples
  • Intensidade amostral
    Populações finitas
    \[ \text{Número ideal de parcelas}: \operatorname{n} = \frac{N t^2 S_x^2}{N E^2 + t^2 S_x^2} \]
    Populações infinitas
    \[ \text{Número ideal de parcelas}: \operatorname{n} = \frac{t^2 S_x^2}{E^2} \]
    Estatísticas
    \[ \text{Média Aritmética}: \quad \bar{x} = \frac{\sum_{i=1}^{n} X_i}{n} \]
    \[ \text{Variância}: \quad s_x^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{x})^2}{n - 1} \]
    \[ \text{Desvio Padrão}: \quad s_x = \sqrt{ \frac{\sum_{i=1}^{n} (X_i - \bar{x})^2}{n - 1} } \]
    \[ \text{Variância da Média}: \quad s_{\bar{x}}^2 = \frac{s_x^2}{n} \cdot \left( \frac{N - n}{N} \right) \]
    \[ \text{Erro Padrão}: \quad s_{\bar{x}} = \pm \frac{s_x}{\sqrt{n}} \cdot \sqrt{1 - f} \]
    \[ \text{Coeficiente de Variação}: \quad \operatorname{cv}(\%) = \frac{s_x}{\bar{x}} \cdot 100 \]
    \[ \text{Erro de Amostragem Absoluto}: \quad E_a = \pm t \cdot s_{\bar{x}} \]
    \[ \text{Erro de Amostragem Relativo}: \quad E_r = \pm \frac{t \cdot s_{\bar{x}}}{\bar{x}} \cdot 100 \]
    \[ \text{Intervalo de confiança para a média}: \quad IC \left[ \bar{x} - (t \cdot s_{\bar{x}}) \leq \bar{X} \leq \bar{x} + (t \cdot s_{\bar{x}}) \right] = P \]
    \[ \text{Total da População}: \quad \hat{X} = N \cdot \bar{x} \]
    \[ \text{Intervalo de confiança para o Total}: \quad IC \left[ \hat{X} - N(t \cdot s_{\bar{x}}) \leq X \leq \hat{X} + N(t \cdot s_{\bar{x}}) \right] = P \]

  • Estratificada
  • Intensidade amostral
    Populações finitas
    \[ \text{Número ideal de parcelas}: \operatorname{n}= \frac{t^2 \sum_{h=1}^{L} W_h s_h^2}{E^2 + {t^2} \sum_{h=1}^{L} \frac{W_h s_h^2}{N}} \]
    Populações infinitas
    \[ \text{Número ideal de parcelas}: \operatorname{n} = \frac{t^2 \sum_{h=1}^{L} W_h s_h^2}{E^2} \]
    Estatísticas
    \[ \text{Média por Estrato}: \quad \bar{x}_h = \frac{\sum_{i=1}^{n_h} x_{ih}}{n_h} \]
    \[ \text{Média Estratificada}: \quad \bar{x}_{st} = \frac{\sum_{h=1}^{L} \left( N_h \cdot \bar{x}_h \right)}{N} = \sum_{h=1}^{L} \left( W_h \cdot \bar{x}_h \right) \]
    \[ \text{Variância por Estrato}: \quad s_h^2 = \frac{\sum_{i=1}^{n_h} (x_{ih} - \bar{x}_h)^2}{n_h - 1} \]
    \[ \text{Variância Estratificada}: \quad s_{st}^2 = \sum_{h=1}^{L} \left( W_h s_h^2 \right) \]
    \[ \text{Variância da Média Estratificada}: \quad s_{\bar{x}(st)}^2 = \sum_{h=1}^{L} W_h^2 \cdot \frac{s_h^2}{n_h} - \sum_{h=1}^{L} \frac{W_h s_h^2}{N} \]
    \[ \text{Erro Padrão Estratificado}: \quad s_{\bar{x}(st)} = \sqrt{ \sum_{h=1}^{L} W_h^2 \cdot \frac{s_h^2}{n_h} - \sum_{h=1}^{L} \frac{W_h s_h^2}{N} } \]
    \[ \text{Erro de Amostragem Absoluto}: \quad E_a = \pm t \cdot s_{\bar{x}(st)} \]
    \[ \text{Erro de Amostragem Relativo}: \quad E_r = \pm \frac{t \cdot s_{\bar{x}(st)}}{\bar{x}_{(st)}} \cdot 100 \]
    \[ \text{Intervalo de confiança para a Média Estratificada}: \quad IC \left[ \bar{x}_{(st)} - (t \cdot s_{\bar{x}(st)}) \leq \bar{X} \leq \bar{x}_{(st)} + (t \cdot s_{\bar{x}(st)}) \right] = P \]
    \[ \text{Total por Estrato}: \quad \hat{X}_h = N_h \cdot \bar{x}_h \]
    \[ \text{Total da População}: \quad \hat{X} = \sum_{h=1}^{L} \hat{X}_h = N \cdot \bar{x}_{st} \]
    \[ \text{Intervalo de Confiança para o Total}: \quad IC\left[ \hat{X} - N(t \cdot s_{\bar{x}(st)}) \leq X \leq \hat{X} + N(t \cdot s_{\bar{x}(st)}) \right] = P \]
    Análise de variância
    \[ \text{Soma dos quadrados entre estratos}: \operatorname{SQ}_e = \sum_{h=1}^{L} n_h \left( \bar{x}_h - \bar{x} \right)^2 \]
    \[ \text{Soma dos quadrados dentro dos estratos}\operatorname{SQ}_d = \sum_{h=1}^{L} \sum_{i=1}^{n_h} \left( x_{ih} - \bar{x}_h \right)^2 \]
    \[ \text{Soma dos quadrados totais}\operatorname{SQ}_t = \sum_{h=1}^{L} \sum_{i=1}^{n_h} \left( x_{ih} - \bar{x} \right)^2 \]
    \[ \text{Quadrado médio entre estratos}\operatorname{QM}_e = \frac{\operatorname{SQ}_e}{\operatorname{GL}_e} \]
    \[ \text{Quadrado médio dentro dos estratos}\operatorname{QM}_d = \frac{\operatorname{SQ}_d}{\operatorname{GL}_d} \]
    \[ \text{Valor de F calculado}\operatorname{F} = \frac{\operatorname{QM}_e}{\operatorname{QM}_d} \]

    Notação

    • \( N \): Número total de unidades da população ou número potencial
    • \( n \): Número de unidades amostradas ou medidas
    • \( n_h \): Número de unidades amostradas ou medidas no estrato
    • \( t\): Valor da distribuição t de Student
    • \( s_x^2 \): Variância
    • \( s_h^2 \): Variância do estrato h
    • \( s_{\bar{x}(st)} \): Erro padrão da média do estrato
    • \( W_h \): Proporção do estrato h na população
    • \( E \): Limite do erro tolerato (%)
    • \( \bar{x} \): Média amostral
    • \( \bar{x}_h \): Média amostral do estrato
    • \( x_{ih} \): volume da i-ésima parcela dentro do estrato h

    Referências

    SANQUETTA, C. R.; CORTE, A. P. D.; RODRIGUES, A. L.; WATZLAWICK, L. F. (2014). Inventários florestais: planejamento e execução. Curitiba: Multi-Graphic, 406 p.