Autor: Guilherme Sowek
No artigo publicado anteriormente [link] foi apresentada a distribuição lognormal com suas aplicações e vantagens em geologia do petróleo. Neste artigo será apresentado um programa que permite testar se a amostra de dados de alguma população qualquer (e.g. valores de permeabilidade, área, volume, etc.) segue uma distribuição lognormal e realiza todos cálculos estatísticos básicos. Ele foi criado por não ter encontrado nenhum programa gratuito que realizasse as análises que desejava de forma simplificada. Com software Excel é possível realizar a maior parte dos cálculos, contudo alguns exigem um conhecimento avançado no uso do software e de conceitos de estatística.
1 – O Programa:
O programa foi desenvolvido na linguagem Python, mas não necessita de nenhum conhecimento em programação para utilizá-lo. Quem tem um conhecimento básico em programação vai poder fazer as modificações que desejar e entender como foi elaborado os cálculos e gráficos.
Ele está armazenado na plataforma “Colaboratoty” do Google, portanto, a única demanda para usá-la será ter uma conta Google. O arquivo à primeira vista pode parecer complexo para quem não entende programação, mas ele é bem simples e intuitivo de utilizar.
Ele apresenta três blocos de informações (Figura 1):
Texto: apresenta o título das seções (1 a 6) e instruções do programa;
Programação: blocos com a programação em Python. São blocos com fundo cinza claro com linhas numeradas. Para rodar um bloco, deve-se colocar o mouse em cima, e irá aparecer um símbolo de play na parte superior esquerda e basta clicar neste símbolo para iniciar este bloco;
Resultado/Interação da programação: aparecem logo após os blocos de programação com os resultados em texto, gráfico, tabela, etc.
Figura 1 : exemplo dos 3 tipos de blocos de informações do programa
2 – Passo-a-Passo:
1) Link para o programa: [clique aqui]
2) Criar uma cópia do arquivo no seu drive: File > Save a copy in Drive
3) Item “1.Notebook Overview” tem informações gerais sobre o programa e links sobre a distribuição lognormal.
4) Item “2.Python Libraries” tem alguns dados que serão utilizados e precisam ser baixados antes de começar a rodar o programa (não precisa se preocupar, pois nada será instalado no seu computador, já que funciona em uma máquina virtual). Este tópico contém dois blocos de programas e basta rodá-los clicando na parte superior esquerda de cada bloco com fundo cinza (Figura 2).
Figura 2: blocos de programa que carregam as informações necessárias para todo o resto do programa.
5) O próximo passo é carregar o arquivo para análise. Existem duas opções: carregar um arquivo teste ou carregar um arquivo Excel do próprio computador (deve ser .xlsx).
a. No tópico “Loading sample data” vai carregar um arquivo de areas de campos do Brasil. Basta apenas rodar este bloco.
b. Caso queira carregar algum arquivo .xlsx do seu computador pule para o tópico “Uploading your file”. Nele quando rodar o bloco vai pedir o caminho no computador aonde está o seu arquivo.
c. Depois de carregar o arquivo (ou o seu ou o sample) passe para a seção “Define the column to analyze”. Quando rodar o primeiro código vai abrir uma caixa para preencher o nome da coluna com os dados numéricos a serem analisados. Deve-se preencher com o nome idêntico ao do arquivo, respeitando maiúsculas e minúsculas, e em seguida clicar Enter (Figura 3). O próximo bloco de programação vai fazer alguns cálculos na tabela que serão utilizados posteriormente na análise (Figura 4).
Figura 3: Bloco que pede o nome da coluna para ser analisado.
Figura 4: Bloco que faz cálculos básicos nos dados carregados para verificar se os dados apresentam distribuição lognormal.
6) O item “4. Test for lognormality” é um passo importante e vai testar se os dados inseridos apresentam uma distribuição lognormal e assim valida a distribuição dos seus dados. Depois de rodar o código ele vai informar se a distribuição segue ou não a lognormalidade (Figura 5).
a. No resultado também é apresentado os dados de curtose (kurtosis) e assimetria (skewness). Numa distribuição lognormal estes valores são elevados (>1) e com logaritmo dos valores se espera que a curtose e assimetria apresentem valores baixos (<1).
b. Para entender melhor o teste que verifica a se os dados seguem uma distribuição lognormal verifique os seguintes links:
Figura 5: Resultado do item 4. Apresenta se os dados passam o teste de lognormalidade e os valores de curtose e assimetria.
7) O seguinte bloco de código constrói histograma para os dados e para o logaritmo dos dados. Eles ajudam a visualizar os dados de curtose e assimetria (Figura 6).
Figura 6: Histogramas, da esquerda são os dados originais e na direita com o logaritmo neperiano dos valores.
8) O item [FD1] 5: “Lognormal statistics” vai realizar cálculos estatísticos e gráficos da distribuição lognormal. Para entender melhor esta parte recomendo ler antes o artigo anterior pois nele são descritos em detalhe os valores que são calculados aqui (como P10, P50 e P90, por exemplo).
a. Primeiro bloco calcula os valores estatísticos (Figura 7):
Figura 7: Bloco de código que faz cálculos estatísticos básicos dos dados carregados.
b. O segundo bloco vai criar um histograma com os valores de P01, P10, média aritimética, média estatística, P90 e P99 (Figura 8).
Figura 8 : Bloco de código e histograma dos dados com os valores de P01, P10, P90, P99 e médias.
c. O terceiro bloco cria um boxplot dos dados (Figura 9):
Figura 9 : Bloco de código e gráfico boxplot dos dados carregados.
d. O próximo bloco vai gerar um gráfico importante, normalmente usado na geologia de exploração em caso de dados com distribuição log normal. O gráfico apresenta no eixo X, em escala logarítmica, os valores dos dados analisados e no eixo Y o valor de probabilidade acumulada numa escala probabilística (Figura 10). A escala probabilística não é linear e ela é importante, pois uma distribuição lognormal tende a seguir uma linha reta neste gráfico com esta escala. Um dos principais motivos de construir este programa foi a escala probabilística não existe no Excel e em outros programas similares.
Figura 10 : Gráfico de probabilidade acumulada com valores em escala logarítmica.
e. Por último, no item 5, é criado um gráfico semelhante ao anterior apenas com a diferença que o eixo X é linear e não em escala logarítmica (Figura 11).
Figura 11 : Gráfico de probabilidade acumulada com valores em escala linear.
9) O último item do programa “Calculated Statistics” tem dois blocos que vão preparar um resumo de toda a estatística para os dados carregados (Figura 12). Os resultados são divididos em três partes:
a. “Input data set Statistics”: que apresentam cálculos estatísticos dos dados originais carregados e, que podem ser usados mesmo se a distribuição não for lognormal, pois estes cálculos não irão variar.
b. “Lognormal statistics”: são dados que devem ser utilizados apenas se a distribuição for lognormal. A média nesta parte é a média correta a ser utilizada caso a distribuição seja lognormal.
c. “Truncated statistics”: também deve ser utilizada apenas com distribuição de dados lognormal. Nesta parte a média é calculada retirando os valores extremos dos dados. A média estatística é calculada ignorando os valores 1% menores e 1% maiores da distribuição. Isto é feito, pois em distribuições lognormais normalmente os valores muito pequenos ou muito grandes são muito extremos e com probabilidade muito baixa de ocorrer. No caso da exploração de prospectos é importante excluir os valores extremos, pois quando pretende fazer uma média de prospectos já descobertos para ter uma ideia do que o play ainda pode apresentar não se espera encontrar campos gigantescos (prospectos mais óbvios já foram perfurados) e os prospectos com tamanho muito pequeno e limítrofe economicamente não serão perfurados.
Figura 12 : Resultados estatísticos dos dados carregados
Comments