Autor: Guilherme Sowek
1 - Distribuição Normal x Lognormal
A “distribuição” é uma parte fundamental da Estatística, pois permite a caracterização do que está sendo estudado baseado apenas em uma amostragem parcial de uma determinada população (lê-se quantidade de dados), sem precisar avaliá-la na totalidade, uma vez que seria impossível em determinadas situações. Sempre que lembramos do termo "distribuição" em estatística, a primeira que vem à mente (às vezes, a única) é a distribuição normal ou gaussiana; onde a distribuição da frequência dos dados (histograma) é simétrica. A distribuição normal é bastante prática, pois apresenta a Mediana igual à Moda e a Média (Figura 1). A Média pode ser calculada de forma simples pela soma de todos os números, dividido pela quantidade de amostras da população que, por sua vez, coincidirá com a Moda (valor com maior repetição) e a Mediana (valor que divide a distribuição na metade).
Entretanto, a distribuição normal não é a única existente. Além desta, existem diversos tipos de distribuições de probabilidade, como pode ser verificado neste link-1. As distribuições dos valores de uma população variam de acordo com o que está sendo analisado, e podem se encaixar em diferentes tipos de distribuição, conforme suas características.
Na Geologia, a maior parte dos parâmetros utilizados apresentam distribuição lognormal. Pode-se afirmar até que “o lognormal é o normal da geologia” [1]. Na Geologia do Petróleo, especialmente, esta distribuição é muito importante e utilizada em diversas áreas, como veremos no tópico seguinte.
Figura 1. Comparação entre a distribuição normal e lognormal.
Contudo, antes de mostrar sua aplicação, temos que entender o que é e quais suas principais características. A distribuição lognormal é definida quando os logaritmos dos valores da população/amostragem apresentam uma distribuição normal; ou seja, se temos uma amostragem com valores x1, x2, x3, ... xn e calcularmos o logaritmo deles através de ln(x1), ln(x2), ln(x3),... ln(xn) e depois montar a distribuição da frequência num histograma teremos uma distribuição normal (Figura 2).
Figura 2: A) Histograma de valores gerados aleatoriamente no excel com distribuição lognormal. B) Distribuição de Ln dos mesmos valores de A.
A distribuição de frequência de dados lognormais, diferente da normal, não é simétrica e apresenta assimetria positiva com a cauda da distribuição para a direita (right-skewed) (Figura 1). Isto se traduz com muitos valores pequenos e poucos valores grandes. A Moda está mais perto do valor mínimo que do valor máximo; a Mediana fica no meio da distribuição dividindo-a em partes iguais e a Média fica em direção a cauda, à direita da Mediana. A Média, assim como a Mediana (e outros parâmetros estatísticos) não podem ser calculados como na distribuição gaussiana, portanto, apresenta fórmulas específicas. Aos que tiverem curiosidade, vale conferir o link-2 e link-3 para mais informações.
2 - Utilização da distribuição lognormal na geologia do petróleo
Uma propriedade interessante que diferencia as distribuições normal e lognormal, é que a primeira representa a distribuição da soma de valores, enquanto a última representa o produto da multiplicação de valores. Esta afirmação pode ser verificada através de um experimento jogando dados, como visto na Figura 3. Neste exemplo, 4 dados são jogados simultaneamente, diversas vezes e os valores dos dados em cada jogada são somados e também multiplicados. A distribuição dos valores somados segue uma distribuição normal, ao passo que a distribuição dos valores multiplicados segue uma distribuição lognormal. Esta característica de valores multiplicados seguirem distribuição lognormal é um dos motivos que, por exemplo, a área ou volume de prospectos na geologia do petróleo seguem este tipo de distribuição.
Figura 3: A) Histograma normal com a soma dos dados. B) Histograma lognormal com a multiplicação dos valores dos dados. Fonte: modificado de [2].
Um dos principais parâmetros na geologia do petróleo em que a distribuição lognormal é utilizada na análise de probabilidades, é no tamanho de campos e prospectos de hidrocarbonetos (representados por volumes de óleo e/ou gás). Contudo, há outros que também seguem tal distribuição, como: área dos campos/prospectos; área de drenagem de campos e poços; permeabilidade; tamanho de grãos; espessura de hidrocarboneto nos poços (net-pay); taxa de produção de poços e campos; valores pagos por blocos em leilões; etc [1], [3], [4], [5], [6].
A distribuição lognormal tem algumas características que facilitam seu uso para os geocientistas. Uma delas é que a distribuição acumulada pode ser plotada em uma linha reta num gráfico com os eixos X e Y nas escalas logarítmica e de probabilidade, respectivamente (Figura 4).
Figura 4: Exemplo de gráfico para plotar a probabilidade (lognormal) acumulada. Eixo X na escala logarítimica, eixo Y na escala de probabilidade. Fonte: [4].
O eixo Y deste gráfico representa os valores de probabilidade e o eixo X, os valores do parâmetro que está sendo avaliado. A vantagem de ser uma linha reta é que com apenas 2 valores já é possível estimar, ainda que de forma imprecisa, a distribuição probabilística. Quanto maior o número de valores plotados, maior será a confiança da distribuição.
Para exemplificar, a Figura 5 representa a distribuição acumulada de volumes de campos ao redor do mundo em milhões de barris equivalentes de óleo (MBOE). Se pegarmos o ponto P50 na escala de probabilidade, encontraremos o valor de 5.4 MBOE; ou seja, se escolhermos aleatoriamente um campo no mundo ele terá 50% de chance de ser maior que 5.4 MBOE. O mesmo vale para outros valores, como o P10: com 10% de chance de encontrar um campo maior que 143 MBOE.
Figura 5: Gráfico com distribuição acumulada lognormal de campos de petróleo do mundo. Fonte: [7].
Esta forma é muito utilizada na prospecção de campos de petróleo, através da utilização do mesmo gráfico da figura 5, com campos de apenas um play. O gráfico mostrará a probabilidade de encontrar novos campos em relação ao tamanho dos que já foram encontrados, pois, a distribuição das amostras de campos já descobertos deve ser igual à da população de todos os campos (até os ainda não descobertos).
Os valores de Probabilidade (P) no quadro dentro da Figura 5 são os mais importantes na geologia do petróleo e podem ser traduzidos como:
● P01: Máximo valor geologicamente possível. Há 1% de probabilidade que uma amostra aleatória da distribuição será maior ou igual a este valor;
● P10: Máximo plausível para a área em questão. Há 10% de probabilidade que uma amostra aleatória da distribuição seja maior ou igual a este valor;
● P50: Metade da distribuição. Divide a curva em 2 partes iguais. Há 50% de probabilidade que uma amostra aleatória da distribuição será maior ou igual a este valor;
● P90: Mínimo plausível para a área em questão. Há 90% de probabilidade que uma amostra aleatória da distribuição seja maior ou igual a este valor. Valores entre P90 e P10 representam 80% de todo que é esperado;
● P99: Menor valor geologicamente possível. Há 99% de probabilidade que uma amostra aleatória da distribuição seja maior ou igual a este valor.
O cálculo da Média neste tipo de distribuição é mais complexo do que simplesmente somar os valores e dividir pela quantidade deles. Entretanto ele é facilmente calculado no Excel ou em softwares estatísticos. Outra facilidade desta distribuição é a Regra de Swanson [8], que permite calcular um valor bastante aproximado à Média, tendo apenas os valores de P10, P50 e P90 retirados do gráfico. A Média de Swanson é calculada da seguinte forma: 0,3 x (P10) + 0,4 x (P50) + 0,3 x (P90) (Figura 6).
Figura 6: Exemplo de cálculo da Média de Swanson. Fonte: [7].
A parte estatística e matemática para gerar os gráficos, a Média, a Mediana e outros parâmetros na distribuição lognormal não é muito complicada. Todavia, o uso desta metodologia no Excel não é tão simples, pelo fato de não apresentar a escala de probabilidade para plotar os valores. Devido a esta dificuldade, e ausência de um software estatístico gratuito e fácil de utilizar, eu criei um programa em Python capaz de realizar toda a análise estatística necessária para um conjunto de valores com distribuição lognormal. No próximo artigo vou disponibilizar o link do programa e explicar passo-a-passo, para que todos que tenham interesse possam utilizá-lo.
Referências
[1] NEDERLOF, Marinus Herman. 2020a. Resource Assessment. Disponível em: http://www.mhnederlof.nl/resource.html#fieldsize
[2] NEDERLOF, M. H. 2020b. Lognormal Distribution. Disponível em: http://www.mhnederlof.nl/lognormal.html.
[3] MEGIL, R. E. 1992. Estimating Prospect Sizes: Chapter 6: Part II. Nature of the Business. In STEINMETZ, R. ed. The Business of Petroleum Exploration: AAPG Treatise of Petroleum Geology. P. 63-69.
[4] ROSE, P. R. 2002. Risk Analysis and management of Petroleum Exploration Ventures. 2. ed. Oklahoma: The American Association of Petroleum Geologists, 2002. 163 p.
[5] SUSLICK, S. B. 2002. A Lognormal Model for the Bidding Process in Brazil. AAPG Search and Discovery Article #90007.
[6] ROSE, P. R. 2020. Uncertainties impacting reserves, revenue, and costs. AAPG Wiki. 2020. Disponível em: https://wiki.aapg.org/Uncertainties_impacting_reserves,_revenue,_and_costs
[7] ROSE, P. R. 2017. Evolution of E & P Risk Analysis (1960-2017). AAPG Search and Discovery Article #42063.
[8] HURST, A.; BROWN, G. C.; SWANSON, R. I. 2000. Swanson’s 30-40-30 rule. AAPG Bulletin, v. 84, n°. 12 (December 2000), pp. 1883–1891.
Comments