Distribuição lognormal na geologia do petróleo - 01: O que significa e como usar

Autor: Guilherme Sowek


1 - Distribuição Normal x Lognormal


A “distribuição” é uma parte fundamental da Estatística, pois permite a caracterização do que está sendo estudado baseado apenas em uma amostragem parcial de uma determinada população (lê-se quantidade de dados), sem precisar avaliá-la na totalidade, uma vez que seria impossível em determinadas situações. Sempre que lembramos do termo "distribuição" em estatística, a primeira que vem à mente (às vezes, a única) é a distribuição normal ou gaussiana; onde a distribuição da frequência dos dados (histograma) é simétrica. A distribuição normal é bastante prática, pois apresenta a Mediana igual à Moda e a Média (Figura 1). A Média pode ser calculada de forma simples pela soma de todos os números, dividido pela quantidade de amostras da população que, por sua vez, coincidirá com a Moda (valor com maior repetição) e a Mediana (valor que divide a distribuição na metade).


Entretanto, a distribuição normal não é a única existente. Além desta, existem diversos tipos de distribuições de probabilidade, como pode ser verificado neste link-1. As distribuições dos valores de uma população variam de acordo com o que está sendo analisado, e podem se encaixar em diferentes tipos de distribuição, conforme suas características.


Na Geologia, a maior parte dos parâmetros utilizados apresentam distribuição lognormal. Pode-se afirmar até que “o lognormal é o normal da geologia[1]. Na Geologia do Petróleo, especialmente, esta distribuição é muito importante e utilizada em diversas áreas, como veremos no tópico seguinte.


Figura 1. Comparação entre a distribuição normal e lognormal.


Contudo, antes de mostrar sua aplicação, temos que entender o que é e quais suas principais características. A distribuição lognormal é definida quando os logaritmos dos valores da população/amostragem apresentam uma distribuição normal; ou seja, se temos uma amostragem com valores x1, x2, x3, ... xn e calcularmos o logaritmo deles através de ln(x1), ln(x2), ln(x3),... ln(xn) e depois montar a distribuição da frequência num histograma teremos uma distribuição normal (Figura 2).


Figura 2: A) Histograma de valores gerados aleatoriamente no excel com distribuição lognormal. B) Distribuição de Ln dos mesmos valores de A.


A distribuição de frequência de dados lognormais, diferente da normal, não é simétrica e apresenta assimetria positiva com a cauda da distribuição para a direita (right-skewed) (Figura 1). Isto se traduz com muitos valores pequenos e poucos valores grandes. A Moda está mais perto do valor mínimo que do valor máximo; a Mediana fica no meio da distribuição dividindo-a em partes iguais e a Média fica em direção a cauda, à direita da Mediana. A Média, assim como a Mediana (e outros parâmetros estatísticos) não podem ser calculados como na distribuição gaussiana, portanto, apresenta fórmulas específicas. Aos que tiverem curiosidade, vale conferir o link-2 e link-3 para mais informações.


2 - Utilização da distribuição lognormal na geologia do petróleo


Uma propriedade interessante que diferencia as distribuições normal e lognormal, é que a primeira representa a distribuição da soma de valores, enquanto a última representa o produto da multiplicação de valores. Esta afirmação pode ser verificada através de um experimento jogando dados, como visto na Figura 3. Neste exemplo, 4 dados são jogados simultaneamente, diversas vezes e os valores dos dados em cada jogada são somados e também multiplicados. A distribuição dos valores somados segue uma distribuição normal, ao passo que a distribuição dos valores multiplicados segue uma distribuição lognormal. Esta característica de valores multiplicados seguirem distribuição lognormal é um dos motivos que, por exemplo, a área ou volume de prospectos na geologia do petróleo seguem este tipo de distribuição.


Figura 3: A) Histograma normal com a soma dos dados. B) Histograma lognormal com a multiplicação dos valores dos dados. Fonte: modificado de [2].


Um dos principais parâmetros na geologia do petróleo em que a distribuição lognormal é utilizada na análise de probabilidades, é no tamanho de campos e prospectos de hidrocarbonetos (representados por volumes de óleo e/ou gás). Contudo, há outros que também seguem tal distribuição, como: área dos campos/prospectos; área de drenagem de campos e poços; permeabilidade; tamanho de grãos; espessura de hidrocarboneto nos poços (net-pay); taxa de produção de poços e campos; valores pagos por blocos em leilões; etc [1], [3], [4], [5], [6].


A distribuição lognormal tem algumas características que facilitam seu uso para os geocientistas. Uma delas é que a distribuição acumulada pode ser plotada em uma linha reta num gráfico com os eixos X e Y nas escalas logarítmica e de probabilidade, respectivamente (Figura 4).

Figura 4: Exemplo de gráfico para plotar a probabilidade (lognormal) acumulada. Eixo X na escala logarítimica, eixo Y na escala de probabilidade. Fonte: [4].


O eixo Y deste gráfico representa os valores de probabilidade e o eixo X, os valores do parâmetro que está sendo avaliado. A vantagem de ser uma linha reta é que com apenas 2 valores já é possível estimar, ainda que de forma imprecisa, a distribuição probabilística. Quanto maior o número de valores plotados, maior será a confiança da distribuição.


Para exemplificar, a Figura 5 representa a distribuição acumulada de volumes de campos ao redor do mundo em milhões de barris equivalentes de óleo (MBOE). Se pegarmos o ponto P50 na escala de probabilidade, encontraremos o valor de 5.4 MBOE; ou seja, se escolhermos aleatoriamente um campo no mundo ele terá 50% de chance de ser maior que 5.4 MBOE. O mesmo vale para outros valores, como o P10: com 10% de chance de encontrar um campo maior que 143 MBOE.


Figura 5: Gráfico com distribuição acumulada lognormal de campos de petróleo do mundo. Fonte: [7].


Esta forma é muito utilizada na prospecção de campos de petróleo, através da utilização do mesmo gráfico da figura 5, com campos de apenas um play. O gráfico mostrará a probabilidade de encontrar novos campos em relação ao tamanho dos que já foram encontrados, pois, a distribuição das amostras de campos já descobertos deve ser igual à da população de todos os campos (até os ainda não descobertos).


Os valores de Probabilidade (P) no quadro dentro da Figura 5 são os mais importantes na geologia do petróleo e podem ser traduzidos como:


P01: Máximo valor geologicamente possível. Há 1% de probabilidade que uma amostra aleatória da distribuição será maior ou igual a este valor;

P10: Máximo plausível para a área em questão. Há 10% de probabilidade que uma amostra aleatória da distribuição seja maior ou igual a este valor;

P50: Metade da distribuição. Divide a curva em 2 partes iguais. Há 50% de probabilidade que uma amostra aleatória da distribuição será maior ou igual a este valor;

P90: Mínimo plausível para a área em questão. Há 90% de probabilidade que uma amostra aleatória da distribuição seja maior ou igual a este valor. Valores entre P90 e P10 representam 80% de todo que é esperado;

P99: Menor valor geologicamente possível. Há 99% de probabilidade que uma amostra aleatória da distribuição seja maior ou igual a este valor.


O cálculo da Média neste tipo de distribuição é mais complexo do que simplesmente somar os valores e dividir pela quantidade deles. Entretanto ele é facilmente calculado no Excel ou em softwares estatísticos. Outra facilidade desta distribuição é a Regra de Swanson [8], que permite calcular um valor bastante aproximado à Média, tendo apenas os valores de P10, P50 e P90 retirados do gráfico. A Média de Swanson é calculada da seguinte forma: 0,3 x (P10) + 0,4 x (P50) + 0,3 x (P90) (Figura 6).


Figura 6: Exemplo de cálculo da Média de Swanson. Fonte: [7].


A parte estatística e matemática para gerar os gráficos, a Média, a Mediana e outros parâmetros na distribuição lognormal não é muito complicada. Todavia, o uso desta metodologia no Excel não é tão simples, pelo fato de não apresentar a escala de probabilidade para plotar os valores. Devido a esta dificuldade, e ausência de um software estatístico gratuito e fácil de utilizar, eu criei um programa em Python capaz de realizar toda a análise estatística necessária para um conjunto de valores com distribuição lognormal. No próximo artigo vou disponibilizar o link do programa e explicar passo-a-passo, para que todos que tenham interesse possam utilizá-lo.


Referências


[1] NEDERLOF, Marinus Herman. 2020a. Resource Assessment. Disponível em: http://www.mhnederlof.nl/resource.html#fieldsize

[2] NEDERLOF, M. H. 2020b. Lognormal Distribution. Disponível em: http://www.mhnederlof.nl/lognormal.html.

[3] MEGIL, R. E. 1992. Estimating Prospect Sizes: Chapter 6: Part II. Nature of the Business. In STEINMETZ, R. ed. The Business of Petroleum Exploration: AAPG Treatise of Petroleum Geology. P. 63-69.

[4] ROSE, P. R. 2002. Risk Analysis and management of Petroleum Exploration Ventures. 2. ed. Oklahoma: The American Association of Petroleum Geologists, 2002. 163 p.

[5] SUSLICK, S. B. 2002. A Lognormal Model for the Bidding Process in Brazil. AAPG Search and Discovery Article #90007.

[6] ROSE, P. R. 2020. Uncertainties impacting reserves, revenue, and costs. AAPG Wiki. 2020. Disponível em: https://wiki.aapg.org/Uncertainties_impacting_reserves,_revenue,_and_costs

[7] ROSE, P. R. 2017. Evolution of E & P Risk Analysis (1960-2017). AAPG Search and Discovery Article #42063.

[8] HURST, A.; BROWN, G. C.; SWANSON, R. I. 2000. Swanson’s 30-40-30 rule. AAPG Bulletin, v. 84, n°. 12 (December 2000), pp. 1883–1891.

124 visualizações0 comentário

Posts recentes

Ver tudo