- 19 de nov. de 2020
- 4 min para ler

Será o seu modelo baseado em casualidades?

Autor: Gabriel Nassau

Já estava pensado em escrever sobre este tema, mas apenas recentemente encontrei alguns dados bem engraçados que irão ilustrar as ideias aqui abordadas.

É muito comum o uso de gráficos para estimar propriedades de rochas quando trabalhamos, não apenas no domínio petrofísico 1D, mas também para levar as informações para uma escala menor, como a de reservatório. Eu creio que um dos crossplots mais usuais é o que correlaciona permeabilidade com porosidade. E então, o que acontece normalmente? Uma bela tendência onde mostra que o aumento da permeabilidade está associado com o da porosidade. E qual é a primeira coisa que pensamos? “Vou ajustar uma função exponencial” e BAM! Fazemos isso! E usamos esta equação para todo o sempre, com pequenas variações. E ficamos muito felizes, pois afinal de contas, o perfil calculado ajusta muito bem aos dados de rocha. Mas depois não entendemos a razão dos geólogos de modelagem não ficarem satisfeitos com as curvas geradas - “temos que utilizar grandes multiplicadores para ajustar ao histórico de produção”.

Bom, na figura 1 é possível observar dois dados razoavelmente correlacionados, com 67%. Nela, observamos que o número de aparecimentos do ator Nicolas Cage em diversos anos se correlaciona com o número de afogamentos no mesmo período. Mas afinal, isso é claro, certo? Como ele é um péssimo ator, as pessoas foram se afogar após ver seus filmes.

Figura 1: Número de filmes com aparecimentos do ator Nicolas Cage (preto) e o número de pessoas afogadas por caírem em piscinas (vermelho) entre os anos de 1999 e 2009. Fonte: [1].

Já na figura 2, nota-se que a taxa de divórcios no Maine se correlaciona perfeitamente (99%) com o consumo de margarina per capita. Mais uma vez isso faz sentido, pois conforme as pessoas ficam mais saudáveis, seu humor tende a melhorar e assim mais fácil de lidar com elas, certo? Bem, definitivamente não.

Figura 2: Consumo de margarina per capita (preto) e a taxa de divórcio no estado do Maine (vermelho) entre os anos de 2000 e 2009. Fonte: [1].

Em primeiro lugar, o Nicolas Cage é um bom ator (não me julguem! Contudo, apenas não assistam ao filme “Army of One: Eu, Deus e Bin Laden”. É horrível, apenas não façam isso!). Em segundo, estes são apenas exemplos de uma infinidade de casualidades correlacionadas num determinado período de tempo. Não é porque as variáveis em observação possuem o mesmo comportamento que significa que esses eventos estejam ligados entre si.

Nisso, quero dizer que a quantidade de vezes que o Nicolas Cage aparece em um filme não explica a razão do número de afogamentos em piscinas; tampouco a redução do consumo de margarina tem a ver com a maior estabilidade nas relações (ao menos, eu espero que não).

Agora, analisando a figura 3, se observarmos estas duas últimas variáveis, não mais em relação ao tempo, mas agora num gráfico onde o eixo X refere-se ao consumo de margarina e o eixo Y a taxa de divórcios, encontraremos alta correlação entre elas. E o que costumamos fazer? Abrimos o Excel ou qualquer outra plataforma e ajustamos uma linha de tendência. Mais ainda, optamos por aquela com maior “R2” (seja lá o que isso queira dizer, afinal, foi assim que nos ensinaram).

Figura 3: A) os dados de consumo de margarina per capita e a taxa de divórcio no estado do Maine. B) A extrapolação da taxa de divórcio segundo modelo de 1º e 2º grau. Fonte: [1].

Na figura 3.A, estão apresentados dois ajustes: um linear (R2 de 0,98, azul) e o outro um polinômio de segunda ordem (R2 de 0,99, laranja). E como bem nos ensinaram, escolhemos o polinômio de segunda ordem, afinal é um modelo que melhor explica as observações, que reduz o erro.

Já na figura 3.B, é apresentado, além dos pontos observados, como seria a extrapolação das funções ajustadas para regiões onde não temos dados. Afinal de contas, o que queremos é ter um modelo preditivo, certo? Bom, claramente há um excelente ajuste de ambos os modelos na faixa de onde temos dados, mas ambos divergem consideravelmente nas extrapolações. E isso é óbvio; um modelo prevê uma reta, enquanto a resposta do segundo é uma parábola. Então, fica clara a dificuldade de explicar empiricamente variáveis que não são correlacionadas, a não ser por uma mera casualidade.

Voltando ao modelo petrofísico, quando associamos porosidade por permeabilidade em um gráfico, estamos buscando explicar uma variável com base em outra. No caso aqui, a permeabilidade (difícil de mensurar continuamente) com base na porosidade (relativamente fácil de se obter um dado em todo o poço). Mas, repare que não há nada que explique, fisicamente, que a permeabilidade deve aumentar quanto maior for a porosidade. Claro, quanto maior for a porosidade, mais alta a probabilidade dos poros e de suas gargantas serem maiores, assim, maior a permeabilidade.

Contudo, isso nem sempre é válido. Por exemplo, pelitos podem ser extremamente porosos, mas com poros muito diminutos; assim como carbonatos finos, tipo chalk.

Existem muitas rochas reservatórios (como exemplo, arenitos e carbonatos) que possuem altos valores de porosidade, mas permeabilidades baixíssimas. Uma coisa, é falar de um quartzo-arenito extremamente maturo textural e composicionalmente; outra coisa, é falar de uma rocha siliciclástica de textura grossa, com grandes poros, mas mal selecionada. Entende onde eu quero chegar? É possível até ajustar um modelo empírico nestas amostras, mas extrapolar...

Em tempos de termos de impacto como “Transformação Digital”, “Machine Learning”, “Data Science” ou qualquer outra modinha, tenha critérios. São ferramentas muito úteis, mas têm suas limitações. Saiba o que está modelando e até onde pode levar esse modelo.

Citando George E. P. BOX: “All models are wrong, but some are useful.” (Todos os modelos estão errados, contudo, alguns são úteis). Em outra passagem ele também cita: "Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.” (Lembre-se que todos os modelos estão errados; a questão é o quão errado eles podem ser para não serem úteis?).

Então, concluímos que os modelos de correlação Nicolas Cage vs. Afogamentos em piscina, e Taxa de divórcio vs. Consumo de margarina, são MUITO errados para serem úteis. Em contrapartida, as relações de porosidade vs permeabilidade podem e são úteis quando usadas com cuidado.

E as correlações que você faz no seu dia-a-dia do trabalho/pesquisa? São erradas a ponto de não serem úteis?

Referências

[1] Tyler Vigen, disponível em: <https://www.tylervigen.com/spurious-correlations>. Acesso em 10/11/2020

Sobre o autor: Gabriel Feres Nassau é petrofísico de exploração e reservatório na Petrobras, onde também atua como instrutor. Possui vasta experiência como analista de ‘wellsite’ e ‘well log’. (https://www.linkedin.com/in/gabriel-nassau-35096476/)

Young Professionals Brazil

Será o seu modelo baseado em casualidades?

Autor: Gabriel Nassau

Posts recentes

©2020 AAPG YP BRASIL