Test di ipotesi per determinare la distribuzione dei dati di Facies

Case study Sand vs Shale basato sui dati di Well Log

“Nel mondo dell’analisi di oggi, la creazione di modelli di machine learning è diventata relativamente facile (grazie a strumenti e algoritmi più robusti e flessibili), ma i concetti fondamentali sono ancora molto confusi. Uno di questi concetti è il test di ipotesi. “

Essenzialmente, il test di ipotesi è un metodo statistico che esegue il test di un’ipotesi, in modo che i risultati possano essere dichiarati accettati o rifiutati . Il test di ipotesi fa parte delle statistiche inferenziali.

L’ipotesi può essere divisa in due parti:

Obiettivo

In questo articolo, utilizziamo dati di facies derivati ​​da Well Log Data. Viene eseguito un test di ipotesi per determinare se i dati di facies ( Sand & amp; Shale ) provengono dalla stessa popolazione (si può concludere che abbiano la stessa distribuzione) o meno.

L’analisi della distribuzione dei dati di facies è necessaria, poiché abbiamo bisogno di classificare quali rocce sono reservoir (sabbia) e non-reservoir (scisto). L’arenaria tende ad avere una migliore permeabilità rispetto allo scisto, come mostrato nella Figura 1 .

Di seguito è illustrata la procedura dettagliata per concludere la nostra decisione per determinare la distribuzione dei dati.

1. Trama incrociata

L’obiettivo del crossplot è visualizzare la nostra distribuzione dei dati nei dati di registro del pozzo in generale. Il grafico incrociato viene condotto utilizzando i parametri di log dei pozzetti Vsh (Volume of Shale) e P-imp (P-Impedance) .

Vsh (volume di scisto) viene utilizzato per separare la sabbia & amp; shale facies. Questo parametro si ottiene calcolando il valore Log Gamma Ray con la seguente formula:

IGR = Gamma Ray Index

GRlog = Lettura Gamma Ray della formazione

GRmin = raggio gamma minimo (sabbia pulita)

GRmax = raggio gamma massimo (scisto)

Il parametro P-impedance è stato scelto perché questo parametro è un parametro geofisico contenuto nei dati sismici. In modo che la futura applicazione di questa distribuzione possa essere analizzata nella sezione sismica, non solo nei dati del pozzo.

Per elaborare i nostri dati di registro del pozzo, dobbiamo prima inserire i dati utilizzando lasio , quindi convertirli nel tipo dataframe .

Dopodiché calcoliamo VSH e P-imp e separiamo sabbia e scisto in base al loro valore

Finalmente possiamo creare una trama incrociata tra sabbia e scisto utilizzando colori diversi per distinguere meglio i dati.

Dai risultati del grafico incrociato (Figura 2) , si può vedere che esiste un valore di impedenza P sovrapposto tra la sabbia (gialla) e lo scisto (verde) facies. Partendo da questa visualizzazione cerchiamo di determinare se queste due facies possono essere considerate come aventi la stessa o diversa distribuzione dei dati.

2. Grafico di distribuzione

Per quanto riguarda la descrizione più approfondita della natura dei dati, dobbiamo visualizzare un grafico PDF (Probability Density Function) di ciascuna facies utilizzando seaborn come risultato mostrato nella Figura 3 .

Dai risultati del grafico PDF di ciascuna facies, quantitativamente possiamo vedere che queste distribuzioni di facies sono molto vicine l’una all’altra. Per il momento, la nostra ipotesi iniziale è che queste facies siano nella stessa popolazione. Per garantire ciò, è necessario eseguire test di ipotesi come verrà illustrato nei passaggi seguenti

3. H0 e H1

Come parte del test dei dati, dobbiamo specificare i nostri H0 (ipotesi nulla) e H1 (ipotesi alternativa).

H0 (ipotesi nulla) : Sand e Shale sono nella stessa popolazione.

H1 (ipotesi alternativa) : i Sand dan Shale appartengono a una popolazione diversa.

H0 verrà testato, se rifiutato verrà accettato H1.

4. Alpha & amp; valore p

Alpha (livello di significatività) è la probabilità di rifiutare l’ipotesi nulla, mentre il valore p è la probabilità di significatività dell’ipotesi nulla. Se ⍺ & gt; p-value quindi H0 viene rifiutato (come mostrato nella Figura 4 ).

In questo caso se il valore p di H0 (sabbia e scisto si trovano nella stessa popolazione) è inferiore a alfa (⍺ = 0,05) , possiamo rifiutare H0 e accetta H1.

⍺ = 0,05 è stato scelto poiché è un valore comunemente utilizzato in molti studi . Questa è l ‘”abitudine” dei ricercatori precedenti e non esiste una base teorica certa che richieda l’uso di ⍺ = 0,05. Questo valore significa che abbiamo il 95% di confidenza con i nostri dati.

Come mostrato nella Figura 2 , è chiaro che la deviazione standard di ciascuna facies ha valori diversi. Pertanto, per determinare il valore p (test a una coda) possiamo utilizzare il metodo F-test a una coda come mostrato nell’equazione seguente.

Dove x è il rapporto di varianza tra sabbia e scisto . df1 e df2 sono rispettivamente n campioni di sabbia e scisto . Per semplificare il calcolo del valore p nel metodo del test F, possiamo utilizzare le librerie scipy e numpy come mostrato di seguito.

p_value è: 0.992

5. Conclusione

Dall’esperimento di cui sopra, si può vedere qualitativamente che la distribuzione dei dati di sabbia e scisto è molto vicina tra loro (tende ad avere la stessa popolazione). Quantitativamente sappiamo anche che ⍺ = 0,05 e p-value = 0,992 (⍺ & lt; p-value) .

Si può concludere che H0 è accettato: i Sand dan Shale appartengono alla stessa popolazione.

Chiusura

Il test di ipotesi può fornire una panoramica della distribuzione dei dati in termini di parametri geofisici. Il prossimo approccio dipende in gran parte dall’assunzione da parte della popolazione di questa distribuzione di facies. Questo processo può influire su un risultato molto significativo se eseguiamo un’inversione stocastica o altre analisi / simulazioni geostatistiche.