COVID-19 —病院はデータを使用してより良い意思決定を行うことができます

感染症の発生における一般的なタスクは、正確で信頼性の高い意思決定を可能な限り迅速に行うことです。

COVID-19の開発を理解するために構築されている多様で包括的なモデルを補完するものとして、COVID-19入院の人口増加に時系列モデルを適用して分析します。時系列モデリングの一般的なタスクは平滑化です。データのノイズを除去するために使用される一般的な手法。この文脈での目標は、ノイズの多いカウントデータが与えられた場合にCOVID-19入院のスムーズで根本的な成長プロセスがあるかどうかを理解することです。

まず、データを取得する必要があります。発生の初期段階である2020年1月1日から2020年2月28日までのカウントデータを使用します。なぜですか。アウトブレイクの開始時の入院の増加を概算したいと思います—これがなぜ重要なのかは後でわかります。


数学的証明の眠い読み取りを避けるために、カウントデータのモデル化に使用される方法について簡単に説明します。私の目標は、観察されたデータを使用して、𝑋(𝑡)、その日のCOVID-19による入院数をモデル化することです𝑡。理想的には、将来、観測されていない𝑡の𝑋の値を予測したいと思います。

一般化線形モデルでは、平均(潜在変数Zと呼びます)が線形関数𝑇(𝑡の可能な値を示す確率変数)の可逆関数である指数型分布族に属する任意の分布で𝑋をモデル化できます。 )。 GLMでは、出力分布とリンク関数を指定したら、目標はパラメーターβの最尤推定値を見つけることです。パラメータβの推定値が得られたら、この推定値を使用して、さまざまな入力の𝑋の値を予測できます𝑇。

証明をフラッシュフォワードすると、次の式が見つかります。

これまでのところ、これは有望です。直感的には、𝑋の平均𝑍は𝑡日であると予想されます。ここでは、𝑍の指数関数的成長が妥当であると想定しています(疫学による)。式2〜4は、この一般化線形モデルの派生リンク関数、パラメーター、および出力分布です。このシナリオでは、出力分布の自然な選択はポアソンです。

それでは、モデルを適合させ、𝑋と𝑍に95%の信頼区間を含めましょう。

このモデルには異常な点があります。モデル化された成長率の信頼区間は非常に信頼度が高く、観測されたカウントデータの変動を正確に捉えていません。この現象は、主にポアソン分布の分散が狭いために発生し、過分散と呼ばれます。この問題を修正するために、出力分布(現在のポアソン)を、過剰分散を説明する新しい分布に置き換えることができます。負の二項分布も計数データをモデル化しますが、同じ平均でポアソン分布と比較してより広い広がり/分散をモデル化することができます。

モデルを改善するために負の二項分布を使用した後でも、結果の解釈方法に注意する必要があります。このモデルを実際に使用して、COVID-19入院の成長率が将来指数関数的になるかどうかを理解できますか?結果を解釈する際に注意すべきいくつかの要因は次のとおりです。

これらのモデルはどちらも、制限はあるものの、一般の人々への洞察を生み出す上で依然として強力であることを強調することが重要です。指数関数的成長は通常、時間の経過とともに感染症の発生をモデル化することはありませんが、発生の初期段階をモデル化することは確実に示されています。発生の初期段階で入院の根本的な成長を概算して制限することができれば、積極的に機器を準備し、病院の需要を見積もることができます。病院への訪問が急増する前に病院のニーズを満たすことができれば、命を救うことができることは明らかです。