fc2ブログ

新型コロナの話題  グーグルの予測(2)


 政府が「勝負の3週間」と呼んだ期間を含む、昨年11月下旬からの4週間の結果を見る限りでは、グーグルの予測が人の行動を織り込んだものであるとは言い難い。これが前回ブログの結論であった。今回は手法から分析してみる。

2 手 法

2.1 基本的な考え方

 もとになっている論文はグーグルのサイトで、ホワイトペーパーとして引用されている。これに従って述べる。

 手法的にはいわゆるニューラルネットワークの範疇に入ると思われる。これは、人間の脳を模したニューロンのネットワークを計算機内に作り、学習を通じて最適なネットワークを作り出そうとする。ニューロンのつながりを任意にすると結合状態の数が多すぎて手に負えなくなるので、通常は層状の構造をあらかじめ仮定する。

 この方法を採用した場合の難点は予測が外れた場合に理由が分からないことである。失敗例を学習してより良いネットワークを作るのだが、出来上がったものはさらにブラックボックス化してしまう。

 伝染病の場合は幸いなことに伝染の仕方を支配する方程式があるので、これを出発点にとれば、この問題はかなり解消する。採用する方程式は後述するとして、最も単純なSIRモデルを使って、基本的な考え方を説明しよう。

 SIRモデルは拙ブログ「8割削減とは何だったのか」(2)で紹介したので、詳しくはそちらを見てほしいが、簡単には図6に示すように非感染者 $ S $ が感染者 $ I $ と接触して感染し、検査を経て隔離者 $ R $ になるというモデルである。

 ここで2つのパラメタ、感染係数 $ \beta $ と隔離係数 $ \gamma $ が登場する。SIRモデルではこれらはあらかじめ与えられたものと考えるのだが、実際には外部要因(white paperは統計用語「共変数」(Covariate)を用いている)で変動する。例えば、人の移動が大きくなれば、人と人との接触が増す、つまり感染係数 $ \beta $ が増大する(図6を参照)。こうした外的要因を適切に選べば、モデルの予測能力は高くなることが期待される。

コロナ図T4.6


図6 伝染病モデルへ影響を及ぼす外的要因の例


人の移動を表す度合い(移動度)は、感染係数に影響を及ぼす。移動度が増せば、人と人との接触の機会が増え、感染係数 $ \beta $ は増加する。

 具体的な外的要因は次節で述べるが、(予測期間である4週間では)不変と考えられるものと変動するものとに分けることができる。前者の例として、人口密度がある。後者の例として、上記の移動度がある。不変なものに対しては、その値を一度使用するだけだから問題はない。これに対し、時間的に変動するものは、現在までの値はそのまま使うとして、将来値をどうするかである。グーグルの方式ではいわゆる自己回帰モデルを使って、将来値を予測しそれを用いる。

 自己回帰モデルとは自身の過去の値のみを使う方式である。移動度に関して言えば、現在までの移動度の時系列を使って、将来の値を統計的に予測する。これは、ある限定を課していることに注意する必要がある。移動度の将来値がそれ自身の過去の値だけで一般には決まるわけではなく、他の要因も絡んでくるのが普通だからである。例えば、感染者数や死者数の増大を見て、人が移動を控えるのは当然想定される。自己回帰モデルは自己以外の他の要因をすべてランダムな変数に押し付けるのだが、これは近似である。なお、原論文は線形自己回帰と断っているので、あまり大きな変動は想定していない。

 さて、影響が大きいのは行政措置である。行政措置 -- 例えば非常事態宣言-- を予測期間内に取るのか取らないのかは、変動する外的要因のカテゴリーに入る。グーグル予測で行政措置の予測を行ったかだが、答えはNOと見られる。自己回帰モデルの守備範囲におさまる代物ではないからだ。11月末の時点で言えば、4月に1度きり経験しただけであるから、統計的に扱うことはそもそも無理だろう。

 2度目の緊急事態宣言は、世論調査の内閣支持率が急落して窮地に陥った菅首相に小池都知事が仕掛け、それが奏功したためと一部マスコミが報じていた。この見方が的を射ているのかブログ人は分からないが、仮にこの程度に単純化されたプロセスであっても、緊急事態宣言を発出するのか否か、発出するとすればいつかを予測するアルゴリズムの構築は難しいように思う。

 結局、行政措置に関しては予測日において取られている行政措置が予測期間内も継続するとして予測していると思われる。仮に、予測期間中に影響の大きい行政措置が取られた場合、予測をやり直すのだろう。

2.2 伝染病モデルと考慮する外部要因

 前節で説明したように、グーグルの予測は、感染・治療関係のモデルにそれに影響を与える外部要因を取り込んだものである。図7はこれを示したものである。

 左側の伝染病モデルは次の通り。
 まず、感染関係では、非感染者 $ S $ 、感染者 $ I $ 、隔離者 $ R $ 以外に、潜伏期の者 $ E $ と感染したが無症状の者 $ A $ を考慮する。このモデルはSEIARモデルと呼ばれるが、拙ブログ「8割削減とは何だったのか」(6)で取り上げる予定である。
 治療関係では、入院者 $ H $ 、集中治療室に入った者 $ C $ 、人工呼吸器を使用している者 $ V $ 、死者 $ D $ を変数として取り入れる。

 次に、右側の外部要因は以下の通り。
1)一人当たりの所得、2)人口密度、3)フードスタンプをもらっている所帯数、4)人口、5)所帯数、6) 60歳以上の人の占める割合、7)病院の評価基準、8)利用可能な病院の種類、9)病院の患者を扱う経験度、10)大気の清浄度、11)移動度、12)薬理学以外の措置、13)検査数、14)陽性率、15)陽性者数、16)死者数(注 ブログ人が誤訳している可能性もあるので、原論文(p.29のTable 9)を参照されたい)。

 この中で1から10)は、(予測期間4週間で)定数と見てよいと思われる。残りのものが時間とともに変化する要因である。このうち12)薬理学以外の措置とは、本ブログで行政措置を言っているもので、休校、バーやレストランへの制限、集会の制限、移動制限、必須業務の宣言、非常事態宣言の6つを指す。時間とともに変動する外的要因の将来予測値を使うかどうかが、ポイントになるが、それを図7の予測という項目で◯Xをつけて表した。前節で述べたように行政措置に関する予測は行なわない。

コロナ図T4.7


図7 グーグル予測の構成図


伝染病モデル(左)とそれに影響を与える外部要因(右)から成り立つ。伝染病モデルは感染に関する部分と治療に関する部分に分かれる。外部要因は一定とみなしてよいものと時間的に変動する部分に分かれる。後者の使用に関しては、現在値までの値に限る場合と将来値を予測する場合がある。これらは予測欄の〇Xで区別してある。

3 グーグル予測の評価

 原論文は汎用性を謳っている。方法論としてはそうなのかもしれないが、実際に使用するにあたっては個別の事情をかなり斟酌する必要があるように思われる。

 昨年7〜8月の第2波の流行では、東京のいわゆる接待を伴う飲食店関係者から感染が拡がっていったと言われる(感染症研究所報告)。予測においてもこうしたプロセスを陽に取り入れる必要があると思われる。伝染病モデルの方では児玉龍彦氏の主張するエピセンター現象を取り扱えるようにし、モデルに影響を及ぼす要因として接待を伴う飲食店の情報を取り入れるなどである。

 グーグル予測の日本版をリリースするにあたって、いろいろ手直しをしていると思う。例えば、項目3)のフードスタンプ云々はアメリカの特殊事情だから削除したろうし、病院関係も日本の実情にあうようにしたと思う。

 しかしながら、前ブログで見たように、少なくとも昨年12月の予測に関しては、結果は芳しくない。1ヶ月の予測はとても無理でせいぜい1〜2週間程度である。行政措置に関する予測は行わないので、これ以上の期間の予測はもともと難しいのだが、個々人の行動の変容はある程度取り込めるはずなので、引き続き改善の努力を期待したい。

スポンサーサイト



コメントの投稿

非公開コメント

カレンダー
11 | 2023/12 | 01
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 - - - - - -
検索フォーム
プロフィール

さんげつ

Author:さんげつ
技術系の某役所を退職後、あり余る時間を使い、妄説探索の旅へ。理系老人の怪刀乱魔。

最新記事
最新コメント
カテゴリ
月別アーカイブ
リンク