2016年2月1日月曜日

Googleトレンドの利用上の注意点(平成28年版パート1)

#本記事以降も、Googleトレンドの有用性と限界を現時点の公知の情報だけを元に推測する予定である。本記事のまとまりのなさは、ご容赦いただきたい。

 Googleトレンドというツールは、データベース技術という観点からみれば、きわめて優れたサービスである。超多量のデータを擁するデータベースを、多数のネットユーザの誰もが簡単迅速に利用できることは、どれだけ驚異的なことか。私の作るプログラムが50000件のデータを10万回シミュレーションするだけで2時間ほどPCを固めてしまうことを思えば、3秒もせずに、恐ろしいデータ量を検索した結果を返す、ということの技術力のすごさには、恐れ入るばかりである。雑駁に日本語での検索クエリのデータベース容量を見積もってみると、※1に示した数値はまったくの当てずっぽうであるが、日本語検索クエリデータ容量だけで、4万テラバイトということになる。(なお、※2は※1に影響を受ける数値である。)通常の家庭で保管されているデータ容量の1万倍は軽く超えるということになろう。


項目数値
日本人人口125000000
日本語検索クエリ数※120
年間日数365.25
年間当たり日本語検索クエリ数※29.13125E+11
クエリ当たり容量(kb)※14
年間当たりクエリデータ容量※23.6525E+12
1テラバイトあたりkb数1073741824
年間テラバイト数※23401.655704
2004年から2015年までの年数12
Googleの日本語検索クエリデータ容量※240819.86845


 しかしながら、Googleトレンドの使用にあたり、ユーザに相応の統計上の知識が求められることは、ここで私があらためて指摘するまでもない常識である。ユーザが最も留意すべき問題は、Googleトレンドにおけるセグメント(時空間単位)あたりの、また検索手段別(スマホ、ガラケー、PCなど)の検索クエリ数がユーザには開示されていないことである。2009年頃からiPhoneのヒットにより、わが国でもスマートフォン保有者が急増したが、この結果、Google検索の形も相当変化したであろうと推認できる。具体的には、スマートフォンから気軽に(スマホ用の)Google検索をかけられるようになったことによって、多くの人々の検索シーンは大きく変化したであろう。とはいえ、検索をかけるのは、基本的に、一人以上の人間である。このため、セグメントごとの検索クエリ数という情報が開示されていなくとも、たとえば、自社製品のトレンドを知るという目的の下では、Googleトレンドに表れた数値をそのまま解釈することに、何ら問題はない。

 Googleトレンドの使用方法として典型的かつ正当なものに、広告企業が、自社クライアントの製品の広告効果を計測する場合が挙げられる。このような用法においては、広告企業の側に社会に対するイニシアティブがある。いつ・どこで・どの媒体で広告を流したのか、自社クライアントの製品がどこに流通したのかという能動的な情報は、広告企業の手元にあるはずである(。なければ、その広告企業は、広告企業としては、不充分な働きしかしていないであろう)。Googleトレンドは、その結果を計測するためのセンサとして機能する。この場合、自社クライアントの製品の競合製品が比較対象としてキーワードに入力されるであろう。自社クライアントの、ほかの商品が比較対象でも構わない。比較対象が存在しているときに初めて、Googleトレンドに示されたグラフは、「比較対象と比較して○○である」と素直に読み取っても、さほど問題のないものとなる。このような方法は、準実験計画的デザイン(quasi-experimental design、訳はやや適当)と呼ばれており、多くの社会現象を相手にする研究分野では、この方法論についての理解が進みつつある。

 他方で、広告効果を知ろうとするときとは異なり、世の中においてある事象が流行していることを観察しようとしてGoogleトレンドを用いる場合、ユーザには、相当な注意が求められることになる。観察という行為が一つの手法として定着している学術分野では、ほぼ例外なく、観察研究に対しては、実験研究に対するよりも慎重な解釈を求めている。広告効果を確認するという先の事例は、制御できない要因が存在するものの、それでもまだ実験的である。能動的な入力(インプット)が存在している(はずだ)からである。食品業界では、新商品を東海地方や山陽地方などで先行販売し、成果の程度を検証すると聞く。一昔前にいう「太平洋ベルト地帯」、「ものづくり」マインドが定着していると思われる地域において、実験的に先行販売が行われるというのは面白い話であると思う。

 福島第一原発事故後、放射能による健康被害を調査すべく、一般人がGoogleトレンドを利用するようになっているが、この方法論は、観察研究そのものである。比較対象もないまま、Googleトレンド上の時系列の推移が上昇傾向にあるからと言って、現象そのものが増加していると判断することは、いくつかの飛躍を伴う、大変危険な解釈である。いくつかの飛躍があることは、おいおい説明することとする。

 もっとも分かりやすい(避けがたい)技術的問題を、次の二者の福島第一原発事故の健康影響についてのツイートラインを参照しつつ示すことにする。いくらGoogleトレンドが圧倒的な処理能力でグラフを返すにしても、稀な表現については、検索がかけられてから初めて集計を始めるものと思われる。これは、明らかにGoogleにとって、正当な資源の節約方法であり、誰にも責めることはできない。ユーザの側で注意する必要がある。現在、※3に添付されたイメージは、再現できないが、※5に見ることができるように、※4で示された画像のグラフが再現されるようになっている。これは、おそらく、Googleトレンドの集計機能が当該の検索語についてのデータベースの要約を、Googleトレンドのサーバが※4のツイート主の発言前までに完了したからであろうと推測できる。

 今回は、尻切れトンボであるが、ここでおしまい。

※3 War Is Over(@kenshimada)
https://twitter.com/kenshimada/status/655778472686546944

※4 Tsukada Hisanori(@lensmanjp)
https://twitter.com/lensmanjp/status/655923911075364864

※5 同じ検索語を比較するためのグラフ
https://www.google.co.jp/trends/explore#q=%22%E5%85%8D%E7%96%AB%E5%8A%9B%E4%BD%8E%E4%B8%8B%22%2C%20%E5%85%8D%E7%96%AB%E5%8A%9B%E4%BD%8E%E4%B8%8B&cmpt=q&tz=Etc%2FGMT-9

図: 2016年1月31日時点の「"免疫力低下"」及び「免疫力低下」のGoogleトレンドのグラフ
(スクリーンショット、一部マスキング済み)

0 件のコメント:

コメントを投稿

コメントありがとうございます。お返事にはお時間いただくかもしれません。気長にお待ちいただけると幸いです。