2016年2月1日月曜日

Googleトレンドの利用上の注意点(平成28年版パート2)

 #前記事の短い続きである。



 氏は、福島第一原発事故の影響をGoogleトレンドを利用して見極めようとする中で、
日々トラフィックは増大しているので、どんな検索ワードも増えていくのかと思いましたが、ちゃんと全体の中の割合として、トレンドを表示できるようになっているようです。まあ当たり前ですが。
と述べている※1が、この見解は、すべての検索ワードが全期間にわたり「全体の中の割合として」当該セグメントにおけるシェアを算出されるというわけではなさそうである、トレンドのユーザが指定した検索ワードが加工されることなくそのままの文字列として、全期間にわたり集計され、次いで、セグメント(期間の単位)ごとのシェアを算出しているわけではない、という点において正確ではない。そのヒントは、同氏の提示する各種のグラフで用いられている検索語に隠されている。「"腰が痛い"」「"腰痛"」「腰 痛」という3フレーズをGoogleトレンド上で比較すると、私の主張する理由がおぼろげながら見えてくる。「"腰が痛い"」というフレーズ(日本語では一文になる!)は、「"腰痛"」または「腰痛」という単語(名詞)に比較して、圧倒的に少ない検索クエリ数である。「腰痛」は「腰 痛」と同じ単語として検索されてしまう。この差が何を意味しているのか。検索クエリと利用者との間に日本語入力システムという媒介者が存在することに留意すると、2006年以降の「腰が痛い」という表現の増加は、主にスマホの日本語入力システムの先読み機能に起因すると考えても、理屈は通じることになる。日本語入力システムの先読み機能は、統計学における考え方を準用すると、交絡要因ということになろう。あるいは、「腰が痛い」という一文は、クエリ発行上の内部処理としては、平仮名が削除され、「腰痛」に変換されている可能性がある、とも読むことができる。実際、検索用語としての「腰痛」と「腰が痛い」を人間が解釈する場合、両者に何らかの意味の差を認めることは、難しいものである。ユーザが「腰痛」と入力しようと、「腰が痛い」と入力しようと、腰痛に興味を持つから検索している、と推論するのが普通の人間であろう。両者を同じクエリとしてまとめて保存しておくことにも、問題はなく、合理的である。

 Googleトレンドの日本語利用の際、解釈に困るのは、「腰 痛」と「"腰痛"」のクエリが同一のものとして保存されているように見えることである。両者の検索語(フレーズ)は、本来、別物の検索事情を背景に含みうるものである。たとえば、「"情報共有"」と「"共有情報"」は、日本語としては、一応使いさばきが可能である。ATOK風の辞書の品詞分類を想定すると、「"情報共有"」は、「名詞サ変」である。「共有情報」の品詞は、「名詞サ変」にはならず、「名詞」としておくのが通常であろう(少なくとも、私はそうしている)。通常、Google検索においては、「共有 情報」という二つの単語に対して、「"情報共有"」と「"共有情報"」の両方を返してくることが期待されよう。しかし、Googleトレンドでは、スペースで間を空けたはずの単語群を連結した結果を返すのである。"snow man"と"man snow"は、明らかに検索結果が異なるが、Google Trends英語版の結果では、これらを異なる検索語として扱うようである。しかし、日本語版Googleトレンドでは、そのような使い分けがなされていない。これは、as isでサービスを利用する我々ユーザの側で気付くべきことであり、注意すべきことである。

※1 Googleトレンドに見る放射能の影響
http://mononomikata-kerogg.blogspot.jp/2015/04/google.html


※2 Google トレンド - ウェブ検索の人気度: "腰が痛い", "腰痛", 腰痛 - すべての国, 2004年 - 現在

https://www.google.co.jp/trends/explore#q=%22%E8%85%B0%E3%81%8C%E7%97%9B%E3%81%84%22%2C%20%22%E8%85%B0%E7%97%9B%22%2C%20%E8%85%B0%20%E7%97%9B&cmpt=q&tz=Etc%2FGMT-9

図1:Googleトレンドによる「"腰が痛い"」「"腰痛"」「腰 痛」の結果
(2016年2月1日のスクリーンショット)

平成28年7月25日修正・追記

文章を読み直してみて、私自身が大変に分かりにくく感じたので、私が再度読み直しても分かりやすく理解できるように文章を訂正してみた。意味するところを変えないように注意したが、内容が変わっているやん!と思うのであれば、それは、当時の私の実力不足ということで、お詫びする。

 なお、セグメント(期間の単位)は、Googleトレンドの場合には週・月であったはずである。計算をさせ続けるコストを考慮すると、Googleトレンドに対して問合せのあった検索ワードや、そもそもGoogleに対して問合せの多かった検索ワードについては、たとえば毎日・毎週・毎月、集計をあらかじめ行っておき、その結果で対応しているのではないか。

 アップデートとして有用な結果を記しておくため、本日、同様の作業を試みた際のスクリーンショットを掲載しておく。「"腰が痛い"」というフレーズが、2016年7月までに単調増加していることを確認でき、「"腰痛"」←「"腰 痛"」も多少増加していることが認められる。

図2:Googleトレンドによる「"腰が痛い"」「"腰痛"」「腰 痛」の結果
(2016年7月25日のスクリーンショット)


 「腰が痛い」という語の単調増加は、スマホ用の日本語IMEにおいて、「こし=腰」と入力し始めたときに、「腰が痛い」という共起関係が「腰を曲げる」とか「腰が凝る」といった共起関係よりも多いものと判定されるようになった、という事情が関係しているように予想される。「腰がこった」という表現は、皆使わなくなったのであろうか、それとも、真に重大な病因に伴う「腰痛」なのであろうか。「腰痛」の読みは、「ようつう」であるから、「ようつ」と入力し出したときに、「ようつべ」=「YouTube」と競合する単語の候補として取り上げられやすいように思われる。確認もしないで書き飛ばした感はあるが、本段落は、所詮予想について述べているから、ご容赦願いたい。

 なお、氏の懸念は、私も共有している。であるからこそ、いくつかのチキンな条件を設けつつも、研究者としては戦かざるを得ないような内容についても、私は踏み込んでいる。先進国に住んでいる人間であれば、本来、臆することなく表明できる意見ばかりに過ぎないのであるが。私の取り扱う題材は、指摘すること自体が色々と現象を生む可能性があるがゆえに、誰でも正当に後追いできる知識によって、足場を固めた形の論述が必要となる内容のものである。その内容には、Googleトレンドの有用性とその限界について、正しく予測することも含まれる。



0 件のコメント:

コメントを投稿

コメントありがとうございます。お返事にはお時間いただくかもしれません。気長にお待ちいただけると幸いです。