読者です 読者をやめる 読者になる 読者になる

zawa's blog

読んだ本や論文のメモ

【本】データ分析の力 因果関係に迫る思考法(伊藤公一郎、2017)

 

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

 

著者:伊藤公一郎

シカゴ大学公共政策大学院ハリススクール助教授。82年生まれ。

 

【内容】

データ分析について、特に実社会のデータからいかに因果関係を明らかにするかという観点でわかりやすく解説している。実社会のデータから因果関係を導くのは一般に非常に困難であるが、データの切り口を工夫することで信頼性の高い結果を得ることができる。ベストなのは実際に厳密な比較実験をしてしまうことであるが、これはランダム化比較試験(RCT)と呼ばれる。ただし、限られたリソースでRCTを行うのは困難である場合が多く、その場合は次善の策としてRDRegression Discontinuity)デザインや集積分析、パネル・データ分析が用いられる。こうした実験方法の具体例から強み、弱みまで数式を使うことなく解説されている。

 

【所感】

 やりたい実験があるとして、そのためにデータをゼロから集められればいいが、それができない場合でも既存のデータに対する切り口しだいで美しい実験ができるということが大変わかりやすく説明されている。だが、ビッグデータAI全盛の今、この内容では少々物足りない。もちろん、最新の手法を盛り込もうとすればそれだけ難しい内容になるかもしれず、それは避けるべきとも考えられるが、今この時代だからこそできるようになったことについても触れてほしかった。ウェブサイトでのABテストなども紹介はあるが、常識レベルの記述しかない。本書がこのタイミングで出版されたことの意義がいまいちわからなかった。

【論文】 Aggregated Residual Transformations for Deep Neural Networks (S. Xie et al., Facebook, 2017)

[1611.05431] Aggregated Residual Transformations for Deep Neural Networks

 

著者

Saining Xie (UC San Diego), Ross Girshick (Facebook), Piotr Dollar (Facebook), Zhuwoen Tu (UC San DIego), Kaiming He (Facebook)

 

概要

入力に対して様々な変換処理を施した上でそれらの結果を集約するというブロックを繰り返すことでハイパーパラメータを減らしたニューラルネットワークResNeXtを提案。各ブロックは全て同じトポロジを持つ。変換処理のサイズを新たな次元“cardinality(濃度)”と呼び、ネットワークの深さや幅と同じようにネットワークの性能に大きな影響を与えるファクタであるとしている。同一演算量で比較した場合、cardinalityを増やすことで画像分類の精度が向上し、また、ネットワークの深さや幅を増やすよりも効果が高いことを実験により確認している。ILSVRC2016の分類タスクでは2位の性能。

続きを読む

【論文】 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications (A. G. Howard, et al., Google, 2017)

[1704.04861] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

 

概要

GoogleのAndrew G. Howardによる論文。モバイル機器等でも動作可能な軽量・高速なニューラルネットワークのモデルとしてMobileNetsを提案。MobileNetsは畳み込みニューラルネットで使われる畳み込み演算を分解することで演算量を削減していることに加え、2種類のハイパーパラメータを導入することでユーザがフレキシブルにネットワークのサイズを調整できるようにしている。本論文ではMobileNetsを既存のさまざまなニューラルネットワークのアプリに適用し、その効果を検証している。

続きを読む

【論文】Could a Neuroscientist Understand a Microprocessor? (E. Jonas et al., UC Berkeley, 2017)

journals.plos.org

 

概要

脳科学の分野では脳に関する理想的な情報データベースさえあれば脳がどのように情報処理をしているのかをデータ解析によって明らかにできると信じられている。しかし、仮にそのようなデータベースがあったとしても、データ解析の結果が正しいものなのかどうかは誰にもわからない。そこで、構成や振る舞いを完全に把握することができるマイクロプロセッサを脳に見立て、そこから得られる情報を使ってデータ解析によりその情報処理過程を明らかにできるかどうかを調査した。その結果、データ構造に関する興味深い洞察は得られたものの、マイクロプロセッサにおける階層的な情報処理を記述するには至らなかった。これは、脳に関する情報をどれだけ集めても、既存のデータ解析手法では神経システムに関する十分な理解を得ることができないことを示唆している。

続きを読む

【論文】Machine Learning: The High Interest Credit Card of Technical Debt (D. Sculley et al., Google, 2014)

https://research.google.com/pubs/pub43146.html

 

概要

Googleによる論文。機械学習を安易にシステムに取り込むのは大きな技術的負債を抱え込む恐れがあるという内容。リスクの要因としては、境界の浸食、もつれ、隠れたフィードバック、想定外利用、データ依存関係、外界の変化などがある。

 

続きを読む