ざっくりML

機械学習に興味ある大学院生によるブログです.

論文サーベイ part1

 

サーベイした論文の内容が後からみてわかるように自分なりにまとめていこうと思います.

 

 

Abstract, Introduction, Conclusionはどの論文に対しても簡潔にまとめたものを公開し、興味があるものだけ中身を精読していこうと思います. 

今回は「Recurrent Neural Networks With Missing Information Imputation For Medical Examination Data Prediction」です.

2017年のBigCompで発表されたものです.

 

  • Abstract : Recurrent Neural Network(RNN) を用いて欠落データを含む健康診断データを用いて未来の健康診断の結果を推定する
    (ここで言う欠落データとは、一年に一回の健康診断を受けられなかったりして、データがないことを言う)

  • Introduction : 病気の早期発見をすることで治療が難しいものも治療可能になることがある
    特定の疾病を機械学習を用いて推定する研究は多くされているが広い領域に適用できていない
    RNN、LSTMを用いる
    欠落しているデータをRNNで推定し、それを新たな入力とする
    比較手法には線形回帰を用いる

  • Simple Recurrent Network (SRN) : 健康診断データを推定するためにRNNを用いる

    f:id:linearml:20170503185631p:plain

  • Long Short-Term Memory : LSTMを使う

    f:id:linearml:20170503185616p:plain

  • Missing Data Compensation Using RNNs : 提案手法にあたる部分

    f:id:linearml:20170503184551p:plain

    グレーのノードが欠落している時t-1までのデータを使って推定したy(t)を次の入力につかってやろうっていう単純な話

  • Experiment Result : 2002年から2012年の韓国人の健康診断データをで訓練し、2013年のデータを推定する(訓練は完全データで行い、推定の時に欠落データを含んでいるものも推定できるか実験する)
    線形回帰に比べてRNN,LSTMのどちらをつかった場合でも精度良く推定できた
    RNN,LSTMの間に差はあまり見られない
  • Conclusion : 欠落データを含む健康診断データに対して既存研究に比べ高い精度で推定できた

感想:2017年とかなり新しいわりに発想はかなり単純

 たかが10年のデータを使っていたからRNN、LSTMに差は見られなかったのだろう

実験のとこで、欠落データに対して提案手法と線形回帰以外に入力を置き換えない普通のRNNを用いてものでも比較したほうがよかったのでは?(ただRNNが強かっただけかもしれない)