somemo's diary

プログラマ、雑記、プログラミング関係はLinkから、数式はこっちでまとめていることが多い

コマンドラインではじめるデータサイエンスを読んだ

目次

どんな人に勧められるか

Vagrant環境での演習

コマンドラインに慣れていない人にと書いた理由としてはこれが大きいです。

データサイエンス

この本におけるデータサイエンスは、コマンドラインという性質もありほとんどが前処理に関するものでした。実際、前処理がほとんどの時間を占めることを考えるとそれでもいいのかなと思いました。

どんなコマンドが多いか

前述したとおり前処理系が多いのですが、基本的なUnix系コマンドが多く紹介されていてよかったです。

データサイエンスを問わずと書いたのは、基本的なコマンドを網羅的におさえられると感じたためです。

ほかは、以下のようなフォーマット特化のコマンドがありました。

awk, sedでは面倒または気楽にできないことを紹介していました。

知らなかったコマンド

  • Rをコマンドラインから簡単に扱うRio
    • 標準入力をデータフレームとして扱うのでawkより簡単になることもありそう
    • meanなどの集約関数も実行できる
    • ggplot2でPlotを実行できる(displayというimagemagicについてくるコマンドと一緒)
  • xargsではなく、paralellという並列処理コマンド
  • 内部的にPandasを利用してそうなコマンド
    • コマンドライン用としてPandas利用すればいいという発想をもらえた
    • Pandasではないが、CSV系コマンドもそんな印象を受けた

まとめ

どんな人に勧められるかに書いたとおりです。もともと、Blog記事から始まったらしいのでそれを見てからでもいいかなと思います。