データ分析のためのPython簡単インストール(2014年12月,Windows)[※150426追記あり]
データ解析のためにPythonを使ってみたい,という人は少なくないと思います。
かく言う私も「時代はRよりもPython」という話を尊敬する先生からしていただいて以来,ずっと興味を持っておりました。
そこで柄にもなく入門書なんかを買ってみましてインストールやらじゃんけんプログラムやらを記載のあるようにだだだっと惰性でやってみましたが,30分で気づきました。
あっ,これ自分の使いたいやり方じゃないと。
そこで,データ分析のためのPython簡単インストールと題しまして,試行錯誤したインストールのあれこれをまとめておこうと思います。
なお,この記事はWindows環境を想定しておりますのでMacユーザーの方はすこし勝手が異なるかと思います,すみません。
長くなりますが,お付き合いくださいませ。
※追記(2015/4/26)
4節のパッケージインストール(下準備編)を更新しました。
具体的には、cURLとかいうのをインストールしてからあれこれする面倒なやり方ではなく、Python2.7.9にデフォルトで入っているpipを更新しながら利用するやり方にしました。
1. Python本体をダウンロードする。
以下のWindows版ダウンロードページからPythonの本体をダウンロードします。
Python Releases for Windows | Python.org
このとき,ページ上部にあるLatest Python 2 Release - Python 2.7.9というところからダウンロードするようにしましょう。
現時点でPythonには2.7系と3.4系があるようなのですが,中身が結構違うようなのでデータ解析で使うパッケージの対応を考えてPython2.7.9*1というのを以降インストールしていきます。
リンクを踏んだ先のページを下にスクロールするとFilesというテーブルがあると思うので,その中からWindows x86 MSI installerというインストーラをダウンロードします。
64bit版のWindows x86-64 MSI installerではいけないのか,という声もあるかと思いますが,64bitだとうまいこと動かない(と思しき)ものがあったので32bit版をインストールするほうが無難です。
2. Python2.7をPCにインストールする。
ダウンロードしてきたインストーラ(python-2.7.9.msiという名前だと思います)を実行して,Pythonをインストールしていきます。
基本は何もいじらずNextボタンを連打していけばいいのですが,一箇所だけいじっておくといい場所があります。
画像内で青く反転しているAdd Python.exe to Pathという部分が,デフォルトでは×になっているはずなのでクリックして画像のようにしておくといいでしょう。
ちなみに,画像のようになっているとPC内のすべてのユーザーに適応,というような意味になったかと思います。
ここ以外は先にも書いたようにNextを連打して,インストールはおしまいです。
3. 動作確認
ここまでがうまくいっていれば,コマンドプロンプトからPythonが起動できるはずですので動作確認をしてみましょう。
スタートメニュー「ファイル名を指定して実行」欄*2にcmdと入力してコマンドプロンプトを開きます。コマンドプロンプトって何?って人はこの記事を参照されている方には少ないと思いますが,なんか黒くて文字ばっかりでかっこいいいかにもプログラムします的な画面です。
うまく開けたら,
C:\Users\ユーザー名>
C:\Users\ユーザー名>python
>>>
最初は上段のようになっていると思うので中段のようにpythonと打ち込んでエンターキーをッターン!と叩きます。
下段のようにカーソル(でいいんでしょうか?)が>>>となっていればPython起動成功です。
適当に3+3などと入力してエンターしてみると6と返してくれると思うので,5分くらい動作確認を兼ねて遊んでみるといいのではないでしょうか。
動作確認が終了したら,quit()と入力してPythonを終了します。
4. パッケージのインストール(準備編)
さて,無事Pythonをインストールできたところで,データ分析用のパッケージをこれからインストールしていきます。
それらに先立って,パッケージのインストールを非常に簡単にしてくれるツールである以下2つをインストールしましょう。
ちなみに,以下パッケージのインストールが終わるまでPythonは一切開かず,コマンドなどを実行するときにはすべてコマンドプロンプトで行いますので注意してください。
- easy_install(setuptools)
- pip
といっても難しい話ではないので,ご安心ください。
これらはPython2.7.9の時点ではすでにデフォルトでインストールされるようになっており、それらを活用してパッケージをインストールできる環境を作っていきます。
まずはデフォルトで入っているpipをバージョンアップします。
次のようにコマンドを打ち込んで実行します。
python -m pip install -U pip
これでpipが最新バージョンに更新されたので、pipちゃんに縦横無尽に活躍してもらえるようになりました。
せっかくなので、さっそくpipを利用してデフォルトで入っているsetuptoolsというパッケージをアップグレードしてみましょう。
既にインストールされているパッケージのアップグレードは、upgradeの頭文字である大文字Uをオプションとして
pip install setuptools -U
というコマンドで可能です。
きちんと古いバージョンもアンインストールされるはずです。
このsetuptoolsというパッケージが入っていればeasy_installというコマンドが使えるはずですので、次に進めます。
こんなに簡単になっているとは、素晴らしい時代になりましたね。
この時点でうまくいかない場合、使えるようにするためパスを追加してあげることで解決する可能性があります。
詳しくないですが,使えるようにするために通り道を作ってあげましょう,みたいなかんじで中らずと雖も遠からずだと思います。
勘のいい人はここでお気づきになるかもしれませんが,Python本体インストール時にいじった「Add python.exe to Path」のPathのことです。
以下に流れを追ってパスの追加方法を確認していきます。
1 コントロールパネルを開く
2 システムとセキュリティをクリック
3 システムをクリック
4 左側にあるシステムの詳細設定をクリック
5 環境変数というところをクリック
6 下段,システム環境変数の中からPathを探して,編集をクリック
7 ;C:\Python27\Scriptsと追加してOKを押し,パスの追加を完了*3*4
パスの追加がうまくいっているかを動作確認するため,再度コマンドプロンプトを開き,次のように入力してエンターします。
easy_install
このときに,
error: No urls, filenames, or requirements specified (see --help)
と表示されればパスの追加は成功しているので動作確認完了です。
もし,
'○○'は,内部コマンドまたは外部コマンド,操作可能なプログラムまたはバッチ ファイルとして認識されていません。
と出てきてしまうとパスの設定がうまくいっていないか,もしくは誤字の可能性があります。
恥ずかしい話ですが,私はeazy_installと誤入力したせいでパスの見直しなりなんなりに30分以上費やしました。
まずは入力ミスを疑うことをおすすめします。
おそらくですが、Pythonインストール時にパスを追加していればpipおよびeasy_installの利用も特別何かを操作することなく可能だと思います。
5. 基本パッケージのインストール
easy_installおよびpipちゃんたちが使えるようになったところで,いったんお休みしていただきまして以下に挙げる基本となるパッケージ2つをインストールしていきます。
個々のインストール前に,全体としての注意点ですがインストールされたPython2.7と対応したパッケージを選びましょう。
また,基本パッケージとしてここに挙げるものは容量が大きいからなのか何なのかよくわかりませんが,インストーラを用いたほうが圧倒的に楽でしたのでpipちゃんたちにはお休みしてもらっているという理由があります。
- Numpy
Numerical Python - Browse /NumPy at SourceForge.net
ここから最新のバージョン(今回は1.9.1)をクリックして,Python2.7に対応したNumpyのインストーラをダウンロードします。
右側の週間DL数を見ていただければわかると思いますが,Python2.7系は圧倒的にDL数が多いのが特徴です。
- Scipy
SciPy: Scientific Library for Python - Browse /scipy at SourceForge.net
ここから最新のバージョン(今回は0.15などがまだβ版のようなので,0.14.0にしましょう)をクリックして,Python2.7に対応したScipyのインストーラをダウンロードします。
今回も週間DL数の多いものを選べば対応したものがダウンロードできます。
ファイル名が途中で切れてしまっているのでカーソルを合わせない限りはどれをダウンロードしていいかわからないのですが,ダウンロード数で判断できるのは簡単で良いですよね。
ダウンロードした2つのインストーラをそれぞれ実行し,ひたすらNextを連打してこのセクションはおしまいです。
6. インストールしたパッケージの確認
このステップはすぐ終わります。
今ダウンロード・インストールした2つのパッケージがきちんとインストールされているかを確認するために,pipちゃんに活躍してもらいます。
コマンドプロンプトを起動して,次のように入力してからエンターを押します。
pip list
このコマンドによって,インストールされているパッケージ名とバージョンが取得できますのでここにNumpy,Scipyがあればミッションクリアです。
7. pipを用いたパッケージのインストール
pipを利用するととても早いです。
インストール方法も次のように入力するだけです。
pip install パッケージ名
このコマンドを用いて以下に挙げる,(とりあえず)データ分析に必要なパッケージをインストールしていきます。
パッケージ名を上のコマンドに代入していくだけでよいので簡単です。
- matplotlib
- pandas
- statsmodels
pipは非常に便利で,パッケージの更新なども可能です。
詳しい使い方は,とても参考になるページがあるのでリンクを貼らせていただきます。pipの使い方 (2014/1バージョン) — そこはかとなく書くよん。
8. パッケージの確認
Numpy, Scipyのときにもやったように,コマンドプロンプト上での
pip list
コマンドで必要なパッケージがすべてインストールされたかを確認します。
中にはパッケージを使用するのに他のパッケージが必要,となっているもの(pandasなどがそうです)があるので,自分で指定してインストールしたパッケージよりもいくらか多くリストに出てくるかもしれませんが,特に何か怖いことをした結果混入したとかではないのでご安心ください。
9. Python上でのパッケージインポート
ここまで,動作確認で一度しかPythonを起動しませんでしたが,パッケージが揃ったのでようやく出番です。
コマンドプロンプトから起動してもよいのですが,せっかくなのでインストールしたPythonに付属のIDLE(Python GUI)というものを使ってみましょう。Python Shellとも呼びます。
スタートメニューからプログラム名の検索ができると思うので,IDLE (Python GUI)と入力して実行します。
次のような画面が開けばOKです。
カーソルがすでに>>>になっているはずなので,立派にPythonです。
ためしに今までインストールしてきたパッケージをPython上でインポートしてみましょう。
ここではpandasをインポートしてみます。
次のように入力するだけです。
import pandas
これを実行してみて特にエラーメッセージが出なければインポートが完了しています。
また,インポート時に長いパッケージ名は使いやすく名前を定義してインポートすることもできます。
たとえば,pandasというパッケージ名はPythonの文法では使うときにいちいちpandasと入力する手間を取られてしまいます。
そこで,次のようにインポートしてみましょう。
import pandas as pd
このようにすると,pandasを利用するときにpdと入力すればpandasの中の機能を呼び出す命令となるので便利です。
おわりに
インポートについての蛇足がすこしつきましたが,以上,データ分析のためのPython簡単インストールでした。
文章に起こすと量は多いように思われますが,手続き自体は多くないと思います。
私がインストールしたときには手間取り,試行錯誤しながらという感じだったので,こうしたまとめがどなたかの役に立つといいなーと思っています。
まだユーザーは少ないようですが,一緒にPythonistaを目指しましょう!