Pythonには強力なライブラリ機能が備わっており、これを活用することによってプログラムを一から書かずとも効率的に開発を行うことが可能になります。
今回は、データ解析を行うことに特化したPythonライブラリ「Pandas」について、インストール方法やインストールできない場合の対処法、基本的な使い方などを解説します。
データ解析に特化!PythonライブラリのPandasとは?
Pandas(パンダス)とは、「The PyData Development Team」が開発した、Pythonのライブラリの一つです。
ライブラリとは、特定の機能を持ったプログラムを定型化して、ほかのプログラムに組み込めるようにしたものを指します
Pandasには、データ解析を支援するためのプログラムやデータが集められています。
Pandas以外のライブラリについてはこちらで解説しています。
Pandasの特徴とできること
Pandasの最大の特徴は、表形式の独自データフレーム(DataFrame)を備えているライブラリであることです。これによって、まるでExcelを扱うかのように、さまざまなデータの処理ができるでしょう。
具体的には、Pandasを用いることで以下のような操作が可能になります。
- CSVファイルやExcelデータの読み込み
- 行数や列名からのデータの取得
- データの特徴や形状あるいは一部の表示
- データの要約や統計量の表示
- データの変形やピボット
- データのフィルタリングや切り出し(スライス)
- 値やインデックスごとの並べ替え
- 列や表の集計
など
Pandasを導入するメリット
Pandasを導入する主なメリットは2つ挙げられます。
まず、多種のデータを同じデータフレームとして扱えることです。多くのプログラムでは、データを扱う際に同じ型式に整える必要があるでしょう。
しかし、Pandasは違った型式であっても、同じデータフレームに含めることが可能です。そのため、データを前処理する作業が格段に楽になります。
次に、データの加工や解析に使える関数が多いことです。前述した通り、Pandasはデータの解析に特化したライブラリです。
当然のことながら、含まれる関数の多くはデータ処理に関わるものとなっています。例えば、データの欠損値を削除したり補完するといった作業も、Pandasを使えば簡単にできるでしょう。
Pandasをインストールする方法
Pythonには、
- 「標準ライブラリ」と呼ばれるPython導入時に同梱されるライブラリ
- 別途インストールしておく必要がある「外部ライブラリ」
と呼ばれるライブラリがあります。このうちPandasは「外部ライブラリ」にあたるため、利用するには別途でインストールしなければなりません。
Pythonのインストール方法については以下の記事で解説しています。
Pandasをインストールする標準的な方法について、以下でみていきましょう。
pipを使ったインストール方法
「pip」とは、Pythonの「標準ライブラリ」のうちの1つで、外部ライブラリを管理する機能があります。このpipを用いれば、Pandasを簡単にインストールできるでしょう。
- OSがWindowsなら「コマンドプロンプト」、MacおよびLinuxでは「ターミナル」を開く
- 「python -m pip install pandas」あるいは「pip install pandas」と入力
すると、使用環境に合わせてpipが自動的にPandasのインストールを始めるでしょう。
インストールがされたかの確認
Pandasが無事インストールされているか確かめたいときは、「python -m pip freeze」とコマンド入力するとよいでしょう。Pandasをはじめ、インストール済みの外部ライブラリが一覧として表示されます。
pip以外でのインストール方法
pip以外のインストール方法2.「sudo apt-get install python3-pandas」と入力
pipを用いたインストール以外の方法として、「sudo apt-get install python3-pandas」と入力することでもPandasのインストールをすることができますが、Pythonの公式ではこの方法を推奨していません。
最新バージョンのPythonやPandasを取得するには、pipやconda(Anacondaに含まれるパッケージおよびシステム環境管理システム)を使用してインストールすることが推奨されています。
pip以外のインストール方法2.Anacondaをインストール
また、「Anaconda」をインストールすることでもPandasを入手できるでしょう。Anacondaとは、PythonおよびR言語を使うことを目的に作られた、無料のディストリビューション(インストーラーやアプリケーションがセットになったパッケージ)を指します。
このAnacondaには、標準的にPandasが含まれているのです。
Anacondaをインストールする場合は、
- Anacondaの公式ホームページからOSにあったパッケージをダウンロード
- パッケージをデスクトップ上で解凍
- インストール設定を行う
これでPandasが利用できるようになります。もしくは、
- コマンドで「conda install -c anaconda pandas」と入力
こちらでもAnacondaをインストールすることができます。
ちなみに、Anacondaは日本語を含むフォルダー内にはインストールできません。
例えば、Windowsのアカウント名が日本語になっている場合などでは、日本語を含まないインストール用のフォルダーを、あらかじめ作成しておく必要があるでしょう。
PythonのプログラミングでPandasを用いる方法
インストール後、実際にPythonにおいてPandasを用いるには、あらかじめPandasの読み込みをしておかなければなりません。そのため、お使いのPythonの入力画面において「import pandas as pd」というimport文を入力しておきましょう。
なお、Pandasは「pd」とエイリアスを付けるのが通例となっています。
これ以降、pdというワードを入力することで、Pandasが利用できるようになります。
準備が済んだなら、実際にPandasをプログラミングに使ってみましょう。以下において、Pythonでプログラミングする際に、Pandasを使う基本である「データの読み込み」「データの選択」「データを表示する」などの方法について解説していきます。
データの読み込み
Pandasのデータフレームにデータの読み込みをする場合は、「read_csv()」という関数を使用します。
例えば、データ群が「example.csv」というファイルの場合、Pythonの入力画面において「df = pd.read_csv(‘example.csv’)」とコマンドを記述してください。
データの選択
次に、Pandasを使用してデータフレームに含まれるデータから特定の列や行を抜き出してみましょう。
例えば、以下のデータが読み込んだデータフレームにあるとします。
Name | Cost | |
0 | Cat | 500 |
1 | Dog | 800 |
2 | Bird | 300 |
ここから特定の列を抜き出すには、「selected_column = df[‘ColumnName’]」とします。
「df」とは、データフレームのことを意味します。
もし、Cost列を抜き出したいのなら「selected_column = df[‘Cost’]」と記入するとよいでしょう。
また、特定の行を抜き出すならば、「selected_row = df.loc[]」とするのが一般的です。例えば、2の行を選ぶのなら「selected_row = df.loc[2]」とするとよいでしょう。
もちろん、条件を付加することも可能です。具体的には、データからCost400以上の行を抽出する場合には、「filtered_data = df[df[‘Cost’] >= 400]」とします。
データの表示
読み込んでおいたデータを表示させるには、「print()」を使います。
例えば、データの最初を表示させたいときは「print(df.head())」、末端を表示したいなら「print(df.tail())」と入力してください。それぞれ先頭および末端からデータが表示されるでしょう。
Pandasがインストールできないときの原因と対処法
Pandasがインストールできない場合の主な原因は3つあります。それぞれの原因と対処法について、以下で解説していきます。
Pandasがインストールできない原因1.接続が制限されている
例えば、会社内からPandasをインストールしようとすると、プロキシサーバーが邪魔をしてインストールできなくなる場合があります。
この場合は、プロキシサーバーが通過できるようにインターネット設定を変更する、あるいは、あらかじめダウンロードしておいたPandasを用いてインストールするとよいでしょう。
Pandasがインストールできない原因2.書き込み権限がない
データやアプリケーションの追加書き込みが制限されているパソコンの場合、Pandasを新しく追加できないため、インストールが失敗することがあります。
書き込み制限がある場合の対処法としては、管理者権限でパソコンにアクセスするとよいでしょう。ただし、パソコンが自分の所有物でない場合には、インストールする前に、パソコンの管理を担当している人に必ず確認と許可を取るようにしましょう。
Pandasがインストールできない原因3.インストールされているpipやPythonが古い
バージョンが古いpipやPythonがパソコンにインストールされてしまっている場合、新しくPandasが追加できないケースがあるでしょう。
まずは、「コマンドプロンプト」もしくは「ターミナル」に「python -V」と入力し、Pythonのバージョンを確認してみてください。また、pipのバージョンは「pip -V」と入力すると確認できます。
もしバージョンが古いのであれば、双方ともに最新版にアップデートするとよいでしょう。
Pythonのライブラリをうまく使う方法
Pandasに限らず、Pythonのライブラリだったり基本的な使い方をマスターしたい場合は講座を受講するのがおすすめです。
最近では安価なPython講座も増えてきたので、気軽に学ぶことができるでしょう。
スタッフがおすすめするPython基礎セミナー講習は、2.75万円から受けられてサクッと受講完了できるので、ライブラリの使い方だったりWebスクレイピングの方法を知りたい人はぜひ気軽に受けてみてください。
データ処理に便利なPandasをインストールして使いこなそう
「Pandas」は、データ処理や管理に大変便利なPythonの外部ライブラリです。使い方をマスターすることで、データ解析などのプログラム開発が効率よく行えるようになります。
ぜひ、Pandasのインストール方法から基本的な操作までを学び、Pythonを用いたデータ処理のスキルを向上させましょう。