いますぐPythonでデータ分析するために必要なこととは？前編

nishino

2022.07.29

#python

データ分析をするための様々なサービスが世の中にありますが、導入までの期間やコストは気になりますよね。

手軽に卓上である程度分析することもできます。どうすればよいかこの記事で整理していきます。

必要なもの

Windows/macOSどちらでもよいのでPython3.6以上がインストールされているPC
Python教材!
分析したいデータ

必要なこと

データを手に入れる
データを汎用的なファイルフォーマットに変換する
データを分析する
分析結果を出力する

データを手に入れる

Pythonでデータ分析をするということは取り扱うデータの大きさが大きくなるかもしれず今後のシステム化も視野に入れてCSVファイルフォーマットで手に入れたいですよね

今回はとりあえずこちらのExcelファイルフォーマットを受け取ったという話で進めていきます

データを汎用的なファイルフォーマットに変換する

Windows、macOSどちらでも良いですがPythonがインストールされているPCでExcelファイルをPythonで読み込むツールをインストールします

pip install openpyxl

こちらのツールのドキュメント(英語)はこちらです

openpyxlの特徴

xlsx/xlsm/xltx/xltmファイル形式をPythonで読み書きするツール
日本語記事もたくさん見つかる有名なツール

プログラムを書き始めますが、変換処理を記述するまえにいったん動作確認しましょう

main.pyファイルを下記のように作成します

以下それぞれ書き換えてください

file_name=にはExcelの保存場所
sheet_name=にはExcelシートの名前

from openpyxl.cell.cell import Cell
from openpyxl import load_workbook


def load_excel(file_name, sheet_name):
    wb = load_workbook(filename=file_name, read_only=True)
    ws = wb[sheet_name]

    for row in ws.rows:
        a: Cell
        b: Cell
        c: Cell
        a, b, c = row
        print(f"a: {a.value}, b: {b.value}, c: {c.value}")

    wb.close()


if __name__ == '__main__':
    load_excel(file_name="/Users/nishino/Downloads/Book1.xlsx", sheet_name="Sheet1")

記述が終わったらプログラムを実行します

python main.py

動作しましたか？PythonがExcelシートの中身を認識して読み込めている様子が見えます

先頭の2行は表の見出し、3行目以降に分析すべきデータが表示されていますね

ファイルフォーマットと合わせて、分析に必要ない行は削除していきます

続いてファイルフォーマットを変換するためにツールを追加インストールする必要があります

pip install pyarrow

こちらのツールのドキュメント(英語)はこちらです

pyarrowの特徴

Apache ArrowというソフトウェアのPython版
高性能な分析ツール

さきほどmain.pyに記述していただいた内容を下記のように書き換えます

ファイルフォーマットを変換するプログラムです

以下それぞれ書き換えてください

output_file_name=には変換後のファイル保存場所

from openpyxl import load_workbook
import pyarrow as pa
import pyarrow.csv as csv


def load_excel(file_name, sheet_name):
    wb = load_workbook(filename=file_name, read_only=True)
    ws = wb[sheet_name]

    a_values = []
    b_values = []
    c_values = []
    for row in ws.rows:
        _a, _b, _c = row

        a_values.append(_a.value)
        b_values.append(_b.value)
        c_values.append(_c.value)

    wb.close()
    return a_values, b_values, c_values


def cleanse_data(rows1, rows2, rows3):
    # テーブルの見出しなど先頭2行を除く
    return rows1[2:], rows2[2:], rows3[2:]


def export_csv(rows1, rows2, rows3, output_file_name):
    options = csv.WriteOptions(include_header=False)

    table = pa.table([rows1, rows2, rows3], names=["A", "B", "C"])
    csv.write_csv(table, output_file=output_file_name, write_options=options)


if __name__ == '__main__':
    a, b, c = load_excel(file_name="/Users/nishino/Downloads/Book1.xlsx", sheet_name="Sheet1")
    cleansed_a, cleansed_b, cleansed_c = cleanse_data(a, b, c)

    a_rows = pa.array(cleansed_a, type=pa.string())
    b_rows = pa.array(cleansed_b, type=pa.float64())
    c_rows = pa.array(cleansed_c, type=pa.timestamp("s"))
    export_csv(a_rows, b_rows, c_rows, output_file_name="sheet1.csv")

動作しましたか？新しいファイルが増えてるのでファイルを開いてみてください。

これでデータ分析の準備ができました。

前半はここまでです。

後編では実際にデータ分析をしていきます。

nishino

grasysのクラウドエンジニア教育ってどんな感じ？

月1回開催！grasysのLTとは？

＼合わせて読みたい／Related article

Mecab を試してみた

はじめにこんにちは。2023 年 9 月に grasys に入社したミャンマー出身のスースーです。grasys に入社してからは、これまで自分が触ったことのなかった新しい技術を色々触ることが出来ました。今回はその中の一 […]

susu

2025.01.22

GenAI Processorsを触ってみる 2/4 ~ Processorについて ~

はじめまして！エンジニアのUemaです。今回は、AIパイプラインをシンプルに書けるように設計された、Google DeepMind の新しいオープンソース Python ライブラリである「GenAI Processor […]

uema

2025.10.31

Python 型ヒントの書き方 – 基本からジェネリクスまで

1. はじめに：このコードの出力結果は？まずは、以下のコードの出力結果は1から3のどれになるか考えてみてください。答えは3のTypeErrorです。 n/ 2の返り値はfloat型になります。float型をstr型に […]

T.Shinaji

2026.01.07

#python

ローカルで完結！PDFから答えるQAシステムをRAG + Qdrant + Pythonで作ってみた

こんにちは、mhosoya です。今回は、 RAG とはどういう仕組みでできているのか？を構築しながら理解していきたいと思います。自分は Google Cloud の AI Applications (旧 Verte […]

mhosoya

2025.07.30

roapiでcsvにsqlでselectしてみる

こんにちはgrasys長谷川です。最近このYouTube きょう何たべよ / Marco Macri を見ていて、パスタ作りにハマってます。肉たたき、チーズ削り、細いトング、小さい調理用ピンセット、耐熱ガラスボウル、アル […]

yusukeh

2022.10.06

Cookie	期間	説明
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

いますぐPythonでデータ分析するために必要なこととは？前編

必要なもの

必要なこと

データを手に入れる

データを汎用的なファイルフォーマットに変換する

openpyxlの特徴

pyarrowの特徴

nishino

＼ 合わせて読みたい ／Related article

Mecab を試してみた

GenAI Processorsを触ってみる 2/4 ~ Processorについて ~

Python 型ヒントの書き方 – 基本からジェネリクスまで

ローカルで完結！PDFから答えるQAシステムをRAG + Qdrant + Pythonで作ってみた

roapiでcsvにsqlでselectしてみる

＼合わせて読みたい／Related article