CSV Column Extractorは、大規模なCSVファイルから必要な列だけを簡単かつ高速に抽出するためのPythonスクリプトです。設定ファイルを使って抽出したい列名を指定するだけで、新しいCSVファイルを生成します。
- 設定ファイルベース:
config.iniファイルに設定を記述するだけで、スクリプトの変更は不要です。 - 複数列の指定: 抽出したい列をカンマ区切りで複数指定できます。
- 高速な処理: データ操作に最適化された
pandasライブラリを使用しており、大きなファイルも効率的に処理します。 - エラーハンドリング: ファイルが存在しない場合や、指定した列が見つからない場合に警告やエラーメッセージを表示します。
- Python 3.8 以上
- pandas およびその依存ライブラリ (
numpy,python-dateutil,pytz,six)
-
リポジトリのクローンまたはダウンロード
git clone https://github.com/git-756/csv-tool.git cd csv-tool -
設定ファイルの準備
csv_column_extractor/config.ini.sampleをコピーして、同階層にconfig.iniという名前で保存します。
-
config.iniの編集config.iniファイルを開き、自分の環境に合わせて以下の項目を設定します。
[SETTINGS] # 入力する元のCSVファイル名を指定します input_csv_file = path/to/your/source_data.csv # 出力する新しいCSVファイル名を指定します output_csv_file = path/to/your/extracted_data.csv # 抽出したいヘッダー(列名)をカンマ(,)区切りで指定します target_headers = 氏名,メールアドレス,購入製品
-
スクリプトの実行
- ターミナルで以下のコマンドを実行します。
python csv_column_extractor/extract_csv.py
-
結果の確認
- 処理が完了すると、
output_csv_fileで指定したパスに、指定した列だけが含まれた新しいCSVファイルが作成されます。
- 処理が完了すると、
このプロジェクトは MIT License のもとで公開されています。ライセンスの全文については、LICENSE ファイルをご覧ください。
また、このプロジェクトはサードパーティ製のライブラリを利用しています。これらのライブラリのライセンス情報については、NOTICE.md ファイルに記載しています。