pandas.errors.ParserError: Error tokenizing data の対処

このエラーは、read_csv が読んだファイルで行によって列の数が違う（または区切り文字が想定と違う）ために、表として組み立てられず失敗している状態です。正しい区切り文字を指定し、必要なら壊れた行をスキップすれば読めます。

pandas.errors.ParserError: Error tokenizing data. C error: Expected 5 fields in line 8, saw 7

原因

多くは次のどれかです。区切り文字がカンマでない（タブやセミコロン）、データ中にカンマや引用符が混ざって列数がずれる、ヘッダーより前に余計な行がある、複数のCSVが連結されて列数が一致しない。メッセージの「Expected N fields … saw M」が、どの行で何列ずれたかを教えてくれます。

import pandas as pd
df = pd.read_csv("data.csv", sep="\t")

df = pd.read_csv("data.csv", engine="python")

df = pd.read_csv("data.csv", on_bad_lines="skip")

df = pd.read_csv("data.csv", skiprows=2)

この手の前処理エラーは、pandasの設計思想を知っていると回避しやすくなります。リファレンスとしてPythonによるデータ分析入門を手元に置いておくと便利です。

※本記事にはアフィリエイト広告を含みます。