python读取excel从文件到数据：究竟如何、为何、哪里、多少与怎样高效操作？

是什么？——Python读取Excel的本质与常用工具

当谈及Python读取Excel，我们所指的并非简单地“打开”一个文件，而是通过编程的方式，自动化地访问、解析并提取存储在Excel工作簿（.xls或.xlsx文件）中的结构化数据。这意味着Python程序能够模拟人工操作，定位到特定的工作表、行、列或单元格，并将其中的文本、数字、日期等信息转化为Python程序内部可处理的数据结构，例如列表、字典或更为强大的Pandas DataFrame。

实现这一目标，Python生态系统中拥有多个强大且功能各异的库，其中最常用和推荐的包括：

pandas：作为数据分析的核心库，Pandas在处理表格数据方面表现卓越。它能够以极高的效率读取Excel文件，并将其内容直接转化为DataFrame对象。DataFrame是Pandas的核心数据结构，形似数据库的表或Excel工作表，拥有行和列，非常便于后续的数据清洗、分析和操作。对于绝大多数数据分析和处理任务，Pandas是首选。
openpyxl：这是一个专门用于读写.xlsx文件的库。如果你的需求是更细粒度的单元格操作，例如读取特定单元格的样式、公式（或公式计算结果），或者需要对Excel文件进行更底层的控制，而非仅仅是将数据加载到DataFrame中，那么openpyxl会是更合适的选择。它允许你直接与工作簿、工作表、行和单元格对象交互。
xlrd：主要用于读取旧版.xls格式的Excel文件。虽然Pandas在内部也可以通过openpyxl或xlrd引擎来处理这两种格式，但如果你只处理老旧的.xls文件，xlrd可能是一个更直接的选择。然而，由于新版Excel文件普遍采用.xlsx格式，且xlrd的开发活跃度不如前两者，对于新的项目通常更推荐使用Pandas或openpyxl。

为什么？——为何选择Python进行Excel数据读取？

手动打开Excel文件、复制粘贴数据，对于少量、一次性的任务或许可行。但当面临以下场景时，Python读取Excel的优势便凸显无遗：

自动化与批量处理：你需要从几十甚至上百个Excel文件中提取数据，或者每天、每周重复执行相同的读取操作。Python脚本可以一次性处理所有文件，极大地节省时间和人力，并消除重复劳动带来的疲劳和错误。
数据集成与清洗：从Excel中读取的数据往往需要与其他数据源（如数据库、CSV文件、API接口）进行整合，或者需要进行复杂的清洗、转换、去重、格式统一等操作。Python提供了丰富的数据处理库（如Pandas），能够高效完成这些任务。
复杂逻辑处理：你可能需要根据Excel中的某些条件进行筛选、计算，或者依据数据生成报告、图表。Python的编程能力远超Excel内置的函数和宏，可以实现任意复杂的逻辑。
提高效率与准确性：人工操作容易出错，尤其是在处理大量数据时。Python脚本按照预设逻辑执行，确保每次操作的准确性和一致性，从而显著降低错误率。
无缝连接其他系统：读取Excel数据后，Python可以轻松地将处理后的数据上传至数据库、发送邮件、生成报表或集成到Web应用中，实现数据流的自动化和端到端解决方案。

哪里？——Excel文件可能在哪里？数据读取后去往何处？

在实际操作中，Excel文件可能来源于多种位置，而通过Python读取后，数据也有多种去向：

Excel文件的来源位置：

本地文件系统：这是最常见的情况，Excel文件存储在你的电脑硬盘、U盘或连接的网络驱动器上。Python通过提供完整的文件路径来访问它们。
网络共享或云存储：文件可能位于公司内部的网络共享文件夹（SMB/NFS），或者云存储服务（如OneDrive、Google Drive、Dropbox等）。对于网络共享，你需要确保Python运行环境有相应的访问权限；对于云存储，可能需要使用相应的API或将其同步到本地。
Web下载：某些网站提供Excel报告的下载链接。Python可以通过requests库模拟浏览器行为下载这些文件，然后再进行读取。
邮件附件：Excel文件可能通过电子邮件附件发送。Python可以利用邮件处理库（如email库）解析邮件，提取附件并保存到本地临时文件后再读取。

数据读取后的去向：

Python内存中的数据结构：最直接的去向是Python程序内部的变量，通常是Pandas DataFrame、列表或字典。这是数据进行进一步处理的起点。
新的Excel文件：经过清洗、转换或汇总后，数据可以被写入到一个新的Excel文件中，作为处理结果或报告。
其他文件格式：数据可以被保存为CSV、JSON、Parquet等格式，以适应不同的存储或分析需求。
数据库：处理后的数据常被加载到关系型数据库（如MySQL、PostgreSQL、SQL Server）或NoSQL数据库（如MongoDB）中，用于持久化存储和后续查询。
数据可视化工具：数据可以被直接传递给Python的数据可视化库（如Matplotlib、Seaborn、Plotly）来生成图表和仪表盘。
API接口或Web应用：处理后的数据可以作为API的响应返回给调用方，或者作为Web应用的后台数据支撑。
报告或邮件内容：数据可以被格式化为文本内容，用于生成自动化报告或邮件正文。

多少？——数据量、文件数量与复杂性考量

Python处理Excel的能力非常强大，但“多少”涉及的不仅仅是数量，还有文件的结构和内容的复杂性：

数据量（行/列）

小规模数据（几百到几千行）：Python可以瞬间加载并处理。内存占用通常不是问题。
中等规模数据（几万到几十万行）：Python（特别是Pandas）依然能高效处理。此时需要关注内存使用，避免加载不必要的列。
大规模数据（百万级甚至千万级行）：直接将整个Excel文件加载到内存可能会导致内存溢出。

处理策略： 对于这种超大型Excel文件，最佳实践是先将其转换为更适合大数据处理的格式（如CSV或Parquet），然后使用Pandas的chunksize参数分块读取，或者考虑使用更专业的内存外计算库（如Dask）。如果文件是.xlsx格式，openpyxl在读取时通常更节省内存，因为它按需加载单元格数据，但整体处理速度可能不如一次性加载到Pandas DataFrame快。

文件数量

单个文件：最简单的情况，直接指定文件路径即可。
少量文件（几个到几十个）：可以通过循环遍历文件列表进行批量读取和处理。
大量文件（几百到几千个）：需要更健壮的遍历机制（如glob模块），并考虑性能优化，例如多线程或多进程处理。

工作表数量

单个工作表：默认读取第一个工作表，或通过名称/索引指定。
多个工作表：可以通过循环遍历工作表名称或索引来依次读取，并将其合并或分别处理。Pandas的read_excel()函数可以接受一个None作为sheet_name参数，返回一个包含所有工作表数据的字典。

数据类型与内容复杂性

标准文本、数字、日期：Python库能很好地识别和转换这些基本数据类型。Pandas在读取时会尝试自动推断数据类型。
特殊格式（货币、百分比、科学计数）：通常会被转换为对应的数字类型，但显示格式可能丢失。如果需要保留格式信息，openpyxl提供更多低级访问权限。
公式：默认情况下，Python读取的是单元格中公式计算后的结果值，而不是公式本身。如果需要读取公式文本，openpyxl可以实现。
合并单元格：合并单元格在读取时可能导致数据在Pandas中出现重复或缺失。通常，Pandas会填充第一个合并单元格的值，而将其他合并单元格视为空值（NaN）。需要额外的逻辑来处理。
图表、图片、宏：Python读取Excel的库主要关注数据本身。图表、图片、VBA宏等非数据内容通常不会被直接读取或解析。如果需要处理这些元素，可能需要更专业的第三方库或与Office COM接口交互（仅限Windows）。

如何与怎么？——Python读取Excel的具体操作与高效技巧

本节将详细阐述如何使用openpyxl和pandas这两个最主要的库来读取Excel文件，并提供多种场景下的实用技巧。

1. 准备工作：安装必要的库

在开始之前，确保你的Python环境中安装了这些库。如果没有，可以使用pip进行安装：

pip install pandas openpyxl xlrd

（xlrd是为了兼容旧版.xls文件，如果只处理.xlsx文件，可以不安装或只安装openpyxl和pandas。）

2. 使用 `openpyxl` 进行基础读取

openpyxl更适合当你需要像操作Excel界面一样，精确地访问和控制单个单元格或行时。

加载工作簿 (Workbook)

import openpyxl


        # 假设Excel文件名为 'example.xlsx'，位于当前目录下

        file_path = 'example.xlsx'

try: workbook = openpyxl.load_workbook(file_path) print(f"成功加载工作簿：{file_path}") except FileNotFoundError: print(f"错误：文件 '{file_path}' 不存在。") except Exception as e: print(f"加载工作簿时发生错误：{e}")

选择工作表 (Worksheet)

你可以通过名称或索引选择工作表。

# 按名称选择工作表 sheet = workbook['Sheet1'] print(f"当前工作表名称：{sheet.title}")


        # 获取所有工作表名称

        print(f"所有工作表名称：{workbook.sheetnames}")

# 获取活动工作表（通常是最后一次保存时活跃的） active_sheet = workbook.active print(f"活动工作表名称：{active_sheet.title}")

遍历行与单元格

openpyxl允许你按行或按列遍历单元格。

print("--- 遍历所有行和单元格 ---") for row in sheet.iter_rows(): # 遍历所有行 row_values = [cell.value for cell in row] print(row_values)

print("\n--- 遍历指定范围的行 ---") # 从第2行到第5行，A列到C列 for row in sheet.iter_rows(min_row=2, max_row=5, min_col=1, max_col=3): row_values = [cell.value for cell in row] print(row_values)

获取特定单元格数据

# 通过单元格坐标获取 cell_a1 = sheet['A1'] print(f"A1 单元格的值：{cell_a1.value}")

# 通过行号和列号获取 cell_b2 = sheet.cell(row=2, column=2) print(f"B2 单元格的值：{cell_b2.value}")

处理合并单元格 (openpyxl)

在openpyxl中，合并单元格只有左上角的单元格有值，其他合并的单元格会返回None。如果需要获取合并区域的值，通常需要先识别合并区域，然后访问其左上角的单元格。

# 假设A1:B2是合并单元格，且A1有值 # print(sheet['B1'].value) # 可能会是None


        # 遍历合并单元格区域

        for merged_cell_range in sheet.merged_cells.ranges:

            min_col, min_row, max_col, max_row = openpyxl.utils.cell.range_boundaries(str(merged_cell_range))

            # 获取合并区域左上角单元格的值

            merged_value = sheet.cell(row=min_row, column=min_col).value

            print(f"合并单元格区域 {merged_cell_range} 的值：{merged_value}")

# 解除合并（如果需要处理原始数据） # sheet.unmerge_cells('A1:B2')

3. 使用 `pandas` 进行高效数据读取

pandas的read_excel()函数是读取Excel数据到DataFrame的利器，功能强大且参数丰富。

基础用法：读取整个工作表

import pandas as pd


        file_path = 'example.xlsx'

try: df = pd.read_excel(file_path) print("--- 成功读取整个工作表到DataFrame ---") print(df.head()) # 打印前几行数据 except FileNotFoundError: print(f"错误：文件 '{file_path}' 不存在。") except Exception as e: print(f"读取Excel时发生错误：{e}")

读取特定工作表

使用sheet_name参数，可以指定要读取的工作表，可以是名称（字符串）或索引（从0开始）。

# 读取名为 '销售数据' 的工作表 sales_df = pd.read_excel(file_path, sheet_name='销售数据') print("\n--- 读取 '销售数据' 工作表 ---") print(sales_df.head())


        # 读取第二个工作表（索引为1）

        second_sheet_df = pd.read_excel(file_path, sheet_name=1)

        print("\n--- 读取第二个工作表 ---")

        print(second_sheet_df.head())

# 读取所有工作表，返回一个字典，键是工作表名，值是DataFrame all_sheets = pd.read_excel(file_path, sheet_name=None) print("\n--- 读取所有工作表（作为字典） ---") for sheet_name, df_sheet in all_sheets.items(): print(f"工作表 '{sheet_name}' 包含 {len(df_sheet)} 行数据。")

处理表头 (Headers)

header参数用于指定哪一行作为列名。

默认行为 (header=0)：第一行作为列名。
无表头 (header=None)：数据中没有表头，Pandas会生成默认的数字列名（0, 1, 2…）。
多层表头 (header=[0, 1])：如果表头占据多行，可以传入一个列表，Pandas会创建MultiIndex列。

# 假设Excel文件没有表头 df_no_header = pd.read_excel(file_path, header=None) print("\n--- 无表头读取 ---") print(df_no_header.head())

# 假设Excel有两层表头，第一行和第二行都是表头 # df_multi_header = pd.read_excel(file_path, header=[0, 1]) # print("\n--- 多层表头读取 ---") # print(df_multi_header.head())

选择特定列 (`usecols`)

只读取需要的列，可以提高效率并减少内存占用。

# 读取 '姓名' 和 '年龄' 列 df_selected_cols_names = pd.read_excel(file_path, usecols=['姓名', '年龄']) print("\n--- 读取指定名称的列 ---") print(df_selected_cols_names.head())


        # 读取第一列和第三列 (索引从0开始)

        df_selected_cols_indices = pd.read_excel(file_path, usecols=[0, 2])

        print("\n--- 读取指定索引的列 ---")

        print(df_selected_cols_indices.head())

# 读取A列到C列 (通过Excel列名字符串) df_range_cols = pd.read_excel(file_path, usecols='A:C') print("\n--- 读取指定范围的列 ---") print(df_range_cols.head())

跳过行与限制行数 (`skiprows`, `nrows`)

如果你只想读取部分数据，或者文件顶部有无关的说明行。

# 跳过前5行，从第6行开始读取 df_skip_rows = pd.read_excel(file_path, skiprows=5) print("\n--- 跳过前5行读取 ---") print(df_skip_rows.head())


        # 只读取前100行数据（从表头开始计数）

        df_n_rows = pd.read_excel(file_path, nrows=100)

        print("\n--- 只读取前100行 ---")

        print(df_n_rows.tail())

# 结合使用：跳过前5行，再读取接下来的10行 df_partial = pd.read_excel(file_path, skiprows=5, nrows=10) print("\n--- 跳过前5行并读取接下来的10行 ---") print(df_partial)

处理缺失值 (`na_values`)

Excel中一些特定的文本可能代表缺失值（如“N/A”、“未知”）。na_values可以将其转换为Pandas的NaN。

# 将 'N/A' 和 '未知' 识别为缺失值 df_na = pd.read_excel(file_path, na_values=['N/A', '未知']) print("\n--- 处理自定义缺失值 ---") print(df_na.head())

数据类型指定与日期解析 (`dtype`, `parse_dates`)

确保数据类型正确是数据分析的关键。

dtype：强制指定列的数据类型，可以避免Pandas自动推断错误，或者减少内存使用。
parse_dates：将某些列解析为日期时间格式。

# 假设 'ID' 列应该是一个字符串（即使它看起来像数字） # 假设 '创建日期' 列需要被解析为日期时间对象 df_types = pd.read_excel( file_path, dtype={'ID': str, '销售额': float}, parse_dates=['创建日期'] ) print("\n--- 指定数据类型和解析日期 ---") print(df_types.info())

读取多个Excel文件

当你有大量结构相似的Excel文件需要合并时，结合glob模块非常方便。

import glob


        # 假设所有Excel文件都在 'data_folder' 目录下

        # file_pattern = 'data_folder/*.xlsx'

        # 假设当前目录下有多个excel_part_1.xlsx, excel_part_2.xlsx 等

        file_pattern = 'excel_part_*.xlsx'

        excel_files = glob.glob(file_pattern)
        all_dfs = []

        for f in excel_files:

            try:

                df_part = pd.read_excel(f)

                all_dfs.append(df_part)

                print(f"成功读取文件：{f}")

            except Exception as e:

                print(f"读取文件 {f} 时出错：{e}")

if all_dfs: combined_df = pd.concat(all_dfs, ignore_index=True) print(f"\n--- 成功合并 {len(excel_files)} 个Excel文件 ---") print(combined_df.info()) print(combined_df.head()) else: print("没有找到匹配的Excel文件或所有文件读取失败。")

性能考量与大型文件处理

对于非常大的Excel文件（几百万行），直接使用pd.read_excel()可能会消耗大量内存甚至失败。

建议：

优先转换为CSV：如果可能，让Excel文件的生成方提供CSV格式，因为pd.read_csv()在处理大文件时效率远高于pd.read_excel()，且支持chunksize参数分块读取。

engine参数：Pandas的read_excel函数可以使用不同的后端引擎，例如openpyxl（默认，用于.xlsx）或xlrd（用于.xls）。在某些情况下，指定引擎可能会有微小的性能差异，但通常默认即可。

内存优化参数：

usecols：只读取你需要的列。

dtype：指定精确的数据类型，避免Pandas分配过大的内存（例如，将整数列读成浮点数）。

skiprows, nrows：只读取需要的数据范围。

分块读取（适用于先转CSV）：虽然pd.read_excel()本身没有直接的chunksize参数，但如果你能将大Excel文件转换为CSV，那么就可以使用pd.read_csv(file_path, chunksize=10000)来迭代读取数据块，分批处理。

4. 常见场景与高级技巧

动态确定文件路径

让脚本更通用，而不是硬编码文件路径。

用户输入：使用input()函数让用户在运行时提供文件路径。
命令行参数：使用argparse模块在脚本启动时传入文件路径。
环境变量：从操作系统环境变量中获取路径。

错误处理与健壮性

使用try-except块捕获潜在的错误，如文件不存在、文件损坏、工作表不存在等。

import pandas as pd import openpyxl


        def read_excel_safely(file_path, sheet_name=0):

            """安全地读取Excel文件并返回DataFrame。"""

            try:

                df = pd.read_excel(file_path, sheet_name=sheet_name)

                print(f"文件 '{file_path}' 的工作表 '{sheet_name}' 读取成功。")

                return df

            except FileNotFoundError:

                print(f"错误：文件 '{file_path}' 未找到。请检查路径。")

                return None

            except ValueError as ve: # 例如，sheet_name不存在

                print(f"错误：工作表 '{sheet_name}' 未找到或文件格式不正确：{ve}")

                return None

            except Exception as e:

                print(f"读取文件 '{file_path}' 时发生意外错误：{e}")

                return None

# 示例调用 # df_data = read_excel_safely('non_existent.xlsx') # df_data_valid = read_excel_safely('example.xlsx', sheet_name='Sheet1')

读取公式计算结果而非公式本身

默认情况下，openpyxl和pandas在读取时获取的是单元格的“值”，这个值通常是Excel已经计算好的公式结果。如果你需要读取公式文本而不是结果，可以通过openpyxl来实现。

# 使用openpyxl读取公式文本 # workbook = openpyxl.load_workbook('example_with_formulas.xlsx', data_only=False) # sheet = workbook.active # cell_with_formula = sheet['A1'] # print(f"A1单元格的公式文本：{cell_with_formula.formula}") # print(f"A1单元格的计算结果：{cell_with_formula.value}")

# data_only=True 加载时只读取值，忽略公式 # workbook = openpyxl.load_workbook('example_with_formulas.xlsx', data_only=True)

注意：data_only=True会使得openpyxl只加载单元格的缓存值，如果Excel文件在保存时没有计算过公式或者缓存值已过期，那么可能得到旧值或None。通常情况下，默认行为（读取计算结果）是符合大部分需求的。

总结

Python在读取Excel文件方面提供了强大的功能和灵活性。无论是需要进行精细化的单元格操作（使用openpyxl），还是进行大规模、高效的数据导入和处理（使用pandas），Python都能提供完善的解决方案。通过理解“是什么”、“为什么”、“哪里”、“多少”以及“如何与怎么”这些核心问题，你将能够更好地选择合适的工具和策略，从而高效、准确地将Excel中的数据转化为可用的信息资产，为后续的数据分析、报告生成或系统集成奠定坚实基础。熟练掌握这些技术，将极大地提升你的数据处理自动化能力。

python读取excel