1.4 Pandas模块

在Python中,可以使用xlwings模块和Pandas模块相结合的方式处理比较复杂的Excel文档。Pandas(Python Data Analysis Library)是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。

由于Pandas模块是第三方模块,所以需要安装此模块。安装Pandas模块需要在Windows命令行窗口中输入的命令如下:

    pip install pandas-i https://pypi.tuna.tsinghua.edu.cn/simple

然后按Enter键,即可安装Pandas模块,如图1-33所示。

图1-33 安装Pandas模块

1.4.1 Pandas模块创建的对象

Pandas是一个开源的第三方Python库,从NumPy和Matplotlib的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas已经成为Python数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。

Pandas模块是采用面向对象的思想编写而成的。可以创建3种对象(Series、DataFrame、Panel)。这3种对象分别用于处理不同类型的数据结构,具体的数据结构见表1-9。

表1-9 Pandas模块创建的对象

1.创建Series对象

在Pandas模块中,可以使用函数pandas.Series()创建Series对象,其语法格式如下:

    import pandas as pd
    series1=pd.Series(data,index,dtype,copy)

其中,data用于保存输入的数据,可以是各种类型的数据;index表示数据的索引值,该索引值是唯一的,与数据长度相同;dtype表示数据类型,如果没有输入,则自行判断数据的类型;copy表示是否复制数据,默认值为False。

【实例1-17】 使用Pandas模块创建一个包含5个元素的Series对象和一个包含1个元素的Series对象。打印这两个Series对象,代码如下:

    #===第1章代码1-17.py===#
    import pandas as pd
 
    data1=['a','b','c','d','e']
    data2='ABCDE'
    series1=pd.Series(data1)
    series2=pd.Series(data2)
    print(series1)
    print(series2)

运行结果如图1-34所示。

图1-34 代码1-17.py的运行结果

2.创建DataFrame对象

在Pandas模块中,可以使用函数pandas.DataFrame()创建DataFrame对象,其语法格式如下:

    import pandas as pd
    df1=pd.DataFrame(data,index,columns,dtype,copy)

其中,data用于保存输入的数据,可以是各种类型的数据;index表示行标签,如果没有传递index值,则默认的行标签是np.arange(n),n代表data的元素个数;columns表示列标签,如果没有传递columns值,则默认的行标签是np.arange(n);dtype表示每列的数据类型,如果没有输入,则自行判断数据的类型;copy表示是否复制数据,默认值为False。

【实例1-18】 使用Pandas模块创建一个包含1列元素的DataFrame对象和一个包含2行3列元素的DataFrame对象。打印这两个DataFrame对象,代码如下:

    #===第1章代码1-18.py===#
    import pandas as pd
 
    data1=['a','b','c','d','e']
    data2=[['c','java','python'],['11','12','13']]
    df1=pd.DataFrame(data1)
    df2=pd.DataFrame(data2)
    print(df1)
    print(df2)

运行结果如图1-35所示。

图1-35 代码1-18.py的运行结果

3.创建Panel对象

在Pandas模块中,可以使用函数pandas.Panel()创建Panel对象,其语法格式如下:

    import pandas as pd
    pan1=pd.Panel(data,items,major_axis,minor_axis,dtype,copy)

其中,data用于保存输入的数据,可以是各种类型的数据;items表示axis=0;major_axis表示axis=1;minor_axis表示axis=2;dtype表示每列的数据类型;copy表示是否复制数据,默认值为False。

注意:最新版本的Pandas模块已经移出了Panel类。如果有读者要使用Panel类,则可以安装之前的版本。

1.4.2 读取Excel工作簿

第三方模块Pandas是一个很强大的模块,不仅可以读取Excel工作簿中的数据,还可以读取HTML、JSON、CSV格式文件中的数据,使用的函数见表1-10。

表1-10 Pandas模块中读取文件的函数

由于Excel文件是比较复杂的文件,因此pandas.read_excel()函数的参数非常多,该函数详细的语法格式如下:

    import pandas as pd
    data=pd.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,
                usecols=None,squeeze=False,dtype=None,engine=None,
                converters=None,true_values=None,false_values=None,
                skiprows=None,nrows=None,na_values=None,parse_dates=False,
                date_parser=None,thousands=None,comment=None,skipfooter=0,
                convert_float=True,encoding=None,**kwds)

其中,常用参数的说明见表1-11。

表1-11 pandas.read_excel()函数中的常用参数说明

【实例1-19】 在D盘test文件夹下有一个Excel文档(销售数据.xlsx)。该文档的工作表Sheet1如图1-36所示。

图1-36 销售数据.xlsx

使用Pandas模块读取该工作表中的数据,然后跳过第1行读取工作表中的数据,打印读取的数据,代码如下:

    #===第1章代码1-19.py===#
    import pandas as pd
 
    src_path='D:\\test\\销售数据.xlsx'
    data1=pd.read_excel(src_path,sheet_name='Sheet1')
    print(data1)
    data2=pd.read_excel(src_path,sheet_name='Sheet1',skiprows=[1])
    print(data2)

运行结果如图1-37所示。

图1-37 代码1-19.py的运行结果

1.4.3 创建并写入Excel工作簿

在Pandas模块中,可以创建Excel工作簿,并将数据写入Excel工作簿。首先创建一个带有目标文件名的ExcelWriter对象,然后使用DataFrame对象的to_excel()方法,将DataFrame中的数据写入Excel文档,其语法格式如下:

    import pandas as pd
    dataf=pd.DataFrame(data)#创建包含数据data的DataFrame对象
    writer=pd.ExcelWriter(path)#创建带有目标文件名的ExcelWriter对象
    dataf.to_excel(writer,sheet_name=None)#将数据写入Excel文档
    writer.save()#保存数据
    writer.close()

其中,path表示目标文件名的路径;sheet_name表示Excel工作表的名称。

如果Excel工作簿已经被创建,则可以直接使用DataFrame对象的to_excel()方法将数据写入Excel文档,其语法格式如下:

    import pandas as pd
    dataf.to_excel(path,index=False)#将数据写入已存在的Excel文档

其中,path表示已存在的Excel文档的路径。

在Pandas模块中,函数DataFrame.to_excel()的语法格式如下:

    DataFrame.to_excel(excel_writer,sheet_name='Sheet1',na_rep='',float_format=None,
    columns=None,header=True,index=True,index_label=None,startrow=0,startcol=0,
    engine=None,merge_cells=True,encoding=None,inf_rep='inf',verbose=True,freeze_panes=
    None)

其中,常用参数的说明见表1-12所示。

表1-12 DataFrame.to_excel()函数中常用参数的说明

【实例1-20】 使用Pandas模块在D盘test文件夹下创建一个Excel文档(文学名著.xlsx),然后创建一组包含文学名著名字和人物的DataFrame数据,最后写入Excel文档,代码如下:

    #===第1章代码1-20.py===#
    import pandas as pd
 
    src_path='D:\\test\\文学名著.xlsx'
    info=pd.DataFrame({
          '西游记':['唐僧','孙悟空','猪八戒','沙僧','白龙马'],
          '红楼梦':['贾宝玉','林黛玉','薛宝钗','史湘云','晴雯'],
          '三国演义':['曹操','孙权','刘备','诸葛亮','司马懿']
         })
    writer=pd.ExcelWriter(src_path)
    info.to_excel(writer,sheet_name='Sheet1')
    writer.save()
    writer.close()

运行结果如图1-38所示。

图1-38 代码1-20.py创建的Excel工作表

注意:当使用Pandas模块打开已存在的Excel文件并写入数据时,一定要慎重。因为在保存数据那一刻,会清除Excel文件中原有的数据,因此,Pandas模块经常和xlwings、openpyxl模块一起使用,处理比较复杂的问题。

1.4.4 拆分列数据

Pandas模块、xlwings模块搭配使用,可以处理比较复杂的信息,例如将Excel工作表中的列数据分拆成多列数据。

【实例1-21】 在D盘test文件夹下有一个Excel文档(电冰柜.xlsx),该文档的工作表Sheet1如图1-39所示。

图1-39 电冰柜.xlsx文件中工作表Sheet1

将工作表中的产品尺寸列分拆为长、宽、高三列,并保存该文档,代码如下:

    #===第1章代码1-21.py===#
    import xlwings as xw
    import pandas as pd
 
    app=xw.App(visible=False,add_book=False)
    book=app.books.open('D:\\test\\电冰柜.xlsx')
    sheet=book.sheets['Sheet1']
    #读取工作表中的数据并转换为Pandas模块的DataFrame格式
    data=sheet.range('a1').options(pd.DataFrame,header=1,index=False,expand='table').value
    print(data)
    #分拆DataFrame数据中的['产品尺寸(mm)']列
    new_data=data['产品尺寸(mm)'].str.split('*',expand=True)
    print(new_data)
    new_data.columns=['长(mm)','宽(mm)','高(mm)']
    #在E列中插入两列
    for n in range(new_data.shape[1]-1):
        sheet['E:E'].insert(shift='right',copy_origin='format_from_left_or_above')
 
    #在E列中写入数据
    sheet['E1'].options(index=False).value=new_data
    sheet.autofit()
    book.save()
    app.quit

运行结果如图1-40和图1-41所示。

图1-40 代码1-21.py的运行结果

图1-41 代码1-21.py分拆的列数据

1.4.5 批量分类数据

Pandas模块、xlwings模块搭配使用,可以处理比较复杂的信息,例如对Excel工作表中的数据按照特定规则进行分类,这主要使用了DataFrame对象的groupby(name)方法,参数name表示分组所依据的列,也可以用列表的形式指定多列。

【实例1-22】 在D盘text文件夹下的demo2文件夹中有一个Excel文档(1月-4月销售数据.xlsx),该文档的工作表(1月)如图1-42所示。

图1-42 1月-4月销售数据.xlsx文件中的工作表

将工作表中的所有数据按照产品名称进行分类,并写入不同的工作表,代码如下:

    #===第1章代码1-22.py===#
    import xlwings as xw
    import pandas as pd
 
    app=xw.App(visible=False,add_book=False)
    book=app.books.open('D:\\test\\demo2\\1月-4月销售数据.xlsx')
    sheet_list=book.sheets
    table=pd.DataFrame()
    cols=['单号','销售日期','产品名称','成本价(元/台)','售价(元/台)','销售数量(台)']
    for index,val in enumerate(sheet_list):
        data=val.range('a1').options(pd.DataFrame,header=1,index=False,expand='table').value
        data=data.reindex(columns=cols)#设置列标题
        table=pd.concat([table,data],ignore_index=True)
        #table=table.append(data,ignore_index=True)
 
    #按产品名称对数据进行汇总
    table=table.groupby('产品名称')
    print(table)
    new_book=xw.books.add()
    for index,group in table:
        new_sheet=new_book.sheets.add(index)
        new_sheet['a1'].options(index=False).value=group
        new_sheet.autofit()
 
    new_book.save('D:\\test\\demo2\\1月-4月分类统计数据.xlsx')
    app.quit()

运行结果如图1-43和图1-44所示。

图1-43 代码1-22.py的运行结果

图1-44 1月-4月分类统计数据.xlsx文件中的工作表

注意:使用DataFrame对象的方法append()可以拼接数据,也可以使用函数pandas.contact()拼接数据,前一种方法会在Pandas未来的版本中舍弃。