5.5 采用Pandas导入数据

前面介绍了如何通过标准的Python类库和NumPy来导入数据。接下来会通过一个例子来演示如何通过Pandas导入CSV文件的数据。通过Pandas来导入CSV文件要使用pandas.read_csv()函数。这个函数的返回值是DataFrame,可以很方便地进行下一步的处理。这个函数的名称非常直观,便于代码的阅读和后续对数据的处理。在机器学习的项目中,经常利用Pandas来做数据清洗与数据准备工作。因此,在导入CSV文件时,推荐大家使用这个方法。代码如下:

    from pandas import read_csv
    # 使用Pandas导入CSV数据
    filename='pima_data.csv'
    names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age',
    'class']
    data=read_csv(filename, names=names)
    print(data.shape)

这段代码为数据补充了文件头,执行结果如下:

   (768, 9)