- R数据科学实战:工具详解与案例分析
- 刘健 邬书豪
- 4860字
- 2023-07-18 17:12:09
1.1 utils——数据读取基本功
utils包是R语言的基础包之一。这个包最重要的任务其实并不是进行数据导入,而是为编程和开发R包提供非常实用的工具函数。使用utils包来进行数据导入和初步的数据探索也许仅仅只是利用了utils包不到1%的功能,但这1%却足以让你在学习R语言时事半功倍。
1.1.1 read.csv/csv2——逗号分隔数据读取
.csv可能是目前最常见的平面文件类型了。它代表的是comma-separated values,简单来讲就是文件里每一个单独的数据值都是用逗号进行分隔的。.csv只是text file(文本文件)的一种,文本文件在微软的Windows操作系统中常以拓展名为.txt的形式呈现。文本文件可以使用各种符号来分隔数据值,例如常见的tab和“;”(分号),或者其他任意符号。即便是以.csv为拓展名的文件也并非一定是以逗号进行分隔的,相关内容在本章后面的函数演示部分会有介绍。文件的拓展名并非必须,熟悉Linux系统的读者可能接触过很多无拓展名的文件。处理无拓展名的文本文件数据时,最简单的办法就是使用data.table包中的fread函数(相关内容请参见第6章)。
utils里的read.csv/csv2是专门用于设置快速读取逗号分隔read.csv或是分号分隔read.csv2。也就是说,在事先了解数据值分隔符号的情况下,这两个函数对分隔符和其他一些参数的默认设置会使数据导入的部分更加简单和快捷。有一点需要特别注意,即这两个函数对小数点的处理:前者默认的小数点是“.”,后者默认的小数点是“,”。这只是因为不同国家技术人士对数据值分隔符的见解或者好恶不同而造成的。
万里长征第一步,我们先来者read.csv最简单的使用方式,代码如下:
> flights <- read.csv(file = "flights.csv")
此行代码可以解读为使用read.csv从工作空间读取文件flights.csv,然后将数据集保存到flights中,其他所有参数都使用默认值。因为flights.csv文件已经在R的工作路径里,所以此处免去了设置work directory。这里希望读者能够自行探索使用.rproj(R项目——将每一次数据分析的过程都看作一个独立的项目)来对每一个独立的数据分析工作进行分类和归集。该方法不仅免去了设置路径的麻烦,也减少了因原始数据文件太多而可能导致的各种坑隐患。
小知识
函数在执行的时候可以依照其默认设置的参数位置来执行,也就是说,用户无须指定每一个参数的名称,只须按照位置顺序来设定参数值即可。比如read.csv中的file参数名就可以省略,只要第一位是读取文档的目标路径和文件名就可以。
数据文件被读取到R工作环境中的第一步通常为调用str函数来对该数据对象进行初步检视,下面的代码列出了该函数最简单的使用方式。
> str(object = flights) 'data.frame': 6 obs. of6 variables: $ carrier : Factor w/ 4 levels "AA","B6","DL",..: 4 4 1 2 3 4 $ flight: int1545 1714 1141 725 461 1696 $ tailnum : Factor w/ 6 levels "N14228","N24211",..: 1 2 4 6 5 3 $ origin: Factor w/ 3 levels "EWR","JFK","LGA": 1 3 2 2 3 1 $ dest: Factor w/ 5 levels "ATL","BQN","IAH",..: 3 3 4 2 1 5 $ air_time: int227 227 160 183 116 150
str函数可用于检视读取数据结构、变量名称等。这里同样也只指定了一个非默认参数,其他参数全部都为默认值。str的输出结果由5个主要部分组成,具体说明如下。
1)data.frame代表数据集在R中的呈现格式,这里指的是数据框格式,读者可以将其设想为常见的Excel格式。
2)6 obs.of 6 variables代表这个数据集有6个变量,每个变量分别有6个观测值。
3)$ carrier与其余带有“$”符号的函数均指变量名称。
4)变量名称冒号后面的Factor和int代表的是变量类型。这里分别是指因子型Factor和整数型int数据。另外还有字符型chr、逻辑型logi、浮点型dbl(带有小数点的数字)、复杂型complex等。因子型变量的后面还列出了各个变量的因子水平,也就是拥有多少个不同的因子。比如,出发地origin后的3 levels就是表示其有3个因子水平。只是出发地是否属于因子类型的数据还有待商榷,而read.csv默认将所有的字符型数据都读成了因子型。
5)数据中的实际观测值。str函数在默认情况下会显示10行数据。使用str函数浏览导入的数据集可以让用户确定读取的数据是否正确,数据中是否有默认的部分、变量的种类等信息,进而确定下一步进行数据处理的方向。其他用来检视数据集的函数还有head、tail、view等,另外,Rstudio中的Environment部分也可以用于查看目前工作环境中的数据框或其他类型的数据集。
前文提到过,.csv并非一定是以逗号进行分隔。如果遇到以非逗号分隔数据值的情况,加之未指定分隔符例如,运行read.csv读取以Tab分隔的文件,就会出现下面的情况:
> flights1 <- read.csv(file = "flights1.csv") > str(object = flights1) 'data.frame': 6 obs. of1 variable: $ carrier.flight.tailnum.origin.dest.air_time: Factor w/ 6 levels "AA\t1141\tN619AA\tJFK\tMIA\t160",..: 4 6 1 2 3 5
小技巧
指定(assgin)符号“<-”的快捷键是“alt”加“-”(短划线)。Rstudio快捷键参照表可以通过“alt+K”来查看详细内容。
由代码可知,read.csv函数将所有数据都读取到了一列中。因为按照默认的参数设置,函数会寻找逗号作为分隔列的标准,若找不到逗号,则只好将所有变量都放在一列中。指定分隔符参数可以解决这个问题。将\t(tab在R中的表达方式)指定给sep参数后再次运行read.csv读取以Tab分隔的csv文件,代码如下:
> flights3 <- read.csv(file = "flights1.csv", sep = "\t") > str(flights3) 'data.frame': 6 obs. of6 variables: $ carrier : Factor w/ 4 levels "AA","B6","DL",..: 4 4 1 2 3 4 $ flight: int1545 1714 1141 725 461 1696 $ tailnum : Factor w/ 6 levels "N14228","N24211",..: 1 2 4 6 5 3 $ origin: Factor w/ 3 levels "EWR","JFK","LGA": 1 3 2 2 3 1 $ dest: Factor w/ 5 levels "ATL","BQN","IAH",..: 3 3 4 2 1 5 $ air_time: int227 227 160 183 116 150
根据实际情况不同,字符型数据有时会是因子,有时不会。如果使用read.csv默认的读取方式,那么字符型全因子化会对后续的处理分析带来很多麻烦。所以最好是将字符因子化关掉。stringsAsFactors参数就是这个开关,示例代码如下:
> flights_str <- read.csv(file = "flightsstrings.csv", sep = "\t", stringsAsFactors = FALSE) > str(object = flights_str) 'data.frame': 6 obs. of6 variables: $ carrier : chr"UA" "UA" "AA" "B6" ... $ flight: int1545 1714 1141 725 461 1696 $ tailnum : chr"N14228" "N24211" "N619AA" "N804JB" ... $ origin: chr"EWR" "LGA" "JFK" "JFK" ... $ dest: chr"IAH" "IAH" "MIA" "BQN" ... $ air_time: int227 227 160 183 116 150
1.1.2 read.delim/delim2——特定分隔符数据读取
read.delim/delim2这两个函数是专门用来处理以tab分隔数据的文件的,delim可用来读取小数点是“.”的数据,delim2则用来处理小数点是“,”的数据,所以这两个函数与read.csv/csv2唯一不同的就只是参数sep="\t"。聪明的你很可能已经想到了如果使用这两个函数的默认设置来读取以逗号分隔的数据会发生什么。函数的默认参数会在原始数据中不断地寻找tab分隔符,找不到的话就会如同1.1.1节里面演示的那样,将所有变量都挤在一列里。read.delim/delim2示例代码如下:
> read.delim function (file, header = TRUE, sep = "\t", quote = "\"", dec = ".", fill = TRUE, comment.char = "", ...) read.table(file = file, header = header, sep = sep, quote = quote, dec = dec, fill = fill, comment.char = comment.char, ...) <bytecode: 0x000000001a28a710> <environment: namespace:utils>
无论是read.csv还是read.delim,帮助文档中的参数格式都是相同的。从上面的代码结果中可以看出,read.delim执行的其实是函数read.table。其实这4个函数都只是它们的母函数read.table的变形罢了。这样做的原因有可能是因为在RStudio出生之前,read.csv/delim比read.table更容易记住,也有可能只是Henrik Bengtsson(utils包的笔者)觉得这样做很酷。具体是什么原因已经不再重要,会用这些函数才是第一要务。
1.1.3 read.table——任意分隔符数据读取
read.table函数会将文件读成数据框的格式,将分隔符作为区分变量的依据,把不同的变量放置在不同的列中,每一行的数据都会对应相应的变量名称进行排放。表1-1简要列出了read.table函数中主要参数的中英文对照。
表1-1 函数read.table实用参数及功能对照
以上这些参数已足以应付读取日常练习所用的规整的数据文件,例如,教授布置的统计作业中的原始数据集,各种传感器输出的.csv文件等。下面的代码及运行结果演示非常简单,使用read.table读取1.1.1节中的第一个数据集,实现思路是每次只增加一个read.table函数中的参数。代码如下:
> flights <- read.table(file = "flights.csv") > head(x = flights)
表1-2展示所有参数均为默认设置的部分结果。
表1-2 read.table函数参数设置结果展示一
小提示
上面的演示代码中使用了head函数,该函数可以按照人们习惯的方式将数据框按照自上而下的方式显示出来,而不是像str函数那用从左向右展示。一般在做初步数据检视的时候,推荐两个函数都运行,作为互补。head方便与原始数据文档进行比对,而str则可以显示所保存的数据框属性、变量类型等信息。
因为函数默认的分隔符是空白(注意不是空格),所以应有的6个变量都被读在一列中。且默认的header参数是假,所以数据变量被默认分配了一个新的变量名V1,并且应为变量名称的这一行变成了观测值的第一行。将header设置为TRVE后的代码如下:
> flights <- read.table(file = "flights.csv",header = TRUE) > head(x = flights)
表1-3中显示的是部分结果。
表1-3 read.table函数参数设置结果展示二
指定header参数为真,分隔符sep参数为“,”后,变量名称才得以读取成应有的样子(如表1-4所示)。
> flights <- read.table(file = "flights.csv",header = TRUE,sep = ",") > head(flights)
表1-4 read.table函数参数设置结果展示三
表1-4所示的数据框终于呈现了该有的样子。需要注意的,是因为字符数据因子化的参数还是默认设置,因此变量carrier、tailnum、origin、dest还是因子型。在实际练习或使用时,建议指定stringAsFactors=FALSE。
以上读取的数据集都是规整的数据集,即每一行数据都有相同的观测值。不过在实际生活中,原始数据难免会存在空白行、空白值、默认值,或者某一行数据存在多余观测值却没有与之对应的变量名称,抑或元数据和原始数据在同一个文件中等各种问题。这里暂且称这些问题数据惊喜集为不规则数据集,简单说就是,实际列的个数多于列名的个数。read.table函数为这些准备了相应的参数。
1.空白行
表1-1中介绍过read.table对于空白行的默认处理是跳过,这可以满足大部分常见数据的情况。不过在某些特殊情况下,例如,一个数据文件中同时存在两个或两个以上的数据集,那么保留空白行可能会有助于后续的数据处理。表1-5演示的就是一个比较特殊的例子。空白行的上部是元数据,也即解释数据的数据,这里演示的是航空公司的缩写和全名的对照。空白行的下部是数据的主体部分,航班号、起始地缩写、起飞时间。这里保留空白行可有助于区分数据的不同部分。
表1-5 特殊类型文本数据文档
保留空白行的代码如下所示:
> airlines <- read.table(file = "airlines.csv", header = TRUE, sep = "\t", blank.lines.skip = FALSE, stringsAsFactors = FALSE) > head(airlines, n = 8)
指定空白行保留的参数后,数据被成功读进R(表1-6)。
表1-6 read.table函数参数设置结果展示四
如此一来,不同的数据集就可以很容易地进行切割并归集到新的数据集中。可是,另外一个问题又出现了,函数按照第一部分的两列变量把后续的所有数据也都写入了两列。这是因为read.table会扫描文件中前五行的数据(包括变量名称)并以此为标准来确定变量数,airlines.csv中开始的五行数据都只有两列,所以后续的数据也都强制读取成两列。如果数据的第2~5行中存在任何一行拥有多于前面一行或几行的数据值,那么函数就会报错提示第一行没有相应数量的值。这种情况可以根据实际数据文件内容,用两种方式来处理,具体如下。
1)如果文件中开始的部分是暂时不需要的元数据,那么可以使用skip函数跳过相应的行数,只读取感兴趣的数据。
2)如果文件内容是一个整体,只是若干行具数据有额外的观测值。那么可以通过调整参数col.names或fill和header进行处理。
第一种情况比较容易,读者可以自行测试,在此略过。第二种情况需要知道数据中观测值个数的最大值,以用来补齐变量个数。因为已经知道airlines文件的第二部分拥有6个变量,所以下面就来演示如何将6个变量名称指定成新的变量名(表1-7),代码如下:
> airlines <- read.table(file = "airlines.csv", header = FALSE, sep = "\t", stringsAsFactors = FALSE, col.names = paste0("V",1:6), blank.lines.skip = FALSE) > head(airlines)
演示结果如表1-7所示。
表1-7 read.table函数参数设置结果展示五
小技巧:
另外一个获取不规则数据集中所需变量个数的方法是利用报错信息。当不指定col.names参数,且原始数据的第2~5行中任一行有多于第一行的数据时,read.table会报错提示Error in scan(file=file,what=what,sep=sep,quote=quote,dec=dec,:line 1 did not have X elements,X即所需要的手动指定的变量个数。
这里使用paste0来创建新的变量名称。paste0可以理解为胶水函数,用于将需要的字符串粘合在一起。这里演示的意思是创建6个以V开头,从V1到V6的字符串作为变量名。这种处理方式足以应付平时练习用的小型数据集(比如,只有几行到几十行数据的数据集)。但是在处理实际工作中成百上千行的数据时,这种手动指定变量个数的方法就显得笨拙而低效了。下面的代码演示了如何实现自动检测数据集所需的变量数:
> number_of_col <- max(count.fields("airlines.csv",sep = "\t")) > airlines <- read.table(file = "airlines.csv", header = FALSE, sep = "\t", stringsAsFactors = FALSE, col.names = paste0("V",seq_len(number_of_col)), blank.lines.skip = FALSE) > head(airlines)
部分结果展示如表1-8所示。
表1-8 read.table函数参数设置结果展示六
count.fields/max/seq_len这三个函数的配合使用实现了如下功能。
count.fields用于自动检测数据集中每一行数据的观测值个数,max用于找出count.fields输入结果中的最大值,seq_len以最大值为参照生成1到最大值的整数序列,胶水函数paste0用于定义变量名称。
因为R基于向量计算的特性,因此这种函数之间简单的配合使用很常见也很有效。所以希望小伙伴们在以后的练习或实际工作中,多思考,尽量使用这样的组合来提高代码的效率、简洁性和可重复性。
使用参数fill和header也可以读取不规则数据集。需要注意的是,采用这种方法是有前提条件的,即原始数据第2~5行实际列的个数应大于列名。代码如下:
> flights_uneven <- read.table("airlines.csv", header = FALSE, sep = "\t", stringsAsFactors = FALSE, fill = TRUE) > head(flights_uneven)
上述代码的演示结果如表1-9所示。
表1-9 read.table函数参数设置结果展示七
2.默认值、空白
一个数据集里出现默认值(NA)或空白(“”)的情况十分常见,两者之间的区别需要根据不同的实际情况来确定。理论上来讲,默认值仍是数据观测值的一种,虽然在原始数据中其可能与空白一样没有显示,但是它可以通过其他手段来进行补齐。而空白有可能并不是数据,比如在上面的演示中,V3至v6列,1~5行都是空白,这些空白不属于任何实际数据变量,是真正的空白,因而不能说这些空白是默认值。默认值和空白的处理完全可以独立成书,因为相关内容已经超出了本书的范围,所以这里不再过多讨论。下面只演示在导入数据的过程中,如何进行简单的默认值、空白预处理,代码如下:
> flights_uneven <- read.table(file = "flights_uneven.csv", header = FALSE, sep = "\t", stringsAsFactors = FALSE, fill = TRUE, na.strings = c("")) > head(flights_uneven)
表1-10中展示了处理后的部分数据值。
表1-10 read.table函数参数设置结果展示八
第七列中的数据在指定将空白替换成“NA”之后,原有的空白位置被写入了“NA”,也就是说第七列的空白属于数据的一部分。根据实际情况,也可以将多余的数据部分或全部替换成“NA”(如表1-11所示),以方便后续的处理及分析,代码如下:
> flights_uneven <- read.table("flights_uneven.csv",sep = "\t", stringsAsFactors = FALSE, fill = TRUE,header = FALSE, na.strings = c(paste0("测试",1:3),"")) > head(flights_uneven)
替换结果如表1-11所示。
表1-11 read.table函数参数设置结果展示九
当数据集行数较多,无法轻易地鉴别出某一列到底有多少个观测值需要赋值为“NA”的时候,可以配合unique函数进行处理。处理的思路是先将数据读取到R中,然后使用unique函数找到指定列中的非重复观测值,选取指定观测值并保存到一个向量内,然后将向量指定给na.strings参数来进行替换,代码如下:
> flights_uneven <- read.table("flights_uneven.csv",sep = "\t", string-sAsFactors = FALSE, fill = TRUE, header = FALSE) > replace <- unique(flights_uneven$V7) replace [1] """测试1" "测试2" "测试3" > flights_uneven <- read.table("flights_uneven.csv",sep = "\t", stringsAsFactors = FALSE, fill = TRUE,header = FALSE, na.strings = c(replace[c(1,3)])) > head(flights_uneven)
替换结果如表1-12所示。
表1-12 read.table函数参数设置结果展示十
第一次读取数据是为了获得需要替换的观测值,第二次读取则是将需要替换成“NA”的观测值指定给相应参数。因为replace是一个字符串向量,所以可以使用“[”按位置选择其中的值,当然也可以不选择任何值,直接全部替换。
小知识
“[”是baseR中Extract的一种,在R的使用过程中,这是必须掌握和理解的函数之一。