2.2 远程调试Spark程序

本地调试Spark程序和传统的调试单机的Java程序基本一致,读者可以参照原来的方式进行调试,关于单机调试本书暂不赘述。对于远程调试服务器上的Spark代码,首先请确保在服务器和本地的Spark版本一致。需要按前文介绍预先安装好JDK和Git。

(1)编译Spark

在服务器端和本地计算机下载Spark项目。

通过下面的命令克隆一份Spark源码:


git clone https:// github.com/apache/spark

然后针对指定的Hadoop版本进行编译:


SPARK_HADOOP_VERSION=2.3.0 sbt/sbt assembly

(2)在服务器端的配置

1)根据相应的Spark配置指定版本的Hadoop,并启动Hadoop。

2)对编译好的Spark进行配置,在conf/spark-env.sh文件中进行如下配置:


export SPARK_JAVA_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=9999"

其中“suspend=y”设置为需要挂起的模式。这样,当启动Spark的作业时候程序会自动挂起,等待本地的IDE附加(Attach)到被调试的应用程序上。address是开放等待连接的端口号。

(3)启动Spark集群和应用程序

1)启动Spark集群:


./sbin/start-all.sh

2)启动需要调试的程序,以Spark中自带的HdfsWordCount为例:


MASTER=spark:// 10.10.1.168:7077
./bin/run-example 
org.apache.spark.examples.streaming.HdfsWordCount
hdfs:// localhost:9000/test/test.txt

3)如图2-7所示,执行后程序会挂起并等待本地的Intellij进行连接,并显示“Listening for transport dt_socket at address: 9999”:

图2-7 远程调试

(4)本地IDE配置

1)配置并连接服务器端挂起的程序。

在Intellij中选择“run”→“edit configuration”→“remote”命令,在弹出的对话框中将默认配置中的端口号和IP改为服务器的地址,同时选择附加(Attach)方式,如图2-8所示。

图2-8 远程调试设置

2)在“Run/Debug Configurations”对话框中填入需要连接的主机名和端口号以及其他参数,如图2-8所示。

3)在程序中设置断点进行调试。

通过上面的介绍,用户可以了解如何进行远程调试。对于单机调试方式则和日常开发的单机程序一样,常用方式是设置单机调试断点之后再进行调试,在这里并不再展开介绍。