2.4 深入理解Pod_公有云容器化指南：腾讯云TKE实战与应用-QQ阅读男生历史网

书名：公有云容器化指南：腾讯云TKE实战与应用
作者名：邱宝冯亮亮
本章字数：4709字
更新时间：2021-02-23 15:52:10

2.4　深入理解Pod

从本节开始，我们将具体学习Kubernetes的各个组件。

2.4.1　什么是Pod

2.2节对Pod有过简单的解释。我们可以把它想象成一个“豆荚”，里面包着一组有关联关系的“豆子”（容器），如图2-8所示。

图2-8　容器“豆荚”

同一个豆荚里的豆子吸取着同一个源头的养分，Pod也是如此，里面的容器共用同一组资源。Kubernetes官方文档对Pod的描述是这样的：Pod是Kubernetes的基本构建模块，是你在Kubernetes集群里能创建或部署的最小、最简单单元。

刚学习Kubernetes的人一般会认为Docker是Kubernetes里的最小单元，其实Pod才是。我们将Kubernetes和OpenStack做个对比，如表2-1所示。

表2-1　Kubernetes和OpenStack最小单元对比

OpenStack管理的VM可以说是OpenStack里的最小单元，我们知道虚拟机有隔离性，里面部署的应用只在虚拟机中运行，它们共享这个VM的CPU、MEM、网络和存储资源。Pod也是如此，Pod里面的容器共享着Pod的CPU、MEM、网络和存储资源。那么Pod是如何做到这一点的呢？我们接着学习。

注意，Kubernetes集群的最小单元是Pod，而不是容器；Kubernetes直接管理的也是Pod，而不是容器。Pod里可以运行一个或多个容器。

如果Pod里只运行一个容器，那就是one-container-per-Pod模式。当然也可以把一组有关联关系的容器放在一个Pod里面，这些容器共享着同一组网络命名空间和存储卷。比如Kubernetes官方文档里就举了这样一个例子，把一个Web Server的容器跟File Puller的容器放在一起（Web Server对外提供Web服务，File Puller负责内容的存储和提供），然后它们就形成了一个Pod，构成了一个统一的服务单元。

2.4.2　Pod的内部机制

1.Pod的实现原理

我们在学习容器的时候就了解到，因为Linux提供了Namespace和Cgroup两种机制，容器技术的出现才有了可能。Namespace由Hostname、PID、Network、IPC组成，用于隔离进程；Cgroup用于控制进程资源的使用。在Kubernetes里，Pod的生成也是基于Namespace和Cgroup的，图2-9是Pod的内部架构示意图。

图中的IPC即进程中通信、Network即网络访问（包括接口）、PID即容器PID、Hostname即容器主机名，那这些要素是通过什么机制组合在一起的呢？这是通过一个叫Pause的容器完成的。Kubernetes在初始化Pod的时候会先启动容器Pause，然后再启动用户自定义的业务容器。Pause容器可以算作一个“根容器”，它主要有两方面的作用。

图2-9　Pod的内部架构

1）扮演PID 1的角色，处理僵尸进程。

2）在Pod里协助其他容器共享Linux Name-space。

首先，我们了解一下Linux系统下PID为1的进程。在Linux里，PID为1的进程叫作超级进程，也叫作根进程，它是系统的第一个进程，是其他进程的父进程，所有的进程都会被挂载到这个进程下。如果一个子进程的父进程退出了，那么这个子进程会被挂到PID 1下面。

其次，我们知道容器本身就是一个进程。在同一个Namespace下，Pause作为PID为1的进程存在于一个Pod里，其他的业务容器都挂载在这个Pause进程下面。这样，同一个Namespace下的进程就会以Pause作为根，呈树状的结构存在一个Pod下。

最后，Pause还有个功能是处理僵尸进程。一个进程使用fork函数创建子进程，如果子进程退出，而父进程并没有来得及调用wait或waitpid获取其子进程的状态信息，那么这个子进程的描述符仍然保存在系统中，其进程号会一直被占用（而系统的进程号是有限的），这种进程被称为僵尸进程（Z开头）。

Pause容器的代码是用C语言编写的，如下所示。Pause的代码里有个无限循环的for(;;)函数，函数里面运行的是pause()函数，pause()函数本身是睡眠状态的，直到被信号（signal）中断。正是因为这个机制，Pause容器会一直等待信号，一旦有了信号（进程终止或者停止时会发出这种信号），Pause就会启动sigreap方法，sigreap方法调用waitpid获取其子进程的状态信息，如此一来自然就不会在Pod里产生僵尸进程了。

Pause代码static void sigdown(int signo) {
    psignal(signo, "Shutting down, got signal");
    exit(0);}
static void sigreap(int signo) {
    while (waitpid(-1, NULL, WNOHANG) > 0);}
int main() {
    if (getpid() != 1)
        /* Not an error because pause sees use outside of infra containers. */
        fprintf(stderr, "Warning: pause should be the first process\n");

    if (sigaction(SIGINT, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
        return 1;
    if (sigaction(SIGTERM, &(struct sigaction){.sa_handler = sigdown}, NULL) < 0)
        return 2;
    if (sigaction(SIGCHLD, &(struct sigaction){.sa_handler = sigreap,
                                             .sa_flags = SA_NOCLDSTOP},
                NULL) < 0)
        return 3;
关注下面的for循环代码
for (;;)
        pause();
    fprintf(stderr, "Error: infinite loop terminated\n");
    return 42;}

2.Pod的生命周期

下面我们来分析Pod的生命周期。

（1）Pod所处阶段

Pod所处阶段是用PodStatus对象里的phase字段表示的，phase字段包含的值如表2-2所示。

表2-2　Phase取值

（2）Pod Conditions

PodStatus对象里除了有phase字段，还有Pod Conditions数组，里面包含的属性如表2-3所示。

表2-3　Pod Conditions

（3）Container probes

probes中文就是探针的意思，所以Container probes翻译成中文就是容器探针，这是Kubernetes中的一种诊断容器状态的机制。我们知道节点里会运行Kubelet进程，通过Container probes可以收集容器的状态，然后汇报给master节点。那么Kubelet是怎么知道节点里容器状态信息的呢？主要是通过Kubelet调用容器提供的三种处理程序实现的。

1）ExecAction：在容器内运行指定的命令。如果命令以状态代码0退出，则认为诊断成功，容器是健康的。

2）TCPSocketAction：通过容器的IP地址和端口号运行TCP检查。如果端口存在，则认为诊断成功，容器是健康的。

3）HTTPGetAction：通过容器的IP地址、端口号及路径调用HTTP GET方法，如果响应的状态码大于等于200且小于400，则认为容器健康。

每个Container probes都会获得3种结果。

1）成功：容器通过了诊断。

2）失败：容器未通过诊断。

3）未知：诊断失败，不应采取任何措施。

另外，Kubelet在运行的容器里有两种探针方式。

1）livenessProbe：存活探针，用来表明容器是否正在运行，服务是否正常。如果livenessProbe探测到容器不健康，Kubelet会中断容器，并且根据容器的重启策略来重启容器。如果容器未提供livenessProbe，则默认状态为Success。

2）readinessProbe：就绪探针，用来表明容器是否已准备好提供服务（是否启动成功）。如果readinessProbe探测失败，则容器的Ready将为False，控制器将此Pod的Endpoint从对应服务的Endpoint列表中移除，从此不再将任何请求调度至此Pod上，直到下次探测成功。如果容器未提供readinessProbe，则默认状态为Success。

为什么会有这两种探针机制呢？这是因为Pod的生命周期会受环境条件的影响，比如Pod内部各个容器的状态、容器依赖的上游或者周边服务的状态。所以需要有一个机制，它能根据容器的不同状态判断Pod是否健康，这就是liveness和readiness探测存在的意义。

下面我们来介绍这两种探针的工作方式。

比如通过livenessProbe探测发现某Pod无法再提供服务了，那么livenessProbe会根据容器重启策略判断它是否重启。策略通过后，运行新Pod替代之前的旧Pod，livenessProbe机制如图2-10所示。

图2-10　livenessProbe机制

图2-11　readinessProbe机制

有时候应用需要一段时间来预热和启动，比如一个后端项目需要先启动消息队列或者数据库等才能提供服务，遇到这样的情况，使用就绪探针比较合适。readinessProbe机制如图2-11所示。

在具体的生产环境实践中，如何使用这两种探针呢？这里总结了一些经验，以供参考。

1）livenessProbe和readinessProbe都应直接探测程序。

2）livenessProbe探测的程序里不要执行其他逻辑，它很简单，就是探测服务是否运行正常。如果主线程运行正常，直接返回200，不正常就返回5xx。如果有其他逻辑存在，livenessProbe探测程序会把握不准。

3）readinessProbe探测的程序里可以有相关的处理逻辑。readinessProbe主要是探测判断容器是否已经准备好对外提供服务。因此，实现一些逻辑来检查目标程序后端所有依赖组件的可用性非常重要。readinessProbe探测前，需要清楚地知道所探测的程序依赖哪些功能、这些功能什么时候准备好。如果应用程序需要先建立与数据库的连接才能提供服务，那么readinessProbe的处理程序必须已与数据库建立连接才能确认程序是否就绪。

4）readinessProbe不能嵌套使用。

livenessProbe和readinessProbe的YAML配置语法是一样的，同样的YAML配置文件，把livenessProbe设置成readinessProbe即可切换探针。

（4）容器状态

一旦Pod落地、节点被创建，Kubelet就会在Pod里创建容器。容器在Kubernetes里有3种状态：Waiting、Running和Terminated。我们可以使用kubectl describe pod[POD_NAME]命令检查容器的状态，这个命令会显示该Pod里每个容器的状态。另外，Kubernetes在创建资源对象时，可以使用lifecycle来管理容器在运行前和关闭前的一些动作。lifecycle有如下两种回调函数。

1）postStart：容器创建成功后，运行前的任务用于资源部署、环境准备。

2）preStop：容器被终止前的任务用于优雅关闭应用程序、通知其他系统。

Waiting是容器的默认状态。如果容器没在运行或已终止运行，就是Waiting状态。处于Waiting状态的容器仍然可以拉取镜像、获取密钥。在这个状态下，Reason字段将显示容器处于Waiting状态的原因。

...
    State:          Waiting
     Reason:       ErrImagePull
    ...

Running表示容器正在运行。一旦容器进入Running状态，如果有postStart函数，则处理运行前的任务。另外，Started字段会显示容器启动的具体时间。

...
    State:          Running
     Started:      Wed, 30 Jan 2019 16:46:38 +0530
...

Terminated表示容器已终止运行。容器在成功完成运行或由于某种原因运行失败就会变为此状态。同时，容器终止运行的原因、退出代码以及容器的开始和结束时间都会一起显示出来（如以下示例所示）。另外在容器进入Terminated状态之前，如果有preStop，则运行。

...
    State:          Terminated
        Reason:       Completed
        Exit Code:    0
        Started:      Wed, 30 Jan 2019 11:45:26 +0530
        Finished:     Wed, 30 Jan 2019 11:45:26 +0530
...

（5）Pod的生命周期控制方法

一般情况下，Pod如果不被人为干预或被某个控制器删除，是不会消失的。不过，也有例外情况，就是Pod处于Succeeded或者Failed状态超过一定的时间，terminated-pod-gc-threshold的设定值就会被垃圾回收机制清除。

注：terminate-pod-gc-threshold在master节点里，它的作用是设置gcTerminated的阈值，默认是12500s。

以下是3种控制Pod生命周期的控制器。

1）Job：适用于一次性任务，如批量计算。任务结束后Pod会被此控制器清除。Job的重启策略只能是OnFailure或者Never。

2）ReplicationController、ReplicaSet或Deployment：此类控制器希望Pod一直运行下去，它们的重启策略只能是Always。

3）DaemonSet：每个节点有一个Pod，很明显此类控制器的重启策略应该是Always。

2.4.3　Pod的资源使用机制

我们前面提到过，Pod好比一个虚拟机。虚拟机能分配固定的CPU、Mem、Disk和网络资源。Pod也是如此，那么Pod是如何使用和控制这些资源的呢？首先，我们先了解CPU资源的分配模式。

计算机里CPU的资源是按时间片的方式分配给请求的，系统里的每一个操作都需要CPU处理，我们知道CPU的单位是Hz、GHz（1Hz=次/秒，即在单位时间内完成振动的次数，1GHz=1 000 000 000Hz=1 000 000 000次/秒），频率越大，单位时间内完成的处理次数就越多。所以，任务申请的CPU时间片越多，它得到的CPU资源就越多。

我们再来了解Cgroup里资源的换算单位，CPU换算单位如下所示。

1）1CPU=1000millicpu（1core=1000m）

2）0.5CPU=500millicpu（0.5core=500m）

这里m是毫核的意思，Kubernetes集群中的每一个节点都可以通过操作系统的命令确认本节点的CPU内核数量，然后将这个数量乘以1000，得到的就是节点CPU总毫数。比如一个节点有4核，那么该节点的CPU总毫数为4000m。

Kubernetes是通过以下两个参数来限制和请求CPU的资源的。

1）spec.containers[].resources.limits.cpu：CPU上限值，短暂超出上限值，容器不会被停止。

2）spec.containers[].resources.requests.cpu：CPU请求值，是Kubernetes调度算法里的依据值，可以超出。

这里需要说明一点，如果resources.requests.cpu设置的值大于集群里每个节点的最大CPU核心数，那么这个Pod将无法调度（没有节点能满足它）。

我们在YAML里定义一个容器CPU资源如下。

resources:
    requests:
        memory: 50Mi
        cpu: 50m
    limits:
        memory: 100Mi
        cpu: 100m

这里，CPU我们给的是50m，也就是0.05core，这0.05core占了1 CPU里5%的资源时间。

另外，我们还要知道，Kubernetes CPU是一个可压缩的资源。如果容器达到了CPU的设定值，就会开始限制CPU的资源，容器性能也会随之下降，但是不会终止和退出。

最后我们了解一下MEM的资源控制。

单位换算方法：1 MiB=1024KiB，注意MiB≠MB，MB是十进制单位，MiB是二进制，很多人以为1MB=1024KB，其实1MB=1000KB，1MiB=1024KiB。

在Kubernetes里，内存单位一般用的是MiB，当然你也可以根据具体的业务需求和资源容量使用KiB、GiB甚至PiB为单位。

这里要注意的是，内存是可压缩资源，容器使用的内存资源到达了上限会造成内存溢出，容器就会终止运行并退出。

2.4.4　Pod的基本操作命令

下面介绍Pod的基本操作命令，如表2-4所示。

表2-4　Pod的基本操作命令

命令要多用才能熟练，大多数命令离不开create、get、delete这些关键词，当然，还有--help。

如何用Kubernetes Pod容器化部署LAMP环境呢？我们先来了解下面的两个知识点。

1.Pod里的容器共用相同的网络和存储资源

在Kubernetes里，每个Pod会被分配唯一的IP地址，然后里面的容器都会共享这个网络空间，这个网络空间包含了IP地址和网络端口。Pod容器内部通信用的是localhost，如果要和外部通信，就需要用到共享的IP和端口。

Pod可以指定共享的存储数据卷，Pod里的所有容器都有权限访问这个数据卷。数据卷只用于持久化数据，重启Pod不会影响数据卷里的数据。

2.Pod里的容器共用相同的依赖关系

前面提到有关联关系的容器可以放在同一个Pod里，那么这里的关联关系是什么呢？通常，我们会把有紧耦合的服务部署在一个Pod里，比如LAMP应用栈。这样做的目的是便于调度和协调管理。所以，没有关联的容器最好不要放在同一个Pod里，没有规则地乱放，将无法体会到Kubernetes的强大特性—编排。

LAMP容器化可用图2-12表示。

图2-12　LAMP容器化

现在我们对Pod进行了较深入的学习，包括内部实现机制、资源使用机制、基本操作命令。如果我们在Kubernetes平台部署一个Pod，就需要用到YAML文件，接下来我们学习一下YAML文件的编写语法及参数。