第2章 K8S的核心概念
容器有效管理需要考虑:
- 组件复制;
- 自动缩放;
- 负载均衡;
- 滚动更新;
- 组件记录;
- 监测和健康检查;
- 服务发现;
- 认证。
由Google内部的Brog演变而来的Kubernetes完美地解决了这一问题
2.1 Kubernetes的设计架构
Master和Node
K8S集群之中,由Master和Node两种角色,Master管理Node,Node管理容器
Master
Master主要负责整个集群的管理控制,相当于整个Kubernetes集 群的首脑。它用于监控、编排、调度集群中的各个工作节点。通常 Master会占用一台独立的服务器,基于高可用原因,也有可能是多台。
Node
Node则是Kubernetes集群中的各个工作节点。Node由Master管理,提供运行容器所需的各种环境,对容器进行实际的控制,而这些容器会提供实际的应用服务。
Kubernetes的整体架构
2.1.1 Master
1.API Server进程
API Server(kube-apiserver)进程为Kubernetes中各类资源对象提供了==增删改查等HTTP REST接口==。对于资源的任何操作,都需要经过API Server进程来处理。除此之外,API Server进程还提供了一系列==认证授权机制==。
访问API Server进程
Master组成
三种访问API Server进程的方式
直接通过REST Request
通过官方提供的客户端库文件来访问,本质上,通过编程方式,转换为对API Server进程的REST API调用。
通过命令行工具kubectl客户端来访问。kubectl客户端将把命令
行转换为对API Server进程的REST API调用。
2.etcd
etcd项目是一种轻量级的分布式键值存储,由CoreOS团队开发,可以在单台Master服务器上配置,也可以配置到多台服务器。
可以将etcd理解为Kubernetes的“==数据库==”,用于保存集群中所有的配置和各个对象的状态信息。
只有API Server进程才能直接访问和操作etcd。
3.调度器
调度器(kube-scheduler)是Pod资源的调度器。它用于监听最近创建但还未分配Node的Pod资源,会为Pod自动分配相应的Node。
调度器所执行的各项操作均是==基于API Server进程==的。如调度器会通过API Server进程的Watch接口监听新建的Pod,并搜索所有满足Pod需求的Node列表,再执行Pod调度逻辑。调度成功后会将Pod绑定到目标Node上。
4.控制器管理器(kube-controller-manager)
Kubernetes集群的大部分功能是由控制器执行的。
每个控制器都是一个独立进程,为了降低复杂度,都被编译、合并到单个文件夹中,并在单个进程中进行。
- Node 控制器:负责在Node出现故障时做出响应。
- Replication控制器:负责对系统中的每个
- ReplicationController对象维护正确数量的Pod。
- Endpoint 控制器:负责生成和维护所有Endpoint对象的控制器。
- Endpoint控制器用于监听Service和对应的Pod副本的变化。
- ServiceAccount及Token 控制器:为新的命名空间创建默认账户和API访问令牌。
kube-controller-manager所执行的各项操作也是基于API Server进程的。例如,Node控制器会通过API Server进程提供的Watch接口,实时监控Node的信息并进行相应处理。
2.1.2 Node
Node主要由3个部分组成,分别是kubelet、kube-proxy和容器运行时(container runtime)
Node的组成
1.kubelet
kubelet是在每个Node上都运行的==主要代理进程==。kubelet以PodSpec为单位来运行任务,PodSpec是一种描述Pod的YAML或JSON对象。kubelet会运行由各种机制提供(主要通过API Server)的一系列PodSpec,并确保这些PodSpec中描述的容器健康运行。不是Kubernetes创建的容器将不属于kubelet的管理范围。kubelet负责维护容器的生命周期,同时也负责存储卷(volume)等资源的管理。
每个Node上的kubelet会定期调用Master节点上API Server进程的REST接口,报告自身状态。API Server进程接收这些信息后,会将Node的状态信息更新到etcd中。kubelet也通过API Server进程的Watch接口监听Pod信息,从而对Node上的Pod进行管理。
2.kube-proxy
kube-proxy主要用于管理Service的访问入口,包括从集群内的其他Pod到Service的访问,以及从集群外访问Service。
3.容器运行时
容器运行时是负责运行容器的软件。Kubernetes支持多种运行时,包括Docker、containerd、cri-o、rktlet以及任何基于Kubernetes CRI(容器运行时接口)的实现。
2.1.3 组件间的基本交互流程
kubectl创建Pod
当使用kubectl创建Pod时,会相继发生以下事件。
具体发生事件
(1)kubectl命令将转换为对API Server的调用。
(2)API Server验证请求并将其保存到etcd中。
(3)etcd通知API Server。
(4)API Server调用调度器。
(5)调度器决定在哪个节点运行Pod,并将其返回给APIServer。
(6)API Server将对应节点保存到etcd中。
(7)etcd通知API Server。
(8)API Server在相应的节点中调用kubelet。
(9)kubelet与容器运行时API发生交互,与容器守护进程通信以创建容器。
(10)kubelet将Pod状态更新到API Server中。
(11)API Server把最新的状态保存到etcd中。
2.2 Kubernetes的核心对象
虽然应用程序部署的底层机制是容器,但Kubernetes在容器接口上使用了额外的抽象层,以支持弹性伸缩和生命周期管理的功能。用户并不是直接管理容器的,而是定义由Kubernetes对象模型提供的各种基本类型的实例,并与这些实例进行交互。
2.2.1 Pod
Pod是Kubernetes处理的最基本单元。容器本身并不会直接分配到主机上,而是会封装到名为Pod的对象中。
Pod通常表示单个应用程序,由一个或多个关系紧密的容器构成。
这些容器拥有同样的生命周期,作为一个整体一起编排到Node上。这些容器共享环境、存储卷和IP空间。尽管Pod基于一个或多个容器,但应将Pod视作单一的整体、单独的应用程序。Kubernetes以Pod为最小单位进行调度、伸缩并共享资源、管理生命周期。
一般来说,用户不应自行管理Pod,因为Pod并没有提供应用程序通常会用到的一些特性,如复杂的生命周期管理及动态伸缩。建议用户使用将Pod或Pod模板作为基本组件的更高级别对象,这些对象会拥有更多的特性。
2.2.2 控制器
一般来说,用户不会直接创建Pod,而是创建控制器,让控制器来管理Pod。在控制器中定义Pod的部署方式(如有多少个副本、需要在哪种Node上运行等),根据不同的业务场景,Kubernetes提供了多种控制器。
1.ReplicationController和ReplicaSet控制器
在使用Kubernetes时,通常要管理的是由多个相同Pod组成的Pod集合,而不是单个Pod。
例如,ReplicationController或ReplicaSet控制器基于Pod模板进行创建,能够很好地支持水平伸缩。
ReplicationController可定义Pod模板,并可以设置相应控制参数以实现水平伸缩,以调节正在运行的相同的Pod数。这是在Kubernetes中调节负载并增强可用性的简单方式。
ReplicationController能根据需要自动创建新的Pod,在ReplicationController的配置中拥有和Pod定义非常相似的模板。
ReplicationController负责保证在集群中部署的Pod数量与配置中的Pod数量一致。如果Pod或主机出现故障,ReplicationController会自动启用新的Pod进行补充。如果ReplicationController配置中的副本数量发生改变,则会启动或终止一些Pod来匹配设定好的数量。ReplicationController还可以执行滚动更新,将一组Pod逐个切换到
最新版本,从而最大限度地减少对应用程序可用性的影响。
ReplicaSet控制器可以看作ReplicationController的另一种版本,其Pod识别功能使它在Pod管理上更具灵活性。由于ReplicaSet控制器具有副本筛选功能,因此ReplicaSet控制器才有逐渐取代ReplicationController的趋势,但ReplicaSet控制器无法实现滚动更新,无法像ReplicationController那样在后端轮流切换到最新版本。
与Pod一样,ReplicationController和ReplicaSet控制器都是很少直接使用的对象。虽然它们都是基于Pod而设计的,增加了水平伸缩功能,提高了可靠性,但它们缺少一些在其他复杂对象中具有的更细粒度的生命周期管理功能。
2.Deployment控制器
Deployment控制器可能是最常用的工作负载对象之一。Deployment控制器以ReplicaSet控制器为基础,是更高级的概念,增加了更灵活的生命周期管理功能。
虽然Deployment控制器是基于ReplicaSet控制器的,但仍有部分功能和ReplicationController相似Deployment控制器解决了之前在滚动更新上存在的诸多难点。如果用ReplicationController来更新应用程序,用户需要提交一个新的ReplicationController计划,以替换当前的控制器。因此,对于历史记录跟踪、更新出现网络故障时的恢复以及回滚错误修改等任务,ReplicationController要么做起来非常艰难,要么需要用户自理。
Deployment控制器是一种高级对象,旨在简化Pod的生命周期管理。只要简单更改Deployment控制器的配置文件,Kubernetes就会自动调节ReplicaSet控制器,管理应用程序不同版本之间的切换,还可以实现自动维护事件历史记录及自动撤销功能,如图所示。正是由于这些强大的功能,Deployment控制器可能是使用频率最高的对象。
3. StatefulSet控制器
StatefulSet控制器是一种提供了排序和唯一性保证的特殊Pod控制器。当有与部署顺序、持久数据或固定网络等相关的特殊需求时,可以使用StatefulSet控制器来进行更细粒度的控制。StatefulSet控制器主要用于有状态的应用,例如,StatefulSet控制器通常与面向数据的应用程序(比如数据库)相关联。即使StatefulSet控制器被重新分配到一个新的节点上,还需要访问同一个存储卷。
StatefulSet控制器为每个Pod创建唯一的、基于数字的名称,从而提供稳定的网络标识符。即使要将Pod转移到另一个节点,该名称也将持续存在。同样,当需要重新调度时,可以通过Pod转移持久性数据卷。即使删除了Pod,这些卷也依然存在,以防止数据意外丢失。
每当部署或进行伸缩调节时,StatefulSet控制器会根据名称中的标识符执行操作,这使得对执行顺序有了更大的可预测性和控制能力,它在某些情况下很有用。
Deployment控制器下的每一个Pod都毫无区别地提供服务,但StatefulSet控制器下的Pod则不同。虽然各个Pod的定义是一样的,但是因为其数据的不同,所以提供的服务是有差异的。比如分布式存储系统适合使用StatefulSet控制器,由Pod A存储一部分数据并提供相关服务,Pod B又存储另一部分数据并提供相关服务。又比如有些服务会临时保存客户请求的数据,例如,使用服务端会话方式存放部分信息的业务网站,由于会话的不同,Pod A和Pod B能提供的服务也不尽相同,这种场景也适合使用StatefulSet控制器。
4.DaemonSet
DaemonSet控制器是另一种特殊的Pod控制器,它会在集群的各个节点上运行单一的Pod副本。DaemonSet控制器非常适合部署那些为节点本身提供服务或执行维护的Pod。
例如,日志收集和转发、监控以及运行以增加节点本身功能为目的的服务,常设置为DaemonSet控制器。因为DaemonSet控制器通常是用于提供基本服务的,并且每个节点都需要,所以它们可以绕过某些用于阻止控制器将Pod分配给某些主机的调度限制。因为DaemonSet控制器独特的职责,原本Master服务器不可用于常规的Pod调度,但DaemonSet控制器可以越过基于Pod的限制,确保基础服务的运行。
5.Job控制器和CronJob控制器
上述的各类工作负载对象都是长期运行的,拥有服务级的生命周期。Kubernetes中还有一种叫作Job控制器的工作负载对象,它基于特定任务而运行。当运行任务的容器完成工作后,Job就会成功退出。如果需要执行一次性的任务,而非提供连续的服务,Job控制器非常适合。
CronJob控制器其实在Job控制器的基础上增加了时间调度,可以在给定的时间点运行一个任务,也可以周期性地在给定时间点运行一个任务。CronJob控制器实际上和Linux系统中的Crontab控制器非常类似。
2.2.3 服务与存储
1. Service组件和Ingress
在Kubernetes中,Service是内部负载均衡器中的一种组件,会将相同功能的Pod在逻辑上组合到一起,让它们表现得如同一个单一的实体。
之前介绍的各个工作负载对象只保证了支撑服务的微服务Pod的数量,但是没有解决如何访问这些服务的问题。Pod只是一个运行的应用示例,随时可能在一个节点上停止,并在另一个节点使用新的IP地址启动新的Pod,因此Pod根本无法以固定的IP地址和端口号提供服务。
通过Service组件可以发布服务,可以跟踪并路由到所有指定类型的后端容器。内部使用者只需要知道Service组件提供的稳定端点即可进行访问。另外,Service组件抽象可以根据需要来伸缩或替换后端的工作单元,无论Service组件具体路由到哪个Pod,其IP地址都保持稳定。通过Service组件,可以轻松获得服务发现的能力,如图。
每当需要给另一个应用程序或外部用户提供某些Pod的访问权限时,就可以配置一个Service组件。比如,假设需要从外网访问Pod上运行的应用程序,就需要提供必要的Service组件抽象。同样,如果应用程序需要存储或查询数据,则可能还需要配置一个内部Service组件抽象,使应用程序能访问数据库Pod。
虽然在默认情况下只有Kubernetes集群内的机器(Master和Node)以及Pod应用可以访问Service组件,但通过某些策略,可以在集群之外使用Service组件。例如,通过配置NodePort,可以在各个节点的外部网络接口上打开一个静态端口。该外部端口的流量将会通过内部集群IP服务自动路由到相应的Pod。
还可以通过Ingress来整合Service组件。Ingress并不是某种服务类型,可以充当多个Service组件的统一入口。Ingress支持将路由规则合并到单个资源中,可以通过同一域名或IP地址下不同的路径来访问不同的Service组件,如图所示,实现在同一域名或IP地址下发布多个服务。
2.存储卷和持久存储卷
容器运行时通常会提供一些机制来将存储附加到容器上,以此实现共享数据并保证这些数据在容器重启的间隙始终是可用的,这类容器的存留时间超过其他容器的生命周期,但实现起来通常缺乏灵活性
为了解决这些问题,Kubernetes定义了自己的存储卷(volume)抽象,允许Pod中的所有容器共享数据,并在Pod终止之前一直保持可用,如图所示。
这意味着紧密耦合的Pod可以轻松共享文件而不需要复杂的外部机制,Pod中的容器故障不会影响对共享文件的访问。Pod终止后,共享的存储卷会被销毁,因此对于真正需要持久化的数据来说,这并非一个好的解决方案。
持久存储卷(persistent volume)是一种更健壮的抽象机制,不依赖于Pod的生命周期。持久存储卷允许管理员为集群配置存储资源,用户可以为正在运行的Pod请求和声明存储资源。带有持久存储卷的Pod一旦使用完毕,存储卷的回收策略将决定是保留存储卷(直到手动删除),还是立即删除数据。持久性数据可预防节点级的故障,并分配比本地更多的可用存储空间。
2.2.4 资源划分
1. 命名空间
命名空间(namespace)的主要作用是对Kubernetes集群资源进行划分。这种划分并非物理划分而是逻辑划分,用于实现多租户的资源隔离。
2. 标签和注解
Kubernetes中的标签(label)是一种语义化标记,可以附加到Kubernetes对象上,对它们进行标记或划分。如果要针对不同的实例进行管理或路由,可以用标签来进行选择。例如,每种基于控制器的对象都可以使用标签来识别需要操作的Pod。Service组件也可以使用标签来确定应该将请求路由到哪些后端Pod,如图所示。
标签的形式是键值对,每个单元可以拥有多个标签,但每个单元对于每个键只能拥有一个值。通常来说,相对于当作标识符的name属性,标签的使用更像是对资源进行划分细类,可以用开发阶段、可访问性级别、应用程序版本等标准对各个对象进行分类。
注解(annotation)也是一种类似的机制,用于将任意键值信息附加到某一对象中。相对于标签,注解更灵活,可以包含少量结构化数据。一般来说,注解只是向对象添加更多元数据的一种方式,但并不用于筛选。
本章小结
要点如下:
- Kubernetes集群主要由Master和Node组成。Master管理Node,Node管理容器。
- Master的主要组件分别为kube-apiserver(负责实际操作)、etcd(负责存储)、kube-scheduler(负责Pod调度)、kubecontroller-manager(负责对象管理)。
- Node的主要组件分别为kubelet(值守进程)、kube-proxy(负责服务发现)和容器运行时(负责操作容器)。
- Kubernetes以Pod为最小单位进行调度、伸缩并共享资源、管理生命周期。
- 控制器中定义了Pod的部署方式,如有多少个副本、需要在哪种Node上运行等。根据不同的业务场景,Kubernetes提供了多种控制器,如ReplicationController、ReplicaSet控制器、Deployment控制器、StatefulSet控制器、DaemonSet控制器、Job控制器和CronJob控制器。
- Service是内部负载均衡器中的一种组件,会将相同功能的Pod在逻辑上组合到一起,让它们表现得如同一个单一的实体。
- Kubernetes定义了自己的存储卷抽象,允许Pod中的所有容器共享数据,在Pod终止之前一直保持可用。而持久存储卷是一种更健壮的抽象机制,不依赖于Pod的生命周期。
- Label是一种语义化标签,可以附加到Kubernetes对象上,对它们进行标记或划分。