k8s之数据的简单备份和恢复

k8s之数据的简单备份和恢复

前情提要,由于换电脑对虚拟机进行了迁移,然后k8s崩了,发现是ectd数据问题,然而并没有对etcd进行备份,就很悲剧,定期对etcd进行备份是很有必要的。

etcd 是一个高可用的分布式键值存储系统,在Kubernetes集群中用于存储和管理集群的所有关键信息,如配置数据、元数据、状态信息等。etcd 存储了Kubernetes集群本身的所有数据,包括Pod、Service、Node、Namespace 等对象的元数据和状态。有了etcd的备份文件,我们就可以恢复Kubernetes集群的状态。

设置备份Cronjob

mkdir /data/k8s-etcd

cat > etcd-back.yml <<'EOF'
apiVersion: batch/v1
kind: CronJob
metadata:
  name: etcd-disaster-recovery  # 定义 CronJob 的名称
  namespace: cronjob  # 指定 CronJob 所属的命名空间
spec:
  schedule: "30 16 * * *"  # 设置定时任务的调度时间表达式,表示每天16点整执行一次
  jobTemplate:
    spec:
      template:
        metadata:
          # labels:
          #   app: etcd-disaster-recovery  # 为 Pod 添加标签,可根据需要注释或删除
        spec:
          tolerations:
           - effect: NoSchedule
             key: node-role.kubernetes.io/control-plane
          affinity:  # 定义 Pod 的亲和性配置
            nodeAffinity:
              requiredDuringSchedulingIgnoredDuringExecution:
                nodeSelectorTerms:
                - matchExpressions:
                  - key: kubernetes.io/hostname
                    operator: In
                    values:
                    - k8s-master01  # 选择特定的节点(这里是选择 hostname 为 master01 的节点)
          containers:  # 定义 Pod 中的容器
          - name: etcd  # 容器名称
            image: registry.aliyuncs.com/google_containers/etcd:3.5.6-0  # 使用的 etcd 镜像版本为 3.5.10-0
            imagePullPolicy: "IfNotPresent"  # 镜像拉取策略,如果本地已存在该镜像,则不重新拉取
            command:  # 容器启动命令
            - sh
            - -c
            - "export ETCDCTL_API=3; \
               etcdctl --endpoints=$ENDPOINT \
               --cert=/etc/kubernetes/pki/etcd/server.crt \
               --key=/etc/kubernetes/pki/etcd/server.key \
               --cacert=/etc/kubernetes/pki/etcd/ca.crt \
               snapshot save /snapshot/snapshot.db; \
               echo etcd backup success"
            env:  # 环境变量配置,设置了一个名为 ENDPOINT 的环境变量,值为 "https://127.0.0.1:2379"
            - name: ENDPOINT
              value: "https://127.0.0.1:2379"
            volumeMounts:  # 挂载配置,指定了容器中需要挂载的卷和挂载路径
            - mountPath: "/etc/kubernetes/pki/etcd"  # 将主机上的 /etc/kubernetes/pki/etcd 目录挂载到容器的 /etc/kubernetes/pki/etcd 路径
              name: etcd-certs
            - mountPath: "/var/lib/etcd"  # 将主机上的 /var/lib/etcd 目录挂载到容器的 /var/lib/etcd 路径
              name: etcd-data
            - mountPath: "/snapshot"  # 将主机上的 /data/k8s-etcd 目录挂载到容器的 /snapshot 路径
              name: snapshot
            - mountPath: /etc/localtime  # 将主机上的 /etc/localtime 文件挂载到容器的 /etc/localtime 路径
              name: lt-config
            - mountPath: /etc/timezone  # 将主机上的 /etc/timezone 文件挂载到容器的 /etc/timezone 路径
              name: tz-config
          restartPolicy: OnFailure  # 定义容器重启策略,当容器失败时才会重启
          volumes:  # 卷配置,定义了 Pod 中使用的卷
          - name: etcd-certs
            hostPath:
              path: /etc/kubernetes/pki/etcd  # 使用主机上的 /etc/kubernetes/pki/etcd 目录作为卷
          - name: etcd-data
            hostPath:
              path: /var/lib/etcd  # 使用主机上的 /var/lib/etcd 目录作为卷
          - name: snapshot
            hostPath:
              path: /data/k8s-etcd  # 使用主机上的 /root/etcd/snapshot 目录作为卷
          - name: lt-config
            hostPath:
              path: /etc/localtime  # 使用主机上的 /etc/localtime 文件作为卷
          - name: tz-config
            hostPath:
              path: /etc/timezone  # 使用主机上的 /etc/timezone 文件作为卷
          hostNetwork: true  # 使用主机网络模式,Pod 将共享主机的网络命名空间
EOF
[root@k8s-master01 etcd]# ls /data/k8s-etcd/
snapshot.db

手动触发定时job可以创建一个job来测试
[root@k8s-master01 etcd]# kubectl create job manual-job --from cronjob/etcd-disaster-recovery -n cronjob
job.batch/manual-job created

[root@k8s-master01 etcd]# kubectl get job  -n cronjob
NAME                                   COMPLETIONS   DURATION   AGE
etcd-disaster-recovery-1716800594477   1/1           5s         7m7s
etcd-disaster-recovery-1716800635190   1/1           4s         6m26s
manual-job                             1/1           4s         22s

灾备恢复测试

创建测试pod
kubectl create deployment nginx  --image=nginx  --replicas=1

《k8s之数据的简单备份和恢复》
进行备份

kubectl create job manual-job1 --from cronjob/etcd-disaster-recovery -n cronjob

停止etcd 和apiserver服务,两者都是静止容器的方式运行的,删除配置文件就停机了

 mv /etc/kubernetes/manifests/{kube-apiserver.yaml,etcd.yaml}  /tmp/

删除数据数据

mv /var/lib/etcd /var/lib/etcd.bak

从备份的数据库恢复数据

ETCDCTL_API=3 etcdctl snapshot restore /data/k8s-etcd/snapshot.db --data-dir=/var/lib/etcd

恢复etcd和apiserver服务的运行

mv /tmp/{kube-apiserver.yaml,etcd.yaml}  /etc/kubernetes/manifests

可以看到nginx在正常运行
《k8s之数据的简单备份和恢复》

由于容器的保存位置和etcd数据库无关,删除数据之前和之后的容器是同一个,修改的容器的内容也保存下来了
《k8s之数据的简单备份和恢复》

问题及解决

Cronjob无法运行

0/3 nodes are available: 1 node(s) had untolerated taint {node-role.kubernetes.io/control-plane: }, 2 node(s) didn’t match Pod’s node affinity/selector.preemption: 0/3 nodes are available: 3 Preemption is not helpful for scheduling..

[root@k8s-master01 etcd]# kubectl describe node k8s-master01
Name: k8s-master01
Roles: control-plane
Labels: beta.kubernetes.io/arch=amd64
kubernetes.io/hostname=k8s-master01
Taints: node-role.kubernetes.io/control-plane:NoSchedule

配置

tolerations:
      - effect: NoSchedule
        key: node-role.kubernetes.io/control-plane

参考

Kubernetes etcd 定时备份及恢复方案

点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注