手记

Kuboard Spray图形化安装kubernetes集群踩坑记录

以下记录了安装单节点(单master的集群),示例使用版本为:

  • Kuboard Spray版本为v1.0.0-alpha.1,也是截止2022.01.04最新版本。
  • 操作系统版本:CentOS Linux release 7.9.2009
  • 内核版本:3.10.0-1160.31.1.el7.x86_64

配置

Add Node添加节点:NodeName为master01,NodeRoles为控制平面、etcd节点、工作节点。具体根据自己需求来规划。

Global Config配置:

  • SSH部分需要输入用户名和密码;
  • ContainerManager部分:有containerd和docker可选择,这里选择docker

Global Config配置,OS Mirror部分,选择预置的操作系统配置源:

Kubernetes配置部分,可以自定义集群泛域名后缀,Event保留时间,是否允许匿名用户访问,kubelet日志级别,网络CIDR,节点上maxPod,网络插件有Flannel和calico可选:

ETCD配置部分,有容器化部署和二进制部署可选:


Addons开启了net_checker和Metrics,作为集群监控组件:

这里重点提一下net_checker:

Kubespray提供了一种使用 Netchecker 通过集群 IP 自动验证 Pod 到 Pod 的连接性,并检查 DNS 解析是否正常运行。这些检查由agent定期运行,并涵盖容器网络和主机网络 pod。执行检查的历史信息可以在agent应用程序日志中找到。并作为集群健康指标,报告到server,以metrics接口的方式暴露指标。

可能的报错

Apply之后,执行安装时报错:

TASK [bastion-ssh-config : set bastion host IP and port] ***********************
task path: /data/resource/spray-master-8d9ed01_k8s-v1.23.1_v1.0-amd64/content/3rd/kubespray/roles/bastion-ssh-config/tasks/main.yml:2
fatal: [bastion -> localhost]: FAILED! => {
    "msg": "The task includes an option with an undefined variable. The error was: 'dict object' has no attribute 'bastion'\n\nThe error appears to be in '/data/resource/spray-master-8d9ed01_k8s-v1.23.1_v1.0-amd64/content/3rd/kubespray/roles/bastion-ssh-config/tasks/main.yml': line 2, column 3, but may\nbe elsewhere in the file depending on the exact syntax problem.\n\nThe offending line appears to be:\n\n---\n- name: set bastion host IP and port\n  ^ here\n"
}

PLAY RECAP *********************************************************************
bastion                    : ok=3    changed=0    unreachable=0    failed=1    skipped=22   rescued=0    ignored=0   
localhost                  : ok=4    changed=0    unreachable=0    failed=0    skipped=0    rescued=0    ignored=0   

根据报错信息bastion host IP and port可以猜到是跳板机host和port导致的,但我并没有enable跳板机选项:

根据报错指向的文件,到kuboard-spray容器中排查main.yml,如下:

# docker exec -ti kuboard-spray bash
root@41b1a241a852:/kuboard-spray# cat /data/resource/spray-master-8d9ed01_k8s-v1.23.1_v1.0-amd64/content/3rd/kubespray/roles/bastion-ssh-config/tasks/main.yml
---
- name: set bastion host IP and port
  set_fact:
    bastion_ip: "{{ hostvars[groups['bastion'][0]]['ansible_host'] | d(hostvars[groups['bastion'][0]]['ansible_ssh_host']) }}"
    bastion_port: "{{ hostvars[groups['bastion'][0]]['ansible_port'] | d(hostvars[groups['bastion'][0]]['ansible_ssh_port']) | d(22) }}"
  delegate_to: localhost
  connection: local

# 省略

这里能看到需要获取跳板机(bastion)下的host和port,其实根据我们的选项,这个任务都不应该执行。

集群配置清单其实在kuboard-spray容器中/data/cluster/yourclustername/inventory.yaml文件中,其中包含了bastion信息:


root@41b1a241a852:/data/cluster/smallsoup# cat inventory.yaml 
all:
    hosts:
        bastion:
            ansible_host: ""
            ansible_user: ""

需要删除hosts.bastion。

sed -i '/bastion:/d' inventory.yaml 
sed -i '/ansible_host: ""/d' inventory.yaml 
sed -i '/ansible_user: ""/d' inventory.yaml 

这就懵逼了,跳板机host和port怎么会设置为空值呢?

事情经过是这样的:

一开始我手残点了一下enable,想看看有没有需要填写的。因为是测试环境,无需跳板机,所以就disable了。然而,这个版本有bug,disable时没有清理干净inventory.yaml中的配置,这是一个bug,这个bug作者会在后续版本中修复。

这个问题解决后继续安装。

继续安装

后面的安装还算顺利。重新点击Apply即可安装成功:

注意点

如果之前主机上有docker,执行安装时会reload docker,即发生重启,重启之后刷新页面重新点击Apply即可安装成功。

查看集群

# kubectl  get node
NAME       STATUS   ROLES                  AGE   VERSION
master01   Ready    control-plane,master   29m   v1.23.1

# systemctl status etcd

# kubectl  get ippool
NAME           AGE
default-pool   29m

# kubectl  get pod -A
NAMESPACE     NAME                                     READY   STATUS    RESTARTS      AGE
default       netchecker-agent-8fs2m                   1/1     Running   0             30m
default       netchecker-agent-hostnet-vknsm           1/1     Running   0             30m
default       netchecker-server-59fcd6bf86-5mtkn       2/2     Running   1 (30m ago)   30m
kube-system   calico-kube-controllers-bd5fc6b6-h6ghc   1/1     Running   0             31m
kube-system   calico-node-z6kwp                        1/1     Running   0             31m
kube-system   coredns-5c5b9c5cb-lb8wl                  1/1     Running   0             30m
kube-system   dns-autoscaler-7874cf6bcf-jz6qw          1/1     Running   0             30m
kube-system   kube-apiserver-master01                  1/1     Running   0             32m
kube-system   kube-controller-manager-master01         1/1     Running   1             32m
kube-system   kube-proxy-9c5tm                         1/1     Running   0             31m
kube-system   kube-scheduler-master01                  1/1     Running   1             32m
kube-system   metrics-server-6b957b8494-kmsbp          1/1     Running   0             30m
kube-system   nodelocaldns-rq79f                       1/1     Running   0             30m

可以看到

  • 一个master节点的集群创建成功
  • etcd二进制部署
  • metrics-server和netchecker正常
  • calico使用kubernetes CRD作为datastore

我们可以通过netchecker-server的地址获取指标:

curl http://{主机IP}:31081/metrics

作者简洁

作者:小碗汤,一位热爱、认真写作的小伙,专注于写go语言、docker、kubernetes、java等开发、运维知识等提升硬实力的文章,期待你的关注。转载说明:务必注明来源

0人推荐
随时随地看视频
慕课网APP