背景
我们生产环境,有 2 套 Nexus 环境,docker 镜像制品也使用 nexus,老的环境已经运行很久了,Nexus 非常不稳定,故障 BUG 特别多。在新环境迁移工作中,已经转向 Harbor。Nexus 在某天突然完全故障,所有请求 404(nexus 本身经常 BUG,虚机层面磁盘故障等问题造成数据错乱)。于是,我们放弃老的 Nexus,都切换到新的 Nexus,Harbor。
故障过程复盘
在 2,3 天的排查调整后,基本切换完成,业务没反馈仓库等问题了,但是晚上变更的时候,发现老环境 Pod 发布后,一直 pending 中。观察了 pod event,deployment,甚至 replica sets 也没任何错误事件,这就麻了,根据我多年的经验,至少 replica sets 会有故障事件,这啥也没有非常不科学。
只能回到 Pod 本身,仔细观察 event 事件,虽然没有报错,但是事件信息有异常