✍🏻 🍹 🔉 围绕FC适配器的新年舞会或有关导致问题的原因与症状有多远的故事 🛐 ❗️ 🎹

因此，在1月4日晚上7:15，我从睡眠中消除了眼睛，我从Zabbix服务器的Telegram组中发现了一堆消息，其中一台虚拟服务器的CPU负载增加了：

在查看Zabbix的历史之后，我爬到服务器上并在dmesg中查找以下内容：

[  3 20:05:18 2019] qla2xxx [0000:21:00.1]-015b:10: Disabling adapter. [  3 20:05:28 2019] sd 10:0:0:1: rejecting I/O to offline device [  3 20:05:28 2019] sd 10:0:0:1: rejecting I/O to offline device [  3 20:05:28 2019] sd 10:0:0:1: rejecting I/O to offline device [  3 20:05:28 2019] sd 10:0:0:1: rejecting I/O to offline device [  3 20:05:28 2019] sd 10:0:0:1: rejecting I/O to offline device

我正在爬入QLogic FC适配器正在查看的存储，我发现在1月1日19:54，该存储中的一个驱动器已停用，备用驱动器被提起，并且重新同步于1月2日9:11结束：

我以为：也许某些东西来自存储库或FC交换机，这导致驱动程序对QLogic适配器感到恼火。

乍一看，在跟踪器中创建了一个任务，重新启动了服务器，一切都恢复了正常运行。

为此，他将进一步的行动推迟到新年假期结束之前。

从1月9日工作周开始，他开始理清故障原因。

由于消息：

 [  3 20:05:18 2019] qla2xxx [0000:21:00.1]-015b:10: Disabling adapter.

不太翔实，爬进了驱动程序源。

根据驱动程序代码判断，由于PCI错误（Linux / drivers / scsi / qla2xxx / qla_os.c（内核v4.15））而卸载驱动程序时，会发出一条消息：

 qla2x00_disable_board_on_pci_error(struct work_struct *work) { struct qla_hw_data *ha = container_of(work, struct qla_hw_data, board_disable); struct pci_dev *pdev = ha->pdev; scsi_qla_host_t *base_vha = pci_get_drvdata(ha->pdev); /* * if UNLOAD flag is already set, then continue unload, * where it was set first. */ if (test_bit(UNLOADING, &base_vha->dpc_flags)) return; ql_log(ql_log_warn, base_vha, 0x015b, "Disabling adapter.\n");

我开始进一步研究，进入BMC，查看事件日志：