+8613426109659
webmaster@21cto.com

不想丢失停机时长,管理员费尽了心思

运维 0 17 1天前
图片

在本篇,我们将介绍一位新朋友,让我们姑且称他叫“Bobby(波比)”,他向我们讲述了他和朋友的故事,并建议我们称他为“Peanut(花生)”。

花生的本职工作是 Mac 程序员,但他个人偏爱 Linux。这两个因素结合起来,形成了对不间断正常运行时间的狂热追求。

“花生的老板要搬到新的办公地点,他个人不想失去邮件服务器上 400 多天的正常运行时间,”波比如此解释说。

于是他想出了一个办法,把服务器加UPS电源从一栋楼搬到另一栋楼。力气大的花生负责搬运UPS电源,波比则负责搬运体积更小、重量更轻的服务器。

Peanut的老板其实既不需要也不想让服务器一直保持在线,但看到两人这样做也没有说什么。在迁移过程中,服务器一直保持着电源连接,但没有任何网络,因此无法收发邮件。
但这个笨方法却奏效了,服务器确实继续运行了下来。

“一切都很顺利,我们把UPS和邮件服务器搬进了新大楼,没有出现任何意外,”波比说。

从此,花生要的Linux正常运行时间记录得到了保持。

图片
花生在扛着UPS电源

网友评论道:


执着,但也有点过了。


我能理解他想保证邮件服务器的正常运行,他确实也认为这条路走得巧妙。然而,如果服务器或UPS在搬迁过程中出现任何问题,会因为物理损坏或数据丢失而失去整台服务器,所以这个计划完全是愚蠢的。为了说一句“看,邮件服务器已经运行了xxx天了”,就让自己陷入可能需要更换硬件甚至整台服务器,承受这样的麻烦完全没有必要。我不会雇用这样的人,我无法信任他能把事情做好。

很多人提出花生做的没错,还有的人举出搬迁时不关电源损坏硬盘/件的例子。

于是,引入我们今天要说的uptime命令:

uptime (选项)

选项

-V:显示该命令的版本信息。

举个实例,使用uptime命令查看系统负载:

[root@LinServ-1 ~]# uptime -V    #显示uptime命令版本信息uptime from procps-ng version 3.3.17[root@LinServ-1 ~]# uptime 15:31:30 up 127 days,  3:00,  1 user,  load average: 0.000.000.00

我们对显示的文字做解释说明:

15:31:30             # 系统当前时间up 127 days,  3:00   # 主机已运行时间,时间越大,说明你的机器越稳定。1 user               # 用户连接数,是总连接数而不是用户数load average: 0.000.000.00 # 系统平均负载,统计最近1515分钟的系统平均负载

关于里面的系统平均负载,指的是特定时间间隔内运行队列中的平均进程数。

若每个CPU内核的当前活动进程数不大于3的话,那么系统的性能是良好的。如果每个CPU内核的任务数大于5,那么这台服务器的性能有了一些问题。

如果你的Linux主机是1个双核CPU的话,当Load Average 为6的时候说明机器已经被充分使用了。

祝大家有所收获!

作者:行动的大雄

参考:

https://www.theregister.com/2025/11/21/on_call/?td=rt-3a

评论

我要赞赏作者

请扫描二维码,使用微信支付哦。