全球主机交流论坛

标题: 原因确认 OVH ks-le-1 CA 华硕主板跑满8168网卡死机折腾记录 8169 [打印本页]

作者: oldpoor    时间: 2022-12-15 14:55
标题: 原因确认 OVH ks-le-1 CA 华硕主板跑满8168网卡死机折腾记录 8169
本帖最后由 oldpoor 于 2022-12-19 00:52 编辑

问题已经解决,linux下的话是一个很老的bug,太长不读 TL;DR,看这里,8168网卡装了8169驱动会不稳定
https://docs.hetzner.com/robot/dedicated-server/operating-systems/realtek-r8169-r8168-nic/
https://bbs.archlinux.org/viewtopic.php?id=242325
Windows 系统的话需要注意防止休眠,可以在控制面板,电源选项开启高性能模式


如题,你们的机器会遇到么,网络持续高负载之后会随机死机

有大佬说估计是BIOS需要更正选项(可能是节能选项),还不确定,确定了我将具体的贴出来,注意了,不要自行更新BIOS,我才发现BIOS不知道哪次被机房的人刷回旧版的了... 顺便一说可以在Windows下更新BIOS,然后估计很大概率会卡住重启不了,要机房人员干预,大概耗时半小时到一两小时(看运气),方法是下载AI SUITE II,兼容模式安装,然后跑asus update,是更新BIOS的
AI suite 链接https://dlcdnets.asus.com/pub/ASUS/misc/utils/AI_SuiteII_Win8-1_VER20012_VER10512.zip

官方认定硬件是否有故障的方法:
https://www.infski.com/455.html
https://docs.ovh.com/gb/en/dedicated/ovh-rescue/

BIOS已经更新到最新(又被机房的人刷回去了),除了ipv6上行带宽,具体测试可以参考:
https://91ai.net/thread-1101968-1-1.html

lspci | grep Eth
03:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (rev 09)

# ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## #

Thu 15 Dec 2022 12:17:08 PM UTC

Basic System Information:
---------------------------------
Uptime     : 0 days, 20 hours, 43 minutes
Processor  : Intel(R) Xeon(R) CPU E3-1245 V2 @ 3.40GHz
CPU cores  : 4 @ 2381.219 MHz
AES-NI     : ✔ Enabled
VM-x/AMD-V : ✔ Enabled
RAM        : 31.1 GiB
Swap       : 1024.0 MiB
Disk       : 1.7 TiB
Distro     : Debian GNU/Linux 11 (bullseye)
Kernel     : 5.10.0-19-amd64


# dmidecode 3.3
Getting SMBIOS data from sysfs.
SMBIOS 2.7 present.

Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
        Manufacturer: ASUSTeK COMPUTER INC.
        Product Name: P8H77-M

        Version: Rev X.0x
        Serial Number: xxxxxx
        Asset Tag: To be filled by O.E.M.
        Features:
                Board is a hosting board
                Board is replaceable
        Location In Chassis: To be filled by O.E.M.
        Chassis Handle: 0x0003
        Type: Motherboard
        Contained Object Handles: 0

作者: 招财猫    时间: 2022-12-15 15:59
9快9包邮的话 我排个队
作者: jamesbond    时间: 2022-12-15 16:09
能push的话我排个队

作者: 0.0    时间: 2022-12-15 16:14
同出一台, lz优先
作者: oldpoor    时间: 2022-12-15 18:05
本帖最后由 oldpoor 于 2022-12-15 18:07 编辑
招财猫 发表于 2022-12-15 15:59
9快9包邮的话 我排个队


排上了,你在队尾,能push,60s一个帖子,懒得回复两个了
作者: oldpoor    时间: 2022-12-15 20:26
更新了主板信息 有兴趣的可以看看你们的主板
作者: oldpoor    时间: 2022-12-16 00:11
睡前顶一顶
作者: coxpc    时间: 2022-12-16 08:02
去救援模式跑个测试呗,参考:https://www.infski.com/455.html
如果硬件出问题发工单让他们给你换硬件。
作者: oldpoor    时间: 2022-12-16 09:35
本帖最后由 oldpoor 于 2022-12-16 09:45 编辑
coxpc 发表于 2022-12-16 08:02
去救援模式跑个测试呗,参考:https://www.infski.com/455.html
如果硬件出问题发工单让他们给你换硬件。 ...


硬件都没问题,只是跑满上行三小时到三天后会随机死机,可见不止这台有问题的,因为他们的都跑不了1g上行 OVH不会换的,他说他不换

Kindly note, we don't have the ability to access your Dedicated Server directly and in any case would not be allowed to. You may consider contacting an OVH partner for support using the following link for further asisstance: 


https://partner.ovhcloud.com/en-gb/programs/
作者: 小刀    时间: 2022-12-16 10:00
请问后台安装win,是自己添加 lincence,添加模板吗
作者: coxpc    时间: 2022-12-16 10:05
本帖最后由 coxpc 于 2022-12-16 10:07 编辑
oldpoor 发表于 2022-12-16 09:35
硬件都没问题,只是跑满上行三小时到三天后会随机死机,可见不止这台有问题的,因为他们的都跑不了1g上行 ...


我之前有个ks和你一样,网络占用多之后就间断性死机,只能硬重启。跑救援模式测试测出来是cpu有问题,发了个工单给换了。后来就没什么事了。
其他就不清楚了
作者: ziyo    时间: 2022-12-16 10:08
oldpoor 发表于 2022-12-16 09:35
硬件都没问题,只是跑满上行三小时到三天后会随机死机,可见不止这台有问题的,因为他们的都跑不了1g上行 ...

我的是刷pt跑几分钟就赖邮件说故障了,然后机房检查没啥问题,重启一下完事….然后重复跑pt重复故障…
作者: oldpoor    时间: 2022-12-16 10:14
coxpc 发表于 2022-12-16 10:05
我之前有个ks和你一样,网络占用多之后就间断性死机,只能硬重启。跑救援模式测试测出来是cpu有问题,发 ...

我的救援模式烤鸡没问题,Windows下烤鸡几个钟也没问题,他救援模式就烤鸡cpu半小时,反正他的机器... 比online灵车,比hetzner灵车,online和hz我都没试过抽中坏机器,虽然hz也用华硕hhh
作者: coxpc    时间: 2022-12-16 10:15
oldpoor 发表于 2022-12-16 10:14
我的救援模式烤鸡没问题,Windows下烤鸡几个钟也没问题,他救援模式就烤鸡cpu半小时,反正他的机器... 比 ...

那可能是真倒霉 祝早出
作者: oldpoor    时间: 2022-12-16 10:15
ziyo 发表于 2022-12-16 10:08
我的是刷pt跑几分钟就赖邮件说故障了,然后机房检查没啥问题,重启一下完事….然后重复跑pt重复故障… ...

快看看你的主板是什么主板哈哈哈,对了,有时候没死机,假如你开了监控,他ping不通你的ipv4(带宽跑满了),他也会以为你机器出问题了,然后机房的人kvm连接鼠标键盘过来看看机器还有没有活着,做个记录,然后活着就软重启,死了就硬重启,我都已经熟了
作者: coxpc    时间: 2022-12-16 10:17
ziyo 发表于 2022-12-16 10:08
我的是刷pt跑几分钟就赖邮件说故障了,然后机房检查没啥问题,重启一下完事….然后重复跑pt重复故障… ...

你这种可以去面板把监控关了,或者选择不干预
作者: oldpoor    时间: 2022-12-16 10:20
小刀 发表于 2022-12-16 10:00
请问后台安装win,是自己添加 lincence,添加模板吗

好累,等等再说,卡60s了,我休息一下再回你
https://www.有图比.com/watch?v=J5hPEHk8O-Q&t=77s
操作流程和这个视频几乎一样,只是界面不同
作者: oldpoor    时间: 2022-12-16 10:21
coxpc 发表于 2022-12-16 10:17
你这种可以去面板把监控关了,或者选择不干预

是的,早就关了干预,他的判断并不准确
作者: weiai    时间: 2022-12-16 10:28
我跟你说为啥,你让他们把bios设置下节能模式关了,就行了
作者: oldpoor    时间: 2022-12-16 10:31
weiai 发表于 2022-12-16 10:28
我跟你说为啥,你让他们把bios设置下节能模式关了,就行了


居然还有这样的!我去让他弄一下,折腾死我了,为了替换这个机器,我又搞了其他机器,现在是一团糟,谢谢大佬指教!是BIOS哪里的节能模式,我正在翻说明书!
作者: weiai    时间: 2022-12-16 10:41
oldpoor 发表于 2022-12-16 10:31
居然还有这样的!我去让他弄一下,折腾死我了,为了替换这个机器,我又搞了其他机器,现在是一团糟,谢谢 ...



你的看着和我的症状是一样,烤鸡 和压榨性能都不会死机,就是空闲跑网络就G了
你就说 不定时死机,让处理下bios是不是有设置问题,我之前也遇到过,干预的技术人员水平不一样,
作者: oldpoor    时间: 2022-12-16 10:43
weiai 发表于 2022-12-16 10:41
你的看着和我的症状是一样,烤鸡 和压榨性能都不会死机,就是空闲跑网络就G了
你就说 不定时死机,让处 ...


谢谢指导,老板大气,你不说我实在是想不到!我实在没想到是这个问题,我还特意更新了BIOS
作者: weiai    时间: 2022-12-16 10:45
oldpoor 发表于 2022-12-16 10:43
谢谢指导,老板大气,你不说我实在是想不到!我实在没想到是这个问题,我还特意更新了BIOS ...

之前处理的tk:
peration details:

The server is frozen and doesn't responds to ping requests.

We have rebooted the server.
We also applied a fix in your BIOS that should prevent random freezes.

The server is booted on disk and is on the login screen. Ping OK and services are up.

If you need any further information regarding this intervention, please do not hesitate to contact our technical support.

The OVHcloud Team

作者: 小刀    时间: 2022-12-16 10:49
oldpoor 发表于 2022-12-16 10:20
好累,等等再说,卡60s了,我休息一下再回你
https://www.有图比.com/watch?v=J5hPEHk8O-Q&t=77s
操作流 ...

感谢,祝早出
作者: coxpc    时间: 2022-12-16 10:53
oldpoor 发表于 2022-12-16 10:43
谢谢指导,老板大气,你不说我实在是想不到!我实在没想到是这个问题,我还特意更新了BIOS ...

蹲个后续
我也没往这方面想,玩机玩少了,比不上大佬
作者: oldpoor    时间: 2022-12-16 10:55
coxpc 发表于 2022-12-16 10:53
蹲个后续。
我也没往这方面想,玩机玩少了,比不上大佬

确实比不上,我也在学习,实在没想到这个问题,我找到BIOS选项了,等等贴出来
作者: oldpoor    时间: 2022-12-16 11:11
weiai 发表于 2022-12-16 10:45
之前处理的tk:
peration details:

嗯,谢谢分享,我怀疑是这个选项,我先让OVH那边自己看看吧
2.4.3 EPU Power Saving Mode [Disabled]
本項目用來開啟或關閉 EPU 省電功能。設置值有:[Disabled] [Enabled]
EPU Setting [Auto]
本項目只有在您將【EPU Power Saving Mode】項目設置為 [Enabled] 時才會
出現,用來選擇 EPU 省電模式。設置值有:[Auto] [Light Power Saving Mode]
[Medium Power Saving Mode] [Max Power Saving Mode]
作者: ziyo    时间: 2022-12-16 11:57
coxpc 发表于 2022-12-16 10:17
你这种可以去面板把监控关了,或者选择不干预

哦?还能这样,应该就是他们检测ping有问题,所以去查看,然后给重启了…
作者: ziyo    时间: 2022-12-16 14:09
oldpoor 发表于 2022-12-16 10:15
快看看你的主板是什么主板哈哈哈,对了,有时候没死机,假如你开了监控,他ping不通你的ipv4(带宽跑满了 ...

这个应该就是破案关键,下载也好,上传也好,它检测不到了就给你去重启了…
作者: oldpoor    时间: 2022-12-16 20:31
coxpc 发表于 2022-12-16 10:53
蹲个后续。
我也没往这方面想,玩机玩少了,比不上大佬

不太行,不知道是不是加拿大的机房的人不太会,没帮我更新到BIOS,也没有帮我调整到BIOS选项,不过EPU默认确实是禁用的,不知道有没有其他节能选项,感觉凉凉
作者: 渣渣灰    时间: 2022-12-16 21:29
还没行?
作者: ziyo    时间: 2022-12-16 21:54
改成你点评的“Enabled without proactive intervention”后你试过没?周日MT大包出来我试试看
作者: oldpoor    时间: 2022-12-16 22:15
ziyo 发表于 2022-12-16 21:54
改成你点评的“Enabled without proactive intervention”后你试过没?周日MT大包出来我试试看 ...

这个的意思是监控开启,但是不会主动干预你的机器,不会帮你重启
作者: coxpc    时间: 2022-12-17 09:46
oldpoor 发表于 2022-12-16 20:31
不太行,不知道是不是加拿大的机房的人不太会,没帮我更新到BIOS,也没有帮我调整到BIOS选项,不过EPU默 ...

草,我昨天测试了一下。发现我加拿大ks-le-1也有这个问题...
网络占用多时间长也会死机,挂pt qt跑上传。
作者: 0.0    时间: 2022-12-17 10:38
coxpc 发表于 2022-12-17 09:46
草,我昨天测试了一下。发现我加拿大ks-le-1也有这个问题...
网络占用多时间长也会死机,挂pt qt跑上传。 ...

大佬你是上传多久死机的? 我也测试一下, 刚挂上十多分钟
作者: oldpoor    时间: 2022-12-17 10:53
本帖最后由 oldpoor 于 2022-12-17 11:12 编辑
coxpc 发表于 2022-12-17 09:46
草,我昨天测试了一下。发现我加拿大ks-le-1也有这个问题...
网络占用多时间长也会死机,挂pt qt跑上传。 ...


我试了一下,Windows长时间跑满网络也会死机,实在是...服了,我再找找客服,快找客服,别便宜了他们,整天跑满就死机
有空看看你的主板和BIOS?具体方法我主贴里面好像有
和Linux一样,没什么奇怪的log,他就是死,看来也不是Linux的驱动或者系统问题
作者: 0.0    时间: 2022-12-17 11:01
oldpoor 发表于 2022-12-17 10:53
我试了一下,Windows长时间跑满网络也会死机,实在是...服了,我再找找客服,快找客服,别便宜了他们,整 ...


在跑, 等会看看结果
作者: coxpc    时间: 2022-12-17 11:59
oldpoor 发表于 2022-12-17 10:53
我试了一下,Windows长时间跑满网络也会死机,实在是...服了,我再找找客服,快找客服,别便宜了他们,整 ...

晚点我去救援模式跑iperf3看看,麻了
作者: bingda733    时间: 2022-12-17 12:02
他死机不是bios的问题,是intel的82579v网卡驱动和linux内核冲突
可以试试
ethtool -K 网卡 tso off gso off

作者: oldpoor    时间: 2022-12-17 12:09
bingda733 发表于 2022-12-17 12:02
他死机不是bios的问题,是intel的82579v网卡驱动和linux内核冲突
可以试试
ethtool -K 网卡 tso off gso of ...

回头试试,谢谢大佬指教,但是我Windows也会死机... 我的是华硕主板,realtek集成网卡,并不是Intel的,什么log也没有,和Linux下情况差不多。
作者: bingda733    时间: 2022-12-17 12:22
oldpoor 发表于 2022-12-17 12:09
回头试试,谢谢大佬指教,但是我Windows也会死机... 我的是华硕主板,realtek集成网卡,并不是Intel的, ...

windows可以电源模式设置成高性能试试
作者: WZ-Software    时间: 2022-12-17 12:26
续费啥价格啊
作者: oldpoor    时间: 2022-12-17 12:28
bingda733 发表于 2022-12-17 12:22
windows可以电源模式设置成高性能试试

好,我试试!谢谢
作者: oldpoor    时间: 2022-12-17 20:52
本帖最后由 oldpoor 于 2022-12-17 20:54 编辑

https://docs.hetzner.com/robot/dedicated-server/operating-systems/realtek-r8169-r8168-nic/
https://bbs.archlinux.org/viewtopic.php?id=242325
还不确定是否是这个问题,正在测试了 孩子们快来试试 @coxpc @0.0 还有谁我忘记了
作者: 0.0    时间: 2022-12-17 21:02
oldpoor 发表于 2022-12-17 20:52
https://docs.hetzner.com/robot/dedicated-server/operating-systems/realtek-r8169-r8168-nic/
https://b ...

我中午那会满上行跑了2小时, 没出啥问题
作者: coxpc    时间: 2022-12-17 21:38
oldpoor 发表于 2022-12-17 20:52
https://docs.hetzner.com/robot/dedicated-server/operating-systems/realtek-r8169-r8168-nic/
https://b ...

我也跑了4个多小时的上行,救援模式下。之前好像是我瞎捯饬内核的缘故网络崩了,重装了一下ubuntu 20.04。暂时还没出问题。等下次万一间歇性发作我再试试看
作者: oldpoor    时间: 2022-12-18 12:25
可能修好了,暂时结帖
作者: coxpc    时间: 2022-12-18 12:26
oldpoor 发表于 2022-12-18 12:25
可能修好了,暂时结帖


现在用的什么系统?参考一下
作者: oldpoor    时间: 2022-12-18 12:50
coxpc 发表于 2022-12-18 12:26
现在用的什么系统?参考一下

用debian ubuntu arch的话,都一样的,用Windows,如楼上大佬所说的,开个高性能模式防止休眠,OVH机房的人也有说,我忘记了
作者: ziyo    时间: 2022-12-21 20:23
oldpoor 发表于 2022-12-17 20:52
https://docs.hetzner.com/robot/dedicated-server/operating-systems/realtek-r8169-r8168-nic/
https://b ...

啊这,看不懂啊




欢迎光临 全球主机交流论坛 (https://91ai.net/) Powered by Discuz! X3.4