Bug 29954

Summary: [bisect] Нестабильная работа 3.12.16-std-def-alt1
Product: Sisyphus Reporter: Aleksey Borisenkov <grizlik78>
Component: kernel-image-std-defAssignee: Vitaly Chikunov <vt>
Status: CLOSED WORKSFORME QA Contact: qa-sisyphus
Severity: normal    
Priority: P3 CC: cas, kernelbot, placeholder, vt
Version: unstableKeywords: regression
Hardware: x86_64   
OS: Linux   
Attachments:
Description Flags
/var/log/messages.1, 3.12.15, попытка 1
none
/var/log/messages.2, 3.12.15, попытка 2
none
/var/log/messages.3, 3.12.16, попытка 1
none
lspci -vnn
none
/var/log/messages.4, 3.12.16, без virtualbox none

Description Aleksey Borisenkov 2014-04-06 15:52:45 MSK
При использовании ядра 3.12.15-std-def-alt1 и 3.12.16-std-def-alt1 через некоторое время система зависает. В процессе работы могут аварийно завершаться пользовательские приложения — firefox, ktorrent.
С ядром 3.10.33-std-def-alt1 подобного не наблюдается, система работает достаточно стабильно.

x86_64, i7 4770, GA-Z87X-UD3H, 32G RAM, GTX 760
Comment 1 Aleksey Borisenkov 2014-04-06 15:55:07 MSK
Created attachment 6069 [details]
/var/log/messages.1,  3.12.15, попытка 1
Comment 2 Aleksey Borisenkov 2014-04-06 15:56:04 MSK
Created attachment 6070 [details]
/var/log/messages.2,  3.12.15, попытка 2
Comment 3 Aleksey Borisenkov 2014-04-06 15:56:41 MSK
Created attachment 6071 [details]
/var/log/messages.3,  3.12.16, попытка 1
Comment 4 Aleksey Borisenkov 2014-04-06 15:57:26 MSK
Created attachment 6072 [details]
lspci -vnn
Comment 5 Andrey Cherepanov 2014-04-07 12:38:44 MSK
Похоже, что проблема с модулем e1000e
Comment 6 Sergey V Turchin 2014-04-07 16:08:51 MSK
Попробуйте выключить сервис VirtualBox для начала.
Comment 7 Aleksey Borisenkov 2014-04-07 18:11:47 MSK
Created attachment 6076 [details]
/var/log/messages.4, 3.12.16, без virtualbox

Выпилил kernel-modules-virtualbox-std-def. Собственно, я на него и сам в первую очередь подумал. Но увы. Правда в этот раз не завис, а перезагрузился, перед этим подвиснув секунд на 5.
Comment 8 Aleksey Borisenkov 2014-09-02 14:21:53 MSK
С помощью git bisect отыскал злополучный коммит. Им оказался
http://git.altlinux.org/people/boyarsh/packages/?p=kernel-image.git;a=commit;h=efca618a4ebd8f751dffe10c3ba6efe146e02c5e

3.12.27-std-def-alt1 с ним по прежнему тупит. Пересобрал с откатом этого коммита, вроде работает нормально.
Самостоятельно разобраться в чём проблема вряд ли смогу. С апстримом напряму общаться тоже затруднительно. Если вдруг есть специалисты, желающие поразвлечься... ;)
Comment 9 Michael Shigorin 2014-09-02 15:35:10 MSK
Ай здорово; в апстрим передать помогу, только просьба сформулировать баг наиболее чётко по состоянию на сейчас либо на английском, либо для перевода (сделаю) и с учётом сказанного в Documentation/SubmittingPatches

Также хорошо бы лишний раз перепроверить с
CONFIG_NO_HZ_IDLE=y
# CONFIG_NO_HZ_FULL is not set
# CONFIG_NO_HZ_FULL_ALL is not set
ввиду соображений об умолчаниях и доп. настройке в
http://cateee.net/lkddb/web-lkddb/NO_HZ_IDLE.html
http://cateee.net/lkddb/web-lkddb/NO_HZ_FULL.html
(есть мнение, что обратное положение в opensuse лучше, чем нынешнее у нас).
Comment 10 Aleksey Borisenkov 2014-09-02 15:41:40 MSK
Хорошо, я пока эту сборку погоняю ещё, чтобы убедиться, что не воспроизводится, потом посмотрю без NO_HZ_FULL. В общем-то, я так и собирался.
Comment 11 Michael Shigorin 2015-01-01 15:34:36 MSK
Н-да, так в том году и не добрались -- а что с нынешними ядрами?
Comment 12 Aleksey Borisenkov 2015-01-01 21:46:45 MSK
Да, к сожалению, немного меня не хватило. С откатом того коммита жить более менее можно, хотя, наверное, проблема где-то в другом, а тот коммит её проявляет.
Собирать с CONFIG_NO_HZ_IDLE пробовал, не помогает.
Из последних испробованных 3.14.26-std-def-alt1 и 3.18.1-un-def-alt1. Не починилось.
Comment 13 Michael Shigorin 2015-01-02 01:57:27 MSK
Тогда предлагаю готовить "письмо lkml-скому султану".
С переводом помогу при надобности.
Comment 14 Aleksey Borisenkov 2016-09-15 22:24:17 MSK
Спасибо за участие, но проблема, похоже, всё-таки аппаратная. Пришлось оставить память только в канале Б процессора и снизить частоту. Так вроде стабильно работает. Замена памяти не помогает, в канале А глючит сильно. Хотя удивительно, что на старых ядрах систем жила очень стабильно. Надо пробовать сменить процессор, но это не так-то просто.
P.S. В апстрим в таком виде репортить смысла большого не виделось, краши всегда разные, код влиявший на них никогда не выполняется.