Редко, но все же иногда стала возникать проблема с агентом. Он повисает после загрузки рига и риг отваливается. Сам риг при этом работает, вотчдог весело помигивает, но майнер не запушен.
Агент зависает на gpu-stats. Карты AMD. При обращении к некоторым картам (pwm1, temp_input1) скрипт виснет. пробовал делать запуск gpu-stats через timeout - не помогает.
Сам риг не перезагружается ни по аппаратному вотчдогу, ни по программному. Аппаратный вотчдог мигает. А программный, видимо, еще не работает, т.к. майнер еще не стартовал.
есть несколько предложений как это можно исправить:
-
сделать пинг вотчдога из агента. агент завис - риг перезагрузился. минус - не у всех есть вотчдог.
-
сделать программный вотчдог для агента. проверять, например, раз в минуту, что агент работает, и если нет - перезапускать. если через 2-3 минуты агент не будет нормально работать - перезагружать риг.
-
сделать работу gpu-stats независимой от агента (в отдельном скрине, например, и записывать статистику в файл, из которого агент будет ее брать). таким образом любые задержки или зависания при обращении к картам не будут тормозить агента. и хоть какая то статистика всегда будет отображаться, т.к. бывают ситуации, когда при высоком LA nvidia-smi отдает статистику до 10 сек на каждую карту. при этом в веб-морде температуры и обороты отображаются только у майнера. сейчас получается, что агент каждые 20 секунд дергает gpu-stats, который дает только 10 секунд на работу nvidia-smi, еще больше увеличивая LA, если требуется больше времени.
в общем то, можно реализовать все варианты одновременно, хуже от этого не будет).