Друзья, кажется я решил проблему, но не понял как именно и почему. Но, возможно, мой путь другим поможет.
Итак, сначала я осознал, что проблема сама по себе появилась лишь после обновления HiveOS. Раньше ее не было. И, в теории, если откатить версию HiveOS до 0.5-50 (примерно), то все должно снова нормально работать (ведь работало!), но я оставил этот вариант на потом.
Я предположил, что проблема может быть в версии Claymore, которая обновилась до 11.8. Поэтому, первое что я сделал - это попробовал запускать клеймор не latest, а конкретно версии 11.6 и 11.7. И, действительно, риг начал вести себя иначе. Если на версии 11.8 я ловил ошибку “GPU reached…” после чего Клеймор вырубался и больше не стартовал (т.е. в запущенных приложениях клеймора не было вообще), то в 11.6 и 11.7 проблема выглядела иначе. А именно, майнинг без каких-либо ошибок в логе вдруг перставал работать. Я подключился по ssh к ригу, вошел в окно клеймора (командой “miner”) и видел следующую картину: запущен Claymore, в нем перечислены все карты, но во всех картах катастрофически мало доступной памяти (memory available которая). У некоторых оставалось буквально 97 Мб, У других 200-300 Мб. Но у всех карт нет памяти для работы. В итоге последняя строчка в клейморе - это то, что более, чем за 5 минут не удалось инициализировать GPU, поэтому нужно рестартиться. Вот только в этот момент клеймор висит наглухо, ни на что не реагирует и не перезапускается. Помогает ребут.
В этот момент я решил покопать в сторону параметра “-r” который отвечает за перезапуск клеймора. Я пробовал использовать “-r 0”, который, судя по описанию, отвечает за то, что в случае сбоя GPU клеймор будет перезапускаться - но это не помогло. Дальше я вычитал, что если использовать параметр “-r 1”, то клеймор в случае сбоя будет не просто рестартить клеймор, а выполнять инструкции, описанные в файле reboot.sh. Я решил создать этот файл и засунуть туда всего одну инструкцию “reboot”, после чего весь риг должен был перезагружаться. Но в процессе создания файла я увидел, что такой файл уже есть. И там довольно длинная инструкция. Я решил, что попробую сначала с ней, поэтому добавил в wallet дополнительный параметр “-r 1” в самый конец и перезапустил риг. И вот… прошли сутки и он больше не выдавал ни одной ошибки и стабильно майнит (хотя обычно его хватало максимум на час).
Но почему я начал с того, что я не понял как я починил и чем, если всё у меня заработало? Дело в том, что в стандартном дистрибутиве Клеймора файла reboot.sh нет. Он добавлен, очевидно, автором HiveOS. Зачем? Чтобы он просто так там лежал? Вряд ли. А если его предполагалось использовать, то в конфиге УЖЕ должен был быть параметр “-r 1” (потому что по дефолту значение “-r” установлено в “0” и файл reboot.sh не используется). И вот я смотрю файлы рига и в /hive/claymore/11.7/config.txt действительно уже выставлен параметр “-r 1” вверху, а в самом низу, куда добавляются пользовательские параметры - он записан еще раз из моего wallet-профиля. Т.е., по сути, я не добавил в конфиг ничего нового… я лишь продублировал параметр “-r 1” и у меня все заработало. По крайней мере сутки работает уже. Но я ещё понаблюдаю за ним.