Когда умирает память
Имею домашний сервер на стареньком атлоне 2 (файлопомойка, почта, роутер). В последнее время начал иногда подвисать, перезагружаться, думал все - умирает старичок, готовь, говорит, денежку на новое железо. Вчера завис окончательно, перезагрузил, полез разбираться. В логах ругался на mlocat, полез гуглить, что это такое, но везде упоминался лишь mlocate (сервер потерял последнюю букву)
Ладно думаю, это убунта, мало ли, может они переименовали эту утилиту. Убил задачу в cron'e и оставил работать дальше. Сегодня вечером не смог зайти в почту. Перезапустил dovecot, зашел, полез опять смотреть логи. Хм, dovecot стал doveco4'ом. Тут уже оправданий я найти не смог, т.к. устанавливал его сам и точно знаю, как его зовут.
Заглянул в таблицу ASCII - код символа '4' - 0x34, код символа 't' - 0x74 - картина маслом, мы потеряли седьмой бит.
0011 - число 3 в двоичной системе
0111 - число 7 в двоичной системе
Запускаю memtester и все становится на свои места:
Memtest86 лишь подтверждает вышеописанное.
А вот и сам виновник, отпахал 3 года 24/7, гарантийный срок работы 5 лет, если верить интернет магазинам. Документы давно потеряны - прощай гарантия.
Воткнул двухгиговую плашку из хлама, сервак шуршит дальше :)
Вот так, из-за одного бита из 32 миллиардов, приходится выкидывать плашку.
ЗЫ. Подписчикам привет) Многие спрашивают, когда будут посты по видюхам. Отвечаю: годного контента пока нет, в основном рутина из замены чипов и сгоревших предохранителей. Возможно скоро будет оживление GTX260 (да да, тесла из конца 2000-х, но такого я еще не делал).
Имел схожую проблему с точно такой же планкой. Только вот все работало нормально, но именно определенные программы постоянно зависали. Мемтест показал приблизительно такую же картинку, позвонил в кингстон. Сказали типа гарантия у нас пожизненная, но в РФ не более 10 лет с даты выпуска. В общем сказали нести в магаз там поменяют без проблем.
В магазине им долго объяснял, что в ней косяк, а они втыкают в комп, он пашет и говорят все ок рабочая, я говорю что нет, объяснял что кингстон сказали менять, а они типа ни в какую рабочая и все, я такой: раз она рабочая то оставьте себе, а мне дайте другую такую же, они типа нет не положено. Пока не нашли какого то чувак, который хоть более или менее шарит, не хотели менять. Чувак мемтестом прогнал, убедился и тогда только дали добро на замену.
да как-то тут нифига не 1 бит. как оно вообще работало?
Память РЕДКО такое показывает в процессе эксплуатации. Если такие сбои идут, то уже с производства. Причина - взаимная наводка дорожек.
Попробуй поднять напругу памяти, есть вероятность что баг останется ниже зоны чувствительности.
Прогрев помогает редко, это только в случае плохого пропая. Проверяется бельевыми прищепками на микрухи памяти, если баг ушёл - это оно.
То же самое может быть при отвале SMD-конденсаторов. Особенно на GoodRAM такое случается, припой дерьмо. Под лупой можно найти место посадки виновника.
ЧАЩЕ ВСЕГО такой баг даёт процессор - особенно если это AMD. Банально не тянет по частоте. Снижаешь на 100-200Мгц, и он снова пашет. Проблема в кеше.
То же самое при отвале SMD-кондёров на самом проце. Бывает. Часто незаметно без лупы, когда он просто треснул по припою.
Баг мог уйти поскольку память не пошла в двухканальный режим. Проверить что это именно память просто: поменяй слот. Если бага осталась, пусть и с другим адресом - это память.
На DDR3 система далеко не помойка. Можно поставить проц с хорошим кешем, и она снова будет летать. Твой проц имеет настолько мизерный кеш, что ОТДАЙ ВРАГУ. Посмотри сколько стоит замена, и пожалей что не сделал этого раньше. За частотой не гонись, главное размер кеша м количество ядер.
Учитывая что это AMD - можешь брать память "только для AMD". Если кратко, это оператива, в которой есть битые участки, но они вырезаны из определяемого диапазона. Например, микросхема на 64Мбит инициализирована как 32Мбит, из-за чего к битым участкам нет обращения. Такая память зачастую спаяна из битых микрух снятых с других модулей. Нареканий нет, пашет нормально. Цена ниже процентов на 50. Почему "только для AMD": в чипсетах AMD есть дополнительный бит адресации, предназначенный изначально для более быстрой передачи кадров на PCI-E, а нашёл вот такое нестандартное применение.
Нихуя не ясно, но как я понял ты неипаццо как умно выявил проблему. CLAP CLAP
У Кингстона разве не пожизненная гарантия?