ここんところ、あまりにサーバが落ちまくっているので、メモリを交換してみた。酷い時には日に3回も落ちるもんだから、さすがにどこかおかしいだろうと。
そしたら、時々出ていたカーネルのpanic直前っぽいメッセージが全く出なくなった。結局のところ、どうやらメモリがおかしかったようだ。前にXenがダメ的なことを書いていたのだけど、Xenもカーネルも新しくしているので、今になってはXenがダメなのか、その頃からメモリがおかしかったのかよくわからん。真相は闇の中へ。ここしばらくで急激に落ちる頻度が上がってるので、ここしばらくのはハード原因だと言えるのだけど、それ以上はよくわからない。
で、その後に発見したこと。
新しいメモリ(Trancend)に交換して、古いメモリ(UMAX)のメモリチェックを行う。情報スジによれば、Trancendのメモリは、某マザーボード屋が相性チェックを必ずすると言うくらい、鉄板らしい。まぁこれは相性のことであって、品質とか信頼性のものではないんだけど。
で、4枚(8GB)のうち1枚がエラーの山。見事に死んでる。この「エラーの山」状態でも起動時のメモリチェックにひっかからないのは、「起動時のメモリチェック」は実際にメモリをチェックしているわけではないからだそうな。
メモリに異常があるのは、品質管理やら確率(運)やら使用環境のことであるので、これを以って「UMAXのメモリはクソ」というつもりは全くない。うちのサーバはかなり過酷な環境で使っているので、故障もしやすいだろうし、ある程度それを見越している。今時メモリなんて安いものなんだから、壊れたら交換する「消耗品」で良いのだ。
ということで、品質管理みたいなことに文句を言うつもりは、
全くない
のだ。
とは言え、この壊れたUMAXをバラしてみて気がついたことがある。そう、故障したパーツは必ずバラす。これがいろいろためになる。
バラしたところこんな感じ。下の銀色の板の上に並ぶ黒いものは、メモリチップ(をモールドしたもの)。強引に外そうとしたら、貼りついたまま取れてしまった。
と、ここで「??」となる人は鋭い人。そう、このUMAXの銀色のものは、
両面テープ
で、メモリチップに貼りつけられているのだ(銀色の板の黄色な部分)。このテープを無理やり引きはがすと、こんなふうになる。「両面テープ」はごく普通のその辺で売ってそうなもの。放熱器をつける時に使うシリコンっぽい素材ではない。つまり、熱抵抗はそれなりに高いものだ。高いとは言え、外側のケースに全く熱が伝わらないというわけでもなく、触れば「アチチ」なくらいになるのだけど、多分チップはとんでもなく熱い気がする。
つまりこれはどういうことかと言えば、UMAXのメモリの外側の金属部分は、いわゆるヒートスプレッダではなくて、
単なるケース
なのである。それも、両面テープで貼りつけてあるだけ。結構安い工作だ。
私はこの金属部分はヒートスプレッダだと思い込んでいたので(他社のはそうだったりする)、少なからずショックを受けた。まぁ思い込んでいた私が悪いんだが。
まぁそんなわけで、壊れたパーツがあったらバラしてみるといい。その結果、うちではQuantamのHDDは使わなくなったという話があったりもする。UMAXも今後は使わないだろうな。
PS.
剥がれた基板はこんな感じ。
効いてない風のバンプは、チップのサイズから考えると、最初から使われていない。
QuantamもUMAXも「ダメなメーカ」ではないので、不安を感じる設計でも、問題はないという計算の上なんだろうと思う。でも、うちで製品寿命より前に壊れた製品って、たいていこの手の不安を抱えてるんだよね。
( ・∀・)つ〃∩ ヘェーヘェーヘェーヘェーヘェー
放熱もさることながら、将来両面テープがダメになった時、はがれた金属板がマザーの上を暴れるのも怖いなー。
複数のBGAを跨いで放熱板を接着すること自体がダウトです。
膨張率の違いでストレスが掛かり半田ボールにクラックが入って基板から剥がれちゃいます。
>強引に外そうとしたら
既にクラック入ってて接触で導通してただけでは?
基板の外側から順にはがれてません?
金属板剥がれるのは考えてなかった… 確かにそれは危険。まぁまだしっかりくっついてましたが、この手の素材はその辺注意する必要はありますね。
熱膨張でストレスってほどは、しっかりくっついてないです。本当に「ちょっと強めの普通の両面テープ」みたいなのでくっついてるだけなんで、テープのふわふわした部分で吸収出来そうです。基本的に動かしっぱなしの機械なんで、サイクル的なストレスはかかっていません。
剥がれたところの画像もうpしときますが、特に外って感じではないです。