元スレIntel Larrabee 4コア
Intel覧 / PC版 /みんなの評価 : ○
653 :
現場の意見 vs 願望の意見
663 :
664 :
>>663
おちゃめさん。
665 :
Larrabeeって iAPX432以来の失敗作だろ?
10年後くらいに研究成果が花開くかもしれないけど。
667 = 663 :
矛と盾といえば
Fermiのアーキテクチャは方向性のまったく違うものを追い求めて「矛盾」したアーキテクチャになってるがな。
断言するがあんなものの性能はLarrabeeの足元にも及ばない。
積和算に対してL1のロード/ストアの帯域が狭すぎてHPCには使い物にならん。
OpenCL(笑)みたいな新言語が必要な時点でPG単価的にも不利。
668 :
断言したなw その言葉忘れんなよ
669 = 663 :
http://journal.mycom.co.jp/special/2008/cuda/007.html
↑
とまあ、この辺見ればわかるようにNVIDIAのシェーダは根本的にHPCでやるような
行列演算には不向きなんだよね。
ローカルメモリに対するロード・ストアのスループットが低すぎるから当たり前だ。
マトリクス演算ってグローバルメモリの帯域は比較的食わないんだが
キャッシュあるいはローカルメモリのスループットとか、同一値のブロードキャストを
如何に効率的に処理できるかが重要になる。
んで、シミュレーションしてみるにLarrabeeの命令セットはその手の行列演算がやたら強い。
1命令にロードとブロードキャストと積和算を畳み込めるような命令セット拡張は
x86のフォーマットと見事にマッチする。
これは間違いなくLINPACKモンスター。
670 :
半可通には何やっても理解出来ないだろうがちょっと16x16行列同士の乗算のコード書いてみた。
http://www.dotup.org/uploda/www.dotup.org320005.txt.html
理論FLOPS値の8割以上は簡単に弾き出せる
vstoreは他のベクトル演算命令とペアリングできるから、もっと大きな行列だと、旨く組めば9割はいくかもな。
Larrabeeの効率が良すぎるかっていうと否、これがストリームプロセッサとして当たり前なのであって
Tesla(笑)なんかが話にならなすぎるわけだけどね。
671 :
こっちにも貼っておくか。
LarrabeeのGather機構の実装にかかわる特許文書
http://www.freepatentsonline.com/20090172364.pdf
673 :
で LarrabeeもGT300も一体いつになったら発表されるんだ
676 :
よそあおってる暇あったらさっさとLarrabeeだせや
677 :
無理言うなよwww
出来ないから煽って誤魔化してるんだから
679 :
>>143
まだ今一歩か
680 :
レイトレ先こされたか
681 :
油逆サバ読みすぎだろwwwwww
684 :
レイトレをリアルタイムで実際にデモして一番進んでるのはラデなんだけどな
685 :
あのデモ公開しないのかな?
688 :
Intelの場合デバッグがかなり早く終わったMeromがB2だったからB0はまだ最終シリコンじゃねーと思うが
まあでもメニーコア化でコア自体はかなりシンプルだからデバッグは楽なのかも知れん
ああでも開発リソースをどの程度割り振るかにもよるし、、、
要するになんとも言えん
689 :
団子ってi752が発表されたときもこういうふうに期待しまくってたんだろうな
692 = 684 :
ピークが違うのに実行効率だけ比べても
700 :
糞ブログ貼るなや
みんなの評価 : ○
類似してるかもしれないスレッド
- Intel Larrabee 5コア (985) - [95%] - 2009/12/19 17:16 ○
- Intel Larrabee 1コア (1001) - [95%] - 2009/3/27 22:32 ○
- Intel G4X(G45/G43/G41) (727) - [31%] - 2009/8/18 5:31 ☆
- Intel Core2 Duo/Quad/Xeon 合同 134コア (1001) - [21%] - 2009/1/13 20:01 ○
トップメニューへ / →のくす牧場書庫について