のくす牧場
コンテンツ
牧場内検索
カウンタ
総計:127,641,637人
昨日:no data人
今日:
最近の注目
人気の最安値情報

私的良スレ書庫

不明な単語は2ch用語を / 要望・削除依頼は掲示板へ。不適切な画像報告もこちらへどうぞ。 / 管理情報はtwitter
ログインするとレス評価できます。 登録ユーザには一部の画像が表示されますので、問題のある画像や記述を含むレスに「禁」ボタンを押してください。

元スレIntel Larrabee 4コア

Intel スレッド一覧へ / Intel とは? / 携帯版 / dat(gz)で取得 / トップメニュー
スレッド評価: スレッド評価について
みんなの評価 :
タグ : 追加: タグについて ※前スレ・次スレは、スレ番号だけ登録。駄スレにはタグつけず、スレ評価を。荒らしタグにはタグで対抗せず、タグ減点を。
レスフィルター : (試験中)
←前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次へ→ / 要望・削除依頼は掲示板へ / 管理情報はtwitter
651 : Socket77 - 2009/10/28(水) 14:44:38 ID:YBOyxClR (-20,+29,-40)
A-bufferは、最後のブレンディング処理が来るまで、
吐き出した半透明ピクセルをキャッシュ外に逃がせるから良いね
キャッシュはZテストに集中できる
653 : Socket77 - 2009/10/28(水) 15:44:38 ID:lD/sRjv+ (+19,+29,-27)
現場の意見 vs 願望の意見
655 : Socket77 - 2009/10/28(水) 16:30:37 ID:dUyr2K4Y (-20,+29,-31)
同じことしか言ってないんだけどな
Larrabee関連のセッション真面目に聞いてたらわかる理屈なのに
656 : Socket77 - 2009/10/28(水) 16:49:47 ID:CJLCa4Z/ (-20,+29,-59)
リアルタイムレンダリングよりDirectX11のパフォーマンスがどうなるか気になる。
それ次第で、二社を一気に抜く可能性あるんじゃない。
659 : ,,・´∀`・, - 2009/10/29(木) 00:05:51 ID:uFX20jKt (-15,+29,-161)
グローバルメモリの長すぎるレイテンシを補うために
GPU屋は大量にスレッドを走らせることでサイクル数を埋め合わせ
CPU屋は低レイテンシのキャッシュでレジスタから溢れた作業変数を受け止めた。

>>648
アレはただのストアバッファだよ。データはメモリコントローラを通ってVRAMにストアされる
ステージ間で流れるのはコントロール用パケット。
「VRAMの○○番地にストアしたんでここから読んで処理しといてね」って情報かな。
663 : ,,・´∀`・, - 2009/10/30(金) 22:11:01 ID:Qwa7YnBV (+13,+30,+0)
 
664 : Socket77 - 2009/10/30(金) 22:13:47 ID:JyyqlR6E (+21,+29,+0)
>>663
おちゃめさん。
665 : Socket77 - 2009/10/30(金) 22:55:03 ID:uhFYpqdF (+10,+15,-54)
Larrabeeって iAPX432以来の失敗作だろ?
10年後くらいに研究成果が花開くかもしれないけど。
667 : ,,・´∀`・, - 2009/10/30(金) 23:41:02 ID:Qwa7YnBV (+24,+29,-94)
矛と盾といえば

Fermiのアーキテクチャは方向性のまったく違うものを追い求めて「矛盾」したアーキテクチャになってるがな。
断言するがあんなものの性能はLarrabeeの足元にも及ばない。
積和算に対してL1のロード/ストアの帯域が狭すぎてHPCには使い物にならん。
OpenCL(笑)みたいな新言語が必要な時点でPG単価的にも不利。
668 : Socket77 - 2009/10/30(金) 23:44:29 ID:E8Q+PwcP (+19,+29,-5)
断言したなw その言葉忘れんなよ
669 : ,,・´∀`・, - 2009/10/30(金) 23:59:28 ID:Qwa7YnBV (+24,+29,-286)
http://journal.mycom.co.jp/special/2008/cuda/007.html


とまあ、この辺見ればわかるようにNVIDIAのシェーダは根本的にHPCでやるような
行列演算には不向きなんだよね。
ローカルメモリに対するロード・ストアのスループットが低すぎるから当たり前だ。

マトリクス演算ってグローバルメモリの帯域は比較的食わないんだが
キャッシュあるいはローカルメモリのスループットとか、同一値のブロードキャストを
如何に効率的に処理できるかが重要になる。

んで、シミュレーションしてみるにLarrabeeの命令セットはその手の行列演算がやたら強い。
1命令にロードとブロードキャストと積和算を畳み込めるような命令セット拡張は
x86のフォーマットと見事にマッチする。
これは間違いなくLINPACKモンスター。
670 : ,,・´∀`・, - 2009/10/31(土) 19:17:20 ID:i+EhVJVU (+29,+29,-121)
半可通には何やっても理解出来ないだろうがちょっと16x16行列同士の乗算のコード書いてみた。
http://www.dotup.org/uploda/www.dotup.org320005.txt.html

理論FLOPS値の8割以上は簡単に弾き出せる
vstoreは他のベクトル演算命令とペアリングできるから、もっと大きな行列だと、旨く組めば9割はいくかもな。

Larrabeeの効率が良すぎるかっていうと否、これがストリームプロセッサとして当たり前なのであって
Tesla(笑)なんかが話にならなすぎるわけだけどね。
671 : ,,・´∀`・, - 2009/11/01(日) 01:56:41 ID:mtXW/RVq (+0,+4,-43)
こっちにも貼っておくか。

LarrabeeのGather機構の実装にかかわる特許文書
http://www.freepatentsonline.com/20090172364.pdf
673 : Socket77 - 2009/11/01(日) 17:20:04 ID:KodRhKF7 (+20,+25,-20)
で LarrabeeもGT300も一体いつになったら発表されるんだ
674 : Socket77 - 2009/11/01(日) 17:44:39 ID:BIZ2dPD5 (-6,+10,-1)
↑馬鹿乙
676 : Socket77 - 2009/11/03(火) 13:25:10 ID:Wk2xk4p+ (+24,+29,-28)
よそあおってる暇あったらさっさとLarrabeeだせや
677 : Socket77 - 2009/11/03(火) 15:44:12 ID:QpNIDtwi (+24,+29,-8)
無理言うなよwww
出来ないから煽って誤魔化してるんだから
679 : Socket77 - 2009/11/03(火) 15:55:31 ID:BiQQU6Fy (+60,+29,-2)
>>143
まだ今一歩か
680 : Socket77 - 2009/11/03(火) 16:08:18 ID:t7eduXVR (+7,+17,-24)
レイトレ先こされたか
681 : Socket77 - 2009/11/03(火) 16:25:09 ID:kXNPWsBX (+21,+28,-2)
油逆サバ読みすぎだろwwwwww
682 : Socket77 - 2009/11/03(火) 16:25:49 ID:kXNPWsBX (-11,+0,+0)
誤爆しますた
683 : ,,・´∀`・, - 2009/11/03(火) 16:58:47 ID:b3VqoWan (-11,+29,-52)
>>679
なんか激しい誤解をしてるようだがその程度の静止画をレイトレで作る程度ならPentium 90MHzでも出来るぞ
684 : Socket77 - 2009/11/03(火) 17:15:25 ID:wdfXfADw (+27,+29,-46)
レイトレをリアルタイムで実際にデモして一番進んでるのはラデなんだけどな
685 : Socket77 - 2009/11/03(火) 17:22:37 ID:3tpxO526 (+18,+28,-3)
あのデモ公開しないのかな?
686 : ,,・´∀`・, - 2009/11/03(火) 17:26:23 ID:b3VqoWan (-20,+29,-5)
http://www.golem.de/0808/61949.html

こんとき水面が動いてなかったこと考えればだいぶ進歩してるけどな
687 : ,,・´∀`・, - 2009/11/03(火) 22:01:46 ID:b3VqoWan (-20,+29,-39)
チャーリーデマ自演にこんな記事書かれれば絶望もするわな
遅れに遅れたLarrabeeですらB0までいってるのに

http://www.semiaccurate.com/2009/11/02/nvidia-finally-gets-fermi-a2-taped-out/
688 : Socket77 - 2009/11/03(火) 22:26:57 ID:Zx4GSbq9 (+29,+29,-57)
Intelの場合デバッグがかなり早く終わったMeromがB2だったからB0はまだ最終シリコンじゃねーと思うが
まあでもメニーコア化でコア自体はかなりシンプルだからデバッグは楽なのかも知れん
ああでも開発リソースをどの程度割り振るかにもよるし、、、
要するになんとも言えん
689 : Socket77 - 2009/11/03(火) 23:20:55 ID:J9uXblLK (+24,+29,-20)
団子ってi752が発表されたときもこういうふうに期待しまくってたんだろうな
692 : Socket77 - 2009/11/03(火) 23:32:46 ID:wdfXfADw (+26,+28,-5)
ピークが違うのに実行効率だけ比べても
696 : ,,・´∀`・, - 2009/11/04(水) 00:25:39 ID:4Ohrun5l (-15,+29,-245)
BLAS Performance見てみ
http://www.lunarc.lu.se/Documents/nvidia-workshop/files/presentation/50_Case_Studies.pdf

CPUに比べて圧倒的じゃないかって思っちゃうだろうけど
単精度ってピークの3割強程度しか出てないんですが。
まあ、SFUでの乗算が全く役に立たない上に、LSUがネックじゃこの程度だわな。

倍精度はほぼ額面通りの性能になってるが、これは倍精度ユニットが他のユニットに比べて
貧弱な分、相対的に他のオペレーションの供給が間に合ってるに過ぎない。


LarrabeeではSGEMM・DGEMMともに90%は弾き出せると見ている。
なぜなら乗算値のアドレス算出・ロード・ブロードキャスト・積和算を1命令で同時に行いながら、
スカラ側でキャッシュコントローラの操作やベクトルストアをいずれか1命令ペアにして
発行することができるからだ。

さて問題です。GEMMにおいて、32Wayの積和算ユニットに対し、同時に乗算値を供給するのに
ロードユニットは最低何Wayでなければいけないでしょうか?
これが解ればFermiのGPGPU性能に微塵も期待できなくなる
700 : Socket77 - 2009/11/04(水) 13:10:42 ID:Jw6aV1fj (+1,+13,-2)
糞ブログ貼るなや
←前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次へ→ / 要望・削除依頼は掲示板へ / 管理情報はtwitterで / Intel スレッド一覧へ
スレッド評価: スレッド評価について
みんなの評価 :
タグ : 追加: タグについて ※前スレ・次スレは、スレ番号だけ登録。駄スレにはタグつけず、スレ評価を。荒らしタグにはタグで対抗せず、タグ減点を。

類似してるかもしれないスレッド


トップメニューへ / →のくす牧場書庫について