私的良スレ書庫
不明な単語は2ch用語を / 要望・削除依頼は掲示板へ。不適切な画像報告もこちらへどうぞ。 / 管理情報はtwitterでログインするとレス評価できます。 登録ユーザには一部の画像が表示されますので、問題のある画像や記述を含むレスに「禁」ボタンを押してください。
元スレIntel Larrabee 4コア
Intel スレッド一覧へ / Intel とは? / 携帯版 / dat(gz)で取得 / トップメニューみんなの評価 : ○
レスフィルター : (試験中)
A-bufferは、最後のブレンディング処理が来るまで、
吐き出した半透明ピクセルをキャッシュ外に逃がせるから良いね
キャッシュはZテストに集中できる
吐き出した半透明ピクセルをキャッシュ外に逃がせるから良いね
キャッシュはZテストに集中できる
同じことしか言ってないんだけどな
Larrabee関連のセッション真面目に聞いてたらわかる理屈なのに
Larrabee関連のセッション真面目に聞いてたらわかる理屈なのに
リアルタイムレンダリングよりDirectX11のパフォーマンスがどうなるか気になる。
それ次第で、二社を一気に抜く可能性あるんじゃない。
それ次第で、二社を一気に抜く可能性あるんじゃない。
グローバルメモリの長すぎるレイテンシを補うために
GPU屋は大量にスレッドを走らせることでサイクル数を埋め合わせ
CPU屋は低レイテンシのキャッシュでレジスタから溢れた作業変数を受け止めた。
>>648
アレはただのストアバッファだよ。データはメモリコントローラを通ってVRAMにストアされる
ステージ間で流れるのはコントロール用パケット。
「VRAMの○○番地にストアしたんでここから読んで処理しといてね」って情報かな。
GPU屋は大量にスレッドを走らせることでサイクル数を埋め合わせ
CPU屋は低レイテンシのキャッシュでレジスタから溢れた作業変数を受け止めた。
>>648
アレはただのストアバッファだよ。データはメモリコントローラを通ってVRAMにストアされる
ステージ間で流れるのはコントロール用パケット。
「VRAMの○○番地にストアしたんでここから読んで処理しといてね」って情報かな。
>>663
おちゃめさん。
おちゃめさん。
Larrabeeって iAPX432以来の失敗作だろ?
10年後くらいに研究成果が花開くかもしれないけど。
10年後くらいに研究成果が花開くかもしれないけど。
矛と盾といえば
Fermiのアーキテクチャは方向性のまったく違うものを追い求めて「矛盾」したアーキテクチャになってるがな。
断言するがあんなものの性能はLarrabeeの足元にも及ばない。
積和算に対してL1のロード/ストアの帯域が狭すぎてHPCには使い物にならん。
OpenCL(笑)みたいな新言語が必要な時点でPG単価的にも不利。
Fermiのアーキテクチャは方向性のまったく違うものを追い求めて「矛盾」したアーキテクチャになってるがな。
断言するがあんなものの性能はLarrabeeの足元にも及ばない。
積和算に対してL1のロード/ストアの帯域が狭すぎてHPCには使い物にならん。
OpenCL(笑)みたいな新言語が必要な時点でPG単価的にも不利。
http://journal.mycom.co.jp/special/2008/cuda/007.html
↑
とまあ、この辺見ればわかるようにNVIDIAのシェーダは根本的にHPCでやるような
行列演算には不向きなんだよね。
ローカルメモリに対するロード・ストアのスループットが低すぎるから当たり前だ。
マトリクス演算ってグローバルメモリの帯域は比較的食わないんだが
キャッシュあるいはローカルメモリのスループットとか、同一値のブロードキャストを
如何に効率的に処理できるかが重要になる。
んで、シミュレーションしてみるにLarrabeeの命令セットはその手の行列演算がやたら強い。
1命令にロードとブロードキャストと積和算を畳み込めるような命令セット拡張は
x86のフォーマットと見事にマッチする。
これは間違いなくLINPACKモンスター。
↑
とまあ、この辺見ればわかるようにNVIDIAのシェーダは根本的にHPCでやるような
行列演算には不向きなんだよね。
ローカルメモリに対するロード・ストアのスループットが低すぎるから当たり前だ。
マトリクス演算ってグローバルメモリの帯域は比較的食わないんだが
キャッシュあるいはローカルメモリのスループットとか、同一値のブロードキャストを
如何に効率的に処理できるかが重要になる。
んで、シミュレーションしてみるにLarrabeeの命令セットはその手の行列演算がやたら強い。
1命令にロードとブロードキャストと積和算を畳み込めるような命令セット拡張は
x86のフォーマットと見事にマッチする。
これは間違いなくLINPACKモンスター。
半可通には何やっても理解出来ないだろうがちょっと16x16行列同士の乗算のコード書いてみた。
http://www.dotup.org/uploda/www.dotup.org320005.txt.html
理論FLOPS値の8割以上は簡単に弾き出せる
vstoreは他のベクトル演算命令とペアリングできるから、もっと大きな行列だと、旨く組めば9割はいくかもな。
Larrabeeの効率が良すぎるかっていうと否、これがストリームプロセッサとして当たり前なのであって
Tesla(笑)なんかが話にならなすぎるわけだけどね。
http://www.dotup.org/uploda/www.dotup.org320005.txt.html
理論FLOPS値の8割以上は簡単に弾き出せる
vstoreは他のベクトル演算命令とペアリングできるから、もっと大きな行列だと、旨く組めば9割はいくかもな。
Larrabeeの効率が良すぎるかっていうと否、これがストリームプロセッサとして当たり前なのであって
Tesla(笑)なんかが話にならなすぎるわけだけどね。
>>679
なんか激しい誤解をしてるようだがその程度の静止画をレイトレで作る程度ならPentium 90MHzでも出来るぞ
なんか激しい誤解をしてるようだがその程度の静止画をレイトレで作る程度ならPentium 90MHzでも出来るぞ
レイトレをリアルタイムで実際にデモして一番進んでるのはラデなんだけどな
チャーリーデマ自演にこんな記事書かれれば絶望もするわな
遅れに遅れたLarrabeeですらB0までいってるのに
http://www.semiaccurate.com/2009/11/02/nvidia-finally-gets-fermi-a2-taped-out/
遅れに遅れたLarrabeeですらB0までいってるのに
http://www.semiaccurate.com/2009/11/02/nvidia-finally-gets-fermi-a2-taped-out/
Intelの場合デバッグがかなり早く終わったMeromがB2だったからB0はまだ最終シリコンじゃねーと思うが
まあでもメニーコア化でコア自体はかなりシンプルだからデバッグは楽なのかも知れん
ああでも開発リソースをどの程度割り振るかにもよるし、、、
要するになんとも言えん
まあでもメニーコア化でコア自体はかなりシンプルだからデバッグは楽なのかも知れん
ああでも開発リソースをどの程度割り振るかにもよるし、、、
要するになんとも言えん
団子ってi752が発表されたときもこういうふうに期待しまくってたんだろうな
BLAS Performance見てみ
http://www.lunarc.lu.se/Documents/nvidia-workshop/files/presentation/50_Case_Studies.pdf
CPUに比べて圧倒的じゃないかって思っちゃうだろうけど
単精度ってピークの3割強程度しか出てないんですが。
まあ、SFUでの乗算が全く役に立たない上に、LSUがネックじゃこの程度だわな。
倍精度はほぼ額面通りの性能になってるが、これは倍精度ユニットが他のユニットに比べて
貧弱な分、相対的に他のオペレーションの供給が間に合ってるに過ぎない。
LarrabeeではSGEMM・DGEMMともに90%は弾き出せると見ている。
なぜなら乗算値のアドレス算出・ロード・ブロードキャスト・積和算を1命令で同時に行いながら、
スカラ側でキャッシュコントローラの操作やベクトルストアをいずれか1命令ペアにして
発行することができるからだ。
さて問題です。GEMMにおいて、32Wayの積和算ユニットに対し、同時に乗算値を供給するのに
ロードユニットは最低何Wayでなければいけないでしょうか?
これが解ればFermiのGPGPU性能に微塵も期待できなくなる
http://www.lunarc.lu.se/Documents/nvidia-workshop/files/presentation/50_Case_Studies.pdf
CPUに比べて圧倒的じゃないかって思っちゃうだろうけど
単精度ってピークの3割強程度しか出てないんですが。
まあ、SFUでの乗算が全く役に立たない上に、LSUがネックじゃこの程度だわな。
倍精度はほぼ額面通りの性能になってるが、これは倍精度ユニットが他のユニットに比べて
貧弱な分、相対的に他のオペレーションの供給が間に合ってるに過ぎない。
LarrabeeではSGEMM・DGEMMともに90%は弾き出せると見ている。
なぜなら乗算値のアドレス算出・ロード・ブロードキャスト・積和算を1命令で同時に行いながら、
スカラ側でキャッシュコントローラの操作やベクトルストアをいずれか1命令ペアにして
発行することができるからだ。
さて問題です。GEMMにおいて、32Wayの積和算ユニットに対し、同時に乗算値を供給するのに
ロードユニットは最低何Wayでなければいけないでしょうか?
これが解ればFermiのGPGPU性能に微塵も期待できなくなる
前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次へ / 要望・削除依頼は掲示板へ / 管理情報はtwitterで / Intel スレッド一覧へ
みんなの評価 : ○類似してるかもしれないスレッド
- Intel Larrabee 5コア (985) - [95%] - 2009/12/19 17:16 ○
- Intel Larrabee 1コア (1001) - [95%] - 2009/3/27 22:32 ○
- Intel G4X(G45/G43/G41) (727) - [31%] - 2009/8/18 5:31 ☆
- Intel Core2 Duo/Quad/Xeon 合同 134コア (1001) - [21%] - 2009/1/13 20:01 ○
トップメニューへ / →のくす牧場書庫について