私的良スレ書庫
不明な単語は2ch用語を / 要望・削除依頼は掲示板へ。不適切な画像報告もこちらへどうぞ。 / 管理情報はtwitterでログインするとレス評価できます。 登録ユーザには一部の画像が表示されますので、問題のある画像や記述を含むレスに「禁」ボタンを押してください。
元スレcellプログラミングしちゃいなよ3
cell スレッド一覧へ / cell とは? / 携帯版 / dat(gz)で取得 / トップメニューみんなの評価 : ☆
レスフィルター : (試験中)
>>49
CUDAでいいんじゃね。
CUDAでいいんじゃね。
三角関数も全く使えなくても、最適化が馬鹿でも、メモリ転送命令が低レベルでしか実装されていなくても、
それでもCellの方がはるかに作りやすいんですね、判ります。
それでもCellの方がはるかに作りやすいんですね、判ります。
ハードウェアの超越関数ってスループットが5サイクルくらいなんでしょ?
4要素計算しても20サイクル、馬鹿っ速いじゃないか。
4要素計算しても20サイクル、馬鹿っ速いじゃないか。
>>52
LSの容量制限でC++はやりにくかろう。結果的にCellもCUDAもそんなに変わらんと思うが。
LSの容量制限でC++はやりにくかろう。結果的にCellもCUDAもそんなに変わらんと思うが。
>>59
そういうことはどっちもやってみてから言ってくれ。
そういうことはどっちもやってみてから言ってくれ。
どっちもCとちょっとの拡張で書ける程度だからねえ。書くだけならどっちもそこまで大差ないさ。
問題は最適化の段階だな。でも、これもコツを覚えて、そこそこの最適化でいいんならそんなには苦労しないと思う。
個人的な感想では、CUDAのメモリ周りの最適化がちょっと難ありか。Cellは最初からアラインメントとらないとそもそも
DMA転送できないようになっているから、あんまり考える必要ないが、CUDAの場合は、スレッドごとのDRAMへのアクセスパターンを
考えないと駄目というのが、う~ん。あとshared memoryのバンクコンフリクトを考えないと、とんでもないことに
なるときがある。ここらへんを、コンパイラかハードでなんとかしてくれるといんだけど。
問題は最適化の段階だな。でも、これもコツを覚えて、そこそこの最適化でいいんならそんなには苦労しないと思う。
個人的な感想では、CUDAのメモリ周りの最適化がちょっと難ありか。Cellは最初からアラインメントとらないとそもそも
DMA転送できないようになっているから、あんまり考える必要ないが、CUDAの場合は、スレッドごとのDRAMへのアクセスパターンを
考えないと駄目というのが、う~ん。あとshared memoryのバンクコンフリクトを考えないと、とんでもないことに
なるときがある。ここらへんを、コンパイラかハードでなんとかしてくれるといんだけど。
Qosmio G50新兵器、SpursEngineがスゴすぎる件【後編】
http://ascii.jp/elem/000/000/162/162488/index-3.html
円弧職人の夢がここに
http://ascii.jp/elem/000/000/162/162488/index-3.html
円弧職人の夢がここに
ググってたらこんなんめっけた
http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis/
第 1 回 asmVis を試してみよう
http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis2/
第 2 回 パイプラインを最適化する
http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis/
第 1 回 asmVis を試してみよう
http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis2/
第 2 回 パイプラインを最適化する
リードテック、東芝のメディアプロセッサ
「SpursEngine」搭載PCIe拡張カード
http://pc.watch.impress.co.jp/docs/2008/0910/leadtek.htm
「SpursEngine」搭載PCIe拡張カード
http://pc.watch.impress.co.jp/docs/2008/0910/leadtek.htm
次世代CELLは4PPE+32SPEか
368: 2008/09/22 22:10:38 RPIGcU63O [sage]
>>364
MACオタソースですけど、次世代CELLのクロックは3.8GHz止まりです。
> 6/10のセミナー資料、もう少し掘っていたら次世代CELLについて言及した別のがあったす。
>http://www-06.ibm.com/jp/solutions/deepcomputing/events/pdf/080610_Cell_Strat_JHC_Japan.pdf
> ・従来型Cell/B.E.わ2009年に45nmプロセス化
> ・以前のロードマップにあった2*PPE + 32*SPEの"PowerXCell 32ii"わキャンセル。代わりに
> 4*PPE + 32*SPEの"PowerXCell 32iv"へ。
> ・PowerXCell 32ivの世代でPPEに手を入れる -> PPE' へ
> ・同じくSPEわ"eSPE"に進化
> ・クロックも上げる、~3.8GHz
> ・その他PowerXCell 32iv世代の特徴わ、下記の通り
> - 100% backward compatible
> - PPE性能わ大幅向上
> - SPEわ新命令追加以外わ現状並 (新命令セットを使用するソフトわ大幅に性能向上)
> - SPE間の通信レイテンシ削減
> - More on-chip memory (LS増量か?)
> - メインメモリアクセスの大域幅増強とレイテンシ削減
368: 2008/09/22 22:10:38 RPIGcU63O [sage]
>>364
MACオタソースですけど、次世代CELLのクロックは3.8GHz止まりです。
> 6/10のセミナー資料、もう少し掘っていたら次世代CELLについて言及した別のがあったす。
>http://www-06.ibm.com/jp/solutions/deepcomputing/events/pdf/080610_Cell_Strat_JHC_Japan.pdf
> ・従来型Cell/B.E.わ2009年に45nmプロセス化
> ・以前のロードマップにあった2*PPE + 32*SPEの"PowerXCell 32ii"わキャンセル。代わりに
> 4*PPE + 32*SPEの"PowerXCell 32iv"へ。
> ・PowerXCell 32ivの世代でPPEに手を入れる -> PPE' へ
> ・同じくSPEわ"eSPE"に進化
> ・クロックも上げる、~3.8GHz
> ・その他PowerXCell 32iv世代の特徴わ、下記の通り
> - 100% backward compatible
> - PPE性能わ大幅向上
> - SPEわ新命令追加以外わ現状並 (新命令セットを使用するソフトわ大幅に性能向上)
> - SPE間の通信レイテンシ削減
> - More on-chip memory (LS増量か?)
> - メインメモリアクセスの大域幅増強とレイテンシ削減
>>68が出たらPS3みたいに不良コアをいくらか殺してくれて構わないから安く手に入らないかなあ。
ああ、初代 Cell.B.E は 90nm だったのか。
だったら、4倍増(+LS増量)+αならありえる話か。ごめん。
どちらにしろ、PS3 限定状態じゃ流行らんだろな。
Atom + GeForce の方がやりやすそう。
だったら、4倍増(+LS増量)+αならありえる話か。ごめん。
どちらにしろ、PS3 限定状態じゃ流行らんだろな。
Atom + GeForce の方がやりやすそう。
Cellの将来はSonyとIBMと東芝がそれぞれ違う分野での使い方を想定し
異なる開発計画を持ってるから、「どの会社の計画なのか?」を
指定しないと話がスレ違いしまくりなんだよな。
Sony:ゲーム機(PS3及びその後継)
東芝:家電(画像処理)&ノートPC用コプロセッサ(SpursEngine)
IBM:ブレードサーバー&HPC用CPU
異なる開発計画を持ってるから、「どの会社の計画なのか?」を
指定しないと話がスレ違いしまくりなんだよな。
Sony:ゲーム機(PS3及びその後継)
東芝:家電(画像処理)&ノートPC用コプロセッサ(SpursEngine)
IBM:ブレードサーバー&HPC用CPU
>>78
仕事でSuperEngine触るかもしれん
仕事でSuperEngine触るかもしれん
>>81
fixstarsのチュートリアルの3.2章にあるソース(PPE/SPE用)をコンパイルしたということですよね。
私の環境では、Fedora7 + SDK3(厳密には3.0.0.3ですが関係ないでしょう)、で問題なく実行できます。
PS3 linux上でmountを実行した際に、spufsはマウントされていますか?
Linux環境周りの問題のような気がします。
fixstarsのチュートリアルの3.2章にあるソース(PPE/SPE用)をコンパイルしたということですよね。
私の環境では、Fedora7 + SDK3(厳密には3.0.0.3ですが関係ないでしょう)、で問題なく実行できます。
PS3 linux上でmountを実行した際に、spufsはマウントされていますか?
Linux環境周りの問題のような気がします。
GT200とかLarrabeeとかのニュースもひと段落して、最近、新しい話がなくて退屈だ。
そろそろ、つぎのCellの話がでてきていいはずだよな。
そろそろ、つぎのCellの話がでてきていいはずだよな。
初代Cellは出たころは、9コアをいきなり実現して、業界にそれなりのインパクト、影響を与えたと思う。
次のCellは2010年後半で36コアだけど、どうなるだろうか。
さすがに32個もSPEがあると、本質的に今までと変わってくることが出てくる。
まず、一番問題なのはメモリの帯域だろう。現状でも帯域は演算に追いついていないが、
そこまで厳しい要求があるアプリケーションばかりでないので、実用には問題ない。
しかし、次のCellではコア数増で、帯域不足がより問題になるんじゃないだろうか。
IBMはもちろんそこら辺は考えた上で設計してるから、解決してるのだろう。その解決の
仕方がどうやっているのかが聞いてみたい。
次に、性能のスケーラビリティは32SPEでも問題なく保てるのかどうかだ。
これはメモリの話とも関係してくることではあるけど。初代Cellでは8コアで
ほぼリニアにスケールするという話がよく聞かれ、Cellの一つの売りになっていた。
2Cellで16SPEでもスケールするなんて話もあったような気がするが、次のCellでは
どうだろうか。
これが、32SPEくらいまでだったらスケールしたから、32SPEに設計しました
とかっていうのか、もっと100くらいまでいけることを確認しているのか、20個くらいが
限界で、あとは別用途で同時実行してくださいっていうのか、非常に重要だ。
Cellのスケーラビリティがよいというのは、他の半導体メーカーも注目しているはずで、
30個ぐらいでも性能でるめどがあるとなったら、他も真似して追従したくてしょうがないだろう。
8コアくらいまでが実用の上限なんて話もあるから、ここら辺の見極めをしたいはずだ。
まあ、アプリケーションによるけど。でもMARSが32SPEで効果的に働くってなったら、ちょっと
いいんじゃないだろうか?
次のCellは2010年後半で36コアだけど、どうなるだろうか。
さすがに32個もSPEがあると、本質的に今までと変わってくることが出てくる。
まず、一番問題なのはメモリの帯域だろう。現状でも帯域は演算に追いついていないが、
そこまで厳しい要求があるアプリケーションばかりでないので、実用には問題ない。
しかし、次のCellではコア数増で、帯域不足がより問題になるんじゃないだろうか。
IBMはもちろんそこら辺は考えた上で設計してるから、解決してるのだろう。その解決の
仕方がどうやっているのかが聞いてみたい。
次に、性能のスケーラビリティは32SPEでも問題なく保てるのかどうかだ。
これはメモリの話とも関係してくることではあるけど。初代Cellでは8コアで
ほぼリニアにスケールするという話がよく聞かれ、Cellの一つの売りになっていた。
2Cellで16SPEでもスケールするなんて話もあったような気がするが、次のCellでは
どうだろうか。
これが、32SPEくらいまでだったらスケールしたから、32SPEに設計しました
とかっていうのか、もっと100くらいまでいけることを確認しているのか、20個くらいが
限界で、あとは別用途で同時実行してくださいっていうのか、非常に重要だ。
Cellのスケーラビリティがよいというのは、他の半導体メーカーも注目しているはずで、
30個ぐらいでも性能でるめどがあるとなったら、他も真似して追従したくてしょうがないだろう。
8コアくらいまでが実用の上限なんて話もあるから、ここら辺の見極めをしたいはずだ。
まあ、アプリケーションによるけど。でもMARSが32SPEで効果的に働くってなったら、ちょっと
いいんじゃないだろうか?
このCellのスケール性がLSのコヒーレンシを考える必要がないことが本質だったら、
次のCell、その次のCell(120コアくらい?)で、その効果が指数関数的に出てくるはず。
そうすると、LSの再評価みたいなのが起きてくるんじゃないだろうか。
このLSに相当するGPUのshared memoryはその先取りかもしれないし、もしくは
メニーコアの必然として同じアーキテクチャにたどりついたといえるのかもしれない?
まあ、スクラッチパッドなんて昔からあったから、そんなに偉いもんかわからないけど。
LSといえば、プログラマはみんな容量を増えることを、次のCellでは期待しているだろう。
Cellのスピードチャレンジで今年優勝した人は、LSの容量が本質的に計算の高速化
と関係するようなことをいってた。プログラムが楽とかいうことではなく。
LSの容量が許せば、SPEごとのローカリティの高いアルゴリズムに変更できることがある
というようなことらしい。
Cellがでてだいぶみなが人柱になることで、LSの容量はこれくらいあるべきというのが、
ユーザーからあがりつつある。LSの増加は当然トランジスタ予算を食うわけで、SPE数を増やす
ほうがいいのか、LSを増やすほうがいいのかの天秤につるして、次のLSの容量もきまるんだろう。
次世代のCellで面白いのは、競合するGPUが存在するなかでのデビューになり、Larrabeeとの競争は
激しいものになるだろうことだ。
次のCell、その次のCell(120コアくらい?)で、その効果が指数関数的に出てくるはず。
そうすると、LSの再評価みたいなのが起きてくるんじゃないだろうか。
このLSに相当するGPUのshared memoryはその先取りかもしれないし、もしくは
メニーコアの必然として同じアーキテクチャにたどりついたといえるのかもしれない?
まあ、スクラッチパッドなんて昔からあったから、そんなに偉いもんかわからないけど。
LSといえば、プログラマはみんな容量を増えることを、次のCellでは期待しているだろう。
Cellのスピードチャレンジで今年優勝した人は、LSの容量が本質的に計算の高速化
と関係するようなことをいってた。プログラムが楽とかいうことではなく。
LSの容量が許せば、SPEごとのローカリティの高いアルゴリズムに変更できることがある
というようなことらしい。
Cellがでてだいぶみなが人柱になることで、LSの容量はこれくらいあるべきというのが、
ユーザーからあがりつつある。LSの増加は当然トランジスタ予算を食うわけで、SPE数を増やす
ほうがいいのか、LSを増やすほうがいいのかの天秤につるして、次のLSの容量もきまるんだろう。
次世代のCellで面白いのは、競合するGPUが存在するなかでのデビューになり、Larrabeeとの競争は
激しいものになるだろうことだ。
質問なんですが、SDK3.0を入れても、コンパイルエラーが出て、
gccはインストールされていませんとでたのですが、
どこで入手したらよいのでしょうか?
gccはインストールされていませんとでたのですが、
どこで入手したらよいのでしょうか?
Fedora9にSDK3.1とシミュレータをインストールしました。
SDK付属のeclipse上から、シミュレータを実行すると、カーネルを読み込んで
立ち上がったところで、コマンド入力待ちになり、先に進まなくなってしまいます。
何か設定しなければならない項目等があるのでしょうか?
SDK付属のeclipse上から、シミュレータを実行すると、カーネルを読み込んで
立ち上がったところで、コマンド入力待ちになり、先に進まなくなってしまいます。
何か設定しなければならない項目等があるのでしょうか?
Run→Open Run Dialog...ウインドウのTargetタブで、起動したシミュレータを指定すればいいですよ
前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次へ / 要望・削除依頼は掲示板へ / 管理情報はtwitterで / cell スレッド一覧へ
みんなの評価 : ☆類似してるかもしれないスレッド
- cellプログラミングしちゃいなよ4 (607) - [97%] - 2009/3/24 11:04 ○
- CELL鬯ッ?ゥ隰ウ?セ??ス??オ????コ?????ッCore2 QX6700鬯ッ?ゥ隰ウ?セ??ス??オ????コ???? (92) - [18446744073709551581%] - 2012/1/21 0:39
トップメニューへ / →のくす牧場書庫について