私的良スレ書庫

不明な単語は2ch用語を / 要望・削除依頼は掲示板へ。不適切な画像報告もこちらへどうぞ。 / 管理情報はtwitterで
ログインするとレス評価できます。登録ユーザには一部の画像が表示されますので、問題のある画像や記述を含むレスに「禁」ボタンを押してください。

元スレcellプログラミングしちゃいなよ3

cell スレッド一覧へ / cell とは? / 携帯版 / dat(gz)で取得 / トップメニュー

みんなの評価 : ☆
レスフィルター : (試験中)

前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次へ

/ 要望・削除依頼は掲示板へ / 管理情報はtwitterで

51 : デフォルトの名無 - 2008/08/10(日) 09:51:21 (+1,-28,+0)

>>49
CUDAでいいんじゃね。

52 : デフォルトの名無 - 2008/08/10(日) 10:02:33 (+8,-29,-41)

>>51
> >>49
> CUDAでいいんじゃね。

「まっとうなC/C++」というのはCUDAへの皮肉だよw
Cellの方がはるかに作りやすい。
まぁ作りやすい以上の動機があるからCUDAが使われているわけだけど。

53 : デフォルトの名無 - 2008/08/10(日) 10:05:28 (+55,+29,-88)

三角関数も全く使えなくても、最適化が馬鹿でも、メモリ転送命令が低レベルでしか実装されていなくても、
それでもCellの方がはるかに作りやすいんですね、判ります。

54 : デフォルトの名無 - 2008/08/10(日) 10:15:24 (+57,+29,-8)

超越関数使えるのは便利だわな。
それ以外のツッコミは的外れ。

55 : デフォルトの名無 - 2008/08/10(日) 10:41:47 (+57,+29,-30)

超越関数なんて（細かい注文付けなきゃ）簡単に実装できるだろ？
何が問題なんだ？

56 : デフォルトの名無 - 2008/08/10(日) 11:31:49 (+57,+29,-25)

そりゃハードで超越関数の演算器持ってくれてた方がうれしいだろ。

57 : デフォルトの名無 - 2008/08/10(日) 14:27:13 (-2,-28,-40)

ハードウェアの超越関数ってスループットが5サイクルくらいなんでしょ？
4要素計算しても20サイクル、馬鹿っ速いじゃないか。

58 : デフォルトの名無 - 2008/08/10(日) 15:16:58 (-1,-29,-7)

超越関数つーかsqrtがあれば十分だな。1/sqrtでも良いけど。

59 : デフォルトの名無 - 2008/08/10(日) 16:28:14 (+33,-29,-52)

>>52
LSの容量制限でC++はやりにくかろう。結果的にCellもCUDAもそんなに変わらんと思うが。

60 : デフォルトの名無 - 2008/08/11(月) 01:27:06 (+62,+29,-1)

>>59
そういうことはどっちもやってみてから言ってくれ。

61 : デフォルトの名無 - 2008/08/11(月) 11:15:00 (+63,+30,-179)

どっちもCとちょっとの拡張で書ける程度だからねえ。書くだけならどっちもそこまで大差ないさ。
問題は最適化の段階だな。でも、これもコツを覚えて、そこそこの最適化でいいんならそんなには苦労しないと思う。
個人的な感想では、CUDAのメモリ周りの最適化がちょっと難ありか。Cellは最初からアラインメントとらないとそもそも
DMA転送できないようになっているから、あんまり考える必要ないが、CUDAの場合は、スレッドごとのDRAMへのアクセスパターンを
考えないと駄目というのが、う～ん。あとshared memoryのバンクコンフリクトを考えないと、とんでもないことに
なるときがある。ここらへんを、コンパイラかハードでなんとかしてくれるといんだけど。

62 : デフォルトの名無 - 2008/08/22(金) 21:02:45 (-1,-29,-6)

Qosmio G50新兵器、SpursEngineがスゴすぎる件【後編】
http://ascii.jp/elem/000/000/162/162488/index-3.html
円弧職人の夢がここに

63 : デフォルトの名無 - 2008/08/25(月) 12:11:23 (+5,-22,-33)

ググってたらこんなんめっけた

http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis/
第 1 回 asmVis を試してみよう
http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis2/
第 2 回パイプラインを最適化する

64 : デフォルトの名無 - 2008/09/10(水) 10:54:28 (-1,-29,-46)

リードテック、東芝のメディアプロセッサ
「SpursEngine」搭載PCIe拡張カード
http://pc.watch.impress.co.jp/docs/2008/0910/leadtek.htm

65 : デフォルトの名無 - 2008/09/10(水) 23:28:57 (-6,-29,-2)

（ﾟ⊿ﾟ）ｲﾗﾈ

66 : デフォルトの名無 - 2008/09/19(金) 18:29:04 (+52,+29,-3)

いくらくらいになるんだ？

67 : デフォルトの名無 - 2008/09/19(金) 19:06:43 (-1,-29,-28)

東芝、'09秋に発売のCell TVの高速映像処理をデモ
http://av.watch.impress.co.jp/docs/20080918/toshiba7.htm
45nmを積むんだろな。

68 : デフォルトの名無 - 2008/09/24(水) 00:02:00 (+79,-30,+0)

次世代CELLは4PPE+32SPEか

368: 2008/09/22 22:10:38 RPIGcU63O [sage]
>>364
MACｵﾀｿｰｽですけど､次世代CELLのｸﾛｯｸは3.8GHz止まりです｡

> 6/10のｾﾐﾅｰ資料､もう少し掘っていたら次世代CELLについて言及した別のがあったす｡
>http://www-06.ibm.com/jp/solutions/deepcomputing/events/pdf/080610_Cell_Strat_JHC_Japan.pdf
> 　･従来型Cell/B.E.わ2009年に45nmﾌﾟﾛｾｽ化
> 　･以前のﾛｰﾄﾞﾏｯﾌﾟにあった2*PPE + 32*SPEの"PowerXCell 32ii"わｷｬﾝｾﾙ｡代わりに
> 　　4*PPE + 32*SPEの"PowerXCell 32iv"へ｡
> 　･PowerXCell 32ivの世代でPPEに手を入れる -> PPE' へ
> 　･同じくSPEわ"eSPE"に進化
> 　･ｸﾛｯｸも上げる､～3.8GHz
> 　･その他PowerXCell 32iv世代の特徴わ､下記の通り
> 　　- 100% backward compatible
> 　　- PPE性能わ大幅向上
> 　　- SPEわ新命令追加以外わ現状並 (新命令ｾｯﾄを使用するｿﾌﾄわ大幅に性能向上)
> 　　- SPE間の通信ﾚｲﾃﾝｼ削減
> 　　- More on-chip memory (LS増量か?)
> 　　- ﾒｲﾝﾒﾓﾘｱｸｾｽの大域幅増強とﾚｲﾃﾝｼ削減

69 : デフォルトの名無 - 2008/09/25(木) 04:02:42 (-6,-29,-3)

marsが微妙にバージョンUp

70 : デフォルトの名無 - 2008/09/25(木) 08:23:16 (+104,+29,-41)

>>68
それ何時出るんだ？
何プロセスで作ったら現実的なんだよ。
んな金があったら、拡張ボードを出すか、現状のアレな点を修正した
マイナーアップバージョン出した方が良いと思うんだが。

71 : デフォルトの名無 - 2008/09/25(木) 11:45:22 (+54,+26,-22)

拡張ボードってなんだ？
あれな点とは？

72 : デフォルトの名無 - 2008/09/25(木) 18:34:33 (+63,+22,-37)

>>70
微細化が進んだら規模を拡大するのは当たり前の話。サーバ用のCPUなんだから。

それに従来のCellの改良版なら、既に製品化されてるよ。

73 : デフォルトの名無 - 2008/09/25(木) 19:21:37 (+68,+29,-26)

>>68が出たらPS3みたいに不良コアをいくらか殺してくれて構わないから安く手に入らないかなあ。

74 : 70 - 2008/09/25(木) 20:43:25 (+3,-29,-61)

ああ、初代 Cell.B.E は 90nm だったのか。
だったら、4倍増(+LS増量)+αならありえる話か。ごめん。

どちらにしろ、PS3 限定状態じゃ流行らんだろな。
Atom + GeForce の方がやりやすそう。

75 : デフォルトの名無 - 2008/09/25(木) 21:04:32 (+57,+29,-8)

そりゃAtomの方が数は出るだろうけど、そもそも競合してないだろ。

http://www-06.ibm.com/systems/jp/bladecenter/hardware/qs22/

76 : デフォルトの名無 - 2008/09/26(金) 15:13:55 (+7,-30,-168)

Cellの将来はSonyとIBMと東芝がそれぞれ違う分野での使い方を想定し
異なる開発計画を持ってるから、「どの会社の計画なのか？」を
指定しないと話がスレ違いしまくりなんだよな。

Sony:ゲーム機（PS3及びその後継）
東芝：家電（画像処理）＆ノートPC用コプロセッサ（SpursEngine）
IBM：ブレードサーバー＆HPC用CPU

77 : デフォルトの名無 - 2008/09/26(金) 16:25:38 (-1,-29,-33)

BDエンコーダとか、BDエンコーダとか・・・

78 : デフォルトの名無 - 2008/09/26(金) 18:06:51 (+61,+29,-14)

Cell触ってみたいな
仕事では絶対やだけど

79 : デフォルトの名無 - 2008/09/26(金) 18:40:58 (+6,-29,+0)

>>78
仕事でSuperEngine触るかもしれん

80 : デフォルトの名無 - 2008/09/26(金) 21:15:49 (-5,-28,-1)

そいつはSuperですね

81 : デフォルトの名無 - 2008/10/16(木) 14:54:02 (+11,-30,-129)

helloworldプログラムを作ったのですが、実行させると。
spu_create(): Invalid argument
spe_context_create: Bad addressとでます。
プログラムソースはfixstarsのチュートリアルどおりで、
PS3にはFedora7、SDKは3.0を導入しました。
ここの>>20さんの質問とほぼかぶっているのはわかるのですが、解決策がわかりません。
>>24さんのいう、バイナリのファイルが違っている、もしくは作られていない場合はどうしたらよろしいのでしょうか？

82 : デフォルトの名無 - 2008/10/16(木) 19:08:19 (-1,-29,-57)

>>76
> Sony:ゲーム機（PS3及びその後継）
SCEではなくSonyでなんでゲーム機限定？
音響も視野に入ってくるだろ。

83 : デフォルトの名無 - 2008/10/18(土) 00:24:16 (-4,-27,-15)

ヒント: 事業部の壁

84 : デフォルトの名無 - 2008/10/18(土) 10:04:21 (+12,-30,-97)

>>81
fixstarsのチュートリアルの3.2章にあるソース（PPE/SPE用）をコンパイルしたということですよね。
私の環境では、Fedora7 + SDK3(厳密には3.0.0.3ですが関係ないでしょう）、で問題なく実行できます。

PS3 linux上でmountを実行した際に、spufsはマウントされていますか？
Linux環境周りの問題のような気がします。

85 : デフォルトの名無 - 2008/10/18(土) 18:11:22 (+57,+29,-55)

GT200とかLarrabeeとかのニュースもひと段落して、最近、新しい話がなくて退屈だ。
そろそろ、つぎのCellの話がでてきていいはずだよな。

86 : デフォルトの名無 - 2008/10/18(土) 18:40:44 (+63,+30,+0)

初代Cellは出たころは、9コアをいきなり実現して、業界にそれなりのインパクト、影響を与えたと思う。

次のCellは2010年後半で36コアだけど、どうなるだろうか。

さすがに32個もSPEがあると、本質的に今までと変わってくることが出てくる。

まず、一番問題なのはメモリの帯域だろう。現状でも帯域は演算に追いついていないが、
そこまで厳しい要求があるアプリケーションばかりでないので、実用には問題ない。
しかし、次のCellではコア数増で、帯域不足がより問題になるんじゃないだろうか。

IBMはもちろんそこら辺は考えた上で設計してるから、解決してるのだろう。その解決の
仕方がどうやっているのかが聞いてみたい。

次に、性能のスケーラビリティは32SPEでも問題なく保てるのかどうかだ。
これはメモリの話とも関係してくることではあるけど。初代Cellでは8コアで
ほぼリニアにスケールするという話がよく聞かれ、Cellの一つの売りになっていた。
2Cellで16SPEでもスケールするなんて話もあったような気がするが、次のCellでは
どうだろうか。

これが、32SPEくらいまでだったらスケールしたから、32SPEに設計しました
とかっていうのか、もっと100くらいまでいけることを確認しているのか、20個くらいが
限界で、あとは別用途で同時実行してくださいっていうのか、非常に重要だ。

Cellのスケーラビリティがよいというのは、他の半導体メーカーも注目しているはずで、
30個ぐらいでも性能でるめどがあるとなったら、他も真似して追従したくてしょうがないだろう。
8コアくらいまでが実用の上限なんて話もあるから、ここら辺の見極めをしたいはずだ。
まあ、アプリケーションによるけど。でもMARSが32SPEで効果的に働くってなったら、ちょっと
いいんじゃないだろうか？

87 : デフォルトの名無 - 2008/10/18(土) 19:19:41 (+63,+30,+0)

このCellのスケール性がLSのコヒーレンシを考える必要がないことが本質だったら、
次のCell、その次のCell(120コアくらい?)で、その効果が指数関数的に出てくるはず。
そうすると、LSの再評価みたいなのが起きてくるんじゃないだろうか。
このLSに相当するGPUのshared memoryはその先取りかもしれないし、もしくは
メニーコアの必然として同じアーキテクチャにたどりついたといえるのかもしれない？
まあ、スクラッチパッドなんて昔からあったから、そんなに偉いもんかわからないけど。

LSといえば、プログラマはみんな容量を増えることを、次のCellでは期待しているだろう。
Cellのスピードチャレンジで今年優勝した人は、LSの容量が本質的に計算の高速化
と関係するようなことをいってた。プログラムが楽とかいうことではなく。
LSの容量が許せば、SPEごとのローカリティの高いアルゴリズムに変更できることがある
というようなことらしい。

Cellがでてだいぶみなが人柱になることで、LSの容量はこれくらいあるべきというのが、
ユーザーからあがりつつある。LSの増加は当然トランジスタ予算を食うわけで、SPE数を増やす
ほうがいいのか、LSを増やすほうがいいのかの天秤につるして、次のLSの容量もきまるんだろう。

次世代のCellで面白いのは、競合するGPUが存在するなかでのデビューになり、Larrabeeとの競争は
激しいものになるだろうことだ。

88 : デフォルトの名無 - 2008/10/19(日) 02:08:02 (-2,-30,-18)

PPE：3
SPE：21
LS容量：12MB
これくらいがいい。

89 : デフォルトの名無 - 2008/10/20(月) 17:17:47 (+0,-29,-34)

>>84さん　ありがとうございました。
エラーの原因は>>84さんの記述どおり、spufsがmountされていなかったためでした。

90 : デフォルトの名無 - 2008/10/24(金) 11:44:38 (-1,-29,-2)

mars1.0.0にバージョンアップ

91 : デフォルトの名無 - 2008/10/27(月) 11:35:38 (+30,+2,-28)

とりあえずロックフリーキューで全部差し替えないとmutex大杉

92 : デフォルトの名無 - 2008/10/27(月) 14:01:17 (-1,-29,+1)

SDK3.1
http://www-128.ibm.com/developerworks/forums/thread.jspa?threadID=231196&tstart=0

93 : デフォルトの名無 - 2008/11/04(火) 17:49:52 (-1,-29,-27)

質問なんですが、SDK3.0を入れても、コンパイルエラーが出て、
gccはインストールされていませんとでたのですが、
どこで入手したらよいのでしょうか？