私的良スレ書庫
不明な単語は2ch用語を / 要望・削除依頼は掲示板へ。不適切な画像報告もこちらへどうぞ。 / 管理情報はtwitterでログインするとレス評価できます。 登録ユーザには一部の画像が表示されますので、問題のある画像や記述を含むレスに「禁」ボタンを押してください。
元スレIntel派がAMDの次世代CPUを語るスレ 1
Intel スレッド一覧へ / Intel とは? / 携帯版 / dat(gz)で取得 / トップメニューみんなの評価 :
レスフィルター : (試験中)
現実的には、
遅いCPU+鉄板>>>>速いCPU+地雷板
K10はそろそろアレかと思うけど、遅くて困ってるわけでもないという。
BULL買う理由を作りたいが・・
遅いCPU+鉄板>>>>速いCPU+地雷板
K10はそろそろアレかと思うけど、遅くて困ってるわけでもないという。
BULL買う理由を作りたいが・・
逆にIntelにとってありがたいのは、将来サポート予定ものを殆どBullが積んでくれたので
自社の移行の時にはソフトが潤沢に出回っているだろうって点だな
自社の移行の時にはソフトが潤沢に出回っているだろうって点だな
後藤の記事を見る限りじゃ今後もAVXの拡張は進められ、FMA4なども実装されるらしいよ
命令セットは当然違うが、似たような機能ならソフトメーカーの対応も容易だろうという意味
命令セットは当然違うが、似たような機能ならソフトメーカーの対応も容易だろうという意味
団子がこんだけ力説するってことは、Bullは高性能なんだろうなぁ
団子の分析が当たったことねーしw
団子の分析が当たったことねーしw
そもそもSIMDの長さを拡大すればするほどの充填率が下がり無駄が増えるのに
IntelがSIMDを拡張したいのはララビーとの整合性を取るためだよね
IntelがSIMDを拡張したいのはララビーとの整合性を取るためだよね
多分延期の理由はララビーと同じで電力効率が悪かったからだと思うがね
で、FMACが別個の乗算と加算を同時に行えないのは判ってるよ
知りたいのは、乗加算1→乗加算2→乗加算3→乗加算4・・・と続き、それぞれが前の乗加算の結果に依存するとき
FADD+FMULとFMACの所要サイクル数どうなるかだ
で、FMACが別個の乗算と加算を同時に行えないのは判ってるよ
知りたいのは、乗加算1→乗加算2→乗加算3→乗加算4・・・と続き、それぞれが前の乗加算の結果に依存するとき
FADD+FMULとFMACの所要サイクル数どうなるかだ
Sandy Bridgeの場合。
乗算5+加算3で合計レイテンシ8だが実際にチェインが発生するのは加算の3サイクルのみ。
***□□□□□■■■
***□□□□□■■■
***□□□□□■■■
Bulldozerは積和算で6サイクル分。Sandy Bridgeの倍のインターリーブ数が必要。
***■■■■■■
***■■■■■■
***■■■■■■
これは>>822のパフォーマンス低下の原因のひとつだね。K10まではFADDはレイテンシ4だったが6に悪化した。
もちろん原因がわかってれば改善も出来る。
1スレッドあたり論理レジスタ16本の縛りが結構きついけど、ロードユニットが1モジュール全体で4本
(整数コア毎に2本)あるので、なんとか酷使してやればスループットを改善できる。
乗算5+加算3で合計レイテンシ8だが実際にチェインが発生するのは加算の3サイクルのみ。
***□□□□□■■■
***□□□□□■■■
***□□□□□■■■
Bulldozerは積和算で6サイクル分。Sandy Bridgeの倍のインターリーブ数が必要。
***■■■■■■
***■■■■■■
***■■■■■■
これは>>822のパフォーマンス低下の原因のひとつだね。K10まではFADDはレイテンシ4だったが6に悪化した。
もちろん原因がわかってれば改善も出来る。
1スレッドあたり論理レジスタ16本の縛りが結構きついけど、ロードユニットが1モジュール全体で4本
(整数コア毎に2本)あるので、なんとか酷使してやればスループットを改善できる。
AMD次世代本スレよりこちらのほうが面白くなっているな
様々な角度・視点から可能性を論じるのは良いことだ
無駄な罵りあいや荒らしはご勘弁
様々な角度・視点から可能性を論じるのは良いことだ
無駄な罵りあいや荒らしはご勘弁
というか性能が悪いベンチも包み隠さずAMD公式に出したほうが良いんだけどね。
そのほうがソフト側でボトルネックの対処をしやすい。
都合のいい数字だけ出してファンの一時の安心を誘ったところで最終的にはAMDが損をする。
そのほうがソフト側でボトルネックの対処をしやすい。
都合のいい数字だけ出してファンの一時の安心を誘ったところで最終的にはAMDが損をする。
団子が一人で戯言言ってるだけだな
スレ自体が放置されてるのをいいことに好き勝手やってる
スレ自体が放置されてるのをいいことに好き勝手やってる
RWTの記者は科学技術計算だから一般のアプリではそんなに関係ないかもしれない
みたいなことを言ってるが、行列積とかFFTなんてもろにPCアプリで使う分野だぜ。
単精度4x4行列はゲームで頻繁に使う。それも大量に。
行列の規模が小さいほどレイテンシの問題はシビアになる。
FFTは動画や音声のエンコーディングなどでも使われてるし
さらに言えばbzip2圧縮で速度落ちてるならZIPやCABが落ちてない可能性も否定できない。
というかこの程度は想定内の数字なんで驚きはしない。
あとこれは禁句だったかもしれないが全体的にSandy Bridgeより命令のレイテンシ・スループットが悪い。
みたいなことを言ってるが、行列積とかFFTなんてもろにPCアプリで使う分野だぜ。
単精度4x4行列はゲームで頻繁に使う。それも大量に。
行列の規模が小さいほどレイテンシの問題はシビアになる。
FFTは動画や音声のエンコーディングなどでも使われてるし
さらに言えばbzip2圧縮で速度落ちてるならZIPやCABが落ちてない可能性も否定できない。
というかこの程度は想定内の数字なんで驚きはしない。
あとこれは禁句だったかもしれないが全体的にSandy Bridgeより命令のレイテンシ・スループットが悪い。
初めは遅くても世代がカバーするんじゃないの?
開発の容易さ以上の甘い蜜はないと思う
開発の容易さ以上の甘い蜜はないと思う
CPUのSIMD演算基で1命令1サイクルないし2サイクルで完結できるレベルの並列度の演算命令を
低クロックで並列度が無駄に高いGPUにそのまんまもっていったところでそれこそ性能ダウンだろw
結局GPUでできるのはAPIレベルだろ。
低クロックで並列度が無駄に高いGPUにそのまんまもっていったところでそれこそ性能ダウンだろw
結局GPUでできるのはAPIレベルだろ。
GPUでCPUのSIMD命令を置き換え可能でなおかつCPUのそれより効率的に実行できるとするなら
CPUのSIMDユニットは最初からGPUと同じ構造になってるはずだろ?
構造が根本から違うってことは不適ってことなんだよ。
CPUのSIMDユニットは最初からGPUと同じ構造になってるはずだろ?
構造が根本から違うってことは不適ってことなんだよ。
前へ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 次へ / 要望・削除依頼は掲示板へ / 管理情報はtwitterで / Intel スレッド一覧へ
みんなの評価 : 類似してるかもしれないスレッド
- Intelの次世代CPUについて語ろう 41 (967) - [42%] - 2009/12/26 8:32 ○
- Intelの次世代CPUについて語ろう 47 (1001) - [40%] - 2011/11/7 11:16
- Intelの次世代CPUについて語ろう 44 (1001) - [40%] - 2011/1/21 6:46
- Intelの次世代CPUについて語ろう 43 (1001) - [40%] - 2010/9/26 23:01 ○
- Intelの次世代CPUについて語ろう 42 (1001) - [40%] - 2010/4/10 23:32 ○
- Intelの次世代CPUについて語ろう 35 (1001) - [40%] - 2008/12/1 23:03 ○
トップメニューへ / →のくす牧場書庫について