!論文読み Twitterで,@ogawa_tterさんに教えてもらったので読んでみた Evaluating On-Node GPU Interconnects for Deep Learning Workloads http://www.dcs.warwick.ac.uk/pmbs/pmbs/PMBS/papers/paper1.pdf NVLinkは速いけどワークロードによっては(ResNetみたいな), PCIe接続なGPUサーバー(GX8)でも結構いい速度でるよ,という話. DGX-1の8-GPUのNVLinkでの同期が遅いこと, メッセージサイズが小さい段階でPCIeが早めにサチること,が鍵なのかな.