Understanding and Mitigating Hardware Failures in Deep Learning Training Systems

التفاصيل البيبلوغرافية
العنوان: Understanding and Mitigating Hardware Failures in Deep Learning Training Systems
المؤلفون: He, Yi, Hutton, Mike, Chan, Steven, De Gruijl, Robert, Govindaraju, Rama, Patil, Nishant, Li, Yanjing
المصدر: Proceedings of the 50th Annual International Symposium on Computer Architecture
بيانات النشر: ACM
سنة النشر: 2023
نوع الوثيقة: conference object
اللغة: unknown
DOI: 10.1145/3579371.3589105
الإتاحة: https://doi.org/10.1145/3579371.3589105Test
رقم الانضمام: edsbas.49C2808F
قاعدة البيانات: BASE