Saxlamanın Model Təlimində əsas darboğaza çevrilməsinə imkan verməyin

Bildirilir ki, texnologiya şirkətləri ya GPU-lar üçün mübarizə aparır, ya da onları əldə etmək yolundadır. Aprel ayında Tesla-nın CEO-su Elon Musk 10.000 GPU aldı və şirkətin NVIDIA-dan böyük miqdarda GPU almağa davam edəcəyini bildirdi. Müəssisə tərəfində İT işçiləri də investisiya gəlirini maksimuma çatdırmaq üçün GPU-lardan daim istifadə olunmasını təmin etmək üçün çox səy göstərirlər. Bununla belə, bəzi şirkətlər görə bilər ki, GPU-ların sayı artdıqca, GPU boşluqları daha da ağırlaşır.

Əgər tarix bizə yüksək performanslı hesablama (HPC) haqqında bir şey öyrətdisə, odur ki, saxlama və şəbəkələşmə hesablamaya çox diqqət yetirmək hesabına qurban verilməməlidir. Saxlama məlumatı hesablama vahidlərinə səmərəli şəkildə ötürə bilmirsə, hətta dünyada ən çox GPU-ya sahib olsanız belə, optimal səmərəliliyə nail olmayacaqsınız.

Small World Big Data şirkətinin analitiki Mike Matchett-ə görə, daha kiçik modellər yaddaşda (RAM) icra edilə bilər ki, bu da hesablamaya daha çox diqqət yetirməyə imkan verir. Bununla belə, milyardlarla qovşağı olan ChatGPT kimi daha böyük modellər yüksək qiymətə görə yaddaşda saxlanıla bilməz.

Matchett deyir: "Milyardlarla qovşaqları yaddaşa sığdıra bilməzsiniz, ona görə də yaddaş daha da vacib olur". Təəssüf ki, planlaşdırma prosesində məlumatların saxlanması çox vaxt nəzərdən qaçırılır.

Ümumiyyətlə, istifadə vəziyyətindən asılı olmayaraq, model təlim prosesində dörd ümumi məqam var:

1. Model Təlimi
2. Nəticə Tətbiqi
3. Məlumatların saxlanması
4. Sürətləndirilmiş Hesablama

Modellərin yaradılması və tətbiqi zamanı əksər tələblər model təliminə başlamaq üçün sürətli konsepsiyanın sübutu (POC) və ya sınaq mühitlərinə üstünlük verir, məlumatların saxlanmasına əsas diqqət yetirilmir.

Bununla belə, problem təlim və ya nəticə çıxarmanın aylarla, hətta illərlə davam edə bilməsindədir. Bir çox şirkətlər bu müddət ərzində öz model ölçülərini sürətlə böyüdürlər və artan modelləri və məlumat dəstlərini yerləşdirmək üçün infrastruktur genişlənməlidir.

Google-dan milyonlarla ML təlim iş yükü ilə bağlı araşdırmalar göstərir ki, təlim vaxtının orta hesabla 30%-i daxilolma məlumat boru kəmərinə sərf olunur. Keçmiş tədqiqatlar təlimi sürətləndirmək üçün GPU-ların optimallaşdırılmasına diqqət yetirsə də, məlumat kəmərinin müxtəlif hissələrinin optimallaşdırılmasında hələ də bir çox problemlər qalmaqdadır. Əhəmiyyətli hesablama gücünüz olduqda, nəticə əldə etmək üçün məlumatları hesablamalara nə qədər tez daxil edə biləcəyiniz əsl darboğaz olur.

Xüsusilə, məlumatların saxlanması və idarə olunması ilə bağlı problemlər məlumat artımının planlaşdırılmasını tələb edir ki, bu da sizə irəlilədikcə, xüsusən də daha yüksək tələblər qoyan dərin öyrənmə və neyron şəbəkələri kimi daha təkmil istifadə hallarına girdiyiniz zaman məlumatların dəyərini davamlı olaraq çıxarmağa imkan verir. tutum, performans və genişlənmə baxımından yaddaş.

Xüsusilə:

Ölçeklenebilirlik
Maşın öyrənməsi böyük həcmdə məlumatların idarə edilməsini tələb edir və məlumatların həcmi artdıqca modellərin dəqiqliyi də yaxşılaşır. Bu o deməkdir ki, müəssisələr hər gün daha çox məlumat toplamalı və saxlamalıdırlar. Yaddaş miqyasını genişləndirə bilməyəndə, intensiv məlumat tələb edən iş yükləri darboğazlar yaradır, performansı məhdudlaşdırır və GPU-nun baha başa gəlməsinə səbəb olur.

Çeviklik
Çoxsaylı protokollar üçün çevik dəstək (NFS, SMB, HTTP, FTP, HDFS və S3 daxil olmaqla) tək bir mühit növü ilə məhdudlaşmaqdansa, müxtəlif sistemlərin ehtiyaclarını ödəmək üçün lazımdır.

Gecikmə
I/O gecikməsi verilənlərin dəfələrlə oxunması və təkrar oxunması kimi modellərin qurulması və istifadəsi üçün vacibdir. I/O gecikmə müddətinin azaldılması modellərin təlim müddətini günlərlə və ya aylarla qısalda bilər. Daha sürətli model inkişafı birbaşa daha böyük biznes üstünlüklərinə çevrilir.

Məhsuldarlıq
Saxlama sistemlərinin ötürmə qabiliyyəti modelin səmərəli hazırlanması üçün çox vacibdir. Təlim prosesləri adətən saatda terabaytlarla ölçülür.

Paralel Giriş
Yüksək məhsuldarlığa nail olmaq üçün təlim modelləri fəaliyyətləri çoxlu paralel tapşırıqlara bölür. Bu, çox vaxt maşın öyrənmə alqoritmlərinin eyni vaxtda birdən çox prosesdən (potensial olaraq bir neçə fiziki serverdə) eyni fayllara daxil olması deməkdir. Saxlama sistemi performansdan ödün vermədən paralel tələbləri yerinə yetirməlidir.

Aşağı gecikmə, yüksək ötürmə qabiliyyəti və geniş miqyaslı paralel I/O-da üstün imkanları ilə Dell PowerScale GPU-sürətləndirilmiş hesablama üçün ideal yaddaş tamamlayıcısıdır. PowerScale çox terabaytlıq verilənlər toplusunu öyrədən və sınaqdan keçirən analiz modelləri üçün tələb olunan vaxtı effektiv şəkildə azaldır. PowerScale tam flash yaddaşında ötürmə qabiliyyəti 18 dəfə artır, giriş/çıxış darboğazlarını aradan qaldırır və böyük həcmdə strukturlaşdırılmamış məlumatların dəyərini sürətləndirmək və kilidini açmaq üçün mövcud Isilon klasterlərinə əlavə edilə bilər.

Bundan əlavə, PowerScale-in çox protokollu giriş imkanları iş yüklərinin icrası üçün qeyri-məhdud çeviklik təmin edir, məlumatların bir protokoldan istifadə edərək saxlanmasına və digər protokoldan istifadə etməklə əldə edilməsinə imkan verir. Xüsusilə, PowerScale platformasının güclü xüsusiyyətləri, çevikliyi, miqyaslılığı və korporativ səviyyəli funksionallığı aşağıdakı problemləri həll etməyə kömək edir:

- Model təlim dövrünü azaltmaqla innovasiyanı 2,7 dəfəyə qədər sürətləndirin.

- Giriş/çıxış darboğazlarını aradan qaldırın və daha sürətli model təlimi və təsdiqini, təkmilləşdirilmiş model dəqiqliyini, təkmilləşdirilmiş məlumat elminin məhsuldarlığını və müəssisə səviyyəli xüsusiyyətlərdən, yüksək performansdan, paralellikdən və genişlənmə qabiliyyətindən istifadə etməklə hesablama investisiyalarından maksimum gəlir əldə edin. Tək klasterdə 119 PB-ə qədər effektiv yaddaş tutumundan istifadə etməklə daha dərin, yüksək ayırdetmə qabiliyyətinə malik verilənlər bazası ilə model dəqiqliyini artırın.

- Güclü məlumatların qorunması və təhlükəsizlik seçimləri təqdim edərək, kiçik və müstəqil miqyaslı hesablama və yaddaşa başlamaqla miqyasda yerləşdirməyə nail olun.

- Daha sürətli, aşağı riskli yerləşdirmələr üçün yerində analitika və əvvəlcədən təsdiq edilmiş həllər ilə məlumat elminin məhsuldarlığını artırın.

- NVIDIA GPU sürətləndirilməsi və NVIDIA DGX sistemləri ilə istinad arxitekturaları daxil olmaqla, ən yaxşı texnologiyalara əsaslanan sübut edilmiş dizaynlardan istifadə etmək. PowerScale-in yüksək performansı və paralelliyi məlumatların əldə edilməsi və hazırlanmasından tutmuş model təliminə və nəticə çıxarmağa qədər maşın öyrənməsinin hər mərhələsində yaddaş performansı tələblərinə cavab verir. OneFS əməliyyat sistemi ilə birlikdə bütün qovşaqlar performansın idarə edilməsi, məlumatların idarə edilməsi, təhlükəsizlik və məlumatların mühafizəsi kimi müəssisə səviyyəli xüsusiyyətləri ilə eyni OneFS-lə idarə olunan klaster daxilində problemsiz işləyə bilər ki, bu da bizneslər üçün model təliminin və doğrulamanın daha tez tamamlanmasına imkan verir.


Göndərmə vaxtı: 03 iyul 2023-cü il