Bu, xam məlumatları başa düşülən formata çevirən məlumat mədən üsuludur Xam data (real dünya məlumatları) həmişə natamamdır və həmin data model vasitəsilə göndərilə bilməz. Bu, müəyyən səhvlərə səbəb olardı. Buna görə də bir model vasitəsilə göndərməzdən əvvəl datanı əvvəlcədən emal etməliyik.
Niyə datanı əvvəlcədən emal etməliyik?
Məlumatların ilkin emalı hər hansı bir verilənlərin emalı prosesində çox vacibdir, çünki onlar layihənin müvəffəqiyyət dərəcəsinə birbaşa təsir edir … Əgər atribut, atribut dəyərləri, ehtiva edən çatışmazlıqlar varsa, məlumatın murdar olduğu deyilir. səs-küy və ya kənar göstəricilər və dublikat və ya yanlış məlumatlar. Bunlardan hər hansı birinin olması nəticələrin keyfiyyətini aşağı salacaq.
Məlumatların əvvəlcədən emalı dedikdə nəyi nəzərdə tutursunuz?
Məlumatların ilkin emalı xam verilənlərin başa düşülən formata çevrilməsi prosesidir. Bu, həm də məlumatların əldə edilməsində mühüm addımdır, çünki biz xam verilənlərlə işləyə bilmirik. Məlumatların keyfiyyəti maşın öyrənməsi və ya data mining alqoritmlərini tətbiq etməzdən əvvəl yoxlanılmalıdır.
Test məlumatlarını əvvəlcədən emal etməliyəm?
Bunun əsas məğzi belədir: Sınaq və ya qatar məlumatlarını çevirmək üçün bütün verilənlər dəstinə quraşdırılmış əvvəlcədən emal metodundan istifadə etməməlisiniz. Bunu etsəniz, siz təsadüfən məlumatı qatar dəstindən sınaq dəstinə daşıyırsınız.
Niyə biz məlumatları təhlil etməzdən əvvəl əvvəlcədən emal etməliyik?
Məlumatların ilkin emalı, performansı təmin etmək və ya artırmaq üçün istifadə edilməmişdən əvvəl verilənlərin manipulyasiyasına və ya atılmasına istinad edə bilər və məlumatların çıxarılması prosesində mühüm addımdır. … Bu cür problemlər üçün diqqətlə yoxlanılmamış məlumatların təhlili yanlış nəticələr verə bilər.