Kako pronaći postotak 'nan' vrijednosti u skupu podataka?

Pronalaženje postotka vrijednosti "Nan" (ne brojnih) u skupinom u skupinskom je koraku u prednosti i analizi podataka. Kao dobavljač visokog kvaliteta - kvalitetnih proizvoda koji se odnose na mrežne uređaje, uključujućiThe Xpon 1ge 1ge 1GE VoIP Cavt Wifi44,Xpon Onu 1ge 3FE VoIP WiFi44, iXpon Onu 4ge WiFi5 AC1200, Razumijem važnost preciznog rukovanja podacima u različitim poljima. U ovom blogu podijelit ću neke praktične metode za izračunavanje postotka vrijednosti "Nan" u skupu podataka.

Razumijevanje značaja vrijednosti "Nan"

Prije ronjenja u metode izračuna, ključno je shvatiti zašto su "Nan" vrijednosti vađe. U analizi podataka, "Nan" vrijednosti mogu predstavljati nedostajuće podatke, pogreške u prikupljanju podataka ili vrijednosti koje nisu primjenjive. Ignoriranje ovih vrijednosti može dovesti do netačnih statističkih rezultata, pristranih modela i nepouzdanih predviđanja. Na primjer, u prodajnom skupu podataka, "Nan" vrijednosti mogu ukazivati na nedostajuće brojke prodaje za određene proizvode ili vremenske periode. Ako ove vrijednosti nisu pravilno obračunate, ukupna analiza prodaje mogla bi biti pogrešna.

Preduslovi

Da biste izračunali postotak "Nan" vrijednosti, trebat će vam skup podataka i programski jezik s mogućnostima manipulacije podataka. Python je popularan izbor zbog opsežnih biblioteka kao što su Pandas i Numpy. Evo korak - po - Korak Vodič o tome kako izvesti ovaj izračun pomoću Pythona.

1. korak: Uvezite potrebne biblioteke

Prvo, morate uvesti pandu i numpy biblioteke. Pandas se koristi za manipulaciju i analizu podataka, dok Numpy pruža podršku za velike, višestruke matrice i matrice.

Uvezite Pande kao PD uvoz Numpy kao NP

Korak 2: Učitajte skup podataka

Pretpostavimo da imate skup podataka u CSV datoteci. Možete ga učitati pomoćupročitajte_csvFunkcija u Pandasu.

Data = PD.Read_csv ('tvom_dataset.csv')

Korak 3: Izračunajte ukupan broj vrijednosti u skupu podataka

Da biste izračunali postotak 'Nan' vrijednosti, prvo morate znati ukupni broj vrijednosti u skupu podataka. Možete koristitiveličinaatribut DataFrame.

GPU-11GN-V-R GPU-13GN-V

total_values = podaci.size

Korak 4: Izračunajte broj vrijednosti "nan"

Pandas pruža pogodan način za prebrojavanje broja 'nan' vrijednosti u DataFrami. Možete koristitiOn ()metoda za stvaranje boolejske maske, a zatim zbrojiti sveIstinitVrijednosti.

nan_values = Data.isna () suma () suma ().

Korak 5: Izračunajte postotak vrijednosti "Nan"

Sada kada imate ukupan broj vrijednosti i broj vrijednosti "Nan", možete izračunati postotak.

procenat_nan = (nan_values / total_values) * 100 Ispis (F "postotak" nan "vrijednosti u skupu podataka je {procenat_nan}%")

Rukovanje različitim strukturama podataka

Gornja metoda dobro funkcionira za tabelarne podatke u pandanskoj DataFrame. Međutim, ako radite s numpy nizom, proces je malo drugačiji.

Uvoz Numpy kao NP # Kreirajte uzorak Numpy Array = Np.arran, 3, NP.Nan, 5]) Izračunajte ukupni broj elemenata #elements = NP.isan (niz) .sum () izračunajte postotak "nan" elemenata _Nan_array = (Nan_elements / total_elements) * 100 Ispis (F "Postotak" nan "vrijednosti u numpy nizu je {procenat_nan_array}%")

Vizualizacija vrijednosti "nan"

Vizualizacija može pružiti bolje razumijevanje raspodjele 'nan' vrijednosti u skupu podataka. Možete koristiti biblioteke poput matplotlib ili morbornog za stvaranje toplotnih mješavina ili barskih ljestvica.

Uvozi Morborn kao SNS uvozi matplotlib.pyplot kao PLT # Stvorite toplotnu mapu "Nan" vrijednosti srs.heatmap (podaci.isna (), cbar = false) plt.title ') plt.show ()

Suočavanje sa visokim procentima vrijednosti "Nan"

Ako je postotak vrijednosti "Nan" visoko, morate odlučiti kako se nositi s njima. Neke zajedničke strategije uključuju:

Uklanjanje redaka ili stupaca: Ako red ili stupac ima veliki broj vrijednosti "Nan", možete razmotriti uklanjanje. Međutim, ovaj pristup može dovesti do gubitka vrijednih informacija.
Imputacija: "Nan" možete ispuniti vrijednosti odgovarajućim vrijednostima kao što su srednja, srednja ili režima ne-"" nan "vrijednosti u istom stupcu.

# Imputiraju 'nan' vrijednosti pomoću srednjih podataka.filna (podaci.Mean (), zanemari = istinito)

Zaključak

Izračunavanje postotka 'nan' vrijednosti u skupu podataka važan je korak u analizi podataka. Pomaže vam da shvatite kvalitetu svojih podataka i odlučite kako se nositi sa nedostacima vrijednosti. Kao dobavljač mrežnih uređaja poputThe Xpon 1ge 1ge 1GE VoIP Cavt Wifi44,Xpon Onu 1ge 3FE VoIP WiFi44, iXpon Onu 4ge WiFi5 AC1200, Razumijemo važnost tačnih podataka u optimizaciji performansi mreže i izrade informiranih poslovnih odluka.

Ako vas zanimaju naši proizvodi ili imate bilo kakva pitanja o analizi podataka u kontekstu upravljanja mrežom, slobodno nas kontaktirajte za nabavku i daljnje rasprave. Ovdje smo da vam pružimo najbolja rješenja za vaše potrebe.

Reference

McKinney, W. (2017). Python za analizu podataka: Podaci snimljeni sa pandom, numpy i ipython. O'Reilly Media.
Vanderplas, J. (2016). Priručnik za nauku o podacima Python: Bitni alati za rad sa podacima. O'Reilly Media.