U svijetu velike obrade podataka, MapReduce se pojavila kao moćan programski model za distribuirano računanje. Omogućuje preradu velikih skupova podataka u klasterima računara, čineći ga kamen temeljac u podacima - intenzivnim aplikacijama. Jedna ključna komponenta u bavljenju maprereuce je kombinator. Kao dobavljač kombinatora svjedočio sam iz prve ruke različitih utjecaja kombinacija na dosljednost podataka u mapreducea.
Razumijevanje mapdece i uloge kombinatora
Prije nego što se uvrsti u utjecaj na konzistentnost podataka, ključno je shvatiti koja su mapureće i kombinatori. MapReduce se sastoji od dvije glavne faze: faza karte i smanjenje faze. U fazi karte, ulazni podaci podijeljeni su u manje komade, a svaki komad se obrađuje samostalno od strane maparskih zadataka. Ovi mapperiraju intermedijarni ključ - parovi vrijednosti. Smanjivanje faze zatim agregira ove intermedijarne parove za proizvodnju konačnog izlaza.
Kombinator je opcionalni korak optimizacije u okviru Maprereuce. To je lokalni agregator koji radi na maparskim čvorovima. Njegova primarna funkcija je izvršavanje djelomičnih agregacija na srednjem ključu - vrijednosti vrijednosti koje generiraju maperi prije nego što se pošalju preko mreže na reduktori. Čineći to, smanjuje iznos prenesenih podataka preko mreže, što može značajno poboljšati performanse posla MapReduce.
Pozitivni uticaji na konzistenciju podataka
Smanjenje mreže - Srodne nedosljednosti
Jedan od značajnih načina na koji kombinator može poboljšati konzistentnost podataka je smanjenjem mreže - povezanih pitanja. Kada se podaci prenose preko mreže, postoji rizik od gubitka paketa, zagušenja mreže ili korupcije podataka. Izvođenjem djelomičnih agregacija lokalno na maparskim čvorovima, kombinator smanjuje količinu podataka koje treba prenijeti. To znači da postoji manje šanse da se podaci izgube ili oštećuju tokom mrežnog prijenosa, što dovodi do dosljednijih podataka koji dođu do reduktora.
Na primjer, u riječi - prebrojavanje posla mapdece, mapere stvaraju intermedijarni ključ - vrijednosti vrijednosti gdje je ključ riječ, a vrijednost je tačka te riječi u određenom ulaznom komadu. Bez kombinatora, svi ovi intermedijarni parovi bili bi poslani preko mreže u reduktorima. Međutim, s kombinacijom može se sumirati broji za svaku riječ lokalno na maparskim čvorovima. To smanjuje broj ključnih parova - vrijednosti koje treba prenijeti, minimiziranje potencijala za mrežu - povezane podatkovne nedosljednosti.
Konzistentna logika agregacije
Kombinator provodi dosljednu logiku agregacije na svim maparskim čvorovima. Budući da kombinator koristi istu funkciju agregacije kao reduktor, ona osigurava da su djelomične agregacije izvedene na čvorovima Mapper čvorova u skladu s konačnim agregacijama koje će ih učiniti reduktori. Ova konzistencija u logici združivanja pomaže u održavanju dosljednosti podataka u cijelom poslu MapReduce.
Na primjer, ako je funkcija agregacije izračunati zbroj vrijednosti za svaku tipku, kombiner će lokalno subrimati vrijednosti na mapper čvorovima, a reduktor će izvršiti konačnu zbroj primljenim vrijednostima primljenim od mape. To osigurava da se ukupni izračun sume u skladu s početnih djelomičnih zbirki do konačnog rezultata.
Negativni uticaji na konzistenciju podataka
Nepravilno agregacija u ne-asocijativnim ili ne-komutativnim operacijama
Nisu sve agregacijske operacije pogodne za upotrebu u kombinaciji. Funkcije agregacije koje nisu asocijativne ili ne-komutativno mogu dovesti do nedosljednosti podataka kada se koriste u kombinaciji. Asocijativna operacija je ona u kojoj grupiranje operanda ne utječe na rezultat (npr. Dodatak: (A + B) + C = A + (B + C)) i komutativni rad je onaj gdje redoslijed operandija ne utječe na rezultat (npr. Dodatak: A + B = B + A).
Na primjer, razmotrite funkciju agregacije koja izračunava prosjek vrijednosti. Prosjek se izračunava kao zbroj vrijednosti podijeljenih s brojem vrijednosti. Kada se koristi kombinator za izračun prosjeka, može dovesti do pogrešnih rezultata jer prosječna operacija nije asocijacija. Ako kombinator izračunava prosjek podskupine vrijednosti, a zatim reduktor pokušava kombinirati ove djelomične prosjeke, konačni rezultat neće biti pravi prosjek svih vrijednosti.
Preko - agregacija i gubitak informacija
Drugo potencijalno pitanje sa kombinatorima je završeno - agregacija, što može rezultirati gubitkom važnih informacija. Budući da kombinator izvodi djelomične agregacije na mapper čvorovima, može se zbirnuti podaci na način koji gubi neki kontekst ili detalje koji su potrebni za konačnu analizu.
Na primjer, na maprereuce-u koji analizira podatke o seriji, ako kombiner agregira podatke u velikom vremenskom intervalu, može izgubiti informacije o pojedinačnim podacima u tom intervalu. To može dovesti do nedosljednih rezultata kada reduktori pokušavaju izvršiti detaljniju analizu na temelju agregiranih podataka.


Stvarni - svjetski proizvodi i njihova relevantnost
U kontekstu infrastrukture za obradu podataka, proizvodi poput4ge 4GE Condeip WFI6 AX3000,4 puta moca pojačalo, i14 Port Gigabit Ethernet prekidačIgrajte važne uloge. Ovi proizvodi mogu biti dio mrežne infrastrukture koji podržava MapReduce Jobs.
Xpon Onu 4ge VoIP WiFi6 AX3000 pruža visoku brzinu povezanost, što je ključno za prijenos podataka između čvorova na maprerece klasteru. Stabilna i visoka mrežna veza pomaže u minimiziranju mreže - povezanih pitanja koja mogu utjecati na konzistentnost podataka. 4-smjerna pojačala MoCA može poboljšati snagu signala u koaksijalnoj mreži, osiguravajući pouzdan prijenos podataka. A Ethernet prekidač od 14 Port Gigabita omogućava efikasne usmjeravanje podataka unutar klastera, omogućavajući glatku komunikaciju između čvorova mapara i reduktora.
Osiguravanje konzistentnosti podataka sa kombinatorima
Da biste osigurali konzistentnost podataka Kada se koristi kombineri, od suštinskog je značaja za pažljivo odabir funkcija agregacije. Koristite samo asocitne i komutativne funkcije agregacije u kombinaciji. Uz to, važno je temeljito testirati kombinaciju u testnom okruženju kako bi se osiguralo da ne uzrokuje više - agregiranje ili gubitak važnih informacija.
Zaključak i poziv na akciju
Zaključno, kombinatori mogu imati i pozitivne i negativne utjecaje na konzistenciju podataka u mapreducea. Kada se pravilno koristi, oni mogu značajno poboljšati dosljednost podataka smanjenjem mreže - srodnih pitanja i provođenjem dosljedne logike agregacije. Međutim, nepravilna upotreba kombinatora može dovesti do nedosljednosti podataka zbog pogrešnih operacija agregacije ili preko - agregacije.
Kao dobavljač kombinatora posvećeni smo pružanju visokog kvaliteta kombinatora koji su dizajnirani da besprijekorno rade sa vašim mapčevim poslovima i osiguraju konzistentnost podataka. Ako želite da optimizirate svoje poslove maprereuze i poboljšamo konzistenciju podataka, pozivamo vas da nam posegnete za detaljnu raspravu. Možemo vam pomoći da odaberete desnu kombinuru i funkcije agregacije za vašu specifičnu upotrebu.
Reference
- Dean, J. i Ghemawat, S. (2008). MapReduce: pojednostavljena obrada podataka na velikim klasterima. Komunikacije ACM-a, 51 (1), 107 - 113.
- Bijeli, T. (2015). Hadoop: Definitivni vodič. O'Reilly Media.
