Πώς επιτυγχάνεται η τοπική προσαρμογή δεδομένων στο Hadoop;
Πώς επιτυγχάνεται η τοπική προσαρμογή δεδομένων στο Hadoop;

Βίντεο: Πώς επιτυγχάνεται η τοπική προσαρμογή δεδομένων στο Hadoop;

Βίντεο: Πώς επιτυγχάνεται η τοπική προσαρμογή δεδομένων στο Hadoop;
Βίντεο: Προσαρμογή του GDPR στις μικρομεσαίες επιχειρήσεις 2024, Νοέμβριος
Anonim

Εντοπισμός δεδομένων σε Hadoop . Πάρτε το παράδειγμα του Wordcount, όπου οι περισσότερες λέξεις έχουν επαναληφθεί για 5 Lacs ή περισσότερες φορές. Σε αυτήν την περίπτωση, μετά τη φάση Mapper, κάθε έξοδος χαρτογράφησης θα έχει λέξεις της τάξης των 5 Lacs. Αυτή η πλήρης διαδικασία αποθήκευσης της εξόδου Mapper στο LFS ονομάζεται ως Εντοπισμός δεδομένων.

Έχοντας αυτό υπόψη, τι είναι ο εντοπισμός δεδομένων στο Hadoop;

Η εννοια του Δεδομένα τοποθεσία σε Δεδομένα Hadoop τοποθεσία σε ΜΕΙΩΣΗ ΧΑΡΤΗ αναφέρεται στην ικανότητα μετακίνησης του υπολογισμού κοντά στο πραγματικό σημείο δεδομένα κατοικεί στον κόμβο, αντί να κινείται μεγάλο δεδομένα στον υπολογισμό. Αυτό ελαχιστοποιεί τη συμφόρηση δικτύου και αυξάνει τη συνολική απόδοση του συστήματος.

Επίσης, πώς αποθηκεύονται τα μεγάλα δεδομένα; Οι περισσότεροι άνθρωποι συσχετίζουν αυτόματα το HDFS ή το κατανεμημένο σύστημα αρχείων Hadoop με το Hadoop δεδομένα αποθήκες. Το HDFS αποθηκεύει πληροφορίες σε συμπλέγματα που αποτελούνται από μικρότερα μπλοκ. Αυτά τα μπλοκ είναι αποθηκευμένο στην επιτόπια φυσική αποθήκευση μονάδες, όπως εσωτερικές μονάδες δίσκου.

Έτσι, πώς αποθηκεύονται τα δεδομένα στο Hadoop;

Πάνω σε Hadoop συστάδα, το δεδομένα μέσα στο HDFS και το σύστημα MapReduce στεγάζονται σε κάθε μηχάνημα του συμπλέγματος. Δεδομένα είναι αποθηκευμένο σε δεδομένα μπλοκ στους DataNodes. Το HDFS αναπαράγει αυτά δεδομένα μπλοκ, συνήθως μεγέθους 128 MB, και τα διανέμει έτσι ώστε να αναπαράγονται σε πολλούς κόμβους σε όλο το σύμπλεγμα.

Πώς αποθηκεύονται τα αρχεία στο HDFS;

HDFS εκθέτει α αρχείο χώρο ονομάτων του συστήματος και επιτρέπει την ύπαρξη δεδομένων χρήστη αποθηκευμένο σε αρχεία . Εσωτερικά, α αρχείο χωρίζεται σε ένα ή περισσότερα μπλοκ και αυτά τα μπλοκ είναι αποθηκευμένο σε ένα σύνολο DataNodes. Το NameNode εκτελείται αρχείο λειτουργίες χώρου ονομάτων του συστήματος όπως το άνοιγμα, το κλείσιμο και η μετονομασία αρχεία και καταλόγους.

Συνιστάται: