Ποιο είναι το πρόβλημα με τα μικρά αρχεία στο Hadoop;
Ποιο είναι το πρόβλημα με τα μικρά αρχεία στο Hadoop;

Βίντεο: Ποιο είναι το πρόβλημα με τα μικρά αρχεία στο Hadoop;

Βίντεο: Ποιο είναι το πρόβλημα με τα μικρά αρχεία στο Hadoop;
Βίντεο: How to Install Hadoop on Windows 2024, Νοέμβριος
Anonim

1) Πρόβλημα μικρού αρχείου σε HDFS : Αποθήκευση πολλών μικρά αρχεία που είναι εξαιρετικά μικρότερος από το μέγεθος του μπλοκ δεν μπορεί να αντιμετωπιστεί αποτελεσματικά HDFS . Διαβάζοντας κατευθείαν μικρά αρχεία περιλαμβάνει πολλές αναζητήσεις και πολλά μεταπήδηση μεταξύ κόμβου δεδομένων σε κόμβο δεδομένων, κάτι που σημαίνει αναποτελεσματική επεξεργασία δεδομένων.

Εκτός από αυτό, ποια αρχεία αντιμετωπίζουν μικρά προβλήματα αρχείων στο Hadoop;

1) HAR ( Hadoop Αρχείο) Αρχεία έχει εισαχθεί σε αντιμετώπιση θέματος μικρού αρχείου . Το HAR έχει εισαγάγει ένα στρώμα στην κορυφή του HDFS , τα οποία παρέχουν διεπαφή για αρχείο πρόσβαση. Χρησιμοποιώντας Hadoop εντολή αρχειοθέτησης, HAR αρχεία δημιουργούνται, το οποίο εκτελεί α ΜΕΙΩΣΗ ΧΑΡΤΗ δουλειά να πακετάρεις το αρχεία αρχειοθετείται σε μικρότερος αριθμός των Αρχεία HDFS.

Επιπλέον, μπορώ να έχω πολλά αρχεία σε HDFS που χρησιμοποιούν διαφορετικά μεγέθη μπλοκ; Προκαθορισμένο Μέγεθος του ΟΙΚΟΔΟΜΙΚΟ ΤΕΤΡΑΓΩΝΟ είναι 64 MB. εσείς μπορώ αλλάξτε το ανάλογα με τις απαιτήσεις σας. Ερχόμενοι στην ερώτησή σας ναι εσείς μπορεί να δημιουργήσει πολλά αρχεία με διαφοροποίηση μεγέθη μπλοκ αλλά σε πραγματικό χρόνο αυτό θα δεν ευνοούν την παραγωγή.

Επιπλέον, γιατί το HDFS δεν χειρίζεται βέλτιστα μικρά αρχεία;

Προβλήματα με μικρά αρχεία και HDFS Κάθε αρχείο , κατάλογο και αποκλεισμός Το HDFS είναι αναπαρίσταται ως αντικείμενο στη μνήμη του namenode, καθένα από τα οποία καταλαμβάνει 150 byte, κατά κανόνα. Επί πλέον, Το HDFS δεν είναι προσαρμοσμένη στην αποτελεσματική πρόσβαση μικρά αρχεία : αυτό είναι έχει σχεδιαστεί κυρίως για πρόσβαση ροής μεγάλων αρχεία.

Γιατί το Hadoop είναι αργό;

Αργός Ταχύτητα Επεξεργασίας Αυτός ο δίσκος απαιτεί χρόνο, καθιστώντας έτσι την όλη διαδικασία πολύ αργός . Αν Hadoop επεξεργάζεται δεδομένα σε μικρό όγκο, είναι πολύ αργός συγκριτικά. Είναι ιδανικό για μεγάλα σύνολα δεδομένων. Οπως και Hadoop έχει κινητήρα επεξεργασίας παρτίδας στον πυρήνα η ταχύτητά του για επεξεργασία σε πραγματικό χρόνο είναι μικρότερη.

Συνιστάται: