Ποια μορφή αρχείου του Hadoop επιτρέπει τη μορφή στηλών αποθήκευσης δεδομένων;
Ποια μορφή αρχείου του Hadoop επιτρέπει τη μορφή στηλών αποθήκευσης δεδομένων;

Βίντεο: Ποια μορφή αρχείου του Hadoop επιτρέπει τη μορφή στηλών αποθήκευσης δεδομένων;

Βίντεο: Ποια μορφή αρχείου του Hadoop επιτρέπει τη μορφή στηλών αποθήκευσης δεδομένων;
Βίντεο: CS50 2014 - Week 8, continued 2024, Νοέμβριος
Anonim

Μορφές αρχείων στηλών (παρκέ, RCFile )

Η πιο πρόσφατη hotness σε μορφές αρχείων για αποθήκευση αρχείων με ισοστήλη Hadoop. Βασικά αυτό σημαίνει ότι αντί να αποθηκεύετε απλώς σειρές δεδομένων παρακείμενες η μία στην άλλη, αποθηκεύετε επίσης τιμές στηλών η μία δίπλα στην άλλη. Έτσι, τα σύνολα δεδομένων κατανέμονται τόσο οριζόντια όσο και κάθετα.

Εκτός από αυτό, σε ποια μορφή χειρίζεται το Hadoop τα δεδομένα;

Υπάρχουν αρκετές Hadoop -συγκεκριμένο αρχείο μορφές που δημιουργήθηκαν ειδικά για να λειτουργούν καλά με το MapReduce. Αυτά τα Hadoop -συγκεκριμένο αρχείο μορφές περιλαμβάνει βασισμένο σε αρχείο δεδομένα δομές όπως αρχεία ακολουθίας, σειριοποίηση μορφές όπως Avro, και κιονοειδής μορφές όπως το RCFile και το Parquet.

Κάποιος μπορεί επίσης να ρωτήσει, τι είναι η μορφή αρχείου στηλών; Σειρά και Κιονοειδής Αποθήκευση για Κυψέλη. Το ORC είναι α κιονοειδής αποθήκευση μορφή χρησιμοποιείται στο Hadoop for Hivetables. Είναι ένα αποτελεσματικό μορφή αρχείου για την αποθήκευση δεδομένων στα οποία οι εγγραφές περιέχουν πολλές στήλες. Ένα παράδειγμα είναι τα δεδομένα Clickstream (ιστού) για ανάλυση δραστηριότητας και απόδοσης ιστότοπου.

Ομοίως, τίθεται το ερώτημα, τι είναι η μορφή αρχείου στο Hadoop;

Βασικός μορφές αρχείων είναι: Κείμενο μορφή , Κλειδί-Τιμή μορφή , Αλληλουχία μορφή . Αλλα μορφές που χρησιμοποιούνται και είναι πολύ γνωστά είναι: Avro, Parquet, RC ή Row-Columnar μορφή , ORC ή Optimized RowColumnar μορφή.

Γιατί χρησιμοποιούνται στηλώδεις μορφές αρχείων στην αποθήκευση δεδομένων;

ORC σειρές καταστημάτων δεδομένα σε σε μορφή στήλης Αυτή η σειρά- σε μορφή στήλης είναι εξαιρετικά αποδοτικό για συμπίεση και αποθήκευση . Επιτρέπει την παράλληλη επεξεργασία σε όλο το σύμπλεγμα και το σε μορφή στήλης επιτρέπει την παράκαμψη περιττών στηλών για ταχύτερη επεξεργασία και αποσυμπίεση.

Συνιστάται: