Πίνακας περιεχομένων:

Ποιες είναι οι διαφορετικές μορφές αρχείων στο Hadoop;
Ποιες είναι οι διαφορετικές μορφές αρχείων στο Hadoop;

Βίντεο: Ποιες είναι οι διαφορετικές μορφές αρχείων στο Hadoop;

Βίντεο: Ποιες είναι οι διαφορετικές μορφές αρχείων στο Hadoop;
Βίντεο: Hadoop Processing Frameworks 2024, Δεκέμβριος
Anonim

Ευτυχώς για εσάς, η κοινότητα των μεγάλων δεδομένων έχει βασικά εγκατασταθεί σε τρεις βελτιστοποιημένες μορφές αρχείων για χρήση σε Hadoop clusters: Optimized Row Columnar (ORC), Avro και Parquet.

Στη συνέχεια, μπορεί κανείς επίσης να αναρωτηθεί, ποιοι είναι οι διαφορετικοί τύποι μορφών δεδομένων;

Υπάρχουν τρία τύπους δεδομένων χαρτογράφηση και GIS μορφές δεδομένων . Καθε τύπος αντιμετωπίζεται διαφορετικά.

Τύποι μορφής δεδομένων

  • Βάσει αρχείων- Shapefiles, Αρχεία σχεδίασης Microstation (DGN), εικόνες GeoTIFF.
  • Βάσει καταλόγου - ESRI ArcInfo Coverages, US Census TIGER.
  • Συνδέσεις βάσεων δεδομένων - PostGIS, ESRI ArcSDE, MySQL.

Επιπλέον, ποια μορφή αρχείου είναι η καλύτερη στο hive; Το RCFile είναι σειρών στηλών μορφή αρχείου . Αυτή είναι μια άλλη μορφή Μορφή αρχείου Hive που προσφέρει υψηλούς ρυθμούς συμπίεσης σε επίπεδο σειράς. Εάν έχετε την απαίτηση να εκτελέσετε πολλές σειρές κάθε φορά, μπορείτε να χρησιμοποιήσετε το RCFile μορφή.

Έχοντας αυτό υπόψη, ποιες είναι οι κοινές μορφές εισόδου στο Hadoop;

Το InputFormat δημιουργεί Inputsplit

  • Τα πιο συνηθισμένα InputFormat είναι:
  • FileInputFormat- Είναι η βασική κλάση για όλα τα αρχεία InputFormat που βασίζονται σε αρχείο.
  • TextInputFormat- Είναι το προεπιλεγμένο InputFormat τουMapReduce.
  • KeyValueTextInputFormat- Είναι παρόμοιο με το TextInputFormat.
  • Ακολουθήστε τον σύνδεσμο για να μάθετε περισσότερα σχετικά με το InputFormat στο Hadoop.

Τι είναι η μορφή αρχείου orc στο Hadoop;

Μορφή αρχείου ORC Η στήλη βελτιστοποιημένης σειράς ( ORC ) μορφή αρχείου παρέχει έναν εξαιρετικά αποτελεσματικό τρόπο αποθήκευσης δεδομένων Hive. Σχεδιάστηκε για να ξεπερνά τους περιορισμούς της άλλης Κυψέλης μορφές αρχείων . Χρησιμοποιώντας Αρχεία ORC βελτιώνει την απόδοση όταν ο Hiveis διαβάζει, γράφει και επεξεργάζεται δεδομένα.

Συνιστάται: