Ποια είναι η μηχανή επεξεργασίας δεδομένων πίσω από το Amazon Elastic MapReduce;
Ποια είναι η μηχανή επεξεργασίας δεδομένων πίσω από το Amazon Elastic MapReduce;

Βίντεο: Ποια είναι η μηχανή επεξεργασίας δεδομένων πίσω από το Amazon Elastic MapReduce;

Βίντεο: Ποια είναι η μηχανή επεξεργασίας δεδομένων πίσω από το Amazon Elastic MapReduce;
Βίντεο: hadoop yarn architecture 2024, Νοέμβριος
Anonim

Amazon EMR χρησιμοποιεί το Apache Hadoop ως διανομή του μηχανή επεξεργασίας δεδομένων . Το Hadoop είναι ένα πλαίσιο λογισμικού ανοιχτού κώδικα Java που υποστηρίζει δεδομένα -εντατικές κατανεμημένες εφαρμογές που εκτελούνται σε μεγάλα συμπλέγματα του υλικό εμπορευμάτων.

Επιπλέον, τι είναι το Amazon Elastic MapReduce;

Amazon Elastic MapReduce ( EMR ) είναι ένα Υπηρεσίες Ιστού της Amazon ( AWS ) εργαλείο επεξεργασίας και ανάλυσης μεγάλων δεδομένων. Amazon EMR επεξεργάζεται μεγάλα δεδομένα σε ένα σύμπλεγμα εικονικών διακομιστών Hadoop Amazon Elastic Υπολογιστικό σύννεφο ( EC2 ) και Αμαζόνα Απλή υπηρεσία αποθήκευσης ( S3 ).

Επιπλέον, γίνεται η πλήρης διαχείριση του Amazon EMR; Είναι ένα πλήρως διαχείριση υπηρεσία λίμνης δεδομένων που μπορεί να αποσυνδέσει την αποθήκευση δεδομένων από υπολογιστικούς πόρους και αντ' αυτού καθιστά τα συμπλέγματα υπολογιστών επεκτάσιμα, διαθέσιμα για χρήση κατ' απαίτηση και περιλαμβάνει τη δυνατότητα πολλαπλών συστάδων να έχουν πρόσβαση στα ίδια σύνολα δεδομένων ταυτόχρονα.

Κάποιος μπορεί επίσης να ρωτήσει, πώς λειτουργεί το AWS EMR;

Γενικά, όταν επεξεργάζεστε δεδομένα σε Amazon EMR , η είσοδος είναι δεδομένα που αποθηκεύονται ως αρχεία στο επιλεγμένο υποκείμενο σύστημα αρχείων, όπως π.χ Αμαζόνα S3 ή HDFS. Αυτά τα δεδομένα περνούν από το ένα βήμα στο επόμενο στην ακολουθία επεξεργασίας. Το τελευταίο βήμα εγγράφει τα δεδομένα εξόδου σε μια καθορισμένη θέση, όπως ένα Αμαζόνα Κάδος S3.

Ποια είναι η διαφορά μεταξύ ec2 και EMR;

Διαφορετικός EMR , EC2 δεν κατηγοριοποιεί τους slave κόμβους σε κόμβους πυρήνα και task. Αυτό αυξάνει τον κίνδυνο απώλειας δεδομένων HDFS σε περίπτωση που αφαιρεθεί/χαθεί ένας κόμβος. EC2 χρησιμοποιεί βιβλιοθήκες Apache (s3a) για πρόσβαση σε δεδομένα στο s3. Αφ 'ετέρου, EMR χρησιμοποιεί ιδιόκτητο κώδικα AWS για να έχει ταχύτερη πρόσβαση στο s3.

Συνιστάται: