Τι είναι το RDD στη Scala;
Τι είναι το RDD στη Scala;
Anonim

Ανθεκτικά κατανεμημένα σύνολα δεδομένων ( RDD ) είναι μια θεμελιώδης δομή δεδομένων του Spark. Είναι μια αμετάβλητη κατανεμημένη συλλογή αντικειμένων. RDDs μπορεί να περιέχει οποιονδήποτε τύπο Python, Java ή Σκάλα αντικείμενα, συμπεριλαμβανομένων κλάσεων που ορίζονται από το χρήστη. Επίσημα, ένα RDD είναι μια συλλογή εγγραφών μόνο για ανάγνωση, χωρισμένη σε διαμερίσματα.

Επίσης το ερώτημα είναι, ποια είναι η διαφορά μεταξύ RDD και DataFrame;

RDD – RDD είναι μια κατανεμημένη συλλογή στοιχείων δεδομένων κατανεμημένων σε πολλές μηχανές στο σύμπλεγμα. RDDs είναι ένα σύνολο αντικειμένων Java ή Scala που αντιπροσωπεύουν δεδομένα. Πλαίσιο δεδομένων - ΕΝΑ Πλαίσιο δεδομένων είναι μια κατανεμημένη συλλογή δεδομένων οργανωμένη σε στήλες με όνομα. Είναι εννοιολογικά ίσο με έναν πίνακα σε ένα σχεσιακή βάση δεδομένων.

Επιπλέον, πώς κατανέμεται η RDD; Ελαστικός Διανέμονται Σύνολα δεδομένων ( RDDs ) Είναι α διανέμονται συλλογή αντικειμένων, τα οποία αποθηκεύονται στη μνήμη ή σε δίσκους διαφορετικών μηχανημάτων ενός συμπλέγματος. Ενα μονό RDD μπορούν να χωριστούν σε πολλαπλά λογικά διαμερίσματα, έτσι ώστε αυτά τα διαμερίσματα να μπορούν να αποθηκευτούν και να υποβληθούν σε επεξεργασία σε διαφορετικά μηχανήματα ενός συμπλέγματος.

πώς λειτουργεί το spark RDD;

RDDs σε Σπίθα έχουν συλλογή εγγραφών που περιέχουν κατατμήσεις. RDDs σε Σπίθα χωρίζονται σε μικρά λογικά κομμάτια δεδομένων - γνωστά ως partitions, όταν εκτελείται μια ενέργεια, μια εργασία θα ξεκινήσει ανά διαμέρισμα. Χωρίσματα σε RDDs είναι οι βασικές μονάδες του παραλληλισμού.

Ποιο είναι το πιο γρήγορο RDD ή DataFrame;

RDD - Κατά την εκτέλεση απλών λειτουργιών ομαδοποίησης και συνάθροισης RDD Το API είναι πιο αργό. Πλαίσιο δεδομένων - Κατά την εκτέλεση διερευνητικής ανάλυσης, τη δημιουργία συγκεντρωτικών στατιστικών στοιχείων, πλαίσια δεδομένων είναι γρηγορότερα . RDD - Όταν θέλετε μετασχηματισμό και ενέργειες χαμηλού επιπέδου, χρησιμοποιούμε RDDs . Επίσης, όταν χρειαζόμαστε αφαιρέσεις υψηλού επιπέδου χρησιμοποιούμε RDDs.

Συνιστάται: