Μπορεί το Spark να διαβάσει τοπικά αρχεία;
Μπορεί το Spark να διαβάσει τοπικά αρχεία;

Βίντεο: Μπορεί το Spark να διαβάσει τοπικά αρχεία;

Βίντεο: Μπορεί το Spark να διαβάσει τοπικά αρχεία;
Βίντεο: Το πλήρες επόμενο μάθημα js - Μάθετε Nextjs σε 2 ώρες! | React SSR + timecodes 2024, Ενδέχεται
Anonim

Ενώ Σπίθα υποστηρίζει τη φόρτωση αρχεία από το τοπικός σύστημα αρχείων, απαιτεί ότι το αρχεία είναι διαθέσιμα στην ίδια διαδρομή σε όλους τους κόμβους στο σύμπλεγμα σας. Ορισμένα συστήματα αρχείων δικτύου, όπως το NFS, το AFS και το επίπεδο NFS του MapR, εκτίθενται στο χρήστη ως κανονικό σύστημα αρχείων.

Στη συνέχεια, μπορεί κανείς να ρωτήσει, πώς μπορώ να εκτελέσω το spark σε τοπική λειτουργία;

Σε τοπική λειτουργία , σπίθα θέσεις εργασίας τρέξιμο σε ένα μόνο μηχάνημα και εκτελούνται παράλληλα με χρήση πολλαπλών νημάτων: αυτό περιορίζει τον παραλληλισμό στον (το πολύ) αριθμό των πυρήνων στο μηχάνημά σας. Προς το τρέξιμο θέσεις εργασίας σε τοπική λειτουργία , πρέπει πρώτα να κάνετε κράτηση ενός μηχανήματος μέσω του SLURM σε διαδραστική τρόπος και συνδεθείτε σε αυτό.

Εκτός από τα παραπάνω, τι είναι το SC textFile; αρχείο κειμένου είναι μια μέθοδος μιας οργ. απάχης. SparkContext τάξη που διαβάζει α αρχείο κειμένου από το HDFS, ένα τοπικό σύστημα αρχείων (διαθέσιμο σε όλους τους κόμβους) ή οποιοδήποτε URI συστήματος αρχείων που υποστηρίζεται από το Hadoop και επιστρέψτε το ως RDD συμβολοσειρών.

Από αυτή την άποψη, τι είναι ένα αρχείο spark;

ο Αρχείο Spark είναι ένα έγγραφο όπου κρατάς όλη τη δημιουργική σου καλοσύνη. Ορίστηκε από τον συγγραφέα Stephen Johnson. Έτσι, αντί να ξύνετε σημειώσεις σε ένα Post-it® στη μέση της νύχτας ή να αφιερώνετε διαφορετικά ημερολόγια για ιδέες, βάζετε όλες τις ιδέες σας σε ένα αρχείο.

Τι είναι η παράλληλη σπίθα συλλογής;

Αργότερα περιγράφουμε λειτουργίες σε κατανεμημένα σύνολα δεδομένων. Παραλληλισμένες συλλογές δημιουργούνται καλώντας τα JavaSparkContext παραλληλίζω μέθοδος σε μια υπάρχουσα Συλλογή στο πρόγραμμα οδήγησης σας. Τα στοιχεία του συλλογή αντιγράφονται για να σχηματίσουν ένα κατανεμημένο σύνολο δεδομένων που μπορεί να λειτουργήσει παράλληλα.

Συνιστάται: