Πίνακας περιεχομένων:

Πώς μπορώ να δημιουργήσω ένα PySpark DataFrame από μια λίστα;
Πώς μπορώ να δημιουργήσω ένα PySpark DataFrame από μια λίστα;

Βίντεο: Πώς μπορώ να δημιουργήσω ένα PySpark DataFrame από μια λίστα;

Βίντεο: Πώς μπορώ να δημιουργήσω ένα PySpark DataFrame από μια λίστα;
Βίντεο: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Νοέμβριος
Anonim

Ακολουθώ αυτά τα βήματα για τη δημιουργία ενός DataFrame από λίστα πλειάδων:

  1. Δημιουργώ ένα λίστα από πλειάδες. Κάθε πλειάδα περιέχει το όνομα ενός ατόμου με ηλικία.
  2. Δημιουργώ ένα RDD από το λίστα πάνω από.
  3. Μετατρέπω κάθε πλειάδα σε μια σειρά.
  4. Δημιουργώ ένα Πλαίσιο δεδομένων εφαρμόζοντας το createDataFrame σε RDD με τη βοήθεια του sqlContext.

Έχοντας αυτό υπόψη, πώς μετατρέπετε ένα DataFrame σε λίστα στην Python;

  1. Βήμα 1: Μετατρέψτε το Dataframe σε έναν ένθετο πίνακα Numpy χρησιμοποιώντας DataFrame.to_numpy() π.χ.
  2. Βήμα 2: Μετατρέψτε τον πίνακα 2D Numpy σε μια λίστα λιστών.
  3. Βήμα 1: Μεταφέρετε το πλαίσιο δεδομένων για να μετατρέψετε σειρές σε στήλες και στήλες ως σειρές.
  4. Βήμα 2: Μετατρέψτε το Dataframe σε ένθετο πίνακα Numpy χρησιμοποιώντας DataFrame.to_numpy()

Επιπλέον, τι είναι το Spark DataFrame; ΕΝΑ Spark DataFrame είναι μια κατανεμημένη συλλογή δεδομένων οργανωμένη σε στήλες με όνομα που παρέχει λειτουργίες για φιλτράρισμα, ομαδοποίηση ή υπολογισμό συγκεντρωτικών στοιχείων και μπορεί να χρησιμοποιηθεί με Σπίθα SQL. DataFrames μπορεί να κατασκευαστεί από δομημένα αρχεία δεδομένων, υπάρχοντα RDD, πίνακες στο Hive ή εξωτερικές βάσεις δεδομένων.

Γνωρίζετε επίσης, τι είναι το PySpark SQL;

Spark SQL είναι ένα Σπίθα μονάδα για δομημένη επεξεργασία δεδομένων. Παρέχει μια αφαίρεση προγραμματισμού που ονομάζεται DataFrames και μπορεί επίσης να λειτουργήσει ως κατανεμημένη SQL μηχανή αναζήτησης. Επιτρέπει τα μη τροποποιημένα ερωτήματα Hadoop Hive να εκτελούνται έως και 100 φορές πιο γρήγορα σε υπάρχουσες αναπτύξεις και δεδομένα.

Είναι αμετάβλητα τα Spark DataFrames;

Σε Σπίθα δεν μπορείς - DataFrames είναι αμετάβλητος . Θα πρέπει να χρησιμοποιήσετε.

Συνιστάται: