Πίνακας περιεχομένων:

Πώς χρησιμοποιείτε την όμορφη σούπα στην Python;
Πώς χρησιμοποιείτε την όμορφη σούπα στην Python;

Βίντεο: Πώς χρησιμοποιείτε την όμορφη σούπα στην Python;

Βίντεο: Πώς χρησιμοποιείτε την όμορφη σούπα στην Python;
Βίντεο: Blender Python Tutorial : An Introduction to Scripting [how to learn python for beginners] 2024, Νοέμβριος
Anonim

Εάν χρησιμοποιείτε μια πρόσφατη έκδοση του Debian ή του Ubuntu Linux, μπορείτε να εγκαταστήσετε το Beautiful Soup με τον διαχειριστή πακέτων συστήματος:

  1. $ apt-get εγκατάσταση Πύθων -bs4 (για Πύθων 2)
  2. $ apt-get εγκατάσταση python3-bs4 (για Πύθων 3)
  3. $ easy_install beautifulsoup4.
  4. $ pip εγκατάσταση beautifulsoup4.
  5. $ Πύθων εγκατάσταση setup.py.

Ομοίως, οι άνθρωποι ρωτούν, πώς φτιάχνετε μια όμορφη σούπα στην Python;

Χρησιμοποιώ όμορφη σούπα , πρέπει να το εγκαταστήσετε: $ pip install beautifulsoup4. Όμορφη σούπα βασίζεται επίσης σε έναν αναλυτή, η προεπιλογή είναι lxml. Μπορεί ήδη έχω αυτό, αλλά θα πρέπει να το ελέγξετε (ανοίξτε το IDLE και προσπαθήστε να εισαγάγετε το lxml). Εάν όχι, κάντε: $ pip install lxml ή $ apt- παίρνω εγκαθιστώ Πύθων -lxml.

Ομοίως, πώς εισάγετε την όμορφη σούπα; Να ξεκινήσω, εισαγωγή ο Όμορφη σούπα βιβλιοθήκη, ανοίξτε το αρχείο HTML και περάστε το σε Όμορφη σούπα και μετά εκτυπώστε το αρκετά » έκδοση στο τερματικό. Θα πρέπει να δείτε το παράθυρο του τερματικού σας να γεμίζει με μια ωραία εσοχή έκδοση του αρχικού κειμένου html (βλ. Εικόνα 3).

Ομοίως, ρωτάται, σε τι χρησιμοποιείται η όμορφη σούπα;

Όμορφη σούπα είναι ένα πακέτο Python για την ανάλυση εγγράφων HTML και XML (συμπεριλαμβανομένης της λανθασμένης σήμανσης, δηλ. μη κλειστών ετικετών, που ονομάζονται έτσι από την ετικέτα σούπα ). Δημιουργεί ένα δέντρο ανάλυσης για αναλυμένες σελίδες που μπορεί να είναι μεταχειρισμένος για εξαγωγή δεδομένων από HTML, που είναι χρήσιμο για την απόξεση ιστού.

Πώς μπορείτε να ξύσετε έναν ιστότοπο με Python και BeautifulSoup;

Πρώτα, πρέπει να εισαγάγουμε όλες τις βιβλιοθήκες που πρόκειται να χρησιμοποιήσουμε. Στη συνέχεια, δηλώστε μια μεταβλητή για το url της σελίδας. Στη συνέχεια, χρησιμοποιήστε το Πύθων urllib2 για να δηλωθεί η σελίδα HTML του url. Τέλος, αναλύστε τη σελίδα σε Όμορφη Σούπα μορφή ώστε να μπορούμε να χρησιμοποιήσουμε Όμορφη Σούπα να το δουλέψεις.

Συνιστάται: