Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- support:beautifulsoup_installationsanleitung [2025/07/14 18:53] – admin
+++ support:beautifulsoup_installationsanleitung [2025/08/10 19:42] (aktuell) – admin
@@ Zeile 1: / Zeile 1: @@
-====== BeautifulSoup Installationsanleitung ======
+**<<** [[linux|]]
-{{:support:beautifulsoup_banner.png?400|}}
+====== BeautifulSoup Installationsanleitung und Scripte ======
+{{:support:beautifulsoup_banner.png?400nolink|}}
 ===== BeautifulSoup installieren =====
-@sudo apt-get install python3-bs4 \\
+   @sudo apt-get install python3-bs4
-@sudo apt-get install python3-lxml \\
+   @sudo apt-get install python3-lxml
-@sudo apt-get install python3-html5lib \\
+   @sudo apt-get install python3-html5lib
 ===== BeautifulSoup Script Beispiele =====
-Datei Beispielscript.py erstellen und Inhalt einfügen und speichern. Scrip wird dann folgendermaßen ausgeführt, in meinen Beispiel habe ich python3 auf mein System installiert: \\
+Datei Beispielscript.py erstellen und Inhalt einfügen und speichern. Scrip wird dann folgendermaßen ausgeführt, in meinen Beispiel habe ich python3 auf mein System installiert:
-@python3 Beispielscript.py \\
+@python3 Beispielscript.py
 ===== Alle Webseiten werden ausgelesen inkl. Inhalte und im Terminal angezeigt =====
    import requests
-from bs4 import BeautifulSoup
+   from bs4 import BeautifulSoup
-import time
+   import time
+   def get_current_date():
+       return time.strftime("%A, %B %d, %Y", time.localtime())
+   def get_current_time():
+       return f"The current time is {time.strftime('%H:%M %p', time.localtime())}"
+   def scrape_website(url):
+       response = requests.get(url)
+       soup = BeautifulSoup(response.text, 'html.parser')
+       # Extract all text content from the website
+       text_content = " ".join([item.text for item in soup.find_all()])
+       print("Extracted Text Content:\n", text_content)
+   if __name__ == "__main__":
+       start_date = get_current_date()
+       start_time = get_current_time()
+       print("Tool 'gettimedate/get_current_date' Output:\n", start_date)
+       print("Tool 'gettimedate/get_current_time' Output:\n", start_time)
+       # Specify the website URL to scrape
+       url = "https://www.beispielwebseite.com"
+       scrape_website(url)
-def get_current_date():
+===== Alle Webseiten werden ausgelesen inkl. Inhalte, im Terminal angezeigt und in Textdatei gespeichert. =====
-    return time.strftime("%A, %B %d, %Y", time.localtime())
-def get_current_time():
+   import requests
-    return f"The current time is {time.strftime('%H:%M %p', time.localtime())}"
+   from bs4 import BeautifulSoup
+   import time
+   def get_current_date():
+       return time.strftime("%A, %B %d, %Y", time.localtime())
+   def get_current_time():
+       return f"The current time is {time.strftime('%H:%M %p', time.localtime())}"
+   def scrape_website(url):
+       response = requests.get(url)
+       soup = BeautifulSoup(response.text, 'html.parser')
+       # Extract all text content from the website
+       text_content = " ".join([item.text for item in soup.find_all()])
+       print("Extracted Text Content:\n", text_content)
+       with open("www.beispielwebseite.com.txt", "w") as file:
+           file.write(text_content)
+   if __name__ == "__main__":
+       start_date = get_current_date()
+       start_time = get_current_time()
+       print("Tool 'gettimedate/get_current_date' Output:\n", start_date)
+       print("Tool 'gettimedate/get_current_time' Output:\n", start_time)
+       # Specify the website URL to scrape
+       url = "https://www.beispielwebseite.com"
+       scrape_website(url)
-def scrape_website(url):
+===== Alle Webseite und Inhalte auslesen und in Textdatei speichern =====
-    response = requests.get(url)
-    soup = BeautifulSoup(response.text, 'html.parser')
-    # Extract all text content from the website
-    text_content = " ".join([item.text for item in soup.find_all()])
-    print("Extracted Text Content:\n", text_content)
-if __name__ == "__main__":
+   import requests
-    start_date = get_current_date()
+   from bs4 import BeautifulSoup
-    start_time = get_current_time()
+   import time
-    print("Tool 'gettimedate/get_current_date' Output:\n", start_date)
+   def get_current_date():
-    print("Tool 'gettimedate/get_current_time' Output:\n", start_time)
+       return time.strftime("%A, %B %d, %Y", time.localtime())
-    # Specify the website URL to scrape
+   def get_current_time():
-    url = "https://www.beispielwebseite.com"
+       return f"The current time is {time.strftime('%H:%M %p', time.localtime())}"
-    scrape_website(url)
+   def scrape_website(url):
+       response = requests.get(url)
+       soup = BeautifulSoup(response.text, 'html.parser')
+       # Extract all text content from the website
+       text_content = " ".join([item.text for item in soup.find_all()])
+       with open("www.beispielwebseite.com.txt", "w") as file:
+           file.write(text_content)
+   if __name__ == "__main__":
+       start_date = get_current_date()
+       start_time = get_current_time()
+       print("Tool 'gettimedate/get_current_date' Output:\n", start_date)
+       print("Tool 'gettimedate/get_current_time' Output:\n", start_time)
+       # Specify the website URL to scrape
+       url = "https://www.beispielwebseite.com"
+       scrape_website(url)
-Alle Webseiten werden ausgelesen inkl. Inhalte, im Terminal angezeigt und in Textdatei gespeichert.
+===== Alle Webseiten und ausführlich Inhalte und im Terminal anzeigen. Wenn Sie nicht wollen im Terminal anzeigen zu lassen sondern nur in Datei schreiben dann setzen Sie # vor print(.. also so #print(.. =====
-import requests
-from bs4 import BeautifulSoup
-import time
-def get_current_date():
+   import requests
-    return time.strftime("%A, %B %d, %Y", time.localtime())
+   from bs4 import BeautifulSoup
+   from urllib.parse import urljoin
-def get_current_time():
-    return f"The current time is {time.strftime('%H:%M %p', time.localtime())}"
+   # Ersetzen Sie dies durch die URL der Webseite, die Sie scrapen möchten
+   url = 'https://www.beispielwebseite.com'
-def scrape_website(url):
-    response = requests.get(url)
+   # Erstellen Sie eine Anfrage an die Webseite
-    soup = BeautifulSoup(response.text, 'html.parser')
+   response = requests.get(url)
-    # Extract all text content from the website
+   # Stellen Sie sicher, dass die Anfrage erfolgreich war
-    text_content = " ".join([item.text for item in soup.find_all()])
+   if response.status_code == 200:
+       # Erzeugen Sie ein BeautifulSoup-Objekt
-    print("Extracted Text Content:\n", text_content)
+       soup = BeautifulSoup(response.text, 'html.parser')
-    with open("www.beispielwebseite.com.txt", "w") as file:
+       # Drucken Sie die URL der Hauptseite
-        file.write(text_content)
+       print(f"URL der Hauptseite: {url}")
-if __name__ == "__main__":
+       # Finden Sie alle Links auf der Hauptseite
-    start_date = get_current_date()
+       for link in soup.find_all('a', href=True):
-    start_time = get_current_time()
+           # Erstellen Sie eine vollständige URL für jeden Link
+           complete_url = urljoin(url, link['href'])
-    print("Tool 'gettimedate/get_current_date' Output:\n", start_date)
-    print("Tool 'gettimedate/get_current_time' Output:\n", start_time)
+           # Erstellen Sie eine Anfrage an jede Seite
+           response = requests.get(complete_url)
-    # Specify the website URL to scrape
-    url = "https://www.beispielwebseite.com"
+           # Stellen Sie sicher, dass die Anfrage erfolgreich war
-    scrape_website(url)
+           if response.status_code == 200:
+               # Erzeugen Sie ein BeautifulSoup-Objekt für die Seite
+               soup_page = BeautifulSoup(response.text, 'html.parser')
+               # Drucken Sie die URL der Seite
+               print(f"URL der Seite: {complete_url}")
+               # Drucken Sie das gesamte HTML-Inhalt der Seite
+               print(soup_page.prettify())
+               with open('output.txt', 'a', encoding='utf-8') as file:
+                   file.write(f"URL: {complete_url}\n")
+                   file.write(soup_page.prettify() + "\n\n")
+           else:
+               print(f"Fehler bei der Anfrage der Seite: {response.status_code}")
+   else:
+       print(f"Fehler bei der Anfrage der Hauptseite: {response.status_code}")