Benutzer-Werkzeuge

Webseiten-Werkzeuge


support:beautifulsoup_installationsanleitung

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
support:beautifulsoup_installationsanleitung [2025/07/14 18:53] adminsupport:beautifulsoup_installationsanleitung [2025/08/10 19:42] (aktuell) admin
Zeile 1: Zeile 1:
-====== BeautifulSoup Installationsanleitung ====== +**<<** [[linux|]] 
-{{:support:beautifulsoup_banner.png?400|}}+====== BeautifulSoup Installationsanleitung und Scripte ====== 
 +{{:support:beautifulsoup_banner.png?400nolink|}}
 ===== BeautifulSoup installieren ===== ===== BeautifulSoup installieren =====
-@sudo apt-get install python3-bs4 \\ +   @sudo apt-get install python3-bs4 
-@sudo apt-get install python3-lxml \\ +   @sudo apt-get install python3-lxml 
-@sudo apt-get install python3-html5lib \\+   @sudo apt-get install python3-html5lib
 ===== BeautifulSoup Script Beispiele ===== ===== BeautifulSoup Script Beispiele =====
-Datei Beispielscript.py erstellen und Inhalt einfügen und speichern. Scrip wird dann folgendermaßen ausgeführt, in meinen Beispiel habe ich python3 auf mein System installiert: \\ +Datei Beispielscript.py erstellen und Inhalt einfügen und speichern. Scrip wird dann folgendermaßen ausgeführt, in meinen Beispiel habe ich python3 auf mein System installiert: 
-@python3 Beispielscript.py \\+@python3 Beispielscript.py
 ===== Alle Webseiten werden ausgelesen inkl. Inhalte und im Terminal angezeigt ===== ===== Alle Webseiten werden ausgelesen inkl. Inhalte und im Terminal angezeigt =====
  
    import requests    import requests
-from bs4 import BeautifulSoup +   from bs4 import BeautifulSoup 
-import time+   import time 
 +    
 +   def get_current_date(): 
 +       return time.strftime("%A, %B %d, %Y", time.localtime()) 
 +    
 +   def get_current_time(): 
 +       return f"The current time is {time.strftime('%H:%M %p', time.localtime())}" 
 +    
 +   def scrape_website(url): 
 +       response = requests.get(url) 
 +       soup = BeautifulSoup(response.text, 'html.parser'
 +        
 +       # Extract all text content from the website 
 +       text_content = " ".join([item.text for item in soup.find_all()]) 
 +        
 +       print("Extracted Text Content:\n", text_content) 
 +    
 +   if __name__ == "__main__": 
 +       start_date = get_current_date() 
 +       start_time = get_current_time() 
 +        
 +       print("Tool 'gettimedate/get_current_date' Output:\n", start_date) 
 +       print("Tool 'gettimedate/get_current_time' Output:\n", start_time) 
 +        
 +       # Specify the website URL to scrape 
 +       url = "https://www.beispielwebseite.com" 
 +       scrape_website(url)
  
-def get_current_date(): +===== Alle Webseiten werden ausgelesen inklInhalteim Terminal angezeigt und in Textdatei gespeichert=====
-    return time.strftime("%A%B %d, %Y", time.localtime())+
  
-def get_current_time(): +   import requests 
-    return f"The current time is {time.strftime('%H:%M %p', time.localtime())}"+   from bs4 import BeautifulSoup 
 +   import time 
 +    
 +   def get_current_date(): 
 +       return time.strftime("%A, %B %d, %Y", time.localtime()) 
 +    
 +   def get_current_time(): 
 +       return f"The current time is {time.strftime('%H:%M %p', time.localtime())}" 
 +    
 +   def scrape_website(url): 
 +       response = requests.get(url) 
 +       soup = BeautifulSoup(response.text, 'html.parser'
 +        
 +       # Extract all text content from the website 
 +       text_content = " ".join([item.text for item in soup.find_all()]) 
 +        
 +       print("Extracted Text Content:\n", text_content) 
 +        
 +       with open("www.beispielwebseite.com.txt", "w") as file: 
 +           file.write(text_content) 
 +    
 +   if __name__ == "__main__": 
 +       start_date = get_current_date() 
 +       start_time = get_current_time() 
 +        
 +       print("Tool 'gettimedate/get_current_date' Output:\n", start_date) 
 +       print("Tool 'gettimedate/get_current_time' Output:\n", start_time) 
 +        
 +       # Specify the website URL to scrape 
 +       url = "https://www.beispielwebseite.com" 
 +       scrape_website(url)
  
-def scrape_website(url): +===== Alle Webseite und Inhalte auslesen und in Textdatei speichern =====
-    response requests.get(url) +
-    soup BeautifulSoup(response.text, 'html.parser'+
-     +
-    # Extract all text content from the website +
-    text_content " ".join([item.text for item in soup.find_all()]) +
-     +
-    print("Extracted Text Content:\n", text_content)+
  
-if __name__ == "__main__": +   import requests 
-    start_date = get_current_date() +   from bs4 import BeautifulSoup 
-    start_time = get_current_time() +   import time 
-     +    
-    print("Tool 'gettimedate/get_current_date' Output:\n", start_date) +   def get_current_date(): 
-    print("Tool 'gettimedate/get_current_time' Output:\n", start_time) +       return time.strftime("%A, %B %d, %Y", time.localtime()) 
-     +    
-    # Specify the website URL to scrape +   def get_current_time(): 
-    url = "https://www.beispielwebseite.com" +       return f"The current time is {time.strftime('%H:%M %p', time.localtime())}" 
-    scrape_website(url)+    
 +   def scrape_website(url): 
 +       response = requests.get(url) 
 +       soup = BeautifulSoup(response.text, 'html.parser'
 +        
 +       # Extract all text content from the website 
 +       text_content = " ".join([item.text for item in soup.find_all()]) 
 +        
 +       with open("www.beispielwebseite.com.txt", "w") as file: 
 +           file.write(text_content) 
 +    
 +   if __name__ == "__main__": 
 +       start_date = get_current_date() 
 +       start_time = get_current_time() 
 +        
 +       print("Tool 'gettimedate/get_current_date' Output:\n", start_date) 
 +       print("Tool 'gettimedate/get_current_time' Output:\n", start_time) 
 +        
 +       # Specify the website URL to scrape 
 +       url = "https://www.beispielwebseite.com" 
 +       scrape_website(url)
  
-Alle Webseiten werden ausgelesen inkl. Inhalteim Terminal angezeigt und in Textdatei gespeichert. +===== Alle Webseiten und ausführlich Inhalte und im Terminal anzeigen. Wenn Sie nicht wollen im Terminal anzeigen zu lassen sondern nur in Datei schreiben dann setzen Sie # vor print(.. also so #print(.=====
-import requests +
-from bs4 import BeautifulSoup +
-import time+
  
-def get_current_date(): +   import requests 
-    return time.strftime("%A, %B %d%Y", time.localtime()+   from bs4 import BeautifulSoup 
- +   from urllib.parse import urljoin 
-def get_current_time(): +    
-    return f"The current time is {time.strftime('%H:%M %p', time.localtime())}" +   # Ersetzen Sie dies durch die URL der Webseitedie Sie scrapen möchten 
- +   url = 'https://www.beispielwebseite.com' 
-def scrape_website(url): +    
-    response = requests.get(url+   # Erstellen Sie eine Anfrage an die Webseite 
-    soup = BeautifulSoup(response.text, 'html.parser'+   response = requests.get(url
-     +    
-    Extract all text content from the website +   # Stellen Sie sicher, dass die Anfrage erfolgreich war 
-    text_content = " ".join([item.text for item in soup.find_all()]+   if response.status_code == 200: 
-     +       # Erzeugen Sie ein BeautifulSoup-Objekt 
-    print("Extracted Text Content:\n", text_content+       soup = BeautifulSoup(response.text, 'html.parser'
-     +        
-    with open("www.beispielwebseite.com.txt""w") as file: +       # Drucken Sie die URL der Hauptseite 
-        file.write(text_content) +       print(f"URL der Hauptseite: {url}"
- +    
-if __name__ == "__main__"+       # Finden Sie alle Links auf der Hauptseite 
-    start_date = get_current_date(+       for link in soup.find_all('a', href=True): 
-    start_time = get_current_time(+           # Erstellen Sie eine vollständige URL für jeden Link 
-     +           complete_url = urljoin(url, link['href']
-    print("Tool 'gettimedate/get_current_date' Output:\n", start_date+            
-    print("Tool 'gettimedate/get_current_time' Output:\n", start_time+           # Erstellen Sie eine Anfrage an jede Seite 
-     +           response = requests.get(complete_url
-    # Specify the website URL to scrape +    
-    url = "https://www.beispielwebseite.com" +           # Stellen Sie sicher, dass die Anfrage erfolgreich war 
-    scrape_website(url)+           if response.status_code == 200: 
 +               # Erzeugen Sie ein BeautifulSoup-Objekt für die Seite 
 +               soup_page = BeautifulSoup(response.text, 'html.parser'
 +                
 +               Drucken Sie die URL der Seite 
 +               print(f"URL der Seite: {complete_url}") 
 +    
 +               # Drucken Sie das gesamte HTML-Inhalt der Seite 
 +               print(soup_page.prettify()
 +               with open('output.txt''a', encoding='utf-8') as file: 
 +                   file.write(f"URL: {complete_url}\n") 
 +                   file.write(soup_page.prettify() + "\n\n") 
 +           else: 
 +               print(f"Fehler bei der Anfrage der Seite{response.status_code}") 
 +   else: 
 +       print(f"Fehler bei der Anfrage der Hauptseite{response.status_code}")
support/beautifulsoup_installationsanleitung.1752511986.txt.gz · Zuletzt geändert: von admin