Datenanalysen mit Python als Schlüssel zur digitalen Wettbewerbsfähigkeit

Warum eine tiefgreifende Katalogisierung und Auswertung von Unternehmensdaten nahezu unverzichtbar ist und welche Tools dafür am besten in Frage kommen, erklärt Gastautor Professor René Brunner.

Viele, aber noch längt nicht alle Unternehmen haben bereits den Wert hinter ihren Daten erkannt. Laut dem Digitalisierungsindex Mittelstand 2020/2021, einer von der Telekom seit 2016 jährlich durchgeführten Benchmark-Studie zum Grad der Digitalisierung deutscher Betriebe, führen mittlerweile 76 Prozent der deutschen Unternehmen regelmäßige Datenanalysen durch. 

Zu den am häufigsten analysierten Daten gehören allgemeine Geschäftsdaten wie Kunden-, Produkt-, Material- und Lieferantendaten sowie Daten zur Technik und Infrastruktur, welche von 6 von 10 Unternehmen regelmäßig ausgewertet werden. Rund die Hälfte der Unternehmen analysiert zudem Transaktionsdaten, darunter Daten aus Rechnungen, Lager- und Lieferscheinen. Logdaten aus IT-Systemen (36 Prozent), externe Daten (30 Prozent), Daten aus sozialen Netzwerken (26 Prozent) und Sensordaten (17 Prozent) werden bisher noch etwas seltener ausgewertet. Dies dürfte sich aber schnell ändern. Je nach Datenkategorie geben nämlich zusätzliche 19 bis 25 Prozent der Unternehmen an, diesen Daten zukünftig in ihre Analyse miteinbeziehen zu wollen. 

Datenauswertungen sparen Kosten und steigern die Effizienz 

Die Gründe für diese Entwicklung sind offensichtlich. Das Sammeln relevanter Daten, ihre Einordnung und Analyse ermöglichen es Unternehmen, den Geschäftsablauf auf verschiedene Arten zu optimieren. So geben Produktionszeiten und –mengen, die Nachfrage der Kunden und ihr Surfverhalten auf den unternehmenseigenen Webseiten und Online-Shops oder auch die Auslastung der eigenen Mitarbeiter wichtige Aufschlüsse, wie man den Betrieb effizienter gestalten kann. Anhand dieser Daten lassen sich dann Vorhersagen zum zukünftigen Geschäftsbetrieb treffen – vom Kaufverhalten der Kunden, über das benötigte Angebot bis hin zur optimalen Planung der Zusammenarbeit mit Zulieferern und Transporteuren. 

Dass sich diese Optimierungen bezahlt machen, belegt der Digitalisierungsindex. 74 Prozent der befragten Unternehmen, die Datenanalysen betreiben, konnten dadurch ihre Kosten senken, 73 Prozent haben ihren Umsatz gesteigert und 70 Prozent geben an, ihre Geschäftsprozesse verbessert zu haben. Zudem sind zwei von drei Unternehmen überzeugt davon, dass sie durch regelmäßige Datenanalysen ihre Wettbewerbsfähigkeit verbessern können. 

Tools zur Auswertung müssen vielseitig nutzbar sein ls 

So umfangreich wie die Möglichkeiten der Datenanalyse sind, so umfangreich ist auch das Angebot an Software und Programmen, um die Daten auszuwerten. Je nach Programm bieten sich dabei ganz unterschiedliche Anwendungsmöglichkeiten – von der einfachen Datenauswertung bis hin zur Visualisierung in Grafiken und Diagrammen, von allgemein zugänglichen Programmen bis hin zu spezifischen Programmiersprachen, die eine anschließende Weiterverarbeitung in Form von KI oder maschinellem Lernen ermöglichen. 

Eine Programmiersprache, die in diesem Zusammenhang besonders hervorsticht und sich immer größerer Beliebtheit erfreut, ist Python. Haben im Annual Developer Survey von Stack Overflow 2017 noch knapp 32 Prozent der Befragten angegeben, die Open-Source-Sprache zu nutzen, waren es bei der Umfrage im Jahr 2022 schon rund 48 Prozent. Hinzu kommt, dass Python sehr häufig von jungen Programmierern in der Ausbildung oder im Studium genutzt wird. Etwa 58 Prozent derjenigen, die das Programmieren lernen, nutzen Python. Dass die Sprache gefragt ist, zeigt sich auch im 2023 Workplace Learning Trends Report von Udemy, der Online-Plattform für Lernende und Lehrer. Laut dem Report ist Python bei Unternehmensmitarbeitern, die über Udemy Business lernen, die am häufigsten erlernte Programmiersprache und nach Amazon Web Services auch der am zweithäufigsten erlernte Skill im technischen Bereich. Der Anteil der Nutzer wird damit im Laufe der kommenden Jahre also noch weiter steigen, womit Python auf dem besten Weg ist, JavaScript als meistgenutzte Programmiersprache abzulösen. 

Was macht Python so  relevant für die Datenanalyse?

Vergleicht man Python mit anderen Programmiersprachen wie JavaScript oder R so bietet Python einen deutlich schnelleren Einstieg. Durch die einfache und verständliche Syntax sowie eine geringe Anzahl an Schlüsselwörtern ist es eine der am leichtesten zu erlernenden und zu verwendenden Programmiersprachen. Zudem ist es durch seine schwache Typisierung und flexible Umwandlung von Datentypen sehr anwenderfreundlich. 

Neben dem einfachen Einstieg überzeugt Python auch mit einer vielseitigen Anwendbarkeit. Dies ist vor allem der sehr umfangreichen Standardbibliothek von Paketen zu verdanken. Dank vorgefertigter Module kann Python viele verschiedene Arten von Operationen durchführen, von der Datenverarbeitung, Visualisierung und statistischen Analyse, über Webanwendungen und Automatisierung bis hin zum Einsatz von Modellen für maschinelles Lernen und künstliche Intelligenz. Hinzu kommt, dass diese Bibliothek kontinuierlich erweitert wird. Alleine in den vergangenen fünf bis zehn Jahren wurden zahlreiche Open Source Tools für Python veröffentlicht, welche seitdem stetig weiterentwickelt werden – beispielsweise Tensorflow und Pytorch für KI-Anwendungen, MLFlow und Aporia für MLOps, PySpark für Big Data oder Apache Airflow für Workflow und Pipeline Orchestration. 

Diese umfangreichen Einsatzmöglichkeiten und die einfach zu integrierenden Tools sind der Grund, warum Python für Data Analysis und Data Science mittlerweile alternativlos geworden ist. Das spiegelt sich auch in Umfragen zur Nutzung der Sprache wider. Laut dem Python Developers Survey 2021 der Python Software Foundation und JetBrains setzen über die Hälfte der Programmierer, welche Python als Hauptsprache nutzen, die Sprache zur Datenanalyse ein. Auf dem zweiten und dritten Platz folgen Webentwicklung (48 Prozent) und Machine Learning (37 Prozent). 

All dies zeichnet ein klares Bild von der Beliebtheit und dem breiten Anwendungsspektrum der Sprache. Unternehmen finden in Python somit ein vielseitig und leicht einsetzbares Werkzeug, mit dem sie ihre Daten auswerten, visualisieren als auch weiterverarbeiten und damit ihre Effizienz wie auch Wettbewerbsfähigkeit in einer immer stärker digitalisierten Welt steigern können. 

 

Prof. Dr. René Brunner

Dozent für Data Science an der Hochschule Macromedia und Kursleiter auf Udemy, der Online-Plattform für Lernende und Lehrer.