pgmpy

pgmpy ist ein Open-Source-Python-Paket für kausale Inferenz und probabilistische Inferenz auf Basis von Directed Acyclic Graphs (DAGs) und Bayes’schen Netzen. Die Bibliothek bietet ein modulares und erweiterbares Framework zur Modellierung, zum Lernen und zur Inferenz unter Unsicherheit.

pgmpy wird sowohl in der Forschung als auch in der Praxis eingesetzt und stellt eine umfangreiche Sammlung von Algorithmen für Strukturlernen, Parameterschätzung, Inferenz, Simulation und kausale Analyse bereit.

Zielsetzung

Der Umgang mit Unsicherheit und Kausalität ist eine zentrale Herausforderung in vielen wissenschaftlichen und industriellen Anwendungsfeldern. pgmpy adressiert diese Herausforderung durch ein einheitliches Toolkit zur Erstellung probabilistischer grafischer Modelle, deren Lernen aus Daten sowie zur probabilistischen und kausalen Inferenz.

Das Design legt besonderen Wert auf Klarheit, Modularität und Erweiterbarkeit und eignet sich damit für Experimente, Lehre und reproduzierbare Forschungsworkflows.

Zentrale Fähigkeiten

Modellierung von Bayes’schen Netzen und DAGs
Kausale Entdeckung und Strukturlernen
Parameterschätzung aus Daten
Exakte und approximative probabilistische Inferenz
Kausale Inferenz mittels Interventionen
Simulation probabilistischer Modelle

Unterstützte Datentypen

Kategoriale Daten

Vollständig unterstützt für kausale Entdeckung, Parameterschätzung, probabilistische Inferenz, kausale Inferenz und Simulation.

Kontinuierliche Daten

Unterstützt für Strukturlernen, Parameterschätzung, probabilistische Inferenz und Simulation, mit teilweiser Unterstützung für kausale Inferenz.

Gemischte Daten

Unterstützt für kausale Entdeckung und Simulation.

Zeitreihendaten

Unterstützt für Parameterschätzung, probabilistische Inferenz, approximative kausale Inferenz und Simulation.

Algorithmen

Kausale Entdeckung und Strukturlernen

pgmpy stellt zahlreiche Algorithmen zur Verfügung, um Graphstrukturen aus Daten zu lernen, darunter:

PC-Algorithmus und Varianten
Greedy Equivalence Search (GES)
Hill-Climb Search
Max-Min Hill-Climb
Baum-basierte Suchverfahren
Exhaustive Search
Expert-in-the-Loop-Workflows

Parameterschätzung

Zur Schätzung der Modellparameter stehen etablierte statistische Verfahren zur Verfügung, darunter:

Maximum-Likelihood-Schätzung
Bayes’sche Schätzung
Expectation Maximization (EM)

Probabilistische Inferenz

Es werden sowohl exakte als auch approximative Inferenzverfahren unterstützt, unter anderem:

Variable Elimination
Belief Propagation
Message Passing Linear Programming (MPLP)
Sampling-basierte Inferenzmethoden

Kausale Inferenz

pgmpy ermöglicht kausales Schließen durch:

Do-Kalkül und Do-Operationen
Identifikation von Adjustierungs-Sets
Schätzung von Interventionseffekten

Workflows und Nutzung

pgmpy unterstützt vollständige Workflows von der Datenaufnahme und Modelldefinition bis hin zu Inferenz, Simulation und Evaluation. Modelle können programmatisch definiert, Parameter aus Beobachtungsdaten gelernt und probabilistische oder kausale Abfragen innerhalb desselben Frameworks durchgeführt werden.

Die Bibliothek stellt umfangreiche Beispiel- und Tutorial-Notebooks zur Verfügung, um den Einstieg und die Vertiefung zu erleichtern.

Wissenschaftliche Relevanz

pgmpy ist wissenschaftlich fundiert und im Journal of Machine Learning Research veröffentlicht. Die Bibliothek wird in der Forschung zu kausalem Schließen, probabilistischer Modellierung und grafischen Modellen breit eingesetzt und zitiert.

Open Source

pgmpy ist freie Open-Source-Software und wird transparent auf GitHub entwickelt. Das Projekt ist aktiv gepflegt, getestet und benchmarked und wird von einer internationalen Community aus Forschung und Praxis getragen.

GC.OS unterstützt pgmpy als zentrales Open-Source-Projekt für transparente, reproduzierbare und wissenschaftlich fundierte kausale KI.