Zum Inhalt springen

Self-Service-Datenaufbereitung für Big Data in Power BI (Dataflows)

Schnelleinstieg in Power BI Dataflows

Lassen Sie mich einige Worte zu meiner Jump Start Blog Serie sagen. Diese “Jump Starts” Artikel sollen Ihnen einen kurzen und praktischen Überblick über die wichtigsten Themen von Power BI geben. Das bedeutet, dass ich nicht zu viel Text schreibe. Manchmal ist etwas Hintergrundwissen über die MS Data Platform im Allgemeinen erforderlich. Manchmal nicht, bitte hinterlasse einen Kommentar, wenn etwas unklar ist. Der Standpunkt in diesem Blog ist nie der einzelne Power BI Desktop als eine einzige Anwendung, sondern immer die gesamte Datenplattform einschließlich Azure Services. Also mehr aus strategischer Sicht. Der Inhalt wird entweder automatisch ins Englische oder Deutsche übersetzt.

Entmystifizierung von Power BI-Datenströmen…..

Power BI Datenströme sind nur “Power Query” im Web, aber…. ! KEY take away !

  • Die Daten werden in Azure Data Lake Gen 2 gespeichert, was sie auch für andere Dienste wie Databricks, Data Factory und weitere zugänglich macht
  • Laut Chris Webb können Sie Beziehungen zwischen den Datenflüssen (Entitäten) des Datensees festlegen (Beziehungen zwischen Entitäten im gemeinsamen Datenmodell definieren, um automatisch Beziehungen in Power BI zu erstellen). (Defining Relationships Between Entities In The Common Data Model To Automatically Create Relationships In Power BI
  • Sie können kognitive Dienste innerhalb der Datenströme wie Image Tagging und Textanalyse aufrufen. Nicht verfügbar für “pro”-Benutzer, soweit ich weiß
  • Sie können die Datenströme in das gemeinsame Datenmodell von Power Apps CDM integrieren bzw. zuweisen.
  • Kopieren und Einfügen Ihres Power Query Skripts aus Excel oder Power BI Desktop in die Dataflows, jedoch werden noch nicht alle Datenquellen unterstützt, aber laufend neue hinzugefügt. LINK
  • In Power BI Premium wird auch inkrementelles Laden unterstützt, aber es gibt bereits Workarounds für “Pro”-Benutzer
  • Ebenso sind verknüpfte und berechnete Entitäten nur in Premium verfügbar
  • Es ist weder Azure Data Factory (Dataflow) noch Microsoft Flow
  • Roadmap: Die Datenflüsse sind funktional äquivalent zu Power Query in Power BI Desktop

Einführung in Dataflows & Self-Service BI

  • Verwirrung: Power BI Dataflows Entities im Zweck ähnlich wie Tabellen im DWH / Data Mart
  • Aufgrund vieler Faktoren (einschließlich des zugrunde liegenden Speichers in Dateien in einem Data Lake) ist es jedoch im Allgemeinen nicht sinnvoll, Dataflows als Ersatz für ein Data Warehouse zu betrachten.
  • Dataflows ersetzen nicht Data Warehouses und ETL ebenso wenig wie Power BI Desktop die MS Data Plattform ersetzt. Dataflows ergänzen diese Profi-Tools und ermöglichen es Benutzern, die keine BI-Profis sind, mehr Lücken in einer BI-Lösung zu schließen.
  • BIG Data Plattformen wie Azure Data Lake Storage ermöglichen “moderne Data Warehouse”-Szenarien, die bisher nicht möglich waren, und machen sie immer zugänglicher. (Datenmenge, Hardware) Der Bedarf an “traditionellem” Kimball-ähnlichen Data Warehouse ist nicht zurückgegangen, und meiner Meinung nach wird er in naher Zukunft wahrscheinlich auch nicht verschwinden.
  • Die Synergie zwischen Power BI Dataflows und ADF (Azure Data Factory) (sowie anderen Azure-Datendiensten) wird durch CDM-Ordner in Azure Data Lake Storage gen2 ermöglicht.
  • Generell, es kommt auf das Gesamt Szenario, Kontext und Strategie an.
  • Der Hauptgrund, Power BI Dataflows über oder neben ein professionelles ETL-Tool wie Azure Data Factory, SSIS, Informatica oder Oracle ODI zu stellen ist der Benutzer. Ein Geschäftsanwender oder Analyst kann Power BI- Dataflows erzeugen, aber kein ETL Tool bedienen. Beide Welten bieten ähnliche Lösungen für ähnliche Herausforderungen.
  • Es wird Leute geben, die behaupten, dass Sie kein Data Warehouse benötigen, wenn Sie Dataflows haben – das ist falsch. Dies ist so falsch, wie zu sagen, dass Self-Service-BI nicht managen müssen.
  • Dataflows können Teil der Lösung sein, oder sie können Teil des Problems sein.
  • Andere Azure Dienste wie Azure ML, Databricks, Azure Data Factory können auf CDM Ordner zugreifen.

Datenfluss-Architektur

Power BI Dataflows Entitäten im Zweck wie Tabellen in einem DWH / Data Mart. Die Daten werden in einem Azure Data Lake Gen 2 Storage gespeichert. Dies ist das Hauptunterscheidungsmerkmal für die Power Query in Power BI Desktop.


Enterprise Data Lake / CDM Gemeinsames Datenmodell

Das Common Data Model kann von vielen anderen Diensten genutzt werden. Du kannst entscheiden, ob du es verwenden möchtest oder nicht. Die Klassifizierung und Zuordnung Ihrer Daten zum CDM kann viele Vorteile haben.




Erste Schlussfolgerung

  • Es braucht eine gesamtheitliche Daten Strategie im Unternehmen
  • Dataflows ersetzen kein Enterprise DWH und kein Master Datenmanagement Tool.
  • Sie müssen das richtige Werkzeug auswählen und es in der richtigen Weise implementieren. Sie müssen die Werkzeuge anhand Ihrer Anforderungen auf der Grundlage ihrer Fähigkeiten und nicht auf der Grundlage von Verkaufs- oder Marketing-Pitches bewerten.
  • Power BI Dataflow = Self Service ETL
  • Power BI Dataflows kann zum Dataprofiling verwendet werden
  • Stamm Daten die jeder im Unternehmen verwenden soll können zur Verfügung gestellt werden
  • Shared und certified datasets
    • Noch nicht released
    • Geht einen Schritt weiter als Datalows
    • Stellt «verknüpfte» Datenmodelle zur Verfügung
    • Dataflows eben nur eine «Tabelle»
  • Implementieren Sie Dataflows als Teil eines verwalteten und gesteuerten Self-Service-BI Konzeptes und schliessen Sie damit Lücken. Es macht keinen Sinn bestehende Enterprise Data Warehouse Umgebungen vollständig in einen flie basierten Data Lake zu laden.

Mögliche Einsatzszenarien

Szenario 1:

Vorhandenes Data Warehouse & Power BI

Wenn Sie bereits eine Datenmanagement-Architektur im Einsatz haben, dann haben Sie grundsätzlich 3 Optionen oder eine Kombination davon, um sich mit Ihrer bestehenden Datenlandschaft zu verbinden.

1.    Direkte Abfrage & Live-Verbindung mit SQL Server oder anderen Datenbanken wie Snowflake DWH, Teradata, SAP Hana, Analysis Services

2.    Import, über 80 Datenquellen

3.    Dual (Import & Direktabfrage)

Szenario 2:

Vorhandenes Data Warehouse + Self Service ETL

Wenn Sie Ihre organisatorischen Self-Service-BI-Funktionen erweitern und gleichzeitig verwalten möchten, was sehr wichtig ist, dann könnte dieses Szenario für Sie geeignet sein. Stellen Sie Datenströme aus Ihrem Data Warehouse oder anderen Anwendungen zur Wiederverwendung in mehreren Power BI-Datensätzen bereit. Wir können hier z.B. über eine Stammdatenzentrale sprechen, die alle wichtigen Stammdaten für Ihre Organisation bereitstellt, wie Kontenplan, Produktkatalog, Zeitdimension usw. Dasselbe können Sie für einige Faktendatensätze wie Verkaufs-, Prognose- oder Wetterdaten tun. Einfach auch zur mehrfachen Wiederverwendung in Power BI Datensätzen oder sogar anderen Datenflüssen. Legen Sie Benutzerzugriffsrechte fest, um diesen Teil Ihrer Architektur zu verwalten. Das Konzept Stammdatenzentrale habe ich erstmalig am 30. November 2018 im Webinar vorgestellt: https://dataviz.boutique/events/event/learning-webinar-power-bi-architecture/

 

Szenario 3:

Greenfield + Selbstbedienung ETL

 

Der Punkt ist hier, wenn Sie auf der grünen Wiese starten, sollten Sie nach Möglichkeit alles in der Cloud machen. Nimm deine “LEGO® Steine”, die du brauchst, von der Microsoft Data Platform. Alle arbeiten mehr oder weniger gut zusammen.

 

Demo-Datenströme

Wie bereits beschrieben, wenn Sie Stammdaten haben, die viele Abteilungen in Ihrer Organisation verwenden möchten, dann können Sie sich vorstellen, ihnen Power BI Datenströme für Ihre Endbenutzer zur Verfügung zu stellen, Sie können es einfach einen Master Data Hub nennen, der vielleicht aus verschiedenen Quellen stammt, wie Ihrem Enterprise Data Warehouse oder aus Ihrem Master Data Management Tool oder einer anderen Anwendung wie einem CRM.

Eine Stammdaten-Hub, der alle wichtigen Stammdaten für Ihr Unternehmen bereitstellt, wie Kontenplan, Produktkatalog, Zeitdimension usw.


Dasselbe können Sie für einige Faktendatensätze wie Verkaufs-, Prognose- oder Wetterdaten tun. Einfach auch zur mehrfachen Wiederverwendung in Power BI Datensätzen oder sogar anderen Datenflüssen. Legen Sie Benutzerzugriffsrechte fest, um diesen Teil Ihrer Architektur zu verwalten.


Linked Entities



Cognitive Services


Datenfluss-Sicherheit

Viele Ansätze sind möglich, einer könnte es sein:

1.    Erstellen eines Arbeitsbereichs für Stammdaten (Kontenplan, Entität, Zeit, Kostenstelle.)

2.    Erstellen Sie einen Arbeitsbereich für jeden Satz von Transaktionsdaten (HR, Finanzen, Produktion, etc.).

3.    Verknüpfung von Datenflüssen zur Vermeidung von Datenduplikaten

4.    Geben Sie dieser Benutzergruppe Lesezugriff, die Dataflows verwenden darf.

Fahrplan der Dataflows

Die Datenflüsse sind funktional äquivalent zu Power Query in Power BI Desktop.

Visits: 281