Microsoft Fabric まとめ(2024年5月末時点)
DP-600に合格したはいいが依然として意味不明
来期も更新するために継続的に動向を追う
ついでにMicrosoftのSaaS/PaaS/IaaSの名前も復習する
前提知識
従来からMicrosoftはデータ分析に使えそうなサービスをいろいろ提供していたが、PaaS/IaaSなので気軽さがなかった
それらを統合してSaaSとして提供することで、データ分析導入のハードルを下げた、このSaaSの名前がFabric
(ついでにCopilotも付ける)
従来から提供されているサービス例
・データガバナンス:Microsoft Purview
・データレイク:Azure Data Lake Storage Gen2
・ETL:Azure Data Factory
・DWH: Azure Syanapse Analytics
・BI:Microsoft Power BI(SaaS)
↓
Fabric上のワークロード名
・データガバナンス(データカタログ&監査):Purviewと連携
・データレイク:OneLake
・小規模なデータ変換(ETL):Data Factory
・大規模なデータ変換(Spark環境):Synapse Data Engineering
・機械学習:Synapse Data Science
・DWH(SQL):Synapse Data Warehouse
・ストリーミングデータ処理:Synapse Real-Time Analytics
・BI:Power BI
・アクション自動実行:Data Activator
各ワークロード
Purview
・OneLakeに読み込めば、データカタログと監査の機能が適用され、自動的にデータガバナンスを向上させる仕組みができる
OneLake
・Delta-Parquet形式でデータを格納するオブジェクトストレージ(Azure Data Lake Storage Gen2がベース)
・組織全体で統合された単一のデータ置き場(個人にとっての単一のデータ置き場であるOneDriveに因んだネーミング)
・ショートカット(リンクによるアクセス)またはミラーリング(複製)により、データソースからデータをOneLakeに取り込む
ショートカットが対応しているデータソース:主にオブジェクトストレージ
・Azure Data Lake Storage Gen2
・Microsoft Dataverse
・Amazon S3
・Google Storage
ミラーリングが対応しているデータソース:主にデータベース(NoSQL系を含む)
・Azure SQL Database
・Azure CosmosDB
・Mongo DB
・Snowflake
Data Factory
・小規模なデータ変換(ETL)
・Dataflow Gen2
Synapse Data Engineering
・大規模なデータ変換(Spark環境)
・Spark Notebookを使って大規模な処理を記述できる
Synapse Data Science
・機械学習パイプライン(前処理、モデル作成、モデル管理)
Synapse Data Warehouse
・DWH、つまりSQLで分析可能なリレーショナルデータベース
・OneLake上で管理されるParquetファイルに対して、SQL APIを発行して分析を行うという仕組み
Synapse Real-Time Analytics
・ストリーミングデータ処理
・IoTデバイスなどから生成されるリアルタイムデータを分析できる
Power BI
・ストレージモードとして、DirectLakeモードが追加された(インポートモードとDirectQueryモードのいいとこどり)
・セマンティックモデルがGitリポジトリ(Azure DevOps)でバージョン管理可能になった
Data Activator
・ルールベースでデータ上のイベントを検知し、自動でアクションを実行させる
・検知対象は、PowerBIセマンティックモデル、SRTAイベントストリーム
未解決な疑問
・Microsoft Dataverseとの連携
https://qiita.com/wangdn_0112/items/e1ef8ec4c96f9cb350a4
https://learn.microsoft.com/ja-jp/power-apps/maker/data-platform/azure-synapse-link-view-in-fabric
・Microsoft Dynamics 365との連携
・KQL