
データエンジニアってどうやって発展してきたの?
「データエンジニアリングの基礎」読んでますか?
私はツェッテルカステンでコーネルメソッドなメモを取りながらの読書なので遅々として進みません😊
ところで今まで色々と技術系の「今日の技術」を書いてきましたが、データエンジニアの歴史は全然知らないなーと思い、「データエンジニアリングの基礎」の1.1.3「データエンジニアの発展」を自分の言葉で訳してみました。
データエンジニアリングの将来を語る上で欠かせない言葉は「古いものが新しくなってまた現れる」です。
では行きましょう。
黎明期:1980年から2000年ごろ、データウェアハウスからWebへ
1970年代にデータウェアハウス登場
1980年代にはビジネスデータウェアハウスが登場する
1989年にBill Inmonが「データウェアハウス」という言葉を使い始める
その後SQLが普及したりBIツールが登場したりする
複数プロセッサで大量のデータを処理する超並列処理(MPP)の時代が到来した
この分野は今でもデータエンジニアリングの中心である
1990年代半ばにインターネットが主流となり、Webアプリケーションとバックエンドシステム(サーバ、データベース、ストレージ)が活況となる
この頃のインフラは高価でモノリシックでライセンスに縛られていた
2000年代初頭:現代的なデータエンジニアリングの誕生
ドットコムブームの生き残りがYahooやGoogle、Amazonなどの会社に成長した
これら新世代の会社はモノリスに限界を感じ、費用対効果、スケーラビリティ、可用性、信頼性を求めて大規模なコンピューティングクラスタでの分散計算とデータ蓄積が始まった
ビッグデータの時代が始まったともいえる
GoogleがMapReduceに関する論文を発表すると、それに触発されたYahooのエンジニアたちはApache Hadoopを開発した
各社が抱えるデータはテラバイト、ペタバイトへと拡大していった
この頃AmazonはEC2、S3、DynamoDBなどのサービスを擁してAWSを提供し始め、開発者は従量課金でAWSからコンピュートとストレージをレンタルできるようになった
この動きにGoogleやMicrosoftなども追従し、パブリッククラウドは21世紀のもっとも重要なイノベーションの1つとなった
2000年代と2010年代:ビッグデータエンジニアリング
Hadoopエコシステムが成熟し、あらゆる企業が最先端のデータツールを使えるようになった
またバッチだけでなくリアルタイムにビッグデータを処理できる時代になった
GUIでのデータ操作は終わりを告げ、Hadoopエコシステム周辺の開発と低レベルインフラのハックを始めた
やがて小さなデータにさえビッグデータように環境を用いるような異常な事態となった
ビッグデータの管理に忙殺されてそれがどんな価値を生むといった議論はできずにいた
今日ではビッグデータはもはや当たり前のものとなり、ビッグデータエンジニアはただのエンジニアとなった
2020年代:データライフサイクルのエンジニアリング
現在のデータエンジニアはより分散、モジュール化、マネージド、高度に抽象化されたツールへと焦点を移している
その結果データツールが驚くべき速さで増え続けている
本来データエンジニアはツールに囚われてはだめで、データのライフサイクル全体に目をやらなければならない
またCCPAやGDPRなどのプライバシー、匿名化、規制の順守などにも精通する必要が出てきた
終わりに
以上です。
読者置いてけぼりの自己満まとめですみません。(まぁここまで読んだ人はいないと思います)
この記事に限らず、「今日の技術」で何か分からないことやご意見・ご要望・ご感想があればどどっとお寄せください!
コメントはとても励みになります✨
いいなと思ったら応援しよう!
