超初心者!ビックデータ分析関連の単語メモ
非エンジニアで、データエンジニアさんと関わる事が多いので、自分のための覚書です!
※書籍やインターネットをあさって自分なりに書き出していますので、不正確な内容もあると思います。
CDP
カスタマープラットフォームのこと。複数のシステムからデータを収集し、名寄せした顧客データベース。マーケティングツールと連携可能。
DMP
データマーケティングプラットホームのこと。インターネット上に蓄積されたデータを管理する。
オンプレミス
サーバやネットワーク機器等を自社の建物内に設置し運用すること。Oracleとか。
クラウド
インターネット経由でサーバを利用することができるサービス。自社に物理的にサーバを設置する必要がない。GCPとかAWSとか。
SQL
Structured Query Language(ストラクチャードクエリランゲージ)の略。 リレーショナルデータベース(RDB)のデータを操作するための言語。システム開発してるエンジニアはだいたい使ってる。
MySQL
オープンソースのリレーショナルデータベース管理システム。
RDB
Relational Database(リレーショナルデータベース)の略。データを複数の表として管理し、表と表の関係を定義することで、データの関連性を扱えるようにしたデータベース管理方式。データを表形式で表示することが特徴。表の行(横)を「レコード」、表の列(縦)を「フィールド」、表を「テーブル」という。
コーディネーター
複数のコンピューターを協調させて1つの処理を行うためのとりまとめプログラムのこと。
データレイク
ビッグデータを元のままの多様な形式で保持する中央ストレージリポジトリ。とりあえずためるとこ。
DWH
データウェアハウスの略。必要なデータを収集し、目的別に再構成した統合データベースのこと。整理したデータをためる。
DWH製品
オンプレミスであればTeradata、クラウドであればAWSのRedshift、GCPのBigQuery、Snowflake社のSnowflakeが代表製品。
データマート
DWHのデータを加工し、利用目的ごとに応じたデータに変換したもの。
ETL製品
ETLはExtract(抽出)/Transform(変換)/Load(格納)の略。バッチデータ収集を行う製品。製品例、Embulk(エンバルク)、Sqoop(スクープ)。
オペレーショナルDB
少量のデータに対してランダムにデータ操作することが得意。処理の応答速度を重視する。行指向。
アナリティックDB
データを一括でロードしたあと、データ全体に集計をかけるような処理が得意。スループット(単位時間あたりのデータ処理量)に重点を置く。列指向。
SQL on Hadoop
Hadoop上でSQLを分散処理できるエンジンを用いてアナリティックDBの機能を持たせる。
メタデータ
データに対する付加情報のこと。データの名前、データ構造、データ鮮度、データリネージ、データ辞書など。
アドホック分析
臨時的に短時間でやるデータ分析。
BI
Business Inteligence(ビジネス・インテリジェンス)の略。企業の各部署がそれぞれに蓄積している膨大なデータを、収集・蓄積・分析・加工し、経営戦略のための意志決定を支援する。BIツールにはTableauとかPower BIとかがある。
CPU
Central Processing Unitの略。データを受け取り、 制御・演算を行う。
GPU
Graphics Processing Unitの略。3Dグラフィックスなどの画像描写を行う際に必要となる計算処理を行う半導体チップ(プロセッサ)のこと。
アーキテクチャ
コンピュータ システムの論理的構造のこと。アーキテクチャ図とか。
API
Application Programming Interfaceの略。異なるコンピューター間でデータをやり取りするための仕組みの総称。
JSON
JavaScript Object Notationの略。JavaScriptのオブジェクトの書き方を元にしたデータ定義方法のこと。
Javascript
ジャバスクリプト。プログラミング言語の一つ。
Apache Hadoop
アパッチ ハドゥープ。ビッグデータを複数のマシンに分散して処理できる、オープンソースのプラットフォーム。
HDFS
Hadoop Distributed File Systemの略。分散処理システムのApache Hadoopが利用する分散ファイルシステム。大容量データの単位時間あたりの読み書き速度(スループット)の向上に注力している。
AWS
Amazon Web Servicesの略。Amazon.comが提供しているクラウドコンピューティングサービス。多種多様なインフラストラクチャーサービスを提供。
S3
AWSのリソースの一つ。オンラインストレージ。
Redshift
AWSのリソースの一つ。フルマネージドでペタバイト規模のクラウド専用データウェアハウス。
Glue
AWSのリソースの一つ。サーバーレスデータ統合サービス。分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える。
Kinesis Data Streams
AWSのリソースの一つ。分散キュー。
Amazon EMR
大量のデータを迅速に分散処理するフレームワーク。機械学習ツールとの連携ができる。
SageMaker
セージメイカー。AWS上で利用できる機械学習のトータルサポートサービス。
GCP
Google Cloud Platformの略。Googleが提供するクラウドコンピューティングサービス。
BigQuery
GCPのリソースの一つ。ビッグデータを超高速で解析することができるサービスで、数TB(1テラバイト=1,000GB)、数PB(1ペタバイト=1,024TB)というデータ量であっても数秒、数十秒で処理することができる。
Cloud Data Fusion
GCPのリソースの一つ。フルマネージドのデータ統合サービス。 操作はブラウザ上で行い、コードを書く必要がない。
Cloud Pub/Sub
GCPのリソースの一つ。分散キュー。
クエリ
データベースに対してこんなデータを出してと言った命令のこと。
分散ストレージ
複数のコンピューターにデータを分散しつつ、アプリケーションからは分散を意識させない透過的なアクセス方法を提供する。代表的な製品はHDFS。
分散キュー
分散してデータを保持できるメッセージキュー。分散キューにメッセージを入れるアプリケーションをプロデューサー、メッセージを取り出して処理するアプリケーションをコンシューマーと言う。
結果整合性
分散ストレージで加えた変更のたいしてレプリケーションの完了を待たずに更新OKの返事をすること。データの変更が全体にすぐに反映されないので注意。反対は強い整合性。
MapReduce
マップリデュース。コンピュータ機器のクラスター上での巨大なデータセットに対する分散コンピューティングを支援するプログラミングモデル
Mapper
複数の計算ノード(計算機)で実行され、Map関数を実行し担当する範囲のデータを必要な部分だけ抽出する。抽出したデータはReducerにわたす。
Reducer
Mapperで抽出されたデータを受け取り、Reduce関数を実行し結果を集計し、HDFSに結果を格納する。
YARN
ヤーン。Hadoopプロジェクトが提供するリソースマネージャ。CPUコアとメモリを合わせたコンテナという単位でリソースを管理する。
Ground Truth
グランドトゥルース。ブラウザ上でアノテーション作業ができ、担当者への業務の割り振りや進捗管理も可能。
NoSQL
分散データベースの一種で、シンプルなクエリを使って低遅延で分散したデータを操作できるデータベースの総称。
Python
パイソン。コンパイル不要のプログラミング言語。機械学習を行う際に適している。データ扱う人は勉強していることが多い。
コンパイル
プログラミング言語で書かれた文字列(ソースコード)を、コンピュータ上で実行可能な形式(オブジェクトコード)に変換すること。
NumPy
ナンパイ。Pythonのオープンソースライブラリで、機械学習で必須なベクトルや行列の演算などが行える。
Matplotlib
マットプロットリブ。NumPyのデータ構造を描画するライブラリ。
Pandas
パンダス、パンダ。データ解析を支援するライブラリ。様々なデータ解析ベースからデータをロードして、データ操作に特化したデータフレームに格納する。格納したデータに対し欠損の補完、列や行を元にした変換ができる。
Jupyter Notebook
ジュピターノートブック。PythonなどをWebブラウザ上で記述・実行できる統合開発環境。
TPU
Tensor processing unit(テンソル・プロセッシング・ユニット)の略。Googleが開発した機械 学習専用プロセッサ(集積回路)。
FPGA
Field-programmable gate arrayの略。自分で構成を設定できるプロセッサ。
NFS
Network File Systemの略。UNIX系OSのためのリモートファイルシステム。
UNIX系OS
UNIX(ユニックス)というオペレーティングシステム(OS)に類似する、あるいは共通する仕様を持つOSの総称。
Avro
アブロ。階層型のデータを扱うことができ、独自のバイナリフォーマットを採用しているためデータ量を小さくし高速に処理できる。
スクレイピング
Webサイトから取れるHTMLやJavascriptを解析してデータを抽出すること。
ミドルウェア
コンピュータの基本的な制御を行うオペレーティングシステム(OS)と、各業務処理を行うアプリケーションソフトウェアとの中間に入るソフトウェアのこと。
Apache Kafka
ビックデータのストリームデータ収集のために作られたミドルウェア。複数のコンピュータでKafkaのクラスターを構成すれば分散キューになる。
Hive
ハイブ。Hadoop上で動作するデータウェアハウス(DWH)向けのプロダクト。Hadoop上のMapReduce(大量のデータを高速に処理するための分散処理フレームワーク)の処理をSQL互換言語で操作を実行できる。
Presto
Facebook社が中心となって開発したオープンソースのSQL対応分散クエリエンジン。Hiveと同じデータを扱うことができる。メモリ上で計算を行うため応答速だが早い。大量のデータを一気に加工する処理には不向き。
Impala
Cloudera社が中心となって開発したオープンソースのSQL対応分散クエリエンジン。Prestoどうようクエリの応答速度を重視。
CTAS
CREATE TABLE ASの略。SQLを用いてデータウェアハウスのテーブル群を加工し、結果を新しいテーブルとして作成すること。
UDF
ユーザー定義関数。SQLの中で扱うデータに対してユーザー定義関数を適用することでSQLには用意されていない関数を実現できる。例えば、個人情報を秘匿するために使う。
随時更新!
この記事が気に入ったらサポートをしてみませんか?