AI とデータ サイエンスがすべての新しいテクノロジー投資の中心となり、データ エンジニアリングは時間の経過とともに急速に成長することになります。優れた AI は、優れたデータ エンジニアリングがなければ実現できません。
優れたデータ エンジニアリングは、優れたデータ サイエンス製品の基礎です。
FAANG 対応のデータ エンジニアになるためのロードマップ:
🚀 ステップ 1: 基本:
- 📚 #SQLを学ぶ:
SELECT、FROM、WHERE、GROUP BY、JOIN、HAVING などのコマンドを使用して練習します。
2. 🐍 #Pythonを学ぶ:
データ構造とアルゴリズムを学びます: 配列、辞書、再帰、文字列と配列の操作、ループ。
3. 🔥 #Pysparkを学ぶ:
SparkSession、Read、filter、groupBy、集計、書き込みなどの関数。
🚀 ステップ 2: 中級:
- 🌪️ #Airflowを学ぶ
Airflow はデータ エンジニアリングのジョブ スケジューリングとオーケストレーションに使用されます
2. 🛢️ #データ#レイクのアーキテクチャとコンセプトを学ぶ
定義、構造化データと非構造化データ、Hadoop 分散ファイル システム (HDFS)、データ インジェスト
3. 🌟 高度な SQL:
ウィンドウ関数、CTE、ネストされたクエリ、自己結合を使用した SQL の問題の解決。
🚀 ステップ 3: 上級:
1 つの大きなテーブル、キンボール、インモン、データ保管技術
2. 🧠 #sparkアーキテクチャを理解する:
Spark がスケーラブルな方法で処理を行う方法。
3. #Sparkの最適化🌟 :
述語プッシュダウン、パーティショニング、ブロードキャスト、キャッシュと永続化、シャッフル、並列処理、再分割と合体
アン、もう終わったよ。
出典 : https://niteshx2.medium.com/faang-data-engineer-learning-roadmap-for-2024-199b1c831bca
TCrbOIXzn