State of ML 2024¶
機械学習の技術選定や活用場面、導入までの課題、組織構成などのアンケートをもとに、集計結果をまとめたレポートが公開された。このレポートを見て個人的に興味を持った点をまとめてみる。
- フレームワークの選定において、Sklearn と PyTorch が最も人気がある。
- モデルを公開するまでの時間が 1 ヶ月, 3 ヶ月, 6 ヶ月以上という層がそれぞれ 25%~28%ずつ存在する。1 週間以下という層が 10%になっている。
- 利用されてるプラットフォームとして一番多いのは AWS で、約 60%
- 実験管理ツールは、MLflow が最も採用されており、全体の約 40%
- Feature Store は約 50%が導入していない
- Vector Database は約 60% が導入していない
- ETL, Workflow Orchestration として最も利用されているのは Apache Airflow で、約 30%
- サービングは FastAPI/Flask とその派生が最も多く採用されており、全体の約 40%
- モデルの監視は、約 50% が導入していない
- Data Lake は、約 25% が導入していない
- すでにモデルが動いている数として 100~1000 が約 10%、2~5, 10~20, 21~100 がそれぞれ約 20% ずつ
- 今後一年間でリリース予定のモデル数として 21~100 が約 30%、5~9, 10~20, 1000+, 100~1000 がそれぞれ 14~18%ずつ
- 処理の 90%以上をバッチシステムとして活用していると回答した人が約 40%。処理の 90%以上をリアルタイム推論で利用していると回答した人が約 20%
- role として最も多いのは、Machine Learning Engineer で、約 40%。次いで Data Scientist と MLOps Engineer がそれぞれ約 20%
- 今回の回答の 2%が日本在住