데이터베이스 내 기계 학습을 지원하는 주요 데이터베이스

2020 년 XNUMX 월 기사 "클라우드 머신 러닝 플랫폼을 선택하는 방법"에서 플랫폼 선택을위한 첫 번째 지침은 "데이터에 가깝게 유지"였습니다. 빛의 속도가 전송 속도를 제한하기 때문에 대기 시간을 낮게 유지하려면 코드를 데이터 근처에 두어야합니다. 결국 머신 러닝, 특히 딥 러닝은 모든 데이터를 여러 번 처리하는 경향이 있습니다 (각 시간을 시대).

당시에 저는 매우 큰 데이터 세트의 이상적인 경우는 데이터가 이미 상주하는 모델을 구축하여 대량 데이터 전송이 필요하지 않도록하는 것이라고 말했습니다. 여러 데이터베이스가이를 제한적으로 지원합니다. 자연스러운 다음 질문은 어떤 데이터베이스가 내부 기계 학습을 지원하며 어떻게 수행합니까? 이러한 데이터베이스에 대해 알파벳순으로 설명하겠습니다.

아마존 레드 시프트

Amazon Redshift는 기존 비즈니스 인텔리전스 도구를 사용하여 모든 데이터를 간단하고 비용 효율적으로 분석 할 수 있도록 설계된 페타 바이트 규모의 관리 형 데이터웨어 하우스 서비스입니다. 수백 기가 바이트에서 페타 바이트 이상에 이르는 데이터 세트에 최적화되어 있으며 연간 테라 바이트 당 $ 1,000 미만의 비용이 듭니다.

Amazon Redshift ML은 SQL 사용자가 SQL 명령을 사용하여 기계 학습 모델을 쉽게 생성, 교육 및 배포 할 수 있도록 설계되었습니다. Redshift SQL의 CREATE MODEL 명령은 훈련에 사용할 데이터와 대상 열을 정의한 다음 동일한 영역의 암호화 된 Amazon S3 버킷을 통해 훈련을 위해 데이터를 Amazon SageMaker Autopilot에 전달합니다.

AutoML 학습 후 Redshift ML은 최상의 모델을 컴파일하여 Redshift 클러스터에 예측 SQL 함수로 등록합니다. 그런 다음 SELECT 문 내에서 예측 함수를 호출하여 추론을 위해 모델을 호출 할 수 있습니다.

요약: Redshift ML은 SageMaker Autopilot을 사용하여 S3 버킷으로 추출되는 SQL 문을 통해 지정한 데이터에서 예측 모델을 자동으로 생성합니다. 발견 된 최상의 예측 함수는 Redshift 클러스터에 등록됩니다.

블레이징SQL

BlazingSQL은 RAPIDS 에코 시스템 위에 구축 된 GPU 가속 SQL 엔진입니다. 오픈 소스 프로젝트와 유료 서비스로 존재합니다. RAPIDS는 CUDA를 사용하고 Apache Arrow 컬럼 메모리 형식을 기반으로하는 Nvidia에서 배양 한 오픈 소스 소프트웨어 라이브러리 및 API 제품군입니다. RAPIDS의 일부인 CuDF는 데이터로드, 결합, 집계, 필터링 및 기타 조작을위한 Pandas와 유사한 GPU DataFrame 라이브러리입니다.

Dask는 Python 패키지를 여러 컴퓨터로 확장 할 수있는 오픈 소스 도구입니다. Dask는 동일한 시스템 또는 다중 노드 클러스터에서 여러 GPU를 통해 데이터와 계산을 분산 할 수 있습니다. Dask는 GPU 가속 데이터 분석 및 기계 학습을 위해 RAPIDS cuDF, XGBoost 및 RAPIDS cuML과 통합됩니다.

요약: BlazingSQL은 Amazon S3의 데이터 레이크에서 GPU 가속 쿼리를 실행하고, 데이터 조작을 위해 결과 DataFrames를 cuDF로 전달하고, 마지막으로 RAPIDS XGBoost 및 cuML을 사용한 기계 학습, PyTorch 및 TensorFlow를 사용한 딥 러닝을 수행 할 수 있습니다.

Google 클라우드 BigQuery

BigQuery는 거의 실시간으로 방대한 양의 데이터에 대한 분석을 실행할 수있는 Google Cloud의 관리 형 페타 바이트 규모 데이터웨어 하우스입니다. BigQuery ML을 사용하면 SQL 쿼리를 사용하여 BigQuery에서 머신 러닝 모델을 만들고 실행할 수 있습니다.

BigQuery ML은 예측을위한 선형 회귀를 지원합니다. 분류를위한 이진 및 다중 클래스 로지스틱 회귀; 데이터 분할을위한 K- 평균 클러스터링; 제품 추천 시스템을 만들기위한 매트릭스 분해; 이상, 계절성 및 휴일을 포함하여 시계열 예측을 수행하기위한 시계열; XGBoost 분류 및 회귀 모델; 분류 및 회귀 모델을위한 TensorFlow 기반 심층 신경망 AutoML 테이블; 및 TensorFlow 모델 가져 오기. 학습 및 예측을 위해 여러 BigQuery 데이터 세트의 데이터가있는 모델을 사용할 수 있습니다. BigQuery ML은 데이터웨어 하우스에서 데이터를 추출하지 않습니다. CREATE MODEL 문에서 TRANSFORM 절을 사용하여 BigQuery ML로 특성 추출을 수행 할 수 있습니다.

슬립폼 공법 선택시 고려사항 BigQuery ML은 데이터웨어 하우스에서 데이터를 추출하지 않고도 SQL 구문을 사용하여 BigQuery 데이터웨어 하우스에 Google Cloud Machine Learning의 강력한 기능을 제공합니다.

IBM Db2웨어 하우스

IBM Db2 Warehouse on Cloud는 관리형 퍼블릭 클라우드 서비스입니다. 자체 하드웨어 또는 프라이빗 클라우드를 사용하여 온프레미스에 IBM Db2 Warehouse를 설정할 수도 있습니다. 데이터 웨어하우스로서 온라인 분석 처리를 위한 인메모리 데이터 처리 및 열 형식 테이블과 같은 기능이 포함되어 있습니다. Netezza입니다 technology 쿼리를 데이터에 효율적으로 가져오도록 설계된 강력한 분석 세트를 제공합니다. 다양한 라이브러리와 기능을 통해 필요한 정확한 통찰력을 얻을 수 있습니다.

Db2 Warehouse는 Python, R 및 SQL에서 데이터베이스 내 기계 학습을 지원합니다. IDAX 모듈 분산 분석, 연관 규칙, 데이터 변환, 의사결정 트리, 진단 측정, 이산화 및 모멘트, K-평균 클러스터링, k-최근접 이웃, 선형 회귀, 메타데이터 관리, Naive Bayes 분류, 주성분 분석 등을 포함한 분석 저장 프로시저가 포함되어 있습니다. 확률 분포, 무작위 샘플링, 회귀 트리, 순차 패턴 및 규칙, 모수적 및 비모수적 통계.

요약: IBM Db2 Warehouse에는 몇 가지 기본 기계 학습 기능과 R 및 Python에 대한 데이터베이스 내 지원이 포함 된 광범위한 데이터베이스 내 SQL 분석이 포함되어 있습니다.

오라클 데이터베이스

Kinetica Streaming Data Warehouse는 기록 및 스트리밍 데이터 분석을 단일 플랫폼에서 위치 인텔리전스 및 AI와 결합하며, 모두 API 및 SQL을 통해 액세스 할 수 있습니다. Kinetica는 필터링, 시각화 및 집계 기능을 갖춘 매우 빠르고 분산 된 열 기반의 메모리 우선 GPU 가속 데이터베이스입니다.

Kinetica는 대규모의 실시간 예측 분석을 위해 기계 학습 모델 및 알고리즘을 데이터와 통합합니다. 이를 통해 데이터 파이프 라인과 분석, 기계 학습 모델 및 데이터 엔지니어링의 수명주기를 간소화하고 스트리밍을 통해 기능을 계산할 수 있습니다. Kinetica는 관리 형 Jupyter 노트북, RAPIDS를 통한 모델 학습, Kinetica 플랫폼의 자동 모델 배포 및 추론 등 GPU로 가속화 된 기계 학습을위한 전체 수명주기 솔루션을 제공합니다.

요약: Kinetica는 GPU로 가속화 된 기계 학습을위한 완전한 데이터베이스 내 수명주기 솔루션을 제공하며 스트리밍 데이터에서 기능을 계산할 수 있습니다.

마이크로 소프트 SQL 서버

Microsoft SQL Server Machine Learning Services는 R, Python, Java, PREDICT T-SQL 명령, SQL Server RDBMS의 rx_Predict 저장 프로 시저, SQL Server 빅 데이터 클러스터의 SparkML을 지원합니다. R 및 Python 언어에서 Microsoft는 기계 학습을위한 여러 패키지와 라이브러리를 포함합니다. 훈련 된 모델을 데이터베이스 또는 외부에 저장할 수 있습니다. Azure SQL Managed Instance는 Python 및 R 용 Machine Learning Services를 미리보기로 지원합니다.

Microsoft R에는 디스크와 메모리의 데이터를 처리 할 수있는 확장 기능이 있습니다. SQL Server는 R, Python 및 Java 코드가 SQL Server 데이터 및 함수를 사용할 수 있도록 확장 프레임 워크를 제공합니다. SQL Server 빅 데이터 클러스터는 Kubernetes에서 SQL Server, Spark 및 HDFS를 실행합니다. SQL Server가 Python 코드를 호출하면 차례로 Azure Machine Learning을 호출하고 결과 모델을 예측에 사용할 수 있도록 데이터베이스에 저장할 수 있습니다.

요약: 현재 버전의 SQL Server는 여러 프로그래밍 언어로 기계 학습 모델을 학습하고 추론 할 수 있습니다.

오라클 데이터베이스

Oracle Cloud Infrastructure (OCI) Data Science는 데이터 과학 팀이 Oracle Autonomous Database 및 Oracle Autonomous Data Warehouse를 포함한 Oracle Cloud Infrastructure를 사용하여 기계 학습 모델을 구축, 교육 및 관리 할 수있는 관리 형 서버리스 플랫폼입니다. 여기에는 오픈 소스 커뮤니티에서 개발 한 Python 중심 도구, 라이브러리 및 패키지와 예측 모델의 종단 간 수명주기를 지원하는 Oracle ADS (Accelerated Data Science) 라이브러리가 포함됩니다.

데이터 수집, 프로파일 링, 준비 및 시각화
기능 엔지니어링
모델 학습 (Oracle AutoML 포함)
모델 평가, 설명 및 해석 (Oracle MLX 포함)
Oracle Functions에 모델 배포

OCI Data Science는 Functions, Data Flow, Autonomous Data Warehouse 및 Object Storage를 포함한 나머지 Oracle Cloud Infrastructure 스택과 통합됩니다.

현재 지원되는 모델은 다음과 같습니다.

오라클 오토ML
케 라스
사이 킷 러닝
XGBoost
ADSTuner (초 매개 변수 조정)

ADS는 또한 MLX (기계 학습 설명 가능성)를 지원합니다.

요약: Oracle Cloud Infrastructure는 데이터웨어 하우스, 객체 저장소 및 기능과 통합 된 데이터 과학 리소스를 호스팅하여 전체 모델 개발 수명주기를 허용합니다.

버티 카

Vertica Analytics Platform은 확장 가능한 컬럼 스토리지 데이터웨어 하우스입니다. 데이터베이스를 구성하는 노드의 파일 시스템에 로컬로 데이터를 저장하는 Enterprise와 모든 컴퓨팅 노드에 대해 데이터를 공동으로 저장하는 EON의 두 가지 모드로 실행됩니다.

Vertica는 대규모 병렬 처리를 사용하여 페타 바이트 규모의 데이터를 처리하고 데이터 병렬 처리로 내부 기계 학습을 수행합니다. 데이터 준비를위한 XNUMX 개의 기본 제공 알고리즘, XNUMX 개의 회귀 알고리즘, XNUMX 개의 분류 알고리즘, XNUMX 개의 클러스터링 알고리즘, 여러 모델 관리 기능, 다른 곳에서 훈련 된 TensorFlow 및 PMML 모델을 가져올 수있는 기능이 있습니다. 모델을 피팅하거나 가져온 후에는 예측에 사용할 수 있습니다. Vertica는 또한 C ++, Java, Python 또는 R로 프로그래밍 된 사용자 정의 확장을 허용합니다. 훈련과 추론 모두에 SQL 구문을 사용합니다.

요약: Vertica에는 멋진 기계 학습 알고리즘 세트가 내장되어 있으며 TensorFlow 및 PMML 모델을 가져올 수 있습니다. 가져온 모델과 자체 모델에서 예측을 수행 할 수 있습니다.

마인드DB

데이터베이스가 내부 기계 학습을 아직 지원하지 않는 경우 2021 개의 데이터베이스 및 XNUMX 개의 BI 도구와 통합되는 MindsDB를 사용하여 해당 기능을 추가 할 수 있습니다. 지원되는 데이터베이스에는 MariaDB, MySQL, PostgreSQL, ClickHouse, Microsoft SQL Server 및 Snowflake가 포함되며 MongoDB가 작업에 통합되고 XNUMX 년 후반에 스트리밍 데이터베이스와 통합됩니다. 지원되는 BI 도구에는 현재 SAS, Qlik Sense, Microsoft Power BI, Looker가 포함됩니다. 및 Domo.

MindsDB는 AutoML, AI 테이블 및 설명 가능한 AI (XAI)를 제공합니다. MindsDB Studio, SQL INSERT 문 또는 Python API 호출에서 AutoML 학습을 호출 할 수 있습니다. 훈련은 선택적으로 GPU를 사용할 수 있으며 선택적으로 시계열 모델을 만들 수 있습니다.

모델을 데이터베이스 테이블로 저장하고 저장된 모델에 대한 SQL SELECT 문, MindsDB Studio 또는 Python API 호출에서 호출 할 수 있습니다. MindsDB Studio에서 모델 품질을 평가, 설명 및 시각화 할 수 있습니다.

MindsDB Studio와 Python API를 로컬 및 원격 데이터 소스에 연결할 수도 있습니다. MindsDB는 PyTorch에서 실행되는 단순화 된 딥 러닝 프레임 워크 인 Lightwood를 추가로 제공합니다.

요약: MindsDB는 기계 학습에 대한 기본 지원이없는 많은 데이터베이스에 유용한 기계 학습 기능을 제공합니다.

데이터베이스 내 머신 러닝을 지원하는 상위 데이터베이스

아마존 레드 시프트

블레이징SQL

Google 클라우드 BigQuery

IBM Db2웨어 하우스

오라클 데이터베이스

마이크로 소프트 SQL 서버

오라클 데이터베이스

버티 카

마인드DB