ฐานข้อมูลยอดนิยมสนับสนุนการเรียนรู้ของเครื่องในฐานข้อมูล

อัปเดต: 20 พฤษภาคม 2021
ฐานข้อมูลยอดนิยมสนับสนุนการเรียนรู้ของเครื่องในฐานข้อมูล

ในบทความเดือนสิงหาคมปี 2020 ของฉันเรื่อง“ วิธีเลือกแพลตฟอร์ม Machine Learning บนคลาวด์” แนวทางแรกของฉันในการเลือกแพลตฟอร์มคือ“ อยู่ใกล้กับข้อมูลของคุณ” การเก็บรหัสไว้ใกล้ข้อมูลเป็นสิ่งจำเป็นเพื่อให้เวลาแฝงต่ำเนื่องจากความเร็วแสงจะ จำกัด ความเร็วในการส่งข้อมูล ท้ายที่สุดการเรียนรู้ของเครื่องโดยเฉพาะอย่างยิ่งการเรียนรู้เชิงลึกมักจะเรียกดูข้อมูลทั้งหมดของคุณหลายครั้ง (แต่ละครั้งเรียกว่าไฟล์ ยุค).

ฉันพูดในเวลานั้นว่ากรณีที่เหมาะสำหรับชุดข้อมูลขนาดใหญ่มากคือการสร้างแบบจำลองที่มีข้อมูลอยู่แล้วดังนั้นจึงไม่จำเป็นต้องมีการส่งข้อมูลจำนวนมาก ฐานข้อมูลจำนวนมากสนับสนุนสิ่งนั้นในขอบเขตที่ จำกัด คำถามต่อไปที่เป็นธรรมชาติคือฐานข้อมูลใดสนับสนุนการเรียนรู้ของเครื่องภายในและพวกเขาทำได้อย่างไร ฉันจะพูดถึงฐานข้อมูลเหล่านั้นตามลำดับตัวอักษร

อเมซอน Redshift

Amazon Redshift เป็นบริการคลังข้อมูลที่มีการจัดการขนาดเพตะไบต์ที่ออกแบบมาเพื่อให้ง่ายและคุ้มค่าในการวิเคราะห์ข้อมูลทั้งหมดของคุณโดยใช้เครื่องมือระบบธุรกิจอัจฉริยะที่มีอยู่ เหมาะสำหรับชุดข้อมูลตั้งแต่ไม่กี่ร้อยกิกะไบต์ไปจนถึงเพตะไบต์ขึ้นไปและมีค่าใช้จ่ายน้อยกว่า 1,000 ดอลลาร์ต่อเทราไบต์ต่อปี

Amazon Redshift ML ออกแบบมาเพื่อให้ผู้ใช้ SQL สร้างฝึกอบรมและปรับใช้โมเดลแมชชีนเลิร์นนิงโดยใช้คำสั่ง SQL ได้ง่าย คำสั่ง CREATE MODEL ใน Redshift SQL กำหนดข้อมูลที่จะใช้สำหรับการฝึกอบรมและคอลัมน์เป้าหมายจากนั้นส่งข้อมูลไปยัง Amazon SageMaker Autopilot สำหรับการฝึกอบรมผ่านที่เก็บข้อมูล Amazon S3 ที่เข้ารหัสในโซนเดียวกัน

หลังจากการฝึกอบรม AutoML Redshift ML จะรวบรวมโมเดลที่ดีที่สุดและลงทะเบียนเป็นฟังก์ชัน SQL ทำนายในคลัสเตอร์ Redshift ของคุณ จากนั้นคุณสามารถเรียกใช้แบบจำลองสำหรับการอนุมานโดยเรียกใช้ฟังก์ชันการคาดคะเนภายในคำสั่ง SELECT

สรุป: Redshift ML ใช้ SageMaker Autopilot เพื่อสร้างแบบจำลองการคาดการณ์โดยอัตโนมัติจากข้อมูลที่คุณระบุผ่านคำสั่ง SQL ซึ่งแยกไปยังที่เก็บข้อมูล S3 ฟังก์ชันการทำนายที่ดีที่สุดที่พบจะลงทะเบียนในคลัสเตอร์ Redshift

BlazingSQL

BlazingSQL เป็นเอ็นจิ้น SQL ที่เร่งด้วย GPU ที่สร้างขึ้นจากระบบนิเวศ RAPIDS มีอยู่ในรูปแบบโครงการโอเพ่นซอร์สและบริการแบบชำระเงิน RAPIDS เป็นชุดของไลบรารีซอฟต์แวร์โอเพ่นซอร์สและ API ที่บ่มเพาะโดย Nvidia ซึ่งใช้ CUDA และใช้รูปแบบหน่วยความจำคอลัมน์ Apache Arrow CuDF ซึ่งเป็นส่วนหนึ่งของ RAPIDS คือไลบรารี DataFrame ของ GPU ที่เหมือนแพนด้าสำหรับการโหลดการรวมการรวมการกรองและการจัดการข้อมูลอื่น ๆ

Dask เป็นเครื่องมือโอเพ่นซอร์สที่สามารถปรับขนาดแพ็คเกจ Python ไปยังเครื่องหลายเครื่อง Dask สามารถกระจายข้อมูลและการคำนวณผ่าน GPU หลายตัวไม่ว่าจะในระบบเดียวกันหรือในคลัสเตอร์แบบหลายโหนด Dask ผสานรวมกับ RAPIDS cuDF, XGBoost และ RAPIDS cuML สำหรับการวิเคราะห์ข้อมูลที่เร่งด้วย GPU และการเรียนรู้ของเครื่อง

สรุป: BlazingSQL สามารถเรียกใช้การสืบค้นที่เร่งด้วย GPU บน data lakes ใน Amazon S3 ส่งต่อ DataFrames ที่เป็นผลลัพธ์ไปยัง cuDF สำหรับการจัดการข้อมูลและในที่สุดก็ดำเนินการเรียนรู้ของเครื่องด้วย RAPIDS XGBoost และ cuML และการเรียนรู้เชิงลึกด้วย PyTorch และ TensorFlow

Google Cloud BigQuery

BigQuery คือคลังข้อมูลขนาดเพตะไบต์ที่มีการจัดการของ Google Cloud ซึ่งช่วยให้คุณสามารถเรียกใช้การวิเคราะห์ข้อมูลจำนวนมหาศาลได้แบบเรียลไทม์ BigQuery ML ช่วยให้คุณสร้างและเรียกใช้โมเดลแมชชีนเลิร์นนิงใน BigQuery โดยใช้คำสั่ง SQL

BigQuery ML รองรับการถดถอยเชิงเส้นสำหรับการคาดการณ์ การถดถอยโลจิสติกแบบไบนารีและแบบหลายชั้นสำหรับการจำแนก K-mean clustering สำหรับการแบ่งส่วนข้อมูล การแยกตัวประกอบเมทริกซ์สำหรับการสร้างระบบแนะนำผลิตภัณฑ์ อนุกรมเวลาสำหรับการคาดการณ์อนุกรมเวลารวมถึงความผิดปกติฤดูกาลและวันหยุด การจำแนกประเภท XGBoost และแบบจำลองการถดถอย TensorFlow-based deep neural networks สำหรับการจำแนกประเภทและแบบจำลองการถดถอย ตาราง AutoML; และการนำเข้าแบบจำลอง TensorFlow คุณใช้โมเดลที่มีข้อมูลจากชุดข้อมูล BigQuery หลายชุดเพื่อการฝึกอบรมและการคาดคะเนได้ BigQuery ML ไม่ดึงข้อมูลจากคลังข้อมูล คุณสามารถดำเนินการวิศวกรรมฟีเจอร์ด้วย BigQuery ML โดยใช้คำสั่ง TRANSFORM ในคำสั่ง CREATE MODEL

สรุป: BigQuery ML นำพลังของ Google Cloud Machine Learning มาสู่คลังข้อมูล BigQuery ด้วยไวยากรณ์ SQL โดยไม่ต้องดึงข้อมูลจากคลังข้อมูล

คลังสินค้า IBM Db2

IBM Db2 Warehouse on Cloud เป็นบริการคลาวด์สาธารณะที่ได้รับการจัดการ คุณยังสามารถตั้งค่า IBM Db2 Warehouse ภายในองค์กรด้วยฮาร์ดแวร์ของคุณเองหรือในระบบคลาวด์ส่วนตัว ในฐานะคลังข้อมูล จึงมีคุณสมบัติต่างๆ เช่น การประมวลผลข้อมูลในหน่วยความจำ และตารางเรียงเป็นแนวสำหรับการประมวลผลการวิเคราะห์ออนไลน์ เนเทซซ่า เทคโนโลยี มอบชุดการวิเคราะห์ที่แข็งแกร่งซึ่งออกแบบมาเพื่อนำการสืบค้นมาสู่ข้อมูลอย่างมีประสิทธิภาพ ไลบรารีและฟังก์ชันต่างๆ มากมายช่วยให้คุณได้รับข้อมูลเชิงลึกที่แม่นยำที่คุณต้องการ

Db2 Warehouse รองรับการเรียนรู้ของเครื่องในฐานข้อมูลใน Python, R และ SQL ไอแดกซ์ โมดูล ประกอบด้วยขั้นตอนการจัดเก็บเชิงวิเคราะห์ รวมถึงการวิเคราะห์ความแปรปรวน กฎการเชื่อมโยง การแปลงข้อมูล แผนผังการตัดสินใจ มาตรการวินิจฉัย การแยกส่วนและโมเมนต์ การจัดกลุ่ม K-means เพื่อนบ้าน k-ที่ใกล้ที่สุด การถดถอยเชิงเส้น การจัดการข้อมูลเมตา การจำแนกประเภท naïve Bayes การวิเคราะห์องค์ประกอบหลัก การแจกแจงความน่าจะเป็น การสุ่มตัวอย่าง แผนภูมิการถดถอย รูปแบบและกฎตามลำดับ และสถิติทั้งแบบอิงพารามิเตอร์และแบบไม่อิงพารามิเตอร์

สรุป: IBM Db2 Warehouse มีชุดการวิเคราะห์ SQL ในฐานข้อมูลจำนวนมากซึ่งรวมถึงฟังก์ชันการเรียนรู้พื้นฐานของเครื่องรวมถึงการสนับสนุนในฐานข้อมูลสำหรับ R และ Python

ฐานข้อมูล Oracle

Kinetica Streaming Data Warehouse รวมการวิเคราะห์ข้อมูลย้อนหลังและสตรีมมิ่งกับข้อมูลตำแหน่งและ AI ไว้ในแพลตฟอร์มเดียวซึ่งทั้งหมดสามารถเข้าถึงได้ผ่าน API และ SQL Kinetica เป็นฐานข้อมูลที่รวดเร็วกระจายคอลัมน์หน่วยความจำมาก่อน GPU เร่งด้วยฟังก์ชันการกรองการแสดงภาพและการรวม

Kinetica ผสานรวมโมเดลแมชชีนเลิร์นนิงและอัลกอริทึมเข้ากับข้อมูลของคุณสำหรับการวิเคราะห์เชิงคาดการณ์แบบเรียลไทม์ตามขนาด ช่วยให้คุณปรับปรุงไปป์ไลน์ข้อมูลและวงจรชีวิตของการวิเคราะห์โมเดลแมชชีนเลิร์นนิงและวิศวกรรมข้อมูลและคำนวณคุณสมบัติด้วยการสตรีม Kinetica นำเสนอโซลูชันวงจรชีวิตเต็มรูปแบบสำหรับการเรียนรู้ของเครื่องที่เร่งด้วย GPU: โน้ตบุ๊ก Jupyter ที่มีการจัดการการฝึกโมเดลผ่าน RAPIDS และการปรับใช้โมเดลอัตโนมัติและการอนุมานในแพลตฟอร์ม Kinetica

สรุป: Kinetica นำเสนอโซลูชันวงจรชีวิตในฐานข้อมูลเต็มรูปแบบสำหรับการเรียนรู้ของเครื่องที่เร่งด้วย GPU และสามารถคำนวณคุณสมบัติจากข้อมูลสตรีมมิ่ง

ที่ Microsoft SQL Server

Microsoft SQL Server Machine Learning Services รองรับ R, Python, Java, คำสั่ง PREDICT T-SQL และโพรซีเดอร์ที่จัดเก็บ rx_Predict ใน SQL Server RDBMS และ SparkML ใน SQL Server Big Data Clusters ในภาษา R และ Python Microsoft มีแพ็คเกจและไลบรารีมากมายสำหรับการเรียนรู้ของเครื่อง คุณสามารถจัดเก็บแบบจำลองที่ผ่านการฝึกอบรมของคุณไว้ในฐานข้อมูลหรือภายนอก Azure SQL Managed Instance รองรับ Machine Learning Services สำหรับ Python และ R เป็นตัวอย่าง

Microsoft R มีส่วนขยายที่อนุญาตให้ประมวลผลข้อมูลจากดิสก์และในหน่วยความจำ SQL Server จัดเตรียมเฟรมเวิร์กส่วนขยายเพื่อให้โค้ด R, Python และ Java สามารถใช้ข้อมูลและฟังก์ชันของ SQL Server คลัสเตอร์ข้อมูลขนาดใหญ่ของเซิร์ฟเวอร์ SQL เรียกใช้ SQL Server, Spark และ HDFS ใน Kubernetes เมื่อ SQL Server เรียกใช้รหัส Python ก็สามารถเรียกใช้ Azure Machine Learning และบันทึกแบบจำลองผลลัพธ์ในฐานข้อมูลเพื่อใช้ในการคาดการณ์

สรุป: SQL Server เวอร์ชันปัจจุบันสามารถฝึกอบรมและสรุปโมเดลแมชชีนเลิร์นนิงในภาษาโปรแกรมได้หลายภาษา

ฐานข้อมูล Oracle

Oracle Cloud Infrastructure (OCI) Data Science เป็นแพลตฟอร์มที่มีการจัดการและไร้เซิร์ฟเวอร์สำหรับทีมวิทยาศาสตร์ข้อมูลในการสร้างฝึกอบรมและจัดการโมเดลการเรียนรู้ของเครื่องโดยใช้ Oracle Cloud Infrastructure รวมถึง Oracle Autonomous Database และ Oracle Autonomous Data Warehouse ประกอบด้วยเครื่องมือ Python เป็นศูนย์กลางไลบรารีและแพ็กเกจที่พัฒนาโดยชุมชนโอเพ่นซอร์สและ Oracle Accelerated Data Science (ADS) Library ซึ่งสนับสนุนวงจรการใช้งานแบบจำลองการคาดการณ์แบบ end-to-end:

  • การเก็บข้อมูลการจัดทำโปรไฟล์การจัดเตรียมและการแสดงภาพ
  • วิศวกรรมคุณลักษณะ
  • การฝึกอบรมแบบจำลอง (รวมถึง Oracle AutoML)
  • การประเมินโมเดลคำอธิบายและการตีความ (รวมถึง Oracle MLX)
  • การปรับใช้โมเดลกับ Oracle Functions

OCI Data Science ผสานรวมกับสแต็ก Oracle Cloud Infrastructure ที่เหลือซึ่งรวมถึงฟังก์ชั่นการไหลของข้อมูลคลังข้อมูลอัตโนมัติและที่เก็บข้อมูลวัตถุ

รุ่นที่รองรับในปัจจุบัน ได้แก่ :

  • ออราเคิล ออโต้เอ็มแอล
  • Keras
  • วิทย์ - เรียน
  • XGBoost
  • ADSTuner (การปรับแต่งไฮเปอร์พารามิเตอร์)

ADS ยังรองรับการอธิบายการเรียนรู้ของเครื่อง (MLX)

สรุป: Oracle Cloud Infrastructure สามารถโฮสต์ทรัพยากรด้านวิทยาศาสตร์ข้อมูลที่รวมเข้ากับคลังข้อมูลที่เก็บอ็อบเจ็กต์และฟังก์ชันต่างๆทำให้วงจรการพัฒนาแบบจำลองเต็มรูปแบบ

เวอร์ติกา

Vertica Analytics Platform คือคลังข้อมูลการจัดเก็บคอลัมน์ที่ปรับขนาดได้ มันทำงานในสองโหมด: Enterprise ซึ่งเก็บข้อมูลไว้ในระบบไฟล์ของโหนดที่ประกอบเป็นฐานข้อมูลและ EON ซึ่งเก็บข้อมูลแบบส่วนกลางสำหรับโหนดคอมพิวท์ทั้งหมด

Vertica ใช้การประมวลผลแบบขนานจำนวนมากเพื่อจัดการข้อมูลเพตาไบต์และทำการเรียนรู้ของเครื่องภายในด้วยความขนานของข้อมูล มีอัลกอริทึมในตัวแปดอัลกอริทึมสำหรับการเตรียมข้อมูลอัลกอริธึมการถดถอยสามอัลกอริทึมการจำแนกสี่อัลกอริธึมการจัดกลุ่มสองฟังก์ชันการจัดการโมเดลต่างๆและความสามารถในการนำเข้าโมเดล TensorFlow และ PMML ที่ได้รับการฝึกฝนจากที่อื่น เมื่อคุณพอดีหรือนำเข้าแบบจำลองแล้วคุณสามารถใช้เพื่อการคาดคะเนได้ Vertica ยังอนุญาตให้ส่วนขยายที่ผู้ใช้กำหนดเองซึ่งตั้งโปรแกรมใน C ++, Java, Python หรือ R คุณใช้ไวยากรณ์ SQL สำหรับทั้งการฝึกอบรมและการอนุมาน

สรุป: Vertica มีชุดอัลกอริทึมการเรียนรู้ของเครื่องที่ดีในตัวและสามารถนำเข้าโมเดล TensorFlow และ PMML ได้ สามารถทำการทำนายจากโมเดลที่นำเข้าและโมเดลของมันเอง

มายด์ดีบี

หากฐานข้อมูลของคุณยังไม่รองรับการเรียนรู้ของเครื่องภายในเป็นไปได้ว่าคุณสามารถเพิ่มความสามารถนั้นได้โดยใช้ MindsDB ซึ่งรวมเข้ากับฐานข้อมูลครึ่งโหลและเครื่องมือ BI ห้าตัว ฐานข้อมูลที่รองรับ ได้แก่ MariaDB, MySQL, PostgreSQL, ClickHouse, Microsoft SQL Server และ Snowflake โดยมีการรวม MongoDB ในการทำงานและการผสานรวมกับฐานข้อมูลแบบสตรีมมิ่งที่สัญญาไว้ในปี 2021 ปัจจุบันเครื่องมือ BI ที่รองรับ ได้แก่ SAS, Qlik Sense, Microsoft Power BI, Looker และ Domo

MindsDB มี AutoML, ตาราง AI และ AI (XAI) ที่อธิบายได้ คุณสามารถเรียกใช้การฝึกอบรม AutoML จาก MindsDB Studio จากคำสั่ง SQL INSERT หรือจากการเรียก Python API การฝึกอบรมสามารถเลือกใช้ GPU และสามารถเลือกสร้างแบบจำลองอนุกรมเวลาได้

คุณสามารถบันทึกโมเดลเป็นตารางฐานข้อมูลและเรียกใช้จากคำสั่ง SQL SELECT เทียบกับโมเดลที่บันทึกไว้จาก MindsDB Studio หรือจากการเรียก Python API คุณสามารถประเมินอธิบายและแสดงภาพคุณภาพของโมเดลได้จาก MindsDB Studio

คุณยังสามารถเชื่อมต่อ MindsDB Studio และ Python API กับแหล่งข้อมูลภายในและระยะไกลได้ MindsDB ยังจัดหาเฟรมเวิร์กการเรียนรู้เชิงลึกที่เรียบง่าย Lightwood ซึ่งทำงานบน PyTorch

สรุป: MindsDB นำความสามารถของแมชชีนเลิร์นนิงที่มีประโยชน์มาสู่ฐานข้อมูลจำนวนมากที่ขาดการสนับสนุนในตัวสำหรับแมชชีนเลิร์นนิง