أهم قواعد البيانات التي تدعم التعلم الآلي في قاعدة البيانات

التحديث: 20 مايو 2021
أهم قواعد البيانات التي تدعم التعلم الآلي في قاعدة البيانات

في مقالتي في أغسطس 2020 ، "كيفية اختيار نظام أساسي للتعلم الآلي على السحابة" ، كان أول توجيهي لاختيار النظام الأساسي هو "كن قريبًا من بياناتك". يعد الاحتفاظ بالكود بالقرب من البيانات أمرًا ضروريًا للحفاظ على وقت الاستجابة منخفضًا ، لأن سرعة الضوء تحد من سرعات الإرسال. بعد كل شيء ، يميل التعلم الآلي - وخاصة التعلم العميق - إلى استعراض جميع بياناتك عدة مرات (يُطلق على كل مرة اسم عصر).

لقد قلت في ذلك الوقت إن الحالة المثالية لمجموعات البيانات الكبيرة جدًا هي بناء النموذج حيث توجد البيانات بالفعل ، بحيث لا تكون هناك حاجة إلى نقل البيانات الجماعية. العديد من قواعد البيانات تدعم ذلك إلى حد محدود. السؤال الطبيعي التالي هو ، ما هي قواعد البيانات التي تدعم التعلم الآلي الداخلي ، وكيف تفعل ذلك؟ سأناقش قواعد البيانات هذه بالترتيب الأبجدي.

الأمازون الأحمر

Amazon Redshift عبارة عن خدمة مستودع بيانات مُدارة على نطاق بيتابايت مصممة لجعل تحليل جميع بياناتك باستخدام أدوات ذكاء الأعمال الحالية أمرًا بسيطًا وفعالًا من حيث التكلفة. تم تحسينه لمجموعات البيانات التي تتراوح من بضع مئات من الجيجابايت إلى بيتابايت أو أكثر ويكلف أقل من 1,000 دولار لكل تيرابايت في السنة.

تم تصميم Amazon Redshift ML ليسهل على مستخدمي SQL إنشاء نماذج التعلم الآلي وتدريبها ونشرها باستخدام أوامر SQL. يحدد الأمر CREATE MODEL في Redshift SQL البيانات التي يجب استخدامها للتدريب والعمود الهدف ، ثم يمرر البيانات إلى Amazon SageMaker Autopilot للتدريب عبر دلو Amazon S3 مشفر في نفس المنطقة.

بعد تدريب AutoML ، يجمع Redshift ML أفضل نموذج ويسجّله كدالة SQL للتنبؤ في مجموعة Redshift الخاصة بك. يمكنك بعد ذلك استدعاء النموذج للاستدلال عن طريق استدعاء دالة التنبؤ داخل جملة SELECT.

نبذة عامة: يستخدم Redshift ML SageMaker Autopilot لإنشاء نماذج تنبؤ تلقائيًا من البيانات التي تحددها عبر عبارة SQL ، والتي يتم استخراجها إلى حاوية S3. تم تسجيل أفضل وظيفة تنبؤ تم العثور عليها في مجموعة الانزياح الأحمر.

اشتعلت فيه النيران

BlazingSQL عبارة عن محرك SQL مُسارع باستخدام وحدة معالجة الرسومات (GPU) مبني على قمة نظام RAPIDS البيئي ؛ إنه موجود كمشروع مفتوح المصدر وخدمة مدفوعة. RAPIDS عبارة عن مجموعة من مكتبات البرامج مفتوحة المصدر وواجهات برمجة التطبيقات ، التي تحتضنها Nvidia ، والتي تستخدم CUDA وتستند إلى تنسيق الذاكرة العمودية Apache Arrow. CuDF ، وهي جزء من RAPIDS ، هي مكتبة GPU DataFrame تشبه Pandas لتحميل البيانات والانضمام إليها وتجميعها وتصفيتها ومعالجتها بأي طريقة أخرى.

Dask هي أداة مفتوحة المصدر يمكنها توسيع حزم Python إلى أجهزة متعددة. يمكن لـ Dask توزيع البيانات والحسابات عبر وحدات معالجة رسومات متعددة ، إما في نفس النظام أو في مجموعة متعددة العقد. يتكامل Dask مع RAPIDS cuDF و XGBoost و RAPIDS cuML لتحليلات البيانات المسرَّعة بواسطة وحدة معالجة الرسومات والتعلم الآلي.

نبذة عامة: يمكن لـ BlazingSQL تشغيل استعلامات تسريع GPU على بحيرات البيانات في Amazon S3 ، وتمرير DataFrames الناتجة إلى cuDF لمعالجة البيانات ، وأخيرًا إجراء التعلم الآلي باستخدام RAPIDS XGBoost و cuML ، والتعلم العميق باستخدام PyTorch و TensorFlow.

جوجل السحابية BigQuery

BigQuery هو مستودع بيانات مُدار من Google Cloud بحجم بيتابايت يتيح لك تشغيل التحليلات على كميات هائلة من البيانات في الوقت الفعلي تقريبًا. يتيح لك BigQuery ML إنشاء نماذج التعلم الآلي وتنفيذها في BigQuery باستخدام استعلامات SQL.

يدعم BigQuery ML الانحدار الخطي للتنبؤ ؛ الانحدار اللوجستي الثنائي ومتعدد الفئات من أجل التصنيف ؛ K- يعني التجميع لتجزئة البيانات ؛ عامل المصفوفة لإنشاء أنظمة توصية المنتج ؛ السلاسل الزمنية لأداء تنبؤات السلاسل الزمنية ، بما في ذلك الحالات الشاذة والموسمية والعطلات ؛ نماذج تصنيف وانحدار XGBoost ؛ الشبكات العصبية العميقة القائمة على TensorFlow لنماذج التصنيف والانحدار ؛ جداول AutoML ؛ واستيراد نموذج TensorFlow. يمكنك استخدام نموذج ببيانات من مجموعات بيانات BigQuery متعددة للتدريب والتنبؤ. لا يستخرج BigQuery ML البيانات من مستودع البيانات. يمكنك إجراء هندسة الميزات باستخدام BigQuery ML باستخدام عبارة TRANSFORM في عبارة CREATE MODEL الخاصة بك.

ملخص: يجلب BigQuery ML الكثير من قوة Google Cloud Machine Learning إلى مستودع بيانات BigQuery باستخدام بنية SQL ، دون استخراج البيانات من مستودع البيانات.

مستودع IBM Db2

يعد IBM Db2 Warehouse on Cloud خدمة سحابية عامة يتم ادارتها. يمكنك أيضًا إعداد IBM Db2 Warehouse محليًا باستخدام أجهزتك الخاصة أو في بيئة سحابية خاصة. وباعتباره مستودعًا للبيانات، فإنه يشتمل على ميزات مثل معالجة البيانات في الذاكرة والجداول العمودية للمعالجة التحليلية عبر الإنترنت. إنه نيتيزا التكنلوجيا يوفر مجموعة قوية من التحليلات المصممة لجلب الاستعلام إلى البيانات بكفاءة. تساعدك مجموعة من المكتبات والوظائف في الحصول على الرؤية الدقيقة التي تحتاجها.

يدعم Db2 Warehouse التعلم الآلي داخل قاعدة البيانات في Python، وR، وSQL. أيداكس وحدة يحتوي على إجراءات مخزنة تحليلية، بما في ذلك تحليل التباين، وقواعد الارتباط، وتحويل البيانات، وأشجار القرار، والتدابير التشخيصية، والتمييز واللحظات، وتجميع وسائل K، وأقرب الجيران، والانحدار الخطي، وإدارة البيانات الوصفية، وتصنيف بايز الساذج، وتحليل المكونات الرئيسية، التوزيعات الاحتمالية، وأخذ العينات العشوائية، وأشجار الانحدار، والأنماط والقواعد المتسلسلة، والإحصائيات البارامترية وغير البارامترية.

نبذة عامة: يتضمن IBM Db2 Warehouse مجموعة واسعة من تحليلات SQL في قاعدة البيانات التي تتضمن بعض وظائف التعلم الآلي الأساسية ، بالإضافة إلى دعم في قاعدة البيانات لـ R و Python.

قاعدة بيانات أوراكل

يجمع Kinetica Streaming Data Warehouse بين تحليل البيانات التاريخية والمتدفقة مع ذكاء الموقع والذكاء الاصطناعي في نظام أساسي واحد ، يمكن الوصول إليها جميعًا عبر API و SQL. Kinetica هي قاعدة بيانات سريعة جدًا وموزعة وعمودية وذات الذاكرة أولاً ومعجلة GPU مع وظائف التصفية والتصور والتجميع.

تدمج Kinetica نماذج وخوارزميات التعلم الآلي مع بياناتك من أجل تحليلات تنبؤية في الوقت الفعلي على نطاق واسع. يتيح لك تبسيط خطوط أنابيب البيانات ودورة حياة تحليلاتك ونماذج التعلم الآلي وهندسة البيانات وحساب الميزات مع التدفق. يوفر Kinetica حلاً كاملاً لدورة الحياة للتعلم الآلي الذي تسرعه وحدات معالجة الرسومات: أجهزة كمبيوتر Jupyter المحمولة المدارة ، وتدريب النموذج عبر RAPIDS ، ونشر النماذج الآلية واستنتاجها في منصة Kinetica.

نبذة عامة: يوفر Kinetica حلاً كاملاً لدورة الحياة في قاعدة البيانات للتعلم الآلي الذي تسرعه وحدات معالجة الرسومات ، ويمكنه حساب الميزات من تدفق البيانات.

مايكروسوفت SQL خادم

تدعم Microsoft SQL Server Machine Learning Services R و Python و Java وأمر PREDICT T-SQL والإجراء المخزن rx_Predict في SQL Server RDBMS و SparkML في SQL Server Big Data Clusters. في لغتي R و Python ، تتضمن Microsoft العديد من الحزم والمكتبات للتعلم الآلي. يمكنك تخزين نماذجك المدربة في قاعدة البيانات أو خارجيًا. يدعم Azure SQL Managed Instance خدمات التعلم الآلي لـ Python و R كمعاينة.

يحتوي Microsoft R على ملحقات تسمح له بمعالجة البيانات من القرص وكذلك في الذاكرة. يوفر SQL Server إطار عمل ملحق بحيث يمكن للتعليمات البرمجية R و Python و Java استخدام بيانات ووظائف SQL Server. تقوم مجموعات البيانات الكبيرة في SQL Server بتشغيل SQL Server و Spark و HDFS في Kubernetes. عندما يستدعي SQL Server تعليمات Python البرمجية ، يمكنه بدوره استدعاء Azure Machine Learning ، وحفظ النموذج الناتج في قاعدة البيانات لاستخدامه في التنبؤات.

نبذة عامة: يمكن للإصدارات الحالية من SQL Server تدريب واستنتاج نماذج التعلم الآلي في لغات برمجة متعددة.

قاعدة بيانات أوراكل

Oracle Cloud Infrastructure (OCI) Data Science عبارة عن نظام أساسي مُدار وبدون خادم لفرق علوم البيانات لبناء نماذج التعلم الآلي وتدريبها وإدارتها باستخدام Oracle Cloud Infrastructure بما في ذلك Oracle Autonomous Database و Oracle Autonomous Data Warehouse. يتضمن أدوات ، ومكتبات ، وحزم تتمحور حول Python تم تطويرها بواسطة مجتمع المصادر المفتوحة ومكتبة Oracle Accelerated Data Science (ADS) ، والتي تدعم دورة الحياة الشاملة للنماذج التنبؤية:

  • الحصول على البيانات ، والتنميط ، والتحضير ، والتصور
  • هندسة الميزات
  • تدريب النموذج (بما في ذلك Oracle AutoML)
  • تقييم النموذج والشرح والتفسير (بما في ذلك Oracle MLX)
  • نشر النموذج إلى وظائف Oracle

يتكامل OCI Data Science مع بقية حزمة Oracle Cloud Infrastructure ، بما في ذلك الوظائف وتدفق البيانات ومخزن البيانات الذاتي وتخزين الكائنات.

تشمل النماذج المدعومة حاليًا ما يلي:

  • أوراكل أوتومل
  • Keras
  • Scikit تعلم
  • XGBoost
  • ADSTuner (ضبط hyperparameter)

تدعم ADS أيضًا قابلية شرح التعلم الآلي (MLX).

نبذة عامة: يمكن أن تستضيف Oracle Cloud Infrastructure موارد علوم البيانات المدمجة مع مستودع البيانات ومخزن العناصر والوظائف ، مما يسمح بدورة حياة تطوير نموذج كاملة.

فيرتيكا

Vertica Analytics Platform عبارة عن مستودع بيانات تخزين عمودي قابل للتطوير. يتم تشغيله في وضعين: Enterprise ، الذي يخزن البيانات محليًا في نظام ملفات العقد التي تشكل قاعدة البيانات ، و EON ، الذي يخزن البيانات بشكل جماعي لجميع عقد الحوسبة.

تستخدم Vertica معالجة متوازية على نطاق واسع للتعامل مع بيتابايت من البيانات ، وتقوم بالتعلم الآلي الداخلي مع توازي البيانات. يحتوي على ثمانية خوارزميات مدمجة لإعداد البيانات ، وثلاث خوارزميات انحدار ، وأربع خوارزميات تصنيف ، وخوارزميتين للتجميع ، والعديد من وظائف إدارة النموذج ، والقدرة على استيراد نماذج TensorFlow و PMML المدربة في مكان آخر. بمجرد أن تقوم بملاءمة نموذج أو استيراده ، يمكنك استخدامه للتنبؤ. يسمح Vertica أيضًا بالملحقات المعرفة من قبل المستخدم والمبرمجة في C ++ أو Java أو Python أو R. أنت تستخدم بناء جملة SQL لكل من التدريب والاستدلال.

نبذة عامة: يحتوي Vertica على مجموعة رائعة من خوارزميات التعلم الآلي المضمنة ، ويمكنه استيراد نماذج TensorFlow و PMML. يمكنه التنبؤ من النماذج المستوردة بالإضافة إلى النماذج الخاصة به.

MindsDB

إذا كانت قاعدة البيانات الخاصة بك لا تدعم بالفعل التعلم الآلي الداخلي ، فمن المحتمل أنه يمكنك إضافة هذه الإمكانية باستخدام MindsDB ، والتي تتكامل مع ستة قواعد بيانات وخمس أدوات ذكاء الأعمال. تتضمن قواعد البيانات المدعومة MariaDB و MySQL و PostgreSQL و ClickHouse و Microsoft SQL Server و Snowflake ، مع تكامل MongoDB في الأعمال والتكامل مع قواعد البيانات المتدفقة الموعودة في وقت لاحق في عام 2021. تشمل أدوات BI المدعومة حاليًا SAS و Qlik Sense و Microsoft Power BI و Looker و دومو.

يتميز MindsDB بجداول AutoML و AI و AI قابل للتفسير (XAI). يمكنك استدعاء تدريب AutoML من MindsDB Studio أو من جملة SQL INSERT أو من استدعاء Python API. يمكن أن يستخدم التدريب اختياريًا وحدات معالجة الرسومات ، ويمكنه اختياريًا إنشاء نموذج سلسلة زمنية.

يمكنك حفظ النموذج كجدول قاعدة بيانات ، واستدعائه من عبارة SQL SELECT مقابل النموذج المحفوظ ، من MindsDB Studio أو من استدعاء Python API. يمكنك تقييم جودة النموذج وشرحها وتصورها من MindsDB Studio.

يمكنك أيضًا توصيل MindsDB Studio وواجهة برمجة تطبيقات Python بمصادر البيانات المحلية والبعيدة. يوفر MindsDB أيضًا إطارًا مبسطًا للتعلم العميق ، Lightwood ، يعمل على PyTorch.

نبذة عامة: تقدم MindsDB إمكانات مفيدة للتعلم الآلي لعدد من قواعد البيانات التي تفتقر إلى الدعم المدمج للتعلم الآلي.