מסדי נתונים מובילים התומכים בלמידה חישובית בתוך מסד הנתונים

מסדי נתונים מובילים התומכים בלמידת מכונה בתוך מסד נתונים

במאמר שלי באוגוסט 2020, "איך לבחור פלטפורמת מכונת לימוד בענן", הקו המנחה הראשון שלי לבחירת פלטפורמה היה "להיות קרוב לנתונים שלך." שמירת הקוד ליד הנתונים נחוצה בכדי לשמור על חביון נמוך, מכיוון שמהירות האור מגבילה את מהירויות השידור. אחרי הכל, למידת מכונה - במיוחד למידה עמוקה - נוטה לעבור על כל הנתונים שלך מספר פעמים (כל פעם נקרא תקופה).

אמרתי אז שהמקרה האידיאלי עבור מערכי נתונים גדולים מאוד הוא לבנות את המודל שבו הנתונים כבר נמצאים, כך שלא יהיה צורך בהעברת נתונים המונית. מספר מאגרי מידע תומכים בכך במידה מוגבלת. השאלה הבאה הטבעית היא, אילו מאגרי מידע תומכים בלמידת מכונה פנימית, וכיצד הם עושים זאת? אדון במאגרי המידע הללו לפי סדר האלף-בית.

האדום של אמזון

אמזון רדשיפט הוא שירות מחסן נתונים מנוהל בקנה מידה פיטבייט, שנועד להפוך אותו לפשוט וחסכוני לניתוח כל הנתונים שלך באמצעות כלי הביון העסקי הקיים שלך. זה מותאם במיוחד למערכי נתונים שנעים בין כמה מאות ג'יגה-בתים לפט-בייט ומעלה ומחירו נמוך מ -1,000 דולר לטרה-בייט בשנה.

אמזון Redshift ML נועד להקל על משתמשי SQL ליצור, להכשיר ולפרוס מודלים של למידת מכונה באמצעות פקודות SQL. הפקודה CREATE MODEL ב- Redshift SQL מגדירה את הנתונים לשימוש לאימון ואת עמודת היעד, ואז מעבירה את הנתונים לטייס האוטומטי SageMaker לאימון באמצעות דלי אמזון S3 מוצפן באותו אזור.

לאחר אימון AutoML, Redshift ML אוסף את המודל הטוב ביותר ורושם אותו כפונקציית SQL חיזוי באשכול Redshift שלך. לאחר מכן תוכל להפעיל את המודל להסקה על ידי קריאה לפונקציית החיזוי בתוך משפט SELECT.

 סיכום: Redshift ML משתמש ב- SageMaker טייס אוטומטי כדי ליצור באופן אוטומטי מודלים של חיזוי מהנתונים שאתה מציין באמצעות משפט SQL, שחולץ לדלי S3. פונקציית החיזוי הטובה ביותר שנמצאה רשומה באשכול Redshift.

BlazingSQL

BlazingSQL הוא מנוע SQL מואץ ב- GPU שנבנה על גבי המערכת האקולוגית RAPIDS; הוא קיים כפרויקט קוד פתוח ושירות בתשלום. RAPIDS היא חבילת ספריות תוכנת קוד פתוח וממשקי API, מודגרות על ידי Nvidia, המשתמשת ב- CUDA ומבוססת על פורמט הזיכרון העמודי Apache Arrow. CuDF, חלק מ- RAPIDS, היא ספריית GPU DataFrame דמוית פנדה לטעינה, הצטרפות, צבירה, סינון ואחר מניפולציה של נתונים.

Dask הוא כלי קוד פתוח שיכול להגדיל את חבילות Python למספר מכונות. Dask יכול להפיץ נתונים וחישובים על מספר GPUs, באותה מערכת או באשכול רב-צומת. Dask משתלב עם RAPIDS cuDF, XGBoost ו- RAPIDS cuML לניתוח נתונים מואץ ב- GPU ולמידת מכונה.

 סיכום: BlazingSQL יכול להריץ שאילתות מואצות GPU באגמי נתונים באמזון S3, להעביר את DataFrames שהתקבלו ל- cuDF לצורך מניפולציה בנתונים, ולבסוף לבצע למידת מכונה עם RAPIDS XGBoost ו- cuML, ולמידה עמוקה עם PyTorch ו- TensorFlow.

BigQuery של Google Cloud

BigQuery הוא מחסן הנתונים המנוהל, בקנה מידה פטיט של Google Cloud, שמאפשר לך להפעיל ניתוח על כמויות עצומות של נתונים בזמן אמת כמעט. BigQuery ML מאפשר לך ליצור ולבצע מודלים של למידת מכונה ב- BigQuery באמצעות שאילתות SQL.

BigQuery ML תומך ברגרסיה ליניארית לחיזוי; רגרסיה לוגיסטית בינארית ורב-מעמדית לסיווג; K- פירושו אשכולות לפילוח נתונים; פקטוריזציה של מטריצה ליצירת מערכות המלצות למוצרים; סדרות זמן לביצוע תחזיות סדרות זמן, כולל חריגות, עונתיות וחגים; מודלים של סיווג ורגרסיה של XGBoost; רשתות עצביות עמוקות מבוססות TensorFlow למודלים של סיווג ורגרסיה; טבלאות AutoML; וייבוא מודל TensorFlow. אתה יכול להשתמש במודל עם נתונים ממערכות נתונים מרובות של BigQuery לאימון ולחיזוי. BigQuery ML אינו מוציא את הנתונים ממחסן הנתונים. באפשרותך לבצע הנדסת תכונות עם BigQuery ML באמצעות סעיף TRANSFORM בהצהרת CREATE MODEL שלך.

סיכום: BigQuery ML מביא הרבה מהעוצמה של למידת מכונות ענן של גוגל למחסן הנתונים BigQuery עם תחביר SQL, מבלי לחלץ את הנתונים ממחסן הנתונים.

מחסן Db2 של יבמ

IBM Db2 Warehouse on Cloud הוא שירות ענן ציבורי מנוהל. אתה יכול גם להגדיר את IBM Db2 Warehouse במקום עם החומרה שלך או בענן פרטי. כמחסן נתונים, הוא כולל תכונות כמו עיבוד נתונים בזיכרון וטבלאות עמודות לעיבוד אנליטי מקוון. זה Netezza טֶכנוֹלוֹגִיָה מספק קבוצה חזקה של ניתוחים שנועדו להביא ביעילות את השאילתה לנתונים. מגוון של ספריות ופונקציות עוזרות לך להגיע לתובנה המדויקת שאתה צריך.

Db2 Warehouse תומך בלמידה חישובית בתוך מסד הנתונים ב-Python, R ו-SQL. ה-IDAX מודול מכיל נהלים מאוחסנים אנליטיים, כולל ניתוח של שונות, כללי שיוך, טרנספורמציה של נתונים, עצי החלטות, מדדי אבחון, דיסקרטיזציה ורגעים, צבירת ממוצעי K, שכנים קרובים ל-k, רגרסיה ליניארית, ניהול מטא נתונים, סיווג נאיבי של Bayes, ניתוח רכיבים עיקריים, התפלגויות הסתברות, דגימה אקראית, עצי רגרסיה, תבניות וכללים עוקבים, וסטטיסטיקה פרמטרית ולא פרמטרית כאחד.

 סיכום: IBM Db2 Warehouse כולל מערך רחב של ניתוח SQL במסד נתונים הכולל פונקציונליות בסיסית של למידת מכונה, בתוספת תמיכה בתוך מסד הנתונים עבור R ו- Python.

מסד נתונים של אורקל

Kinetica Streaming Data Warehouse משלב ניתוח נתונים היסטורי וסטרימינג עם מודיעין מיקום ו- AI בפלטפורמה אחת, הכל נגיש באמצעות API ו- SQL. Kinetica הוא בסיס נתונים מהיר מאוד, מבוזר, עמודני, זיכרון ראשון, מואץ ב- GPU, עם פונקציונליות סינון, ויזואליזציה וצבירה.

Kinetica משלבת מודלים של למידת מכונה ואלגוריתמים עם הנתונים שלך לצורך ניתוח חיזוי בזמן אמת בקנה מידה. זה מאפשר לך לייעל את צינורות הנתונים שלך ואת מחזור החיים של הניתוח, מודלים של למידת מכונה והנדסת נתונים, ולחשב תכונות באמצעות סטרימינג. Kinetica מספקת פיתרון מחזור חיים מלא ללימוד מכונה המואץ על ידי GPUs: מחשבי Jupyter מנוהלים, הכשרת מודלים באמצעות RAPIDS, ופריסת מודלים אוטומטית והסקנתם בפלטפורמת Kinetica.

 סיכום: Kinetica מספקת פיתרון מחזור חיים מלא במסד הנתונים ללימוד מכונה המואץ על ידי GPUs, ויכול לחשב תכונות מנתוני סטרימינג.

Microsoft SQL Server

שירותי למידת מכונה של SQL Server של מיקרוסופט תומכים ב- R, Python, Java, בפקודת T-SQL PREDICT ובהליך המאוחסן rx_Predict ב- RDBMS של שרת SQL ו- SparkML באשכולות Big Data של שרת SQL. בשפות R ו- Python, מיקרוסופט כוללת מספר חבילות וספריות ללימוד מכונה. אתה יכול לאחסן את המודלים המאומנים שלך במסד הנתונים או באופן חיצוני. Azure SQL Managed Instance תומך בשירותי Machine Learning עבור Python ו- R כתצוגה מקדימה.

ל- Microsoft R יש הרחבות המאפשרות לעבד נתונים מהדיסק וגם מהזיכרון. SQL Server מספק מסגרת הרחבה כך שקוד R, Python ו- Java יכולים להשתמש בנתונים ובפונקציות של SQL Server. אשכולות Big Data של שרת SQL מריצים SQL Server, Spark ו- HDFS ב- Kubernetes. כאשר SQL Server קורא לקוד פייתון, הוא יכול בתורו להפעיל את Machine Machine Learning ולשמור את המודל המתקבל במסד הנתונים לשימוש בתחזיות.

 סיכום: גרסאות עדכניות של SQL Server יכולות להכשיר ולהסיק מודלים של למידת מכונה במספר שפות תכנות.

מסד נתונים של אורקל

תשתית ענן של אורקל (OCI) מדע נתונים היא פלטפורמה מנוהלת ונטולת שרתים עבור צוותי מדעי נתונים לבנות, להכשיר ולנהל מודלים של למידת מכונה באמצעות תשתית ענן של אורקל כולל מאגר המידע האוטונומי של אורקל ומחסן הנתונים האוטונומי של אורקל. הוא כולל כלים, ספריות וחבילות ממוקדות פיתון שפותחו על ידי קהילת הקוד הפתוח וספריית מדע הנתונים המואצת (ADS) של Oracle, התומכת במחזור החיים מקצה לקצה של מודלים מנבאים:

רכישת נתונים, פרופיל, הכנה והדמיה
הנדסת תכונות
הדרכת מודלים (כולל Oracle AutoML)
הערכת מודל, הסבר ופרשנות (כולל Oracle MLX)
פריסת מודל לפונקציות אורקל

מדע הנתונים OCI משתלב עם שאר ערימת תשתיות הענן של אורקל, כולל פונקציות, זרימת נתונים, מחסן נתונים אוטונומי ואחסון אובייקטים.

הדגמים הנתמכים כעת כוללים:

Oracle AutoML
קרס
Scikit-ללמוד
XGBoost
ADSTuner (כוונון היפרפרמטר)

ADS תומך גם בהסבר למידת מכונה (MLX).

 סיכום: תשתית ענן של אורקל יכולה לארח משאבי מדעי נתונים המשולבים במחסן הנתונים, חנות האובייקטים והפונקציות שלה, ומאפשרים מחזור חיים מלא של פיתוח מודלים.

Vertica

פלטפורמת Vertica Analytics היא מחסן נתוני אחסון עמודיים הניתן להרחבה. הוא פועל בשני מצבים: Enterprise, השומר נתונים באופן מקומי במערכת הקבצים של הצמתים המרכיבים את מסד הנתונים, ו- EON, השומר נתונים באופן קהילתי עבור כל צמתי החישוב.

Vertica משתמשת בעיבוד מקבילי מאסיבי כדי לטפל בפטאבים של נתונים, ועושה למידת מכונה פנימית שלה במקביל לנתונים. יש לו שמונה אלגוריתמים מובנים להכנת נתונים, שלושה אלגוריתמי רגרסיה, ארבעה אלגוריתמי סיווג, שני אלגוריתמי אשכולות, מספר פונקציות לניהול מודלים ויכולת לייבא מודלים של TensorFlow ו- PMML שהוכשרו במקום אחר. לאחר שתתאים או ייבא דגם, תוכל להשתמש בו לצורך חיזוי. Vertica מאפשרת גם הרחבות שהוגדרו על ידי משתמשים המתוכנתות ב- C ++, Java, Python או R. אתה משתמש בתחביר SQL הן לאימון והן להסקה.

 סיכום: ל- Vertica יש קבוצה נחמדה של אלגוריתמי למידה ממוחשבת, והיא יכולה לייבא מודלים של TensorFlow ו- PMML. זה יכול לעשות חיזוי מדגמים מיובאים כמו גם מדגמים משלו.

MindsDB

אם מסד הנתונים שלך כבר לא תומך בלמידת מכונה פנימית, סביר להניח שתוכל להוסיף יכולת זו באמצעות MindsDB, המשתלב עם חצי תריסר בסיסי נתונים וחמישה כלי BI. מאגרי מידע נתמכים כוללים את MariaDB, MySQL, PostgreSQL, ClickHouse, Microsoft SQL Server ו- Snowflake, עם שילוב של MongoDB בעבודות ושילובים עם מסדי נתונים זורמים שהובטחו מאוחר יותר בשנת 2021. כלי BI נתמכים כוללים כרגע SAS, Qlik Sense, Microsoft Power BI, Looker , ודומו.

MindsDB כולל AutoML, טבלאות AI, ו- AI להסבר (XAI). אתה יכול להפעיל אימון AutoML מ- MindsDB Studio, מהצהרת SQL INSERT או משיחת Python API. אימונים יכולים להשתמש באופן אופציונלי ב- GPUs, ויכולים ליצור מודל סדרות זמן.

אתה יכול לשמור את המודל כטבלת מסד נתונים, ולקרוא לו מהצהרת SQL SELECT כנגד המודל השמור, מ- MindsDB Studio או משיחת Python API. תוכלו להעריך, להסביר ולהמחיש את איכות הדגם מ- MindsDB Studio.

ניתן גם לחבר את MindsDB Studio ו- API של Python למקורות נתונים מקומיים ומרוחקים. MindsDB בנוסף מספקת מסגרת למידה עמוקה פשוטה, Lightwood, הפועלת על PyTorch.

 סיכום: MindsDB מביא יכולות שימושיות ללמידת מכונה למספר מאגרי מידע חסרי תמיכה מובנית בלמידת מכונה.

מסדי נתונים מובילים התומכים בלמידת מכונה בתוך מסד נתונים

האדום של אמזון

BlazingSQL

BigQuery של Google Cloud

מחסן Db2 של יבמ

מסד נתונים של אורקל

Microsoft SQL Server

מסד נתונים של אורקל

Vertica

MindsDB