מדען נתונים – The Big-Data Master


עולם ה-BI חווה בשנים האחרונות צמיחה חסרת תקדים ביכולות האחסון, העיבוד והצגת הנתונים. במציאות זו, האתגר המרכזי בארגונים הופך מהקמת תשתית נתונים לאופן הפיכתם למידע בעל ערך עסקי, תהליך שהוליד מקצוע חדש, 'מדען נתונים' (Data-Scientist). לאור העניין הרב בתחום, חשוב לפזר מעט את מעטה הערפל סביב תפקידו של מדען נתונים, המגמות שהובילו להתפתחותו ומיקוד ההבדלים מול מקצועות דומים – סטטיסטיקאים, אנליסטים, מנתחי מערכות ומפתחי BI.מהו הכיוון שאליו הנתונים מצביעים?

מצריכת נתונים לצריכת מידע

חברת 'לובשים ונהנים' היא דוגמה דמיונית לרשת אופנה מובילה בישראל. לרשת עשרות סניפים ברחבי הארץ, מאות עובדים ואפילו מועדון לקוחות. הודות למערך ה-BI בארגון, מנהלי הרשת יודעים לומר בסוף כל יום כמה מכירות היו בכל סניף, באילו מחלקות, ובאילו ימים בשבוע ובשנה.
אבל למרות הידע הרב שנצבר בחברה, מנהלי הרשת בדרגי הביניים ובהנהלה הבכירה עדיין חשים שחסר להם מידע תומך רלוונטי וממוקד לקבלת החלטות. הם היו רוצים לדעת לדוגמה, אילו מוצרים צפויים להצליח ואילו לא, מה להציע לכל לקוח ומתי, כמה מלאי להחזיק מכל מוצר, מאיזה ספק כדאי להזמין כל מוצר, האם לקוחות מכפישים אותנו במדיה החברתית, כיצד להתמודד עם המתחרים הפעילים באינטרנט – ושאלות רבות נוספות.
במילים אחרות – הם כבר לא מסתפקים בתמונת מצב כללית נכון לאתמול, אלא רוצים להבין לעומק מה הולך לקרות, ואיזו תגובה נדרשת מהם – לעיתים עד לרמת הפריט הבודד והלקוח שרכש אותו רק לפני מספר שניות.

עד לפני מספר שנים מדובר היה בדמיון פרוע. לעומת זאת, בעידן ה-Big-Data, קיימת כמות גדלה והולכת של נתונים רלוונטיים לצרכים עסקיים מחד, וטכנולוגיה להפיכתם למידע עסקי בעל ערך מאידך, ושימוש בהם הופך כיום יותר ויותר משאיפה להכרח- על מנת להישאר רלוונטיים אל מול המתחרים.

שטפון של נתונים, בצורת של מידע

שיטפון של נתונים, בצורת של מידע


על מנת לתת מענה לצורך האמור, חשוב להבין את מבנה מערך המידע בארגונים, ואת המגמות שחלו בו בשנים האחרונות.

באופן מסורתי, תחום הנתונים נחלק לרוב בין שני נותני שירות בארגון:
 אנשי BI, לרוב מתכנתים או מהנדסי מערכות מידע ביחידת ה-IT, אשר תפקידם להפוך נתונים לנגישים לכלל עובדי הארגון או לחלקם, באמצעות הטמעת תשתית טכנולוגית. לרוב מדובר בדוחות קבועים, קוביות ו-Dashboards.
 אנליסטים, לרוב סטטיסטיקאים או כלכלנים ביחידות העסקיות, אשר תפקידם לנתח נתונים ספציפיים עבור לקוח מסוים בארגון, לרבות מחקרים סטטיסטיים והפקת דוחות אד-הוק, שלא קיימים בכלי ה-BI.

החלוקה האמורה הביאה לכך, שמחקר ופיתוח בהיבטי הנתונים נחלק בין אנשי האנליזה (מחקר) ובין אנשי ה-BI (פיתוח), כך שפיתוח פתרונות BI מורכבים דורש ממשק מורכב וממושך בין מספר גורמים בעלי אוריינטציה שונה.

בשנים האחרונות, בעיקר עם הופעת הרשתות החברתיות, מחשוב הענן והקוד הפתוח, איסוף הנתונים הפך לנחלת הכלל, וכל אדם החפץ בכך יכול כיום לעבד ולחקור נתונים בהיקף נרחב, דוגמת פוסטים, כתבות, סרטונים, תמונות וכיו"ב, רובם מדידים ובעלי ערך עסקי פוטנציאלי לארגונים שונים, כך שמי ששולט בשוק כבר אינו מי שמחזיק בנתונים, אלא מי שיודע כיצד להשתמש בהם באופן מהיר וחכם.

בנוסף, כמענה לצרכי ניתוח היקפי הנתונים הגדולים, פותחו טכנולוגיות חדשות רבות, דוגמת Hadoop וסוגים רבים של 'NoSQL Databases'. השימוש בטכנולוגיות החדשות מציב אתגרים גדולים לאנשי הנתונים, אשר כבר לא יכולים להסתפק בטכנולוגיות סטנדרטיות דוגמת שפת SQL, אלא נדרשים בין השאר להכיר סביבות עבודה מרובות, לשלוט בשפות שאילתות וקוד מגוונות ולעבד נתונים לא מוּבְנים ולעיתים קרובות לא ממופים בהיקפים גדולים ובקצב מהיר. מציאות זו, בשונה מבעבר, מחייבת גמישות ושילוב הדוקים ביותר של ידע טכנולוגי, סטטיסטי ועסקי.

כל האמור הביא את התחום למציאות חדשה, בה הופכת החלוקה המסורתית בין BI לאנליזה לצוואר בקבוק לזרימת המידע בארגון, והיערכות מחודשת של המערך הפכה לכורח המציאות.

לשלב כוחות

לשלב כוחות

על הרקע הזה התפתח מקצוע מדען הנתונים, שמטרתו לשפר את זרימת המידע בארגון, ואת קצב הפיתוח של פתרונות BI מתקדמים. הוא לוקח את היכולות הטכנולוגיות מאנשי ה-BI, את היכולות העסקיות והסטטיסטיות מהאנליסטים, ובתוספת של יכולות ניתוח מערכות וניהול פרויקטים – הוא הופך לגורם אחד המרכז את תחום המידע בארגון.
הוא חוקר נתונים, מאפיין צרכי BI ודרישות מתשתית הנתונים לאור ממצאיו, בוחן את זרימת המידע ואת אופן השימוש בו בארגון – ומחפש כל העת מקורות נתונים חדשים וטכנולוגיות חדשות. הוא בעל ניסיון רב ומיומנות גבוהה מאוד של זיהוי רעשים בנתונים והבנת משמעותם באופן כמעט מידי, ובעל יכולת פיתוח ושימוש באלגוריתמים סטטיסטיים, תכנותיים והנדסיים שיסייעו לו בהבנת הנתונים והפיכתם למידע עסקי.
במילים אחרות, אם Big Data הוא הטכנולוגיה, מדען הנתונים הוא ה-Super User שלה, כפי שיומחש כעת.

מי בפייסבוק רוצה לדעת עליי כמה שיותר?

facebook-spy-143790_640כאשר 'פייסבוק', לדוגמה, מציגה פרסומת מסוימת ב-'feed' שלנו, מאחורי הקלעים פועלים אלגוריתמים מורכבים למדי, המתאימים בין תוכן שיווקי לבין המשתמשים. התאמה משופרת תביא להגדלה ניכרת בהתעניינות בהן – עליה 'פייסבוק' נמדדת מול המפרסמים המשלמים לה, ולכן מאחורי האלגוריתמים והמערכת עומדים מספר מדעני נתונים, שיודעים עלינו הרבה מאוד, מציעים לנו תוכן שיווקי בהתאם ומגדילים את הכנסות החברה במו ידיהם.
האלגוריתמים מחפשים, בין השאר, דמיון למשתמשים אחרים שהתעניינו בה – בדגש על החברים הקרובים שלנו, שאיתם אנחנו בקשר תכוף דרך הממשק של 'פייסבוק', וכן אנשים אחרים שדומים לנו (לדוגמה: גברים בני 25-34 מאיזור המרכז שחברים בקבוצות בנושא כדורסל).
במקרה זה, 'פייסבוק' תדע לדוגמה להציע לנו לבקר בעמוד האוהדים של מכבי ת"א ושל שחקנים מסוימים שלה – מאחר וזיהתה סנטימנט חיובי לקבוצה מפוסטים קודמים שלנו, תציע לנו כרטיסים למשחקים בארץ – או אפילו ל-NBA לאחר שזיהתה פוסט על כך שאנחנו מתכננים נסיעה לארה"ב;
'בפייסבוק' יוכלו אף לדעת, שיש לנו כאלף חברים ולכן שווה לה לתת לנו הנחה למשחק ה-NBA, כי יש סבירות גבוהה מאוד שגם חלק ניכר מהחברים שלנו ירצו לראות משחק כזה כאשר יבקרו בעתיד בארה"ב.

בין 'לובשים ונהנים' לפייסבוק

בחזרה לרשת "לובשים ונהנים":
החברה החליטה לבסוף להיכנס לתחום ה-Big-Data, ובעצת מדעני הנתונים היא התחילה לנהל עמוד 'פייסבוק', וכן לשמור במערכות ה-BI נתונים ברמת הפריט הבודד בכל קניה.
באמצעות דף ה'פייסבוק' מתבצעות היום פעולות שיווקיות רבות, דוגמת מענה ללקוחות לא מרוצים, מדידת הסנטימנט החיובי או השלילי כלפי המותג, זיהוי טרנדים מתוך חוות דעת על מוצרים שונים, ואף הצלחנו לתקף את מה שחשנו תמיד אך לא ידענו להוכיח – שקהל היעד העיקרי שלנו הן אימהות בגילאי 25-44, המתגוררות באיזור גוש דן, מפרץ חיפה וי-ם.
כנובע מתובנות אלו, ולאחר צבירת מספיק נתונים, מבצעים מדעני הנתונים שלנו ניתוח תבניות לנתוני הרכישה וההתנהגות ברשת החברתית של כל לקוח, במטרה לזהות שלבים מסוימים בחייו. לאור מאפייניו הייחודיים של כל לקוח, אנחנו יודעים היום להציע בזמן אמת פריטים נוספים המותאמים אישית עבורו, ובכך להמשיך לעודד אותו לקנות מוצרים אשר רלוונטיים אליו בתקופות שונות של חייו, ולהגדיל את היקף המכירות.

המנצח על שרשרת המידע

לסיכום, קיימת אמירה בתחום, כי מדען הנתונים הוא יותר מהנדס תוכנה מסטטיסטיקאי, ויותר סטטיסטיקאי ממהנדס תוכנה. ואכן, מה שמייחד את מדען הנתונים הן היכולות הגבוהות במספר רב כל כך של תחומים, כפי שפורטו. יכולות אלו – הן שהופכות את מדען הנתונים לכל כך נחוץ – שכן הוא האיש שמנצח על כל שרשרת המידע בארגון, והופך הלכה למעשה את הנתונים למנוע הצמיחה העיקרי בו.

 

השארת תגובה