7 הבעיות שגורמות למדען הנתונים לא לישון בלילה


תפקידו של מדען הנתונים הוא להפוך נתונים לתובנות, מה שהופך את המקצוע לאחד המבוקשים כיום בעולם מערכות המידע.אך למרות ההילה והבאז שיש למקצוע, ברמה היומיומית נדרש כמעט מדען הנתונים לעבודה טכנית, שגרתית, ולעיתים גם סיזיפית ושוחקת – על מנת להביא לידי ביטוי את יכולותיו בניתוח נתונים ובהצפת התובנות מתוכן.קיימת אמירה לא רשמית בתחום, לפיה עד שלא הצלחת להירדם בלילה בגלל שחשבת על נתונים ועל מודלים מתמטיים – כנראה שאתה לא באמת מדען נתונים. אז אם כבר יצא לכם לראות מול העיניים מספרים כמו ב'מטריקס' בסיום יום עבודה עמוס, המאמר הזה בשבילכם. אם עדיין לא – אל דאגה, יש עוד למה לצפות…
להלן רשימה של שבע בעיות עיקריות, אשר מדירות שינה מעיניו של מדען הנתונים הטיפוסי, והמלצות כיצד להתמודד עם הבעיות הללו.

 

הכשרה לא מספיקה
בכל שנותיי כראש צוות/ מנהל פרויקטים בתחום, לא זכור לי אנליסט נתונים / מדען נתונים אחד – שאמר לי שהכשרה שקיבל עם כניסתו לתפקיד היתה מלאה ומספיקה.
חוסר ההכשרה וחוסר החפיפה לתפקיד הם מובנים בתחום ניתוח הנתונים. הסיבה לכך היא פשוטה – בכל ארגון קיימת סביבה עם כלים אחרים, נהלי עבודה שונים ואנשים שונים. בנוסף, בעוד שבתחומים אחרים ייתכן והידע יישמר באופן מובנה (נהלי עבודה וכיו"ב), בתחום ניתוח הנתונים – שמהותו היא אפיון תהליכי נתונים ואלגוריתמים – לרוב עבור כל משימה נדרשת מתודולוגיה מותאמת באופן ייחודי, ולכן יחידות אנליטיות נוטות לתעד משימות וידע באופן חלקי בלבד.
עבור כמעט כל מדען נתונים / אנליסט נתונים המתחיל, חוסר ההכשרה גורם לחוסר אונים מסוים – ובמקרים רבים הוא לא יודע מה לעשות. כמו כן תמיד קיים חשש מלעשות טעויות, שלעיתים תבאנה לתוצאות לא נעימות – כמו טלפון זועם מה-DBA על שאילתה כבדה שהפילה את השרת (או שתרמה עוד קצת כסף לקופה של Amazon עבור מי שעובד ב-Cloud).

הדרך להתמודד עם חוסר ההכשרה טריוויאלית – לימוד עצמי. כיום, המידע נפוץ ביותר, ומאפשר פתרון בעיות באופן כמעט מיידי דרך Google, פורומים דוגמת Stackoverflow ודומיהם.
בנוסף – תהליך הניסוי והטעיה הוא קריטי. חשוב לנסות, לטעות, ללמוד ולנסות שוב – וכן, חשוב להכיר גם את ה-DBA…

 

משימות לא ברורות
מדען נתונים מבולבלמאחר ותחום הנתונים כולל מצד אחד קוד הנדרש להיות מדויק ב-100%, ומצד שני הוא אמור לתאר תופעות עסקיות שנדרש לחקור, במקרים רבים קיים פער בין הדרישה העסקית, לבין התוצאה והתובנות שיעלו מתוך המחקר. ואכן, אחד הנושאים המתסכלים ביותר את מדען הנתונים הוא כשאינו מקבל הנחיות ברורות מה נדרש לעשות. מאחר וחלק ניכר מהעוסקים במקצוע מגיעים מרקע מתמטי (סטטיסטיקה, הנדסה, מדעי המחשב וכדומה), חוסר הבהירות לגבי התוצר הנדרש שולח אותם לעשות מחקר מקדים ו'לשבור את הראש' מה היתה כוונת המשורר.

פתרון הבעיה במקרה הזה פשוט למדי – הנהגת מדיניות לצרף לכל דרישת נתונים דוגמה לתוצר המבוקש (לדוגמה: טבלת אקסל, טופס דרישת נתונים וכיו"ב).
לחילופין, אפשר גם ליצור בעצמנו את התוצר לדוגמה – ולוודא מול דורש הנתונים שלתוצר זה התכוון – עוד לפני התחלת העבודה על המחקר.

 

התעסקות בעיבוד וניקוי הנתונים במקום בניתוח שלהם
בניגוד לדעה הרווחת ולתדמית הזוהרת של ניתוח הנתונים, מדען הנתונים לא עוסק רק בניתוח נתונים. למען האמת, רק חלק קטן מזמנו מושקע ישירות בניתוח הנתונים. רוב הזמן מושקע בתהליכי נתונים כבדים למדי, הכוללים שליפה, עיבוד, טיוב וחישובים שונים ומשונים, אשר כל מטרתם היא להכין את הנתונים לקראת ניתוח הנתונים והפקת התובנות.
עובדה זו מחייבת מדעני נתונים רבים, אשר חלק ניכר מהם מגיע מעולמות הסטטיסטיקה, להשקיע את רוב זמנם ב'אינסטלציה של נתונים' – מה שעשוי לגרום לתסכול מסוים.

הפתרון לבעיה מתחיל ומסתיים בהבנה שמדובר בחלק בלתי נפרד מהתחום – ואף בחלק החשוב ביותר. לעיתים קרובות, לא השיטה הסטטיסטית הספציפית,  אלא אופן שליפת הנתונים והעיבוד שלהם – הם אלה שיאפשרו את הצפת התובנות.
יתרה מכך – חשוב להבין שניתוח הנתונים מתחיל כבר בשלב השליפה שלהם מהמערכות, כאשר המיפוי שלהם והאפיון של המדדים הנגזרים מהם מחייבים תהליך מקדים של ניתוח נתונים – וכבר בשלב זה עולות תובנות ראשוניות חשובות.

 

לא מצליחים להוציא מסקנות מהנתונים
בהמשך לבעיה הקודמת – בה הבנו שתהליך עיבוד הנתונים וטיובם הוא הכרחי עבור כל מחקר נתונים – לעיתים קיימים מקרים, שבהם פשוט לא מצליחים לזהות מגמות, וזאת לאור בעיות בנתוני המקור. בעיות אלו עשויות לנבוע ממספר לא קטן של גורמים – החל מתהליך עבודה לא נכון של המשתמשים שהזינו את הנתונים, דרך ריבוי מערכות מקור, ייבוא שגוי של הנתונים וכיו"ב.
השורה התחתונה היא זהה – השקענו זמן רב מאוד בניתוח נתונים – שככל הנראה לא יוביל לתוצאות בגלל נתונים מלוכלכים, ויתסכל אותנו כנובע מחוסר ההצלחה.

קיימות מספר דרכים לפתור בעיות מסוג זה:

  • עבודה שיטתית
    חשוב מאוד להתחיל כל תהליך של ניתוח נתונים בהבנת נתוני המקור: התפלגויות, ערכים חסרים, ערכים קיצוניים, ערכים שכיחים – את כולם נדרש לבחון עבור כל משתנה (בהתאם לסוגו – קטגוריאלי או רציף).
    אם מזהים נתון חריג כבר בשלב זה – יש לבחון מדוע ההתפלגות חריגה (לדוגמה: התפלגות הכנסה בעלת שני שיאים עשויה להעיד על שתי אוכלוסיות שונות השמורות באותו השדה, ויש לפצל אותן) – אחרת ניתוח הערכים בהן לא יניב תוצאות – במקרה הטוב, ויניב תוצאות שגויות – במקרה הרע (Garbage In Garbage Out).
  • הסתייעות במומחי תוכן עסקיים
    הנתונים במערכות משקפים בסופו של יום תהליך עסקי. מאחר והמערכות משמשות בראש ובראשונה לצרכים תפעוליים, אנשי התפעול אמורים להכיר את תהליכי העבודה באופן המקיף ביותר, ויכולים למקד אותך – מדען הנתונים – בניואנסים הבאים לידי ביטוי במערכות. כך למשל, הם יוכלו לציין שמקובל להזין נתון של הכנסה בתור ברוטו ולא נטו, שלפני כשנתיים הוחלפה המערכת ושלפני כ-3 שנים היה שינוי בשיטת המדידה של נטישה.
    לאור האמור, חשוב ליצור הרגל של פגישה עם מומחי תוכן לפני תחילת עבודה על נתונים חדשים.

 

לוחות זמנים אגרסיביים
Time pressure deadlineמעבר לתפקידו במחקר והצפת תובנות חדשות מתוך הנתונים, מושקע חלק ניכר מעבודתו של מדען הנתונים גם במתן שירות אנליטי ליחידות השונות בארגון, בדגש על ההנהלה. במציאות שבה היקפי הנתונים גדלים בקצב מסחרר, עבודתו של מדען הנתונים הופכת לעמוסה יותר ויותר, והיא כוללת דרישות לאספקת נתונים 'לעוסים' ותובנות בזמן שיא, מה שגורם לו למצוא את עצמו 'מוצף' בדרישות רבות לנתונים ובלו"ז קצר ביותר.
בנוסף, עיבוד וניתוח נתונים הוא תהליך מחקרי, וקיים בו מרכיב מסוים של אי ודאות. כנובע מכך, קיים קושי מהותי להעריך כמה זמן אמורה לארוך משימה מסוימת. בעוד שלעיתים לוקח שנים לפתח יכולת להעריך משך צפוי של משימת ניתוח נתונים, בארגונים רבים נדרש מדען הנתונים לתת תשובות בהיבטים אלה כבר עם כניסתו לתפקיד – והוא מוצא עצמו במקרים רבים אובד עצות וחשוף לקביעת לוחות זמנים אגרסיביים מצד המנהלים שלו.
התוצאה היא במקרים רבים תחושה של תסכול רב מביצוע משימות ברמה בינונית מאחר ואין זמן למחקר מעמיק מצד אחד, ומציאות לוחצת ושוחקת – מצד שני.

חשוב להבין, שעל פי רוב הדרישה ללוחות זמנים בלתי סבירים מצד המנהלים לא נועדה לדרבן את מדען הנתונים לעבוד בקצב מטורף, אלא נובעת פשוט מחוסר הבנה של המנהלים את התהליך הנדרש על מנת להפיק תובנות מהנתונים. כנובע מכך, השלב העיקרי בפתרון הבעיה הוא לסגל יכולת להבין ולהסביר איזה מרכיב במשימה לוקח זמן רב (לדוגמה: נתון חדש), ואיזה מרכיב הוא מהיר (לדוגמה: נתון שאנחנו מכירים מצוין). ברוב המקרים, כאשר נציג זאת למנהל שדורש את הנתונים – הוא יסתפק בתשובה מהירה – גם אם אינה מדויקת לחלוטין.
חשוב ביותר לנסות למפות את המרכיבים השונים בניתוח נתונים ולתמחר כל אחד מהם – לפחות ברמת סדרי הגודל. התייעצות במקרה זה עם מדען נתונים מנוסה – עשויה לסייע מאוד לתהליך.
משנקבע לוח זמנים מסוים – אפשר לעמוד בו בין השאר באמצעות שימוש בחוק '80:20', ועל כך בסעיף הבא.

 

מחסור במשאבים
בעיית המחסור במשאבים קשורה באופן הדוק לדרישות הנתונים בלוחות זמנים מהירים – שהוצגו קודם. ברוב הארגונים, עוד לא לחלוטין יודעים 'כיצד לאכול' את מדעני הנתונים מאחר ומדובר יחסית במקצוע חדש – ולכן הם נופלים באמצע בין אנשי הביזנס לאנשי הטכנולוגיה/ פיתוח. כנובע מכך, במקרים רבים פשוט אין מספיק אנשים לביצוע כלל המשימות – ומדעני הנתונים נדרשים לעבודה רבה מאוד.

קיימים מספר פתרונות עיקריים לפתרון הבעיה:

  • העברת כמה שיותר משימות שחוזרות על עצמן לכלי BI
    על כל מדען נתונים להכיר כלי BI בסיסיים, ולדעת כיצד הוא מעביר אליהן שאילתות נפוצות, או מטמיע אותן כ-Dashboard אצל המשתמשים באופן מהיר, שכן אם המשתמשים יוכלו להוציא דוחות פשוטים ומאופיינים בעצמם – יירד העומס ממדען הנתונים על שליפות שגרתיות, שהערך שלהן לארגון הוא שולי.
    בנוסף, חשוב מאוד לתעד את המשימות באופן שיטתי, לטובת שימוש חוזר בקודים ובטבלאות שייצר מדען הנתונים בעבר – מה שיוכל לחסוך משאבים רבים.
  • מתן פתרון דו-שלבי לדרישות נתונים
    בעולם הנתונים (ולא רק בו) קיימת משוואה מאוד ברורה: תכולה = משך * עומס.
    במציאת של עומס גבוה, אפשר ורצוי להוריד את תכולת העבודה ע"י דחיית מרכיבים 'כבדים' במשימה לעתיד, כאשר במקרים רבים – פתרון של 80% ייתן מענה מספיק טוב בשביל המנהל שדורש את המשימה.
    דוגמה כזו היא דחיית השימוש בנתונים שקשה או מסובך להביא (לדוגמה: נתונים חדשים שאיננו מכירים), שימוש בנתונים הנכונים ללפני שבוע במקום בנתונים מהשעה האחרונה, מיקוד בפלחי לקוחות פשוטים ומהירים לשליפה וכיו"ב.
    לאחר מתן הפתרון הראשוני, יורד העומס עבור המשימה הנוכחית, וניתן להמשיך אותה בלוחות זמנים רגועים יותר.
  • מעבר להתייעלות העצמית אליה נדרש מדען הנתונים, חשוב מאוד לדרוש עוד משאבים מההנהלה, מאחר וכל תוספת כזו תופנה ישירות למציאת תובנות חדשות – השוות הרבה מאוד כסף לארגון.

 

מחסור בכלי עבודה רלוונטיים
כלי העבודה של מדען הנתונים - דור קודםבכל ארגון קיימים מספר כלים מובנים, המשמשים אותו לצרכי אחסון, אחזור, עיבוד וניתוח של נתונים. סט הכלים הזה גוזר במידה רבה את יכולות מדען הנתונים למצוא תובנות ולתת ערך לארגון.
במקרים רבים, בעיקר בארגונים מסורתיים (מגזר פיננסי, קמעונאות, טלקום וכיו"ב), סט הכלים אינו עושה חסד עם מדען הנתונים – והוא נדרש להתאמץ מאוד על מנת להציג את יכולותיו, תוך תחושה של 'עבודה עם ידיים קשורות'.
הפתרון לבעיה זו הוא מיקוד הוא בקבלת הרשאות לכלים קיימים בארגון שיאפשרו פיתוח אבטיפוס ופתרונות מקומיים (לדוגמה: VB, Access, עמדות 'מולבנות' לקליטת נתונים חיצוניים, הרשאת מפתח ל-BO וכיו"ב).

בחברות Online המצב טוב יותר, מאחר והן פתוחות יותר לאימוץ כלים חדשים – בדגש על כלי קוד פתוח – העשויים לסייע רבות למדען הנתונים.
נוסף על כך, האפשרות לעשות שימוש בשפות Script מאפשר למדען הנתונים להתממשק ל-API’s חיצוניים – ולייבא נתונים אשר יאפשרו תובנות חדשות – כמובן תחת אילוצי אבטחת המידע הנדרשים.
בחברות ה-Online האתגר הוא בפיתוח יכולות עצמאיות ללימוד הכלים הקיימים בשוק, התממשקות ל-API’s שונים והתמודדות עם אתגרי עולם ה-Big-Data. הדרך להתמודד עם האתגר היא באמצעות לימוד מתמשך של כלים שונים הקיימים בשוק. מאחר ורבים מהכלים הם בקוד פתוח, יכול מדען הנתונים להתקין אותם על המחשב האישי שלו או להרים מכונה בענן, לבחון את יכולותיהם, ולבסוף להמליץ על הכלי ולדחוף את הטמעתו בארגון באופן מהיר – אשר יציג ערך מידי וברור לארגון.

עד כאן הבעיות העיקריות המטרידות את מדען הנתונים הטיפוסי בעבודתו היומיומית. אתם מוזמנים להגיב ולהציג בעיות נוספות בהן נתקלתם.

Share
השארת תגובה