ניטור ותחזית משך ריצה של תהליכי נתונים ב-Python


אם אתם מפתחים תהליכי נתונים ב-Python, בוודאי נתקלתם אי פעם במקרה שבו אתם מריצים קוד על הרבה נתונים – לרוב דרך לולאה על מערך/ רשימה.לאחר שהרצנו את הקוד התהליך רץ, ורץ, וממשיך לרוץ, ועוד קצת – ואנחנו בכלל לא יודעים אם הוא רץ כרגיל או תקוע, שלא לדבר על מתי הוא צפוי להסתיים.

הפתרון לבעיה פשוט למדי – יצירת פונקציית ניטור, כולל תחזית למשך זמן הריצה ומועד הסיום שלה, והרצה שלה בתוך התהליך.
העיקרון של הפונקציה הוא לבדוק כמה רשומות עובדו ביחידת זמן. את זה ניתן לבצע ע"י ריצה באינטרוול מסוים, אשר יכול להיות או כל X רשומות, או כל Y שניות, ומשם לחשב תחזית למשך זמן הריצה.

להלן דוגמה לפונקציה כזו, אשר רצה כל X רשומות:

ניטור תהליכי נתונים ב-Python - קוד לפי כמות רשומות

הפונקציה מקבלת 5 פרמטרים כקלט:

  1. מונה רשומות שעובדו (מספר האיטרציה הנוכחי).
  2. מספר הרשומות הכולל הצפוי בריצה.
  3. אינטרוול לחישוב התחזית – האם נרצה שהתחזית תרוץ כל איטרציה, או כל 1000 איטרציות.
  4. מועד תחילת הריצה.
  5. דגל לטובת חישוב זמן הריצה לאחר סיומה, על מנת שהפונקציה תוכל לשמש גם עבור דוח סיכום של הריצה.

הפונקציה מחזירה 4 פרמטרים:

  1. מספר הרשומות שעובדו.
  2. זמן כולל שעבר מתחילת הריצה.
  3. זמן כולל מוערך לריצה.
  4. זמן מוערך שנותר עד לסיום הריצה (זמן כולל פחות הזמן שעבר עד עכשיו).

 

ניתן להשתמש גם בפונקציה אשר רצה אחת לדקה (או כל אינטרוול זמן אחר) ומחשבת זמן מוערך:

ניטור תהליכי נתונים ב-Python - קוד לפי אינטרוול זמן

הפונקציה כאן כבר מעט יותר מורכבת, מאחר והיא נדרשת לדגום את מועד הריצה הקודמת של הלולאה, ולבדוק היכן היתה 'קפיצה' באינטרוול הזמן שהוזן. הפרמטר lastTime [מועד הריצה האחרון של הלולאה] הצטרף הן לרשימת הקלט והן לפלט של הפונקציה.

חשוב להדגיש, כי זמני הדיווח לא יהיו בהכרח בדיוק באינטרוול הזמן שהוגדר [לדוגמה: 2 שניות, 4 שניות, 6 שניות וכיו"ב], מאחר ונתון זה תלוי בגורמים נוספים הקשורים לתהליך הריצה – ויש לבחון מהו אינטרוול הזמן המתאים ביותר.

להלן דוגמה לשימוש בפונקציה. בדוגמה נכניס למערך מיליון ערכים רנדומליים בעזרת לולאה. בכל שנייה התהליך ידווח לנו כמה רשומות הוזנו, מועד הניטור, זמן חזוי כולל, וזמן חזוי לסיום:

ניטור תהליכי נתונים ב-Python - קוד

תוצאת התהליך:

ניטור תהליכי נתונים ב-Python - תוצאה

סיכום

ניטור תהליך ריצה הוא כלי חשוב מאוד במהלך פיתוח פתרונות אנליטיים. הוא מסייע בהערכת משך זמן הריצה, בקרת איכות עליה ויעילותה. הכלי קריטי בעיקר בשלבי הפיתוח הראשונים של פתרונות 'כבדים' מבחינת היקף הנתונים בהם, מאחר והוא מאפשר הבנה פשוטה האם התהליך שפותח רץ כראוי, או נתקע – גם מבלי להמתין שעות לסיומו.

 

השארת תגובה