מדעי הנתונים
ביוסטטיסטיקה וביומתמטיקה
מנהל היחידה
צוות היחידה
מחקרי היחידה לביוסטטיסטיקה וביומתמטיקה
מחקרים לפי חוקרים
פרסומים
פורום ישראלי לביוסטטיסטיקה
מידע ומחשוב
ערכים חסרים במשתנה מסביר תלוי זמן במודל ניתוח הישרדות גירסה להדפסה

חוקרים

ד"ר חבי מורד, פרופ' רחל דנקנר, ד"ר אלה ברלין, גב' לירז אולמר, פרופ' לורנס פרידמן

 

רקע

בחקירת הקשר שבין איזון סוכר וסיכון לסרטן בחולי סוכרת ממאגר הנתונים של קופת חולים כללית  (n=548,000) נתקלנו בבעיה של כמות מהותית של ערכים חסרים במדדי הסוכר (גלוקוז ו-HbA1c). בכל תקופה של 6 חודשים היו חסרים בממוצע 30% עד 40%.

 

מטרה

לפתח שיטה להשלמת ערכים חסרים (אימפיוטציה) של משתנה מסביר תלוי-זמן, במודל הישרדות עם זמן בדיד.

 

שיטות

השיטה המוצעת משלימה את הערך החסר בגלוקוז וב-HbA1c בשרשרת לכל תקופה בשיטת ה- Chained equations. היא מבצעת זאת בצורה סדרתית בזמן, כך שבהשלמה בכל זמן היא משתמשת בערכים של מדדי הסוכר שהושלמו כבר בזמנים קודמים, כמו גם בתוצא ההישרדות. כל שצריך כדי להפעילה זה פרוצידורת MI בתוכנת SAS עם האופציה FCS, או חבילה דומה של MICE בתוכנת R.

שימוש בסימולציות לבחינת טיב הביצוע של השיטה תחת דפוסי נתונים חסרים שונים:

חסרים באקראי לגמרי (CMAR)

חסרים באקראי (MAR)

חסרים לא באקראי (moderate and strong NMAR), כלומר יש קשר בין הסיכוי להיות חסר לבין הערך החסר.

 

ממצאים

הסימולציות מראות כי האומד המוצע לקשר בין איזון סוכר וסרטן, לאחר שימוש בשיטה שלנו להשלמת ערכים חסרים, מבצע טוב (במונחי הטיה וכיסוי של רווח בר-סמך) עבור נתונים שחסרים לגמרי באקראי ,(CMAR) נתונים שחסרים באקראי (MAR), או בנתונים שחסרים שלא באקראי ברמה בינונית (moderate NMAR). אך עבור מצבים של נתונים שחסרים שלא באקראי באופן חזק (strong NMAR), האומד היה מוטה מאוד והכיסוי של רווח בר-סמך נמוך מדי.

 

מסקנות

השיטה המוצעת קלה להפעלה באמצעות תוכנת SAS או כל תוכנה אחרת שמבצעת אימפיוטציה מרובה, וזמן הריצה שלה מהיר. זה חשוב כאשר עוסקים בקבצים גדולים כמו במקרה שלנו. היא מבצעת טוב בנתונים שחסרים באקראי או שקרובים לכך. אחד החסרונות הוא שאם מודל ההישרדות הוא עם זמן רציף אזי יש לחלק את הזמן לאינטרוולים. כרגע השיטה היא רק קירוב כי אינה כוללת ערכים של זמנים עתידיים במודל האימפיוטציה.

 

המלצות

לכלול זמנים עתידיים במודל האימפיוטציה, ולהשוות את השיטה שלנו עם שיטת ה-Joint Modelling.

 

פרסום

Murad H, Dankner R, Berlin A, Olmer L, Freedman LS. Imputing missing time-dependent covariate values for the discrete time Cox model. Stat Methods Med Res. 2019 Nov 3:962280219881168. doi: 10.1177/0962280219881168. [Epub ahead of print[

 

חזור