The Elements of Data Analytic Style (Hebrew Edition)
The Elements of Data Analytic Style (Hebrew Edition)
מדריך לאנשים שרוצים לנתח נתונים.
אודות הספר
ניתוח הנתונים הוא כמעט כמה שהוא אמנות ככל שהוא מדע. ספר זה מתמקד בפרטים של ניתוח הנתונים שלעיתים נמצאים מחוץ למסגרת של שיעורי סטטיסטיקה מסורתיים וספרי לימוד. הספר מתבסס חלקית על פוסטים שנכתבו בבלוג של המחבר, חומרי הרצאה, ומדריכים כמו:
- 10 דברים שהסטטיסטיקה לימדה אותנו על ניתוח נתונים גדולים
- המדריך של קבוצת ליק לחבילות R
- איך לשתף נתונים עם אנשי סטטיסטיקה
המחבר הוא אחד מתוך מפתחי התמחות במדע הנתונים של Johns Hopkins, התוכנית הגדולה ביותר בעולם בתחום מדע הנתונים שבה נרשמו מעל 1.76 מיליון אנשים. הספר משמש כמדריך משלים לקורסים מבואיים במדע הנתונים או בניתוח נתונים. הוא גם משמש כמקור מידע שימושי לאנשים שמשימתם היא לקרוא ולבקר ניתוחי נתונים.
תוכן עניינים
- מבוא
-
השאלה האנליטית של הנתונים
- הגדרה ראשונה של השאלה האנליטית של הנתונים
- תיאורי
- מסביר
- מרחיק לכת
- תחזיתי
- גורם-תוצאה
- מנגנוני
- שגיאות נפוצות
-
הסדרת הנתונים
- הרכיבים של סט נתונים
- נתונים גולמיים
- הנתונים הגולמיים הם יחסיים בהתאם לאדם שמנהל אותם
- נתונים מסודרים
- כלול שורה בראש כל טבלת נתונים/גיליון עבודה שמכילה שמות שורה מלאים.
- אם אתה משתף את הנתונים שלך עם שותף לעבודה ב-Excel, הנתונים המסודרים צריכים להיות בקובץ Excel אחד לכל טבלה.
- הספר של הקוד
- רשימת ההוראות או התסריט חייבים להיות מפורשים
- רשימת ההוראות האידאלית היא תסריט
- אם אין תסריט, צריך להיות מאוד מפורט לגבי הפרמטרים, הגרסאות, וסדר התוכנה
- שגיאות נפוצות
-
בדיקת הנתונים
- איך לתכנת משתנים
- בספר הקודים אתה צריך להסביר למה ערכים מסוננים חסרים.
- אל תקודד משתנים המכילים נתונים מרובי קטגוריות או סדריים כמספרים.
- תמיד קודד כל חתיכת מידע על התצפיות שלך באמצעות טקסט.
- זהה את מחוון הערך החסר
- בדיקה על שגיאות קידוד ברורות
- בדיקה של החלפת תוויות
- אם יש לך מידע בקבצים מרובים, ודא שמידע שאמור להיות זהה בקבצים הוא אכן זהה
- בדיקת היחידות (או חוסר היחידות)
- שגיאות נפוצות
-
ניתוח חקרי
- ניתוח אינטראקטיבי הוא הדרך הטובה ביותר לחקור נתונים
- הצג בגרף כמה שיותר מהנתונים האמיתיים שאתה יכול
- גרפים וטבלאות חקריות צריכות להיות מהירות
- גרפים הם טובים מאשר סיכומים
- עבור סטי נתונים גדולים, עשה דגימה לפני הצגה בגרף
- השתמש בצבע ובגודל כדי לבדוק את המבלבל
- עבור גרפים מרובים של אותו סוג נתונים, תקן את הצירים
- לגרפים מרובי חלונות - התאמת ציר ההשוואה
- השתמש בהמרות לוגריתמיות ל”פיזור” נתונים עם סדרי גודל שונים
- השתמש בהמרות לוגריתמיות למדידות של מנים
- בעת השוואת שני מדידות של אותו דבר - השתמש בגרפים של Bland Altman
- שגיאות נפוצות
-
מודלינג סטטיסטי והסקה
- כאשר אפשרי, בצעו ניתוח החקרתי ומאשר על קבוצות נתונים נפרדות
- הגדר את האוכלוסייה, הדגימה, האנשים והנתונים
- תייחס סיבות שבגללן הדגימה שלך עשויה לא לייצג את האוכלוסייה
- תייחס גורמי הטרדה פוטנציאליים
- בחן את התפלגות הנתונים החסרים
- בחן את הנתונים החריגים
- וודא שההערכות יש להן סימנים וגדלים הגיוניים
- היזהר מדגימות קטנות מאוד או גדולות מאוד
- כאשר אתה מבצע מספר רב של בדיקות השערה, תקן לבדיקות מרובות
- עשה החלקה בנתונים כאשר יש לך נתונים שנמדדו לאורך מרחק, מרחב או זמן
- הכר את גודל הדגימה האמיתי שלך
- שגיאות נפוצות
-
תחזית ולמידת מכונה
- חלק את הנתונים לסטים לאימון ולאימות
- זההו סיבות שדגימתכם עשויה לא לייצג את האוכלוסייה
- בדרך כלל, נתונים נוספים משפרים את התוצאות יותר מאשר אלגוריתמים טובים יותר
- התכונות הן חשובות יותר מאשר האלגוריתם
- קבע את מדד השגיאה שלך תחילה
- מניעת ייתר התאמה עם אימות צולב
- אם המטרה היא דיוק בחיזוי, משקלל דגמי חיזוי רבים יחד.
- חזין הוא עניין של מאזן
-
גורמיות
- ניתוח נתונים גורמי של ניסויים שאינם מרונדומים נוטה להיות קשה להצדיק.
- אפילו מחקרים מרונדומים עשויים להכביר קושי בפרשנותם בצורה גורמית
- עבור מחקרים מרונדומים השתמש בניתוח חוקר לאשר שההינדום “עבד”
- ניתוחים גורמיים של נתונים מחפשים לזהות אפקטים ממוצעים בין משתנים רועשים לעיתים.
- אלא אם כן ביצעת ניסוי מרונדום או שימשתך טכניקות גורמיות, חמוק משפה גורמית
- שגיאות נפוצות
-
ניתוחים כתובים
- האלמנטים של ניתוח כתוב
- התחל בשאלה שאתה מנסה לענות עליה
- תאר את עיצוב הניסוי
- תאר את סט הנתונים
- כאשר אתה מתאר דגם סטטיסטי השתמש במשוואות או בקוד מדמה
- ציין את התפלגות הבלתי ודאות
- לכל פרמטר שמעניין, דווח על הערכה ופרשנות בסולם המדידה הרלוונטי
- לכל פרמטר, דווח על מדד של בלתי ודאות בסולם המדידה הרלוונטי
- סכם את חשיבות ההערכות שדווחו
- ציין בעיות אפשריות בניתוח
- אין לדווח על כל ניתוח שביצעת
- על כל שיטה סטטיסטית או של למידת מכונה להיות מקושרת
-
יצירת תרשימים
- מידע צריך להימסר כמה שיותר במיקום, ובסקאלה משותפת.
- צריך להימנע מחוסר צפיפות מידע
- צריך להימנע מקישוטים מיותרים
- ניתן להשתמש בצבע ובגודל להעברת מידע.
- כאשר ישנם הרבה ערכים של משתנה שלישי השתמש בחלוקה למשנות
- תוויות הצירים צריכות להיות גדולות, קריאות, בשפה ברורה
- כלול יחידות בתוויות התרשים והאגדות
- השתמש באגדות של תרשימים
- העדפה למקראים מוטמעים בתוך הדיאגרמה
- כותרות הדיאגרמות צריכות להעביר את המסר של התרשים
- תייגו תרשימים בעלי מספר פאנלים עם מספרים או אותיות
- הוסף טקסט לתרשים עצמו להעברת מסר
- הסברים לדיאגרמות צריכים להיות עצמאיים
- שגיאות נפוצות
-
מצגת נתונים
- התאם את ההרצאה שלך לקהל שלך
- סדר את ההרצאה שלך בפורמט של סיפור
- השתמש בגופנים גדולים
- כלול מידע ליצירת קשר בתחילת המצגת
- כל הדיאגרמות צריכות להכיל תוויות ציר גדולות בעברית ברורה
- תמיד ייחסו מקור לתמונות ולטקסטים שלקחתם
- באופן כללי, השתמשו ברקע אחיד ובגופן בצבע המנוגד
- פחתו את הטקסט בשקופיות
- הסבר כל דיאגרמה בהרצאה שלך בפרטים
- השתמש במשוואות להגביר את הרעיון, אך השתמש בהן בחסכנות
- הסכם לומר “אני לא יודע”
- הבחן את סוג התגובה שלך כאשר אתה עונה על שאלות
- אל תהפוך לאגרסיבי
- סיים במועד
- איפה כדאי לפרסם את ההרצאה שלך
-
שחזור נתונים
- יש לך סקריפט לניתוח נתונים
- רשום גרסאות של תוכנה ופרמטרים
- ארגן את ניתוח הנתונים שלך
- השתמש בבקרת גרסאות
- הגדרת זרע של מחולל המספרים האקראיים
- לגבי מערכי נתונים גדולים, שמור תוצאות ביניים ובמיוחד איך הגעת אליהן
- תן לאחרים לרוץ את הניתוח שלך
- שגיאות נפוצות
- כמה עניינים של צורה
-
רשימת בדיקה לניתוח נתונים
- ענייה על השאלה
- בדיקת הנתונים
- סידור הנתונים
- ניתוח חוקרני
- הסקה
- חיזוי
- סיבתיות
- ניתוחים כתובים
- דיאגרמות או תרשימים
- הצגות
- רפרודוקטיביות
- חבילות R
-
משאבים נוספים
- הערות שיעור
- מדריכים
- מדריכים מקבוצת Leek
- ספרים
הבטחת 60 יום של 100% שביעות רצון של Leanpub
תוך 60 יום מהרכישה תוכלו לקבל החזר כספי מלא על כל רכישה ב-Leanpub, בשתי לחיצות.
טכנית, זה מסוכן עבורנו, מכיוון שקבצי הספר או הקורס יישארו ברשותכם בכל מקרה. אבל אנחנו כל כך בטוחים במוצרים ובשירותים שלנו, ובמחברים ובקוראים שלנו, שאנחנו שמחים להציע החזר כספי מלא עבור כל מה שאנחנו מוכרים.
אתם יכולים לגלות עד כמה משהו טוב רק על ידי ניסיון, ובזכות ההבטחה שלנו להחזר כספי מלא של 100%, פשוט אין שום סיכון בכך!
אז, אין סיבה לא ללחוץ על כפתור ׳הוסף לעגלה׳, נכון?
ראו תנאים מלאים...
הרווח $8 על רכישה של $10, ו-$16 על רכישה של $20
אנו משלמים 80% תמלוגים על רכישות של $7.99 ומעלה, ו-80% תמלוגים בניכוי עמלה קבועה של 50 סנט על רכישות בין $0.99 ל-$7.98. אתה מרוויח $8 על מכירה של $10, ו-$16 על מכירה של $20. כך שאם נמכור 5000 עותקים של ספרך ב-$20 ללא החזרות, תרוויח $80,000.
(כן, חלק מהסופרים כבר הרוויחו הרבה יותר מזה ב-Leanpub.)
למעשה, סופרים הרוויחומעל 14 מיליון דולר בכתיבה, פרסום ומכירה ב-Leanpub.
למד עוד על כתיבה ב-Leanpub
עדכונים חינם. ללא הגבלות DRM.
כשאתם קונים ספר ב-Leanpub, אתם מקבלים עדכונים חינם כל עוד המחבר מעדכן את הספר! מחברים רבים משתמשים ב-Leanpub כדי לפרסם את ספריהם בזמן כתיבתם. כל הקוראים מקבלים עדכונים בחינם, ללא קשר למועד הרכישה או לסכום ששילמו (כולל חינם).
רוב ספרי Leanpub זמינים בפורמט PDF (למחשבים) ו-EPUB (לטלפונים, טאבלטים וקינדל). הפורמטים הכלולים בספר מוצגים בפינה הימנית העליונה של דף זה.
לבסוף, לספרי Leanpub אין הגנת העתקה מטופשת של DRM, כך שתוכלו לקרוא אותם בקלות בכל מכשיר נתמך.
למדו עוד על פורמטי הספרים האלקטרוניים של Leanpub והיכן לקרוא אותם