The Elements of Data Analytic Style (Hebrew Edition)
The Elements of Data Analytic Style (Hebrew Edition)
מדריך לאנשים שרוצים לנתח נתונים.
אודות הספר
ניתוח הנתונים הוא כמעט כמה שהוא אמנות ככל שהוא מדע. ספר זה מתמקד בפרטים של ניתוח הנתונים שלעיתים נמצאים מחוץ למסגרת של שיעורי סטטיסטיקה מסורתיים וספרי לימוד. הספר מתבסס חלקית על פוסטים שנכתבו בבלוג של המחבר, חומרי הרצאה, ומדריכים כמו:
- 10 דברים שהסטטיסטיקה לימדה אותנו על ניתוח נתונים גדולים
- המדריך של קבוצת ליק לחבילות R
- איך לשתף נתונים עם אנשי סטטיסטיקה
המחבר הוא אחד מתוך מפתחי התמחות במדע הנתונים של Johns Hopkins, התוכנית הגדולה ביותר בעולם בתחום מדע הנתונים שבה נרשמו מעל 1.76 מיליון אנשים. הספר משמש כמדריך משלים לקורסים מבואיים במדע הנתונים או בניתוח נתונים. הוא גם משמש כמקור מידע שימושי לאנשים שמשימתם היא לקרוא ולבקר ניתוחי נתונים.
תוכן העניינים
- מבוא
-
השאלה האנליטית של הנתונים
- הגדרה ראשונה של השאלה האנליטית של הנתונים
- תיאורי
- מסביר
- מרחיק לכת
- תחזיתי
- גורם-תוצאה
- מנגנוני
- שגיאות נפוצות
-
הסדרת הנתונים
- הרכיבים של סט נתונים
- נתונים גולמיים
- הנתונים הגולמיים הם יחסיים בהתאם לאדם שמנהל אותם
- נתונים מסודרים
- כלול שורה בראש כל טבלת נתונים/גיליון עבודה שמכילה שמות שורה מלאים.
- אם אתה משתף את הנתונים שלך עם שותף לעבודה ב-Excel, הנתונים המסודרים צריכים להיות בקובץ Excel אחד לכל טבלה.
- הספר של הקוד
- רשימת ההוראות או התסריט חייבים להיות מפורשים
- רשימת ההוראות האידאלית היא תסריט
- אם אין תסריט, צריך להיות מאוד מפורט לגבי הפרמטרים, הגרסאות, וסדר התוכנה
- שגיאות נפוצות
-
בדיקת הנתונים
- איך לתכנת משתנים
- בספר הקודים אתה צריך להסביר למה ערכים מסוננים חסרים.
- אל תקודד משתנים המכילים נתונים מרובי קטגוריות או סדריים כמספרים.
- תמיד קודד כל חתיכת מידע על התצפיות שלך באמצעות טקסט.
- זהה את מחוון הערך החסר
- בדיקה על שגיאות קידוד ברורות
- בדיקה של החלפת תוויות
- אם יש לך מידע בקבצים מרובים, ודא שמידע שאמור להיות זהה בקבצים הוא אכן זהה
- בדיקת היחידות (או חוסר היחידות)
- שגיאות נפוצות
-
ניתוח חקרי
- ניתוח אינטראקטיבי הוא הדרך הטובה ביותר לחקור נתונים
- הצג בגרף כמה שיותר מהנתונים האמיתיים שאתה יכול
- גרפים וטבלאות חקריות צריכות להיות מהירות
- גרפים הם טובים מאשר סיכומים
- עבור סטי נתונים גדולים, עשה דגימה לפני הצגה בגרף
- השתמש בצבע ובגודל כדי לבדוק את המבלבל
- עבור גרפים מרובים של אותו סוג נתונים, תקן את הצירים
- לגרפים מרובי חלונות - התאמת ציר ההשוואה
- השתמש בהמרות לוגריתמיות ל”פיזור” נתונים עם סדרי גודל שונים
- השתמש בהמרות לוגריתמיות למדידות של מנים
- בעת השוואת שני מדידות של אותו דבר - השתמש בגרפים של Bland Altman
- שגיאות נפוצות
-
מודלינג סטטיסטי והסקה
- כאשר אפשרי, בצעו ניתוח החקרתי ומאשר על קבוצות נתונים נפרדות
- הגדר את האוכלוסייה, הדגימה, האנשים והנתונים
- תייחס סיבות שבגללן הדגימה שלך עשויה לא לייצג את האוכלוסייה
- תייחס גורמי הטרדה פוטנציאליים
- בחן את התפלגות הנתונים החסרים
- בחן את הנתונים החריגים
- וודא שההערכות יש להן סימנים וגדלים הגיוניים
- היזהר מדגימות קטנות מאוד או גדולות מאוד
- כאשר אתה מבצע מספר רב של בדיקות השערה, תקן לבדיקות מרובות
- עשה החלקה בנתונים כאשר יש לך נתונים שנמדדו לאורך מרחק, מרחב או זמן
- הכר את גודל הדגימה האמיתי שלך
- שגיאות נפוצות
-
תחזית ולמידת מכונה
- חלק את הנתונים לסטים לאימון ולאימות
- זההו סיבות שדגימתכם עשויה לא לייצג את האוכלוסייה
- בדרך כלל, נתונים נוספים משפרים את התוצאות יותר מאשר אלגוריתמים טובים יותר
- התכונות הן חשובות יותר מאשר האלגוריתם
- קבע את מדד השגיאה שלך תחילה
- מניעת ייתר התאמה עם אימות צולב
- אם המטרה היא דיוק בחיזוי, משקלל דגמי חיזוי רבים יחד.
- חזין הוא עניין של מאזן
-
גורמיות
- ניתוח נתונים גורמי של ניסויים שאינם מרונדומים נוטה להיות קשה להצדיק.
- אפילו מחקרים מרונדומים עשויים להכביר קושי בפרשנותם בצורה גורמית
- עבור מחקרים מרונדומים השתמש בניתוח חוקר לאשר שההינדום “עבד”
- ניתוחים גורמיים של נתונים מחפשים לזהות אפקטים ממוצעים בין משתנים רועשים לעיתים.
- אלא אם כן ביצעת ניסוי מרונדום או שימשתך טכניקות גורמיות, חמוק משפה גורמית
- שגיאות נפוצות
-
ניתוחים כתובים
- האלמנטים של ניתוח כתוב
- התחל בשאלה שאתה מנסה לענות עליה
- תאר את עיצוב הניסוי
- תאר את סט הנתונים
- כאשר אתה מתאר דגם סטטיסטי השתמש במשוואות או בקוד מדמה
- ציין את התפלגות הבלתי ודאות
- לכל פרמטר שמעניין, דווח על הערכה ופרשנות בסולם המדידה הרלוונטי
- לכל פרמטר, דווח על מדד של בלתי ודאות בסולם המדידה הרלוונטי
- סכם את חשיבות ההערכות שדווחו
- ציין בעיות אפשריות בניתוח
- אין לדווח על כל ניתוח שביצעת
- על כל שיטה סטטיסטית או של למידת מכונה להיות מקושרת
-
יצירת תרשימים
- מידע צריך להימסר כמה שיותר במיקום, ובסקאלה משותפת.
- צריך להימנע מחוסר צפיפות מידע
- צריך להימנע מקישוטים מיותרים
- ניתן להשתמש בצבע ובגודל להעברת מידע.
- כאשר ישנם הרבה ערכים של משתנה שלישי השתמש בחלוקה למשנות
- תוויות הצירים צריכות להיות גדולות, קריאות, בשפה ברורה
- כלול יחידות בתוויות התרשים והאגדות
- השתמש באגדות של תרשימים
- העדפה למקראים מוטמעים בתוך הדיאגרמה
- כותרות הדיאגרמות צריכות להעביר את המסר של התרשים
- תייגו תרשימים בעלי מספר פאנלים עם מספרים או אותיות
- הוסף טקסט לתרשים עצמו להעברת מסר
- הסברים לדיאגרמות צריכים להיות עצמאיים
- שגיאות נפוצות
-
מצגת נתונים
- התאם את ההרצאה שלך לקהל שלך
- סדר את ההרצאה שלך בפורמט של סיפור
- השתמש בגופנים גדולים
- כלול מידע ליצירת קשר בתחילת המצגת
- כל הדיאגרמות צריכות להכיל תוויות ציר גדולות בעברית ברורה
- תמיד ייחסו מקור לתמונות ולטקסטים שלקחתם
- באופן כללי, השתמשו ברקע אחיד ובגופן בצבע המנוגד
- פחתו את הטקסט בשקופיות
- הסבר כל דיאגרמה בהרצאה שלך בפרטים
- השתמש במשוואות להגביר את הרעיון, אך השתמש בהן בחסכנות
- הסכם לומר “אני לא יודע”
- הבחן את סוג התגובה שלך כאשר אתה עונה על שאלות
- אל תהפוך לאגרסיבי
- סיים במועד
- איפה כדאי לפרסם את ההרצאה שלך
-
שחזור נתונים
- יש לך סקריפט לניתוח נתונים
- רשום גרסאות של תוכנה ופרמטרים
- ארגן את ניתוח הנתונים שלך
- השתמש בבקרת גרסאות
- הגדרת זרע של מחולל המספרים האקראיים
- לגבי מערכי נתונים גדולים, שמור תוצאות ביניים ובמיוחד איך הגעת אליהן
- תן לאחרים לרוץ את הניתוח שלך
- שגיאות נפוצות
- כמה עניינים של צורה
-
רשימת בדיקה לניתוח נתונים
- ענייה על השאלה
- בדיקת הנתונים
- סידור הנתונים
- ניתוח חוקרני
- הסקה
- חיזוי
- סיבתיות
- ניתוחים כתובים
- דיאגרמות או תרשימים
- הצגות
- רפרודוקטיביות
- חבילות R
-
משאבים נוספים
- הערות שיעור
- מדריכים
- מדריכים מקבוצת Leek
- ספרים
The Leanpub 60 Day 100% Happiness Guarantee
Within 60 days of purchase you can get a 100% refund on any Leanpub purchase, in two clicks. We process the refunds manually, so they may take a few days to show up. See full terms.
הרווח $8 ברכישה של $10 ו-$16 ברכישה של $20
אנחנו משלמים 80% תמלוגים על רכישות של $7.99 ומעלה, ו80% תמלוגים פחות תשלום קבוע של 50 סנט על רכישות בין $0.99 ל-$7.98. אתה מרוויח $8 במכירה של $10 ו-$16 במכירה של $20. אז, אם נמכור 5000 עותקים שלא הוחזרו של הספר שלך ב-$20, תרוויח $80,000.
(כן, כמה מחברים כבר הרוויחו הרבה יותר מזה ב-Leanpub.)
למעשה, מחברים הרוויחומעל $13 מיליון בכתיבה, פרסום ומכירה ב-Leanpub.
למד עוד על כתיבה ב-Leanpub
Free Updates. DRM Free.
If you buy a Leanpub book, you get free updates for as long as the author updates the book! Many authors use Leanpub to publish their books in-progress, while they are writing them. All readers get free updates, regardless of when they bought the book or how much they paid (including free).
Most Leanpub books are available in PDF (for computers), EPUB (for phones and tablets) and MOBI (for Kindle). The formats that a book includes are shown at the top right corner of this page.
Finally, Leanpub books don't have any DRM copy-protection nonsense, so you can easily read them on any supported device.
Learn more about Leanpub's ebook formats and where to read them