קח הטבות רגולטוריות בשווי מיליארד שקל, תן סיקור מיטיב באתר האינטרנט שלך. כך, בתמצית, מתארת המשטרה את חשדותיה נגד ראש הממשלה בנימין נתניהו ונגד איל ההון שאול אלוביץ', בעל השליטה בבזק ובאתר "וואלה". הטיה בסיקור יכולה להיות עניין מורכב וסמוי מהעין – למשל בהוראה על מה לא לכתוב או בצנזורה עצמית של עיתונאים, אבל הדעת נותנת שיהיה לה גם חלק גלוי – במה שכן התפרסם. כשמדובר בעיתון דפוס, קל יותר ללכת לספרייה ולבדוק את לפני הקלעים של ההטיה, אולם מה עושים כשמדובר באתר אינטרנט?

דפי האתר אמנם אמורים להיות זמינים, אך אין ערובה לכך שתוכנם לא השתנה או שנמחקו כליל. מעבר לכך, דפי הבית, המקבילה של דפי השער העיתון, אלו שמשמשים חלון ראווה לאג'נדה הגלויה והסמויה, כלל אינם נשמרים מלכתחילה. על מכשלה זו התגברנו באמצעות מאגר הנמצא בידי "העין השביעית", ובו מתועדות כל הכותרות הראשיות באתר "וואלה" בחודשים שקדמו לבחירות לכנסת ה-20, תקופה שהדעת נותנת שתהיה קרקע פורייה להטיה פוליטית.

במטרה לבחון את הטענות לגבי הטיית הסיקור ב"וואלה" לטובת ראש הממשלה החלטנו לעבור ידנית על כל הכותרות ולבדוק את העמדה (סנטימנט) שהובעה בהן כלפי נתניהו ומשפחתו. האתגר נבע מהיקף החומר: כ-15 אלף כותרות.

ההחלטה הראשונה והמשמעותית ביותר שקיבלנו היתה לפנות למודל של עיתונות אזרחית (Civic Journalism) כדי לקטלג את הכותרות. לשם כך פנינו לתומכי "קרן התחקירים" ו"מאה ימים של שקיפות" וביקשנו מהם עזרה ב"סינון חומר הקשור לתיק 4000", עם דרישה להתחייבות לשעתיים של עבודה לכל הפחות. בתוך 24 שעות התנדבו למשימה למעלה מ-80 איש, ש-50 מהם אכן השתתפו בפועל בתהליך, שהסתיים כולו בתוך שלושה ימים. בהזדמנות זו נרצה להודות לעשרות המתנדבים שתרמו מזמנם לפרויקט.

החלטה נוספת שהתקבלה בראשית הדרך היתה לצמצם את היקף החומר שיעבור סינון ידני על-ידי התמקדות רק בכותרות שהופיעו בכל שעה עגולה ומחיקת כותרות שהופיעו מחוץ לשעות השיא (23:00–05:00). מהלך זה צימצם את כמות הכותרות פי חמישה. בנוסף, העברנו את הקבצים – שהיו בפורמט HTML ללא עיצוב – דרך סקריפט (שנכתב בידי מתנדב בעל מומחיות רלבנטית) שהפך אותם לפשוטים יותר לקריאה.

בשלב זה חולק החומר למקבצים של 100 כותרות. כל מקבץ נמסר לטיפולם של שניים או שלושה מתנדבים שונים, כדי לאפשר השוואה בין התוצאות. לכל מתנדב נשלח מייל עם הנחיות זהות לסינון החומר (אותן תוכלו לקרוא פה) וכן המקבץ שעליו הוא אחראי. המתנדבים התבקשו למלא טופס משוב עבור כל כותרת שהתוכן שלה הובן בעיניהם כ"פוליטי". במידה והכותרת עסקה בראש הממשלה נתניהו התבקשו המתנדבים גם להגדיר את הסנטימנט שלה: חיובי, שלילי או ניטרלי.

בשל אחוזי ההשתתפות (60%), טעויות הזנה שנוקו ואלמנט של מקריות – כ-70% מהכותרות נסרקו לבסוף בידי אדם אחד, והיתר בידי שניים או יותר. עבור כותרות שנסרקו בידי אדם בודד ביצענו דגימה של התוצאות לאימות דיוק הנתונים. עבור כותרות שנסרקו בידי יותר מאדם אחד ביצענו "בדיקת הסכמה": אם הבודקים הסכימו על הסנטימנט (מה שקרה בכ-60% מהמקרים) נבחרה התוצאה המוסכמת. אם לא היתה הסכמה, נסרקה הכותרת בידינו בשנית לשם בחירת העמדה המדויקת יותר.

במקביל, גם כן בעזרת מתנדב מקצועי, בנינו מאגר מידע גולמי שאליו הוכנסו כל הכותרות מתקופת הזמן המדוברת (כאמור, כ-15 אלף במספר). באמצעות המאגר חיפשנו כותרות "חשודות" בהתבסס על מטא-נתונים (אורך חיי הכותרת, כמות הפעמים שהוחלפה, האנשים שמוזכרים בטקסט וכו') וכן ביצענו השוואות בשינויים שהתבצעו בתוכן בפועל.

בהמשך לנכתב בתחילת המאמר, חשוב להזכיר את המגבלות הברורות של התהליך הכמותי שביצענו: ראשית, הוא מתייחס רק למה שפורסם בפועל בכותרת הראשית של "וואלה", ולא לידיעות שנדחקו בתחתית הדף או לא פורסמו כלל. כמו כן, הסיווג התמקד בכותרת בלבד – ולא בתוכן הכתבה או בתמונות שהתלוו אליה (דיווחים קודמים הצביעו על התמונות כזירת התערבות מרכזית). עוד ראוי להוסיף כי הבדיקה הכמותית שערכנו חסרה אלמנט השוואתי (לאתרים אחרים), ועל כן היא עשויה לפספס את הדקויות שבסיפור שמאחורי כל כותרת.

בחודשים הקרובים נשאף להרחיב את העבודה העיתונאית מבוססת מידע (Data Journalism) על מאגרי מידע דומים שבהם שמורות כותרות אתרי החדשות בישראל.