ביום ראשון הקרוב ייפתח בספרייה הלאומית בירושלים כנס בן יומיים שיוקדש כולו לאִרכוב האינטרנט. לקראת הכנס, שנערך בשיתוף פעולה בין הספרייה הלאומית ובין המעבדה למדיה ומידע באוניברסיטה הפתוחה, העלתה הספרייה תערוכה מקוונת המאפשרת לכל אחד להציץ להיסטוריה של עשרים שנות אינטרנט ישראלי. עם זאת, מי שיבקר בתערוכה המקוונת וילחץ על אחד הקישורים שנכללים בה, כמו למשל זה שמציג כיצד נראה אתר "הארץ" המינימלי בשנת 1996, יגלה כי הדפדפן שלו הופנה בכלל לאתר אמריקאי בשם "Internet Archive".

"זה אבסורד", מודה ירון דויטשר, ראש אגף הדיגיטל בספרייה הלאומית, בשיחה עם "העין השביעית". "בנינו אתר לכבוד עשרים שנה לאינטרנט בישראל, אני אומר לכולם לבוא אלינו לראות את האינטרנט הישראלי כמו שאנחנו שומרים אותו, אבל האתר מפנה אותם לדפים שמאורכבים לא אצלנו, בספרייה הלאומית, אלא באיזה שרת בקליפורניה, בשרתים של ה-'Internet Archive'".

הסיבה, מבהיר דויטשר, היא משפטית. "לפי החוק הישראלי, ליתר דיוק על-פי תקנות זכויות היוצרים, אסור לנו להנגיש את החומרים באינטרנט ללא אישור של בעל הזכויות". לכן, את כל פירות עבודת הארכוב הדיגיטלי של האתרים הישראלים בספרייה הלאומית, ולא רק את התערוכה שמציגה טעימה מהם, ניתן לראות רק בספרייה עצמה, באחד המסופים שקבועים בה או ממחשב נייד שגולש מהרשת האלחוטית של הספרייה.

החדשות הטובות הן שהספרייה הלאומית פועלת נמרצות לשינוי התקנות, כך שתוכל להנגיש את כל ההיסטוריה של האינטרנט הישראלי גם לגולשים שאינם נמצאים בגבעת-רם בירושלים. "זה נמצא במשרד המשפטים, ואנחנו מקווים שכבר בשבועות הקרובים נקבל את אישור השרה ונוכל לפתוח את המאגרים", מעדכן דויטשר. משמעות הדבר שכבר בעתיד הנראה לעין יוכל כל אחד לבדוק כיצד, למשל, נראו דפי הבית של אתרי החדשות בישראל במהלך מערכות הבחירות האחרונות או מלחמת לבנון השנייה.

ירון דויטשר (צילום: יח"צ)

ירון דויטשר (צילום: יח"צ)

"כשאתה מדבר על ספרייה מדמיינים בעיקר ספרים", מוסיף דוישטר, "אבל כשספרייה לאומית רוצה לשמר את התרבות, את החברה ואת הרוח למען הדורות הבאים, היא צריכה בימים אלה לחשוב על הרבה מעבר לספרים. ובאמת חוץ מספרים יש בספרייה הרבה מאוד פורמטים של מדיה, מכתבי יד ומפות עתיקות דרך ויז'ואלים מסוגים שונים וכלה בחומרי אודיו, מוזיקה ורדיו וחומרי וידיאו.

"אנחנו רוצים לתת לחוקר של היום ולחוקר של עוד עשרים ועוד חמישים שנה את המידע הטוב ביותר על מה שמתרחש בישראל של היום. אם בעוד חמישים שנה החוקר ירצה לדעת מה קרה היום, המהדורה המרכזית בטלוויזיה זה חשוב ומה כתוב ב'ידיעות אחרונות' ו'ישראל היום' זה חשוב, אבל אני חושב שמה שכתוב בפייסבוק של ראש הממשלה או של יאיר לפיד הוא לא פחות חשוב, ואולי אפילו יותר. לכן הספרייה קוצרת את האינטרנט הישראלי. במטרה לשמר אותו למען הדורות הבאים".

פעולת הקצירה המקוונת של הספרייה הלאומית החלה באיחור, בשנת 2012. דויטשר מסביר כי היתה זו תוצאה של תהליך ארוך שבמסגרתו חוקק ב-2007 חוק הספרייה הלאומית, הספרייה הפכה לחברה לתועלת הציבור ובהמשך עדכנה את מדיניות השימור והאיסוף שלה. כחלק מהעדכון הוחלט לשמר גם את האינטרנט הישראלי.

אין משמעות הדבר שארכיון האינטרנט של הספרייה הלאומית מתחיל בשנת 2012. את כל החומרים מאמצע שנות ה-90, אז קמו האתרים הראשונים בעברית, ועד שנת 2012, קיבלה הספרייה הלאומית מה-"Internet Archive", ארכיון דיגיטלי ללא כוונת רווח הפועל בארצות-הברית כבר למעלה מעשרים שנה. החומרים הללו שמורים כעת בשרתים של הספרייה, כך שגם אם הארכיון האמריקאי יחדל לפעול, עותק מתולדותיה של הרשת הישראלית ישרוד עבור הדורות הבאים.

מאז שנת 2012 קוצרת הספרייה הלאומית את האינטרנט הישראלי באופן עצמאי. כל אתר בסיומת il מאורכב אוטומטית לפחות פעם בשנה. "אתרי חדשות ואתרים שמתעדכנים בתדירות גבוהה", מדגיש דויטשר, "נקצרים בתדירות הרבה יותר גבוהה, חלקם כמה פעמים ביום. כשמישהו ירצה לחקור את האירוע הזה, חשוב שיוכל לקבל תמונת מצב מתגלגלת. לא רק את הכתבה שאולי נשמרה בגוגל, אלא איך נראה ההומפייג' ואיך הוא השתנה תוך כדי האירוע".

אתם קוצרים גם פנימה, או רק את דף הבית?

"כן, בוודאי. אנחנו קוצרים בדרך כלל שלוש רמות: הומפייג', קטגוריה ורמה נוספת מלמטה, אבל זה משתנה מאתר לאתר. יש אתרים שבהם אין חשיבות לרמה השנייה והשלישית, ואז כהחלטה קוצרים את הרמה הראשונה".

בעוד חודשים אחדים יחלו בספרייה לקצור גם את האינטרנט היהודי, שמחוץ לישראל, כולל אתרים ובלוגים בנושאי יהדות מארצות-הברית, בריטניה ושאר העולם. "המנדט של הספרייה הלאומית הוא להיות הספרייה לא רק של מדינת ישראל, אלא גם של העם היהודי לדורותיו", מסביר דויטשר.

נכון להיום פייסבוק מונעת מהספרייה הלאומית, כמו מה-"Internet Archive" וכל יתר הספריות ברחבי העולם, לקצור את המידע שברשת החברתית. אבל זה צפוי להשתנות בקרוב

את מדיניות הקצירה קובע ראש אגף האוספים בספרייה, ד"ר אביעד סטולמן. אחת לכמה חודשים מתעדכנת מדיניות הקצירה על-ידי ראש אגף האוספים, כדי להתאים אותה לשינויים ברשת הישראלית ולהוסיף, למשל, אתרים חדשים שגם אותם חשוב לקצור מעבר לפעם בשנה. נכון לשבוע שעבר, נפח האחסון של האתרים הישראלים בספרייה הלאומית עומד על 87 טרה-בייט, והוא ממשיך לגדול מדי יום.

דויטשר אמנם הזכיר בדבריו את חשיבות השימור של דף הפייסבוק של נתניהו, אולם נכון להיום פייסבוק מונעת מהספרייה הלאומית, כמו מה-"Internet Archive" וכל יתר הספריות ברחבי העולם, לקצור את המידע שברשת החברתית. עם זאת, לדברי דויטשר לאחרונה השיקה פייסבוק API שיאפשר לספרייה הלאומית ולדומותיה ברחבי העולם לקצור מידע, לא ברמת הדף אלא ברמת הפוסט הספציפי. "זה מעלה שאלות על העתיד", אומר דויטשר. "איך מארכבים נכון פייסבוק? הרי כל אחד מקבל פיד אחר. וזה רלבנטי לא רק לפייסבוק. בעתיד כל אחד יקבל הומפייג' שיותאם לו".

אם ממילא יש את ארכיון האינטרנט, והוא קוצר גם אתרים ישראלים, למה שמישהו יזדקק לשירותי הארכוב של הספרייה הלאומית?

"אנחנו מפעילים שיקולי מדיניות שונים מהשיקולים שלהם. הם קוצרים הכל לרוחב, ברמה יחסית בסיסית. אנחנו מפעילים שיקול דעת בהתאם לאתר. בגלל שהכמות שלנו, למרות שמדובר בכל המרחב הישראלי, היא רק המרחב הישראלי, אנחנו יכולים להרשות לעצמנו במקומות מסוימים להיכנס יותר לעומק. יש לדוגמה עניין של כמה שכבות אתה קוצר. באתר חדשות בדרך כלל מספיק לך שלוש שכבות, הומפייג', קטגוריה וארטיקל. יש אתרים עם מבנה שונה, למשל אתרים של בלוגים, שלהם אין מבנה היררכי אלא כרונולוגי. ושם צריך לרוץ לא רק על מה שהתפרסם היום אלא לסרוק את כל מה שהתפרסם מאז הפעם הקודמת".

בנוסף, אומר דויטשר, בספרייה הלאומית יכולים לשים דגש על אתרי חדשות מרכזיים ולארכב אותם בתדירות גבוהה. "ב-'Internet Archive' קצירה אחת ליום מספיקה. אנחנו מגיעים גם לעשרות פעמים ביום בימים דרמטיים. למשל ב'צוק איתן' הרמנו את התדירות של אתרי החדשות לעשרים פעם".

האם עשרים פעמים ביום באמת מספיקות כדי לספק תמונה דינמית של השינויים באתרי חדשות בימים דרמטיים, כמו בעת מבצע "צוק איתן"?

"אם היינו חפים מכל שיקול אחר, כנראה שהיינו קוצרים את אתרי החדשות הרבה יותר פעמים, אבל בסופו של דבר הקציר הזה, וגם האחסון, עולים כסף. אנחנו כבר מתקרבים למאה טרה, ואפשר לחשב כמה זה עולה. מגיעים למספרים מאוד גדולים על תוצר שכרגע אנחנו אפילו לא יכולים לחשוף. אז אנחנו צריכים כל הזמן לעשות את הטרייד-אוף ולראות מה אנחנו מסוגלים במגבלות התקציביות שלנו".

כיצד אתם מתמודדים עם "הזכות להישכח"?

"אנחנו רוצים לאפשר בעתיד פנייה ישירה אלינו, ברמת האייטם. מישהו שגולש אצלנו באתר ונתקל באייטם שפוגע בשמו יוכל לפנות אלינו בצורה ישירה עם כפתור אימייל, ולבקש להסיר את שמו. זה ייבדק על-ידי הגורמים המשפטיים ויוסר. אגב, את הכפתור הזה אנחנו רוצים להטמיע על כל הקטלוג שלנו. כך שכל מידע שהוא שגוי אצלנו, או שיש לציבור מידע להוסיף או לתקן, נשמח לקבל. אין לנו מונופול על האמת ועל הידע".

בכנס, מספר דויטשר, ישתתפו 25 חוקרים מובילים מהעולם. "זו תהיה התכנסות חד-פעמית בארץ. מיטב המומחים שידברו על מתודולוגיות בארכוב האינטרנט ואיך מיישמים אותם על הרשת הישראלית, שהיא שונה מהרשת האמריקאית למשל. איך שומרים, למה שומרים, מתי שומרים? הרי מה שלא נשמור היום – אבוד. יבואו בעוד עשרים שנה, חמישים שנה, וזה ייעלם. אי-אפשר לסמוך על גוגל. בקצב שבו העולם הטוכנולוגי משתנה, אי-אפשר לסמוך על זה שהוא יהיה קיים בעוד עשרים שנה".

ומדוע בכלל לערוך כנס על נושא כמו ארכוב האינטרנט?

"אנחנו רוצים להעלות את המודעות לנושא בקרב הקהילה האקדמית, החוקרים והסטודנטים, אבל גם אנשים שמתעניינים ברשת. אני בא מעולם הדיגיטל ואני חושב שזה יעניין הרבה מאוד מחברי למקצוע, שהם לא אנשי ספריות בהכרח. כשאתה רואה איך נראה האינטרנט בעבר אתה לומד כל-כך הרבה דברים.

"זה נורא מצחיק, החבר'ה שבנו את האתר עם התערוכה הדיגיטלית הם חבר'ה צעירים, והם מסתכלים על האתרים הישנים האלה ואומרים 'מה זה? למה בנו ככה אתרים?'. יש אתרי אינדקסים עם המון לינקים, זה ההומפייג'. 'למה צריך את זה? למה לא לחפש בגוגל?', ואתה מסביר להם, 'חבר'ה, לא היה גוגל. אתה רוצה תור לאופטיקאי אתה צריך ללכת דרך 17 לינקים באינדקס פייג' שלך'.

"זה מאוד מעניין ללכת ולראות את העולם הזה, איך נראה העמוד הראשי של עיתון 'הארץ' ברשת. עם שלושה לינקים: 'מבזק חדשות', 'מבזק כלכלה' ו'מבזק ספורט'. זה מה שכתוב, ללא המבזק עצמו. אתרי היכרויות, רשתות חברתיות. דברים שהיו פה לפני פייסבוק, קהילות מקומיות ישראליות שרחשו, זה מאוד מעניין גם לעולמות האינטרנט וגם לעולמות התרבות. זו תרבות לכל דבר".