05/06/2011

מאת: אברהם פרנץ 
 
ישנן דרכים רבות לחיפוש מידע באינטרנט- מנועי חיפוש, אתרי קטגוריות, אתרים של חיפוש משולב (metasearch) , אתרים מתמחים וכן הלאה. כדי להפיק את המרב מאתרי החיפוש, צריך לדעת כיצד הם מבצעים את החיפוש ומה אופי התוצאות שיתקבלו.
באתרי קטגוריות למשל, הסיווג נעשה על ידי אנשים אך בעוד ב-YAHOO הוא נעשה משיקולים מסחריים, ב-Open Directory Project הסיווג נעשה על ידי מתנדבים, והוא נחשב לאמין מאד. למנועי החיפוש טכנולוגיות שונות למציאת מידע והאלגוריתמים השונים יכולים להביא לתוצאות שונות לגמרי. השוואה בין מנועי החיפוש מאפשרת לנו יותר מאשר רק מציאת פיסת מידע; היא יכולה ללמד אותנו על הדרך בה האתר בנוי ועל החשיבה הכלכלית של בעלי האתר, כמו מהן אסטרטגיות הפרסום שלהם והיכן הם משקיעים את כספם.

אתרי ומנועי חיפוש
כדי להמחיש את הנקודה האחרונה אתן דוגמא- מנועי החיפוש של YAHOO ו-MSN נותנים חשיבות רבה להופעת מילת החיפוש בכותרת הדף, בדף עצמו ובתגית ה-meta שלו (אלה אלמנטים שאפשר לראות באופציה view-source בדפדפן). הופעת המילה פעמים רבות למדי תעלה את סיכויי האתר להופיע בתוצאות החיפוש של אתרים אלו והופעתה פעמים רבות מדי תפחית את הסיכויים לכך, כיוון שהאתר ייתפס כלא אמין. מנוע החיפוש של גוגל לעומת זאת מייחס פחות חשיבות להופעת המילה ויותר לקריטריונים אחרים כמו כמות הדפים המקשרים לאותו דף והימצאות האתר ב- Open Directory Project. למעשה, מנוע החיפוש של גוגל נחשב מחמיר יותר וצפיפות המילים שתהווה יתרון ב-YAHOO ו-MSN תהווה אצלו חיסרון.
אבחנה זו יכולה להיות יעילה כשאנו מנתחים דף אינטרנט כי היא יכולה מצד אחד להסביר לנו את ההבדל בתוצאות אך גם, ואולי חשוב יותר, תגרום לנו לשים לב ליוצאי דופן ולשאול, לדוגמא, למה אתר מופיע ב-MSN למרות שמילת החיפוש לא מופיעה בו כמעט.

אחת התשובות ההגיוניות לשאלה כזו יכולה להיות שבעל האתר קנה את מקומו ברשימת החיפוש, ואם נכיר את דרכי התמחור של אתרים נוכל לשער באיזו אופציית פרסום הוא בחר וכמה השקיע בתענוג. כאמור, המיון ב- Open Directory Project נעשה בהתנדבות ולבעל האתר לא נותר אלא להמתין בסבלנות שהאחראי על הקטגוריה יגיע למיין את האתר שלו, דבר שעשוי לקחת חודשים אם מדובר בקטגוריה עמוסה. ב-YAHOO, המתנה רגילה עשויה לקחת חודשים ואף שנים אבל בעל אתר יכול לשלם סכום מסוים כדי להכניס את האתר שלו לרשימת החיפוש (אך ללא התחייבות לגבי המקום של האתר ברשימה). בגוגל, שיטת התמחור שונה ומתבססת על פופולאריות של מילים- בעלי האתרים מתבקשים להציע מחיר לכך שיופיעו (בצד עמוד החיפוש או בראשו בצבע שונה) כאשר מילת חיפוש מסוימת תתבקש. ככל שהמילה פופולארית יותר כך גבוה המחיר. הדרכים שהצעתי כאן הן דוגמאות לניתוחים אפשריים של תוצאות חיפוש, אך כמובן שניתן להפיק מהן עוד הרבה יותר. כאמור, תנאי ראשון לכך הוא הכרת אתרי החיפוש, ובאתר זה רשימה מתעדכנת של אתרי חיפוש והסברים על דרכי החיפוש שלהם.

עד כה דיברתי על הסקת מסקנות מעצם החיפוש אחר דף מסיום וכמובן שהרבה מידע נמצא בדף עצמו. ראשית, כתובת ה-URL של הדף ושם הדומיין שלו מלמדים הרבה על אופיו ועל הרלוונטיות שלו לחיפושנו. לדוגמא, סימן (~) בכתובת מראה כי מדובר במאמר מקצועי שנכתב על ידי אדם פרטי ועל כן אולי רצוי לבדוק את הרקע שלו. מסיבה זו כדאי גם לשים לב לכתובות המכילות סימן (%) ומילים בכתובת כמו "users", "members" ו- "people" . סיומות של שמות דומיין עשויים להיות המאפיין הברור ביותר לאופי הדף. אם אני מעוניין לחפש מידע על תיאוריות קונספירציה (טלי פחימה סוכנת שב"כ, אלי לוזון נחטף על ידי חייזרים וכן הלאה) סביר יותר להניח שימצאו באתרים עם סיומת org.il ולא באתרים עם סיומת gov.il או idf.il. בעזרת שם הדומיין גם ניתן לעקוב אחר היסטוריה של אתר שעשויה להיות חשובה מאד להכרתו.

מידע נוסף על אתרי אינטרנט
באתר של איגוד האינטרנט הישראלי ניתן לגלות מתי נרשם שם האתר, כלומר ממתי הוא קיים בשמו הנוכחי. באתר ארכיב, מכונת הזמן האינטרנטית, ניתן לראות דפים ישנים של אתרים, על פי הכתובת שלהם. כך ניתן לראות שהאתר www.sex.co.il –  מיום הקמתו לפני שנים רבות שימש כאתר לרישום דומיינים. אגב, אופציית החיפוש הזו קיימת בצורה פחות מתקדמת גם בגוגל באופציה cached שמופיעה ליד תוצאות חיפוש של דפים. אופציה זו מאפשרת צפייה בדפים שכבר לא נמצאים באתר אך עדין מצויים על מחשבי גוגל.
ישנה גם תוכנה שמחפשת אתרים אבודים באופן דומה ואלו אוסף תוכנות שעוזרות לגלות תכונות של דפים כגון מתי עודכנו לאחרונה.

מדידת ביצועי אתרים
ישנם סקרים שונים המשווים בין אתרים. סקר TIM מנסה למדוד את הפופולאריות של 20 האתרים הגדולים בישראל. זהו סקר שנערך כל חצי שנה ועיני עולם הפרסום נשואות אליו. עם זאת יש לזכור את החסרונות שלו- זהו סקר טלפוני שמתבסס על תשובות הנשאלים בלבד ולא על פרמטרים אובייקטיבים והוא נבדק בקרב פחות מ-2000 נשאלים, מתוך מאות אלפי גולשים בארץ. כמו כן הסקר מספק מידע רק על האתרים הגדולים ביותר.
האתר אלקסה מספק הרבה מאד אינפורמציה על תנועת מבקרים באתרים קטנים כגדולים, כולל אתרים דומים אליהם נכנסו מבקרים באותו דף. האתר אף מספק רשימה של האתרים הישראליים הפופולאריים.
המעקב של אלקסה אחר הגולשים נעשה על ידי רוגלה שהגולשים מתקינים בדמות סרגל כלים ועל כן יש לקחת את התוצאות בעירבון מוגבל. ראשית, זוהי תוכנה שנתונה למניפולציות של בעלי אתרים ושנית יש להניח שגולשים מנוסים יותר לא יתקינו כזה דבר אווילי במחשב שלהם. ולמרות זאת, זהו כלי יעיל ונראה שהוא מקיף משתמשים רבים ומספק מידע שלא ניתן למצוא באתרים אחרים.
סוג אחר של מדד לפופולאריות מספק לנו דרוג החיפוש של גוגל, ה- page rank. זהו רכיב אחד באלגוריתם החיפוש של גוגל הבודק את הקישורים האיכותיים אל אתר מסוים. על פי הדרוג הזה נקבע מיקום האתר בתוצאות החיפוש כאשר ככל שהדרוג גבוה כך הוא יופיע מוקדם ברשימה. כיום רכיב זה הוא פחות משמעותי, ודפים בעלי דרוג נמוך יכולים להיות אף הם במקומות ראשונים, אך זוהי עדין אינדיקציה טובה לפופולאריות וחשיבות האתר.

לסיכום, אני רוצה לחדד את מה שאמרתי בתחילת דברי. ניתוח נבון של דפי אינטרנט מסייע לנו ללמוד על האתר ובעליו. כאשר אנו מבינים כיצד מנוע חיפוש פועל אנו יכולים להשתמש בו טוב יותר למציאת מידע אך גם לקידום מידע. כך גם לגבי נושאים אליהם לא התייחסתי כגון גרפיקה של אתר שמלמדת על טיבו, אופי הדיון בפורומים שלו ושימוש בטכנולוגיות חדשות יחסית כגון RSS.

תחזיר אותי אחורה