ישנם בהחלט מצבים בהם אנחנו רוצים שחלק מתכני האתר לא יופיעו במנוע החיפוש, לעיתים אנו מעוניינים שעמוד הלוגאין של אתר האינטרנט שלנו לא יוצג לראווה בגוגל, או שתוכן מסוים, אחר, לא יאונדקס מסיבות כאלו ואחרות. אם לומר את האמת, ניתן למנוע כניסה של בוטים על ידי שימוש ב-htaccess או בכלים נוספים אחרים טרוויאליים. זה תהליך שמקורו בעיקר בפיתוח אתרים. לא תמיד צריך כלים ותוכנות כל כך ברי השפעה כאלו על מנת להגיע לתוצאות המיוחלות, לעיתים נדרש משהו פשוט לביצוע. את הבקשה הזו עושים באמצעותrobots.txt. חשוב לקיים חלק גדול מההנחיות הללו כבר בתהליך הראשוני של פיתוח אתרים באינטרנט.
ROBOTS.TXT הינו קובץ שיושב במבנה הבסיסי של האתר ובו בעיקר מופיעות הנחיות לסורקי האתרים השונים. בדרך כלל גוגל אבל לא רק.
בקובץ זה ניתן בהחלט לרשום "בקשות" והנחיות בנוגע לדפים שאנו מבקשים שלא לסרוק. המשמעות העיקרית, אלו עמודי ותכני אתר יוכרו על ידי מנוע החיפוש ואלא לא. כשמבצעים פיתוח אתרים תיקניים שעונה לדרישות מנועי החיפוש העיקריים כדוגמת גוגל, חשוב לשים דגשים על "רצונות" והנחיות מנוע החיפוש על מנת שנהיה כמה שיותר ידידותיים לו.
ניתן גם לחסום תיקיות שלמות ואף עמודי אתר שלם.
ישנה אפשרות גם לתת כללים, הנחיות ונתונים שונים לבוטים שונים. על פי ה-User agent שלהם. לכל בוט יש user agent משלו (למעט בוטים מרושעים שבדרך כלל מזייפים את ה-user agent שלהם ללא שום בעיה). כך למשל, אנו נמנע מגוגל בוט כניסה לתיקיות שאיננו מעוניינים בכניסתם לאיזורים, תיקיות ומידע מסויים מכל מיני סיבות.
במידה ואתם מנועים מגישה אל ה-root של האתר, אפשר להשתמש בתגית מטא בשם noindex בכל עמוד ודף / חלק באתר בו אתם לא מעוניינים בחשיפה לאינדקס של מנוע החיפוש.
אין פה עניין של בחירה אם כן לבצע או שלאו. כל העניין הזה הוא הכרח. בוטים של מנועי חיפוש יכולים להתעלם או למלא באופן חלקי אחר ההנחיות שיש ב-robots.txt,אך בשביל להגיע לתוצאות טובות הרבה יותר, בעיקר אם המטרה הראשונית הינה קידום האתר בגוגל, יש להציג את התוצאות בגוגל ולמנוע מדפים לא קשורים להופיע.