نحوه پیدا کردن تمامی URL

پیدا کردن تمامی
URLهای موجود و آرشیو شده در یک وب‌سایت ممکن است به دلایل مختلفی ضروری
باشد. از تحلیل مشکلات ایندکس‌گذاری گرفته تا بازیابی
URLهای گمشده پس از مهاجرت سایت، هر هدفی که داشته باشید، به ابزاری
نیاز دارید که بتواند به شما کمک کند.

به ویژه زمانی که سایت شما بزرگ باشد و
تعداد URLهای موجود
بالا باشد، جمع‌آوری این داده‌ها می‌تواند به چالش تبدیل شود. در این مقاله، ما به
معرفی ابزارهای مختلفی می‌پردازیم که می‌توانند شما را در یافتن تمامی URLهای موجود در سایت یاری کنند.

از
Google
Search Console
گرفته تا
Google
Analytics
و حتی ابزارهای پیشرفته‌تر
مانند Archive.org و
Moz
Pro
، همه این ابزارها می‌توانند به شما کمک کنند
تا فهرستی جامع از URLهای سایت خود
جمع‌آوری کنید و در ادامه با استفاده از تکنیک‌های مناسب، آن‌ها را تحلیل و مرتب
کنید.

چرا به URLهای موجود و آرشیو شده در یک وب‌سایت نیاز داریم؟

دلایل مختلفی وجود دارد که ممکن است
بخواهید تمامی URLهای یک وب‌سایت
را پیدا کنید، اما هدف دقیق شما تعیین می‌کند که به دنبال چه چیزی باشید. به عنوان
مثال، ممکن است بخواهید:

  • شناسایی کنید که کدام URLها در ایندکس گوگل قرار دارند تا
    مشکلاتی مانند کنیبالیزیشن یا افزایش حجم ایندکس را تحلیل کنید.
  • URLهای
    فعلی و تاریخی که گوگل آن‌ها را مشاهده کرده است، جمع‌آوری کنید، به‌ویژه
    برای تغییرات اساسی در سایت.
  • تحلیل و بهبود سئو: بررسی
    URLهای مختلف سایت به شما کمک می‌کند تا ببینید کدام
    صفحات ایندکس شده‌اند و کدام‌یک نیاز به بهینه‌سازی دارند. این کار به
    شناسایی مشکلاتی مانند کنیبالیزیشن (رقابت صفحات برای کلمات کلیدی مشابه) و
    انباشته شدن صفحات در ایندکس (index bloat) کمک
    می‌کند.
  • بررسی تغییرات و بروزرسانی‌ها: با داشتن دسترسی به URLهای قدیمی و جدید، می‌توانید
    تغییرات سایت، مانند انتقال صفحات یا به‌روزرسانی‌ها، را ردیابی کنید. این
    برای پروژه‌های مهاجرت سایت یا تغییرات ساختاری بسیار مفید است.

  • شناسایی خطاهای 404 و
    مشکلات ایندکس
    : با
    شناسایی URLهای 404
    (صفحات از دست رفته) می‌توانید از مشکلات پس از تغییرات ساختاری جلوگیری کنید
    و تجربه کاربری بهتری ایجاد کنید.
  • مدیریت محتوای سایت: بررسی
    URLهای موجود به شما این امکان را می‌دهد که صفحات با
    عملکرد ضعیف را شناسایی کرده و محتوای قدیمی را بروزرسانی کنید یا صفحات
    غیرضروری را حذف کنید.

کنیبالیزیشن

کنیبالیزیشن در سئو به معنای رقابت
صفحات مختلف یک سایت برای یک کلمه کلیدی مشابه است که می‌تواند باعث کاهش رتبه‌بندی
و عملکرد هر یک از آن صفحات در نتایج جستجو شود. این مشکل زمانی رخ می‌دهد که چند
صفحه با محتوای مشابه برای یک عبارت جستجو بهینه‌سازی شوند.

افزایش حجم
ایندکس

افزایش حجم ایندکس به معنای افزایش
تعداد صفحات یک سایت است که توسط موتورهای جستجو (مثل گوگل) شناسایی و در فهرست
خود قرار می‌دهند. این فرآیند باعث می‌شود که بیشتر صفحات سایت در نتایج جستجو
نمایش داده شوند و بهبود قابلیت دیده‌شدن سایت در جستجوها را به همراه دارد. برای
افزایش حجم ایندکس، باید محتوای سایت بهینه‌سازی شده، ساختار
URLها درست باشد و مشکلات فنی سایت برطرف شوند.

در هر یک از شرایط، یک ابزار نمی‌تواند
همه آنچه که نیاز دارید را در اختیار شما قرار دهد. متاسفانه،
Google
Search Console
تمامی URLها را پوشش نمی‌دهد و جستجو با دستور “site:example.com” محدود است و
استخراج داده‌ها از آن دشوار است.

در این مطلب، شما را با برخی از
ابزارها آشنا خواهیم کرد که به شما کمک می‌کنند لیست
URL خود را ایجاد کنید و سپس داده‌ها را با استفاده از یک
صفحه‌گسترده یا Jupyter Notebook (بسته به اندازه وب‌سایت) از حالت تکراری
خارج نمایید.

نقشه‌های سایت
قدیمی و گرفتن خروجی

اگر به دنبال
URLهایی هستید که اخیراً از سایت ناپدید شده‌اند، ممکن است کسی در تیم
شما قبل از اعمال تغییرات، یک فایل نقشه سایت یا فایل خروجی ربات‌های خزنده ذخیره
کرده باشد. اگر هنوز این کار را نکرده‌اید، بررسی این فایل‌ها می‌تواند اغلب
اطلاعات مورد نیاز شما را فراهم کند. اما اگر در حال خواندن این مطلب هستید،
احتمالاً شما آن‌قدر خوش‌شانس نبوده‌اید.

Archive.org

Archive.org یک ابزار بی‌قیمت برای وظایف سئو است که توسط کمک‌های مالی تأمین می‌شود.
اگر دامنه‌ای را جستجو کنید و گزینه “URLs” را انتخاب
کنید، می‌توانید به حداکثر 10,000 URL فهرست‌شده
دسترسی پیدا کنید.

با این حال، چند محدودیت وجود دارد:

  • محدودیت URL:شما
    فقط می‌توانید حداکثر 10,000 URL دریافت
    کنید که برای سایت‌های بزرگ کافی نیست.
  • کیفیت:بسیاری
    از URLها ممکن
    است خراب باشند یا به فایل‌های منابع (مثل تصاویر یا اسکریپت‌ها) ارجاع دهند.
  • عدم دریافت فایل خروجی:هیچ
    راهی برای گرفتن یک خروجی با کیفیت و صحیح وجود ندارد.

برای رفع این مشکل، می‌توانید از
پلاگین‌های خزنده-کراولر- مرورگر مانند Dataminer.io استفاده کنید. با این حال، این محدودیت‌ها به این معناست که Archive.org ممکن است راه‌حل کاملی برای سایت‌های بزرگ نباشد.

همچنین، Archive.org مشخص نمی‌کند که آیا گوگل یک
URL را ایندکس کرده است یا نه، اما اگر Archive.org آن را پیدا کرده باشد، به احتمال بسیار بالا گوگل نیز آن را ایندکس
کرده است.

Moz Pro

Link index به فهرستی از بک‌لینک‌ها (لینک‌های ورودی) اشاره دارد که به صفحات
مختلف یک وب‌سایت هدایت می‌کنند. این فهرست توسط ابزارهای سئو مانند Moz Pro، Ahrefs یا SEMrush جمع‌آوری و ارائه می‌شود تا صاحبان
سایت بتوانند لینک‌هایی که به سایت‌شان اشاره کرده‌اند را شناسایی کنند.

لینک‌ها یکی از عوامل کلیدی در بهینه‌سازی
موتور جستجو (SEO) هستند و تأثیر
زیادی بر رتبه‌بندی صفحات در نتایج جستجو دارند. لینک‌های با کیفیت از سایت‌های
معتبر می‌توانند به بهبود جایگاه یک سایت در موتورهای جستجو کمک کنند. علاوه بر
این، این ابزارها می‌توانند URLهای موجود در
سایت شما را نیز شناسایی کرده و به شما کمک کنند تا آن‌ها را مدیریت کنید.

چگونه استفاده
کنیم؟

برای دریافت یک لیست سریع و ساده از URLهای هدف سایت خود، می‌توانید از لینک‌های ورودی
موجود در Moz Pro خروجی بگیرید.
این روش به شما کمک می‌کند تا URLهای مختلف
سایت را شناسایی کنید. اگر سایت شما بزرگ است و حجم داده‌ها زیاد است، استفاده از
Moz
API
گزینه مناسبی است.

این ابزار به شما این امکان را می‌دهد
تا داده‌ها را فراتر از ظرفیت‌های معمولی اکسل یا گوگل شیت‌ها دریافت کنید و به
راحتی آن‌ها را مدیریت کنید.

با این حال، نکته‌ای که باید به آن
توجه داشته باشید این است که Moz Pro به طور مستقیم تأیید نمی‌کند که آیا
URLهای استخراج شده توسط گوگل ایندکس شده‌اند یا خیر.

با این وجود، از آن‌جا که بیشتر سایت‌ها
قوانین مشابهی برای robots.txt هم
برای ربات‌های Moz و هم برای
ربات‌های گوگل اعمال می‌کنند، می‌توان این روش را به عنوان یک نماینده خوب برای
کشف URLها از سوی Googlebot در نظر گرفت.این بدین معنی است که اگر
Moz URLها را شناسایی کند، احتمالاً گوگل نیز قادر به
کشف و ایندکس آن‌ها خواهد بود.

Google Search Console

Google Search Console منابع ارزشمندی برای ساخت لیست
URLهای شما ارائه می‌دهد.

Links reports

شبیه به
Moz
Pro
، بخش لینک‌ها لیست‌های قابل صدور از URLهای هدف را فراهم می‌کند. متاسفانه، این خروجی
محدود به 1,000 URL در هر بار
است. شما می‌توانید فیلترهایی برای صفحات خاص اعمال کنید، اما از آنجایی که
فیلترها به صادرات اعمال نمی‌شوند، ممکن است نیاز باشد از ابزارهای خزنده-کراولر-
مرورگر استفاده کنید، که به طور همزمان
محدود به 500 URL فیلترشده است.

Performance → Search Results

این خروجی لیستی از صفحاتی را به شما
می‌دهد که نمایش‌های جستجو هستند. یعنی وب سایت شما با چه عبارت جستجویی نمایش
داده شده که همان Impression است.

اگرچه این شیوه خروجی بسیار محدود است،
شما می‌توانید از Google Search Console API برای
داده‌های بزرگتر استفاده کنید. همچنین پلاگین‌های رایگان
Google Sheets وجود دارند که فرآیند استخراج داده‌های گسترده‌تر را
ساده می‌کنند.

Indexing → Pages report

این بخش لیست خروجی‌ای را ارائه می‌دهد
که بر اساس نوع مشکل و خطا فیلتر شده‌اند. هرچند این خروجی نیز از نظر دامنه پوشش محدودیت
دارند. یعنی شما می‌توانید داده‌ها را بر اساس مشکلات خاصی و معینی فیلتر کنید،
اما این فیلترها تنها بخشی از داده‌ها را پوشش می‌دهند و ممکن است نتوانید همه
جزئیات مورد نظر خود را دریافت کنید.

Google Analytics

گزارش پیش‌فرض
Engagement
→ Pages and Screens
در GA4 یکی از بهترین منابع برای جمع‌آوری
URLها به شمار می‌آید. این گزارش با محدودیتی سخاوتمندانه، تا 100,000 URL را در اختیار شما قرار می‌دهد، که می‌تواند برای
تحلیل و بررسی صفحات مختلف وب‌سایت بسیار مفید باشد.

این قابلیت به شما کمک می‌کند تا یک
دید جامع و دقیق از فعالیت‌های سایت خود به دست آورید و آن‌ها را به راحتی مورد
بررسی قرار دهید.

بهتر از آن، شما این امکان را دارید که
فیلترهایی را اعمال کنید تا لیست‌های مختلفی از
URLها ایجاد کنید و به این ترتیب محدودیت 100,000
URL را کنار بگذارید. برای مثال، اگر هدف شما فقط استخراج URLهای مربوط به بخش بلاگ باشد، کافیست مراحل زیر را
دنبال کنید:

  • مرحله 1:یک
    بخش به گزارش(report) اضافه
    کنید.
  • مرحله 2:روی
    ایجاد بخش جدید(Create a new segment) کلیک کنید.
  • مرحله 3:بخش
    را با یک الگوی URL محدودتر
    تعریف کنید، مانند URLهایی
    که شامل “/blog/” هستند.

نکته مهم: URLهایی
که در Google Analytics پیدا
می‌شوند ممکن است توسط Googlebot کشف یا ایندکس نشده باشند، اما آن‌ها اطلاعات ارزشمندی را در اختیار
شما قرار می‌دهند.

فایل‌های لاگ
سرور

فایل‌های لاگ سرور یا CDN احتمالاً به عنوان قوی‌ترین ابزار در اختیار شما
قرار دارند. این لاگ‌ها یک فهرست جامع از تمامی مسیرهای
URL که توسط کاربران، Googlebot
یا سایر ربات‌ها در بازه زمانی مشخص جستجو شده‌اند، ثبت می‌کنند و می‌توانند
اطلاعات ارزشمندی را برای تحلیل عملکرد سایت شما فراهم کنند.

ملاحظات

  • حجم داده:فایل‌های
    لاگ می‌توانند بسیار بزرگ باشند، بنابراین بسیاری از سایت‌ها تنها آخرین دو
    هفته داده‌ها را نگهداری می‌کنند.
  • پیچیدگی:تجزیه
    و تحلیل فایل‌های لاگ می‌تواند چالش‌برانگیز باشد، اما ابزارهای مختلفی برای
    ساده‌سازی این فرآیند در دسترس هستند.

آنچه گفتیم را به
کار بگیرید!

پس از جمع‌آوری
URLها از تمامی این منابع، حالا زمان آن رسیده که آن‌ها را به هم ترکیب کنید.
اگر سایت شما کوچک است، می‌توانید از Excel استفاده کنید؛
اما برای داده‌های بزرگتر، ابزارهایی مانند
Google Sheets یا Jupyter Notebook گزینه‌های
بهتری هستند. Jupyter Notebook
یک محیط تعاملی برای نوشتن
و اجرای کد، تحلیل داده‌ها و مستندسازی نتایج به صورت همزمان است
.

اطمینان حاصل کنید که تمام URLها به یک فرمت یکسان در آمده‌اند، سپس لیست را از
تکراری‌ها پاک کنید. حالا شما یک فهرست کامل از
URLهای جاری، قدیمی و آرشیوی دارید. موفق باشید.

نتیجه‌گیری: در
نهایت، جستجو و جمع‌آوری URLها از منابع
مختلف می‌تواند اطلاعات ارزشمندی را در اختیار شما قرار دهد که برای تحلیل و بهبود
عملکرد سایت ضروری است.

ابزارهایی مانند
Google Search Console،Google Analytics،
Archive.orgو
Jupyter Notebook به شما کمک می‌کنند تا داده‌های مربوط به صفحات
سایت خود را به طور دقیق و کامل استخراج کرده و بررسی کنید.

با ترکیب این داده‌ها و حذف تکراری‌ها،
شما قادر خواهید بود تا یک فهرست جامع از
URLهای سایت خود داشته باشید و از آن برای بهبود سئو و عملکرد کلی سایت
استفاده کنید.

سوالات متداول

چگونه می‌توان تمامی URLهای موجود و آرشیو شده یک وب‌سایت را پیدا کرد

برای یافتن تمامی URLهای سایت، می‌توان از ابزارهایی مانند Google Search Console، Google Analytics، Archive.org، Moz Pro و همچنین بررسی فایل‌های لاگ سرور استفاده کرد. همچنین، استخراج URLها از نقشه سایت قدیمی و بک‌لینک‌های ثبت‌شده در ابزارهای سئو نیز می‌تواند به شناسایی URLهای گمشده کمک کند.

چرا یافتن تمامی URLهای سایت برای سئو مهم است؟

بررسی تمامی URLهای یک سایت به دلایل مختلفی ضروری است، از جمله:

شناسایی مشکلات ایندکس و حذف صفحات نامرتبط
جلوگیری از کنیبالیزیشن (رقابت صفحات برای یک کلمه کلیدی)
بهینه‌سازی ساختار سایت و افزایش حجم ایندکس
شناسایی صفحات 404 و مشکلات فنی سایت
مدیریت و به‌روزرسانی محتوای سایت برای بهبود رتبه‌بندی در موتورهای جستجو

کدام ابزارها برای بررسی و تحلیل URLهای سایت مناسب‌تر هستند؟

بسته به نیاز شما، ابزارهای مختلفی برای جمع‌آوری و تحلیل URLها وجود دارد:

Google Search Console: برای مشاهده URLهای ایندکس‌شده و گزارش‌های خطا
Google Analytics: برای دریافت URLهایی که کاربران از آن‌ها بازدید کرده‌اند
Archive.org: برای مشاهده URLهای قدیمی که ممکن است حذف شده باشند
Moz Pro / Ahrefs / SEMrush: برای بررسی بک‌لینک‌ها و ایندکس شدن URLها
فایل‌های لاگ سرور: برای دریافت جامع‌ترین لیست URLهای دسترسی‌یافته توسط کاربران و ربات‌ها