پیدا کردن تمامی
URLهای موجود و آرشیو شده در یک وبسایت ممکن است به دلایل مختلفی ضروری
باشد. از تحلیل مشکلات ایندکسگذاری گرفته تا بازیابی
URLهای گمشده پس از مهاجرت سایت، هر هدفی که داشته باشید، به ابزاری
نیاز دارید که بتواند به شما کمک کند.
به ویژه زمانی که سایت شما بزرگ باشد و
تعداد URLهای موجود
بالا باشد، جمعآوری این دادهها میتواند به چالش تبدیل شود. در این مقاله، ما به
معرفی ابزارهای مختلفی میپردازیم که میتوانند شما را در یافتن تمامی URLهای موجود در سایت یاری کنند.
از
Google
Search Console
گرفته تا
Google
Analytics
و حتی ابزارهای پیشرفتهتر
مانند Archive.org و
Moz
Pro
، همه این ابزارها میتوانند به شما کمک کنند
تا فهرستی جامع از URLهای سایت خود
جمعآوری کنید و در ادامه با استفاده از تکنیکهای مناسب، آنها را تحلیل و مرتب
کنید.
چرا به URLهای موجود و آرشیو شده در یک وبسایت نیاز داریم؟
دلایل مختلفی وجود دارد که ممکن است
بخواهید تمامی URLهای یک وبسایت
را پیدا کنید، اما هدف دقیق شما تعیین میکند که به دنبال چه چیزی باشید. به عنوان
مثال، ممکن است بخواهید:
-
شناسایی کنید که کدام URLها در ایندکس گوگل قرار دارند تا
مشکلاتی مانند کنیبالیزیشن یا افزایش حجم ایندکس را تحلیل کنید. -
URLهای
فعلی و تاریخی که گوگل آنها را مشاهده کرده است، جمعآوری کنید، بهویژه
برای تغییرات اساسی در سایت. -
تحلیل و بهبود سئو: بررسی
URLهای مختلف سایت به شما کمک میکند تا ببینید کدام
صفحات ایندکس شدهاند و کدامیک نیاز به بهینهسازی دارند. این کار به
شناسایی مشکلاتی مانند کنیبالیزیشن (رقابت صفحات برای کلمات کلیدی مشابه) و
انباشته شدن صفحات در ایندکس (index bloat) کمک
میکند. -
بررسی تغییرات و بروزرسانیها: با داشتن دسترسی به URLهای قدیمی و جدید، میتوانید
تغییرات سایت، مانند انتقال صفحات یا بهروزرسانیها، را ردیابی کنید. این
برای پروژههای مهاجرت سایت یا تغییرات ساختاری بسیار مفید است. -
شناسایی خطاهای 404 و
مشکلات ایندکس
: با
شناسایی URLهای 404
(صفحات از دست رفته) میتوانید از مشکلات پس از تغییرات ساختاری جلوگیری کنید
و تجربه کاربری بهتری ایجاد کنید. -
مدیریت محتوای سایت: بررسی
URLهای موجود به شما این امکان را میدهد که صفحات با
عملکرد ضعیف را شناسایی کرده و محتوای قدیمی را بروزرسانی کنید یا صفحات
غیرضروری را حذف کنید.
کنیبالیزیشن
کنیبالیزیشن در سئو به معنای رقابت
صفحات مختلف یک سایت برای یک کلمه کلیدی مشابه است که میتواند باعث کاهش رتبهبندی
و عملکرد هر یک از آن صفحات در نتایج جستجو شود. این مشکل زمانی رخ میدهد که چند
صفحه با محتوای مشابه برای یک عبارت جستجو بهینهسازی شوند.
افزایش حجم
ایندکس
افزایش حجم ایندکس به معنای افزایش
تعداد صفحات یک سایت است که توسط موتورهای جستجو (مثل گوگل) شناسایی و در فهرست
خود قرار میدهند. این فرآیند باعث میشود که بیشتر صفحات سایت در نتایج جستجو
نمایش داده شوند و بهبود قابلیت دیدهشدن سایت در جستجوها را به همراه دارد. برای
افزایش حجم ایندکس، باید محتوای سایت بهینهسازی شده، ساختار
URLها درست باشد و مشکلات فنی سایت برطرف شوند.
در هر یک از شرایط، یک ابزار نمیتواند
همه آنچه که نیاز دارید را در اختیار شما قرار دهد. متاسفانه،
Google
Search Console
تمامی URLها را پوشش نمیدهد و جستجو با دستور “site:example.com” محدود است و
استخراج دادهها از آن دشوار است.
در این مطلب، شما را با برخی از
ابزارها آشنا خواهیم کرد که به شما کمک میکنند لیست
URL خود را ایجاد کنید و سپس دادهها را با استفاده از یک
صفحهگسترده یا Jupyter Notebook (بسته به اندازه وبسایت) از حالت تکراری
خارج نمایید.
نقشههای سایت
قدیمی و گرفتن خروجی
اگر به دنبال
URLهایی هستید که اخیراً از سایت ناپدید شدهاند، ممکن است کسی در تیم
شما قبل از اعمال تغییرات، یک فایل نقشه سایت یا فایل خروجی رباتهای خزنده ذخیره
کرده باشد. اگر هنوز این کار را نکردهاید، بررسی این فایلها میتواند اغلب
اطلاعات مورد نیاز شما را فراهم کند. اما اگر در حال خواندن این مطلب هستید،
احتمالاً شما آنقدر خوششانس نبودهاید.
Archive.org
Archive.org یک ابزار بیقیمت برای وظایف سئو است که توسط کمکهای مالی تأمین میشود.
اگر دامنهای را جستجو کنید و گزینه “URLs” را انتخاب
کنید، میتوانید به حداکثر 10,000 URL فهرستشده
دسترسی پیدا کنید.
با این حال، چند محدودیت وجود دارد:
-
محدودیت URL:شما
فقط میتوانید حداکثر 10,000 URL دریافت
کنید که برای سایتهای بزرگ کافی نیست. -
کیفیت:بسیاری
از URLها ممکن
است خراب باشند یا به فایلهای منابع (مثل تصاویر یا اسکریپتها) ارجاع دهند. -
عدم دریافت فایل خروجی:هیچ
راهی برای گرفتن یک خروجی با کیفیت و صحیح وجود ندارد.
برای رفع این مشکل، میتوانید از
پلاگینهای خزنده-کراولر- مرورگر مانند Dataminer.io استفاده کنید. با این حال، این محدودیتها به این معناست که Archive.org ممکن است راهحل کاملی برای سایتهای بزرگ نباشد.
همچنین، Archive.org مشخص نمیکند که آیا گوگل یک
URL را ایندکس کرده است یا نه، اما اگر Archive.org آن را پیدا کرده باشد، به احتمال بسیار بالا گوگل نیز آن را ایندکس
کرده است.
Moz Pro
Link index به فهرستی از بکلینکها (لینکهای ورودی) اشاره دارد که به صفحات
مختلف یک وبسایت هدایت میکنند. این فهرست توسط ابزارهای سئو مانند Moz Pro، Ahrefs یا SEMrush جمعآوری و ارائه میشود تا صاحبان
سایت بتوانند لینکهایی که به سایتشان اشاره کردهاند را شناسایی کنند.
لینکها یکی از عوامل کلیدی در بهینهسازی
موتور جستجو (SEO) هستند و تأثیر
زیادی بر رتبهبندی صفحات در نتایج جستجو دارند. لینکهای با کیفیت از سایتهای
معتبر میتوانند به بهبود جایگاه یک سایت در موتورهای جستجو کمک کنند. علاوه بر
این، این ابزارها میتوانند URLهای موجود در
سایت شما را نیز شناسایی کرده و به شما کمک کنند تا آنها را مدیریت کنید.
چگونه استفاده
کنیم؟
برای دریافت یک لیست سریع و ساده از URLهای هدف سایت خود، میتوانید از لینکهای ورودی
موجود در Moz Pro خروجی بگیرید.
این روش به شما کمک میکند تا URLهای مختلف
سایت را شناسایی کنید. اگر سایت شما بزرگ است و حجم دادهها زیاد است، استفاده از
Moz
API
گزینه مناسبی است.
این ابزار به شما این امکان را میدهد
تا دادهها را فراتر از ظرفیتهای معمولی اکسل یا گوگل شیتها دریافت کنید و به
راحتی آنها را مدیریت کنید.
با این حال، نکتهای که باید به آن
توجه داشته باشید این است که Moz Pro به طور مستقیم تأیید نمیکند که آیا
URLهای استخراج شده توسط گوگل ایندکس شدهاند یا خیر.
با این وجود، از آنجا که بیشتر سایتها
قوانین مشابهی برای robots.txt هم
برای رباتهای Moz و هم برای
رباتهای گوگل اعمال میکنند، میتوان این روش را به عنوان یک نماینده خوب برای
کشف URLها از سوی Googlebot در نظر گرفت.این بدین معنی است که اگر
Moz URLها را شناسایی کند، احتمالاً گوگل نیز قادر به
کشف و ایندکس آنها خواهد بود.
Google Search Console
Google Search Console منابع ارزشمندی برای ساخت لیست
URLهای شما ارائه میدهد.
Links reports
شبیه به
Moz
Pro
، بخش لینکها لیستهای قابل صدور از URLهای هدف را فراهم میکند. متاسفانه، این خروجی
محدود به 1,000 URL در هر بار
است. شما میتوانید فیلترهایی برای صفحات خاص اعمال کنید، اما از آنجایی که
فیلترها به صادرات اعمال نمیشوند، ممکن است نیاز باشد از ابزارهای خزنده-کراولر-
مرورگر استفاده کنید، که به طور همزمان
محدود به 500 URL فیلترشده است.
Performance → Search Results
این خروجی لیستی از صفحاتی را به شما
میدهد که نمایشهای جستجو هستند. یعنی وب سایت شما با چه عبارت جستجویی نمایش
داده شده که همان Impression است.
اگرچه این شیوه خروجی بسیار محدود است،
شما میتوانید از Google Search Console API برای
دادههای بزرگتر استفاده کنید. همچنین پلاگینهای رایگان
Google Sheets وجود دارند که فرآیند استخراج دادههای گستردهتر را
ساده میکنند.
Indexing → Pages report
این بخش لیست خروجیای را ارائه میدهد
که بر اساس نوع مشکل و خطا فیلتر شدهاند. هرچند این خروجی نیز از نظر دامنه پوشش محدودیت
دارند. یعنی شما میتوانید دادهها را بر اساس مشکلات خاصی و معینی فیلتر کنید،
اما این فیلترها تنها بخشی از دادهها را پوشش میدهند و ممکن است نتوانید همه
جزئیات مورد نظر خود را دریافت کنید.
Google Analytics
گزارش پیشفرض
Engagement
→ Pages and Screens
در GA4 یکی از بهترین منابع برای جمعآوری
URLها به شمار میآید. این گزارش با محدودیتی سخاوتمندانه، تا 100,000 URL را در اختیار شما قرار میدهد، که میتواند برای
تحلیل و بررسی صفحات مختلف وبسایت بسیار مفید باشد.
این قابلیت به شما کمک میکند تا یک
دید جامع و دقیق از فعالیتهای سایت خود به دست آورید و آنها را به راحتی مورد
بررسی قرار دهید.
بهتر از آن، شما این امکان را دارید که
فیلترهایی را اعمال کنید تا لیستهای مختلفی از
URLها ایجاد کنید و به این ترتیب محدودیت 100,000
URL را کنار بگذارید. برای مثال، اگر هدف شما فقط استخراج URLهای مربوط به بخش بلاگ باشد، کافیست مراحل زیر را
دنبال کنید:
-
مرحله 1:یک
بخش به گزارش(report) اضافه
کنید. -
مرحله 2:روی
ایجاد بخش جدید(Create a new segment) کلیک کنید. -
مرحله 3:بخش
را با یک الگوی URL محدودتر
تعریف کنید، مانند URLهایی
که شامل “/blog/” هستند.
نکته مهم: URLهایی
که در Google Analytics پیدا
میشوند ممکن است توسط Googlebot کشف یا ایندکس نشده باشند، اما آنها اطلاعات ارزشمندی را در اختیار
شما قرار میدهند.
فایلهای لاگ
سرور
فایلهای لاگ سرور یا CDN احتمالاً به عنوان قویترین ابزار در اختیار شما
قرار دارند. این لاگها یک فهرست جامع از تمامی مسیرهای
URL که توسط کاربران، Googlebot
یا سایر رباتها در بازه زمانی مشخص جستجو شدهاند، ثبت میکنند و میتوانند
اطلاعات ارزشمندی را برای تحلیل عملکرد سایت شما فراهم کنند.
ملاحظات
-
حجم داده:فایلهای
لاگ میتوانند بسیار بزرگ باشند، بنابراین بسیاری از سایتها تنها آخرین دو
هفته دادهها را نگهداری میکنند. -
پیچیدگی:تجزیه
و تحلیل فایلهای لاگ میتواند چالشبرانگیز باشد، اما ابزارهای مختلفی برای
سادهسازی این فرآیند در دسترس هستند.
آنچه گفتیم را به
کار بگیرید!
پس از جمعآوری
URLها از تمامی این منابع، حالا زمان آن رسیده که آنها را به هم ترکیب کنید.
اگر سایت شما کوچک است، میتوانید از Excel استفاده کنید؛
اما برای دادههای بزرگتر، ابزارهایی مانند
Google Sheets یا Jupyter Notebook گزینههای
بهتری هستند. Jupyter Notebook
یک محیط تعاملی برای نوشتن
و اجرای کد، تحلیل دادهها و مستندسازی نتایج به صورت همزمان است
.
اطمینان حاصل کنید که تمام URLها به یک فرمت یکسان در آمدهاند، سپس لیست را از
تکراریها پاک کنید. حالا شما یک فهرست کامل از
URLهای جاری، قدیمی و آرشیوی دارید. موفق باشید.
نتیجهگیری: در
نهایت، جستجو و جمعآوری URLها از منابع
مختلف میتواند اطلاعات ارزشمندی را در اختیار شما قرار دهد که برای تحلیل و بهبود
عملکرد سایت ضروری است.
ابزارهایی مانند
Google Search Console،Google Analytics،
Archive.orgو
Jupyter Notebook به شما کمک میکنند تا دادههای مربوط به صفحات
سایت خود را به طور دقیق و کامل استخراج کرده و بررسی کنید.
با ترکیب این دادهها و حذف تکراریها،
شما قادر خواهید بود تا یک فهرست جامع از
URLهای سایت خود داشته باشید و از آن برای بهبود سئو و عملکرد کلی سایت
استفاده کنید.
سوالات متداول
چگونه میتوان تمامی URLهای موجود و آرشیو شده یک وبسایت را پیدا کرد
برای یافتن تمامی URLهای سایت، میتوان از ابزارهایی مانند Google Search Console، Google Analytics، Archive.org، Moz Pro و همچنین بررسی فایلهای لاگ سرور استفاده کرد. همچنین، استخراج URLها از نقشه سایت قدیمی و بکلینکهای ثبتشده در ابزارهای سئو نیز میتواند به شناسایی URLهای گمشده کمک کند.
چرا یافتن تمامی URLهای سایت برای سئو مهم است؟
بررسی تمامی URLهای یک سایت به دلایل مختلفی ضروری است، از جمله:
شناسایی مشکلات ایندکس و حذف صفحات نامرتبط
جلوگیری از کنیبالیزیشن (رقابت صفحات برای یک کلمه کلیدی)
بهینهسازی ساختار سایت و افزایش حجم ایندکس
شناسایی صفحات 404 و مشکلات فنی سایت
مدیریت و بهروزرسانی محتوای سایت برای بهبود رتبهبندی در موتورهای جستجو
کدام ابزارها برای بررسی و تحلیل URLهای سایت مناسبتر هستند؟
بسته به نیاز شما، ابزارهای مختلفی برای جمعآوری و تحلیل URLها وجود دارد:
Google Search Console: برای مشاهده URLهای ایندکسشده و گزارشهای خطا
Google Analytics: برای دریافت URLهایی که کاربران از آنها بازدید کردهاند
Archive.org: برای مشاهده URLهای قدیمی که ممکن است حذف شده باشند
Moz Pro / Ahrefs / SEMrush: برای بررسی بکلینکها و ایندکس شدن URLها
فایلهای لاگ سرور: برای دریافت جامعترین لیست URLهای دسترسییافته توسط کاربران و رباتها
