Programing

사이트에서 URL 목록 가져 오기

lottogame 2020. 9. 16. 08:23
반응형

사이트에서 URL 목록 가져 오기 [닫힘]


클라이언트를 위해 대체 사이트를 배포하고 있지만 모든 이전 페이지가 404로 끝나는 것을 원하지 않습니다. 끔찍했기 때문에 이전 URL 구조를 유지할 수 없었습니다.

그래서 저는 요청되는 이전 페이지를 찾고 새 페이지로 영구 리디렉션을 수행해야하는 404 핸들러를 작성하고 있습니다. 문제는 모든 이전 페이지 URL 목록이 필요하다는 것입니다.

이 작업을 수동으로 수행 할 수 있지만 방금 집에 지정된 상대 URL (예 : http : /.../ page / path가 아닌 / page / path) 목록을 제공하는 앱이 있으면 관심이 있습니다. 페이지. 거미와 같지만 더 깊은 페이지를 찾는 것 외에는 내용에 신경 쓰지 않는 거미.


내 질문에 답할 생각은 없었지만 사이트 맵 생성기를 실행하는 것에 대해 생각했습니다. 처음에 http://www.xml-sitemaps.com 에 멋진 텍스트 출력이 있습니다. 내 필요에 완벽합니다.


하다 wget -r -l0 www.oldsite.com

그런 다음 find www.oldsite.com모든 URL을 공개 할 것입니다.

또는 404 요청마다 해당 맞춤 찾을 수없는 페이지를 제공하세요! 즉, 누군가가 잘못된 링크를 사용하면 해당 페이지를 찾을 수 없다는 페이지가 표시되고 사이트의 콘텐츠에 대한 힌트를 제공합니다.


다음은 사이트 맵 생성기 목록입니다 (사이트에서 URL 목록을 확실히 가져올 수 있음). http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

웹 사이트 맵 생성기

다음은 sitemaps.org에 정의되고 Ask, Google, Microsoft Live Search 및 Yahoo!와 같은 검색 엔진에서 지원하는 개방형 표준 인 XML Sitemaps 형식으로 파일을 생성하거나 유지하는 도구에 대한 링크입니다. Sitemap 파일에는 일반적으로 이러한 URL에 대한 일부 메타 데이터와 함께 웹 사이트의 URL 모음이 포함됩니다. 다음 도구는 일반적으로 "웹 유형"XML Sitemap 및 URL 목록 파일을 생성합니다 (일부는 다른 형식도 지원할 수 있음).

참고 : Google은이 사이트에 나열된 타사 소프트웨어의 기능 또는 보안을 테스트하거나 확인하지 않았습니다. 소프트웨어에 대한 질문은 소프트웨어 작성자에게 직접 문의하십시오. 이러한 도구를 즐기시기 바랍니다!

서버 측 프로그램

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap 생성기 (Linux / Windows, 32/64 비트, 오픈 소스)
  • Outil en PHP (프랑스어, PHP)
  • Perl Sitemap 생성기 (Perl)
  • Python Sitemap 생성기 (Python)
  • 단순 Sitemap (PHP)
  • SiteMap XML 동적 Sitemap 생성기 (PHP) $
  • OS / 2 용 Sitemap 생성기 (REXX- 스크립트)
  • XML Sitemap 생성기 (PHP) $

CMS 및 기타 플러그인 :

  • ASP.NET-Sitemaps.Net
  • DotClear (스페인어)
  • 닷 클리어 (2)
  • 드루팔
  • 전자 상거래 템플릿 (PHP) $
  • 전자 상거래 템플릿 (PHP 또는 ASP) $
  • 라이프 타입
  • 미디어 위키 사이트 맵 생성기
  • mnoGoSearch
  • OS 상거래
  • phpWebSite
  • 플론
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • 워드 프레스

다운로드 가능한 도구

  • GSiteCrawler (Windows)
  • GWebCrawler 및 Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap 생성기 (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • Screaming Frog SEO Spider 및 Sitemap 생성기 (Windows / Mac) $
  • 사이트 맵 프로 (Windows) $
  • 사이트 맵 작성자 (Windows) $
  • DevIntelligence의 Sitemap 생성기 (Windows)
  • Sorrowmans Sitemap Tools (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros Sitemap Generator (Java Webstart Application)
  • Weblight (Windows/Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Online Generators/Services

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Free Sitemap Generator
  • Neuroticweb.com Sitemap Generator
  • ROR Sitemap Generator
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator (Italian)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XML Sitemap Generator
  • XML-Sitemaps Generator

CMS with integrated Sitemap generators

  • Concrete5

Google News Sitemap Generators The following plugins allow publishers to update Google News Sitemap files, a variant of the sitemaps.org protocol that we describe in our Help Center. In addition to the normal properties of Sitemap files, Google News Sitemaps allow publishers to describe the types of content they publish, along with specifying levels of access for individual articles. More information about Google News can be found in our Help Center and Help Forums.

  • WordPress Google News plugin

Code Snippets / Libraries

  • ASP script
  • Emacs Lisp script
  • Java library
  • Perl script
  • PHP class
  • PHP generator script

If you believe that a tool should be added or removed for a legitimate reason, please leave a comment in the Webmaster Help Forum.


The best on I have found is http://www.auditmypc.com/xml-sitemap.asp which uses Java, and has no limit on pages, and even lets you export results as a raw URL list.

It also uses sessions, so if you are using a CMS, make sure you are logged out before you run the crawl.


So, in an ideal world you'd have a spec for all pages in your site. You would also have a test infrastructure that could hit all your pages to test them.

You're presumably not in an ideal world. Why not do this...?

  1. Create a mapping between the well known old URLs and the new ones. Redirect when you see an old URL. I'd possibly consider presenting a "this page has moved, it's new url is XXX, you'll be redirected shortly".

  2. If you have no mapping, present a "sorry - this page has moved. Here's a link to the home page" message and redirect them if you like.

  3. Log all redirects - especially the ones with no mapping. Over time, add mappings for pages that are important.


wget from a linux box might also be a good option as there are switches to spider and change it's output.

EDIT: wget is also available on Windows: http://gnuwin32.sourceforge.net/packages/wget.htm


Write a spider which reads in every html from disk and outputs every "href" attribute of an "a" element (can be done with a parser). Keep in mind which links belong to a certain page (this is common task for a MultiMap datastructre). After this you can produce a mapping file which acts as the input for the 404 handler.


I would look into any number of online sitemap generation tools. Personally, I've used this one (java based)in the past, but if you do a google search for "sitemap builder" I'm sure you'll find lots of different options.

참고URL : https://stackoverflow.com/questions/857653/get-a-list-of-urls-from-a-site

반응형