문자 인코딩 문제를 테스트하기위한 "Lorem ipsums"파일 세트가 있습니까?
레이아웃을 위해 유명한 "Lorem ipsum"텍스트가 어떻게 생겼는지 테스트합니다.
내가 찾고있는 것은 텍스트 파일을 읽을 때 문자 인코딩을 처리하는 일부 메소드를 테스트하기 위해 JUnit 테스트에서 사용할 수있는 여러 다른 인코딩으로 인코딩 된 텍스트를 포함하는 파일 세트입니다.
예:갖는 ISO 8859-1
인코딩 테스트 파일과 Windows-1252
인코딩 테스트 파일을. Windows-1252는 지역 80 16 – 9F 16 의 차이를 트리거해야합니다 . 즉, ISO 8859-1과 구별하기 위해이 영역의 문자를 하나 이상 포함해야합니다.
아마도 가장 좋은 테스트 파일 세트는 각 인코딩에 대한 테스트 파일이 모든 문자를 한 번 포함하는 것입니다. 그러나 아마도 나는 sth를 알지 못할 수도 있습니다. 우리 모두는이 인코딩을 좋아합니다. :-)
문자 인코딩 문제에 대한 테스트 파일 세트가 있습니까?
ICU 테스트 스위트 파일을 사용해 보는 것은 어떻습니까? 테스트에 필요한 것인지는 모르겠지만 적어도 UTF 매핑 파일에서 /에서 꽤 완전한 것 같습니다. ICU 테스트 파일의 저장소에 링크
분음 부호 에 대한 Wikipedia 기사 는 매우 포괄적이며 불행히도 이러한 문자를 수동으로 추출해야합니다. 또한 각 언어에 대한 니모닉이있을 수 있습니다. 예를 들어 폴란드어에서는 다음을 사용합니다.
Zażółć gęślą jaźń
한 문장에 9 개의 폴란드어 분음 부호가 모두 포함되어 있습니다. 또 다른 유용한 검색 힌트는 pangrams : 알파벳의 모든 문자를 한 번 이상 사용하는 문장 :
스페인어로 " El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja. "(모두 27 자 및 분음 부호).
러시아어로 " Съешь же ещё этих мягких французских булок, да выпей чаю "(모두 33 개의 러시아어 키릴 문자).
팬 그램 목록 에는 완전한 요약이 포함되어 있습니다. 누구나 이것을 간단하게 포장 할 수 있습니다.
public interface NationalCharacters {
String spanish();
String russian();
//...
}
도서관?
완전한 텍스트 문서를 모르지만 모든 문자 집합에 대한 간단한 개요로 시작할 수 있다면 ftp.unicode.org 서버 에서 사용할 수있는 파일이 있습니다.
예를 들어 WINDOWS-1252가 있습니다. 첫 번째 열은 16 진수 문자 값이고 두 번째 열은 유니 코드 값입니다.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
글쎄, 나는 온라인 도구를 사용하여 Lorem Ipsum에서 텍스트 문자 세트를 만들었습니다. 나는 그것이 당신을 도울 수 있다고 믿습니다. 한 페이지에 모든 다른 문자 집합이있는 것은 없습니다.
'Programing' 카테고리의 다른 글
키로 루아 테이블 항목을 제거하는 방법은 무엇입니까? (0) | 2020.09.19 |
---|---|
std :: get_temporary_buffer가 필요한 이유는 무엇입니까? (0) | 2020.09.19 |
지속적 통합에서 여러 분기 처리 (0) | 2020.09.19 |
PhoneGap / Cordova에서 쿠키 처리 (0) | 2020.09.19 |
Mercurial에서 두 프로젝트를 결합하는 방법은 무엇입니까? (0) | 2020.09.19 |