천객만래 [千客萬來] (It has an interminable succession of visitors)

'브라우저'에 해당되는 글 2건

  1. 2021.01.20 크롤링/스크래핑 ? 무슨 차이지?
  2. 2017.12.17 [웹] 웹퍼블리셔(Web Publisher)란

크롤링/스크래핑

크롤링? 스크래핑? 

요즘 뿐만이 아니라 오래전부터 사용해오던 IT계의 용어입니다.

그런데. 이 차이를 명확히 아는 사람들이 없죠.

저도 알고보니 월드컵이 있던 2002년쯤 크롤링을 해봤었네요. 

그 당시에는 스크래핑이라는 단어를 사용하지 않았습니다.

저는 근래에 웹크롤링에 대해서 공부를 하고 있습니다. 

그 때와 지금 사용하는 개발언어가 다르기 때문입니다.

그럼, 크롤링과 스크래핑에 대하여 알아볼까요.

 

크롤링과 스크래핑은 비슷한 목적이지만 상황에 따라 다르게 사용합니다. 그 목적은 다른 웹페이지의 정보를 가져와 활용하기 위한 것인데, 크롤링은 크롤링 서버에서 대상 서버로 요청을 보내 html 형태로 결과물을 가져올 수 있으면 이를 분석해서 원하는 데이터로 변환할 수 있어 상대적으로 간단한데, 대상 서버가 크롤링 서버의 접근을 막아놓은 경우는 스크래핑 방식을 이용해야 합니다.

스크래핑은 크롤링이 안 되는 경우, 브라우져 인스턴스를 생성해서 일반 사용자가 브라우져를 통해 사이트에 접근한 것처럼 해당 웹페이지 정보를 읽어올 수 있습니다. 브라우져 인스턴스를 띄우는 것은 메모리를 많이 사용하기 때문에 크롤링보다 느리고 구현도 번거로워서 비용 차이가 발생합니다. 크롤링을 먼저 시도하고 데이터를 가져오는데 실패하면 스크래핑을 시도합니다.

파이썬으로 작업하다가 보니 Chrome 인스턴스를 이용해서 하는 경우도 있더라구요. 예전에는 IE 인스턴스였는데 말입니다.

추가적으로 멀티 서버 크롤링은 대상 페이지에서 요청이 많은 IP 접속을 막는 경우 AWS 등의 클라우드 서버에서 인스턴스를 재시작하며 IP를 변경해가면서 접속을 시도할 때 사용합니다. 클라우드 운영 및 크롤링 환경 구축을 위해 많은 시간을 투입해야 하므로 비용이 많이 듭니다. 크롤링과 스크래핑은 대상 서비스에 크롤링 허락을 받은 상태 또는 일반적으로 허용되는 상태에만 구현이 가능합니다. 저작권 이슈 발생시 의뢰한 고객사의 책임이기도 하지만 저희 쪽에서도 법적인 이슈가 발생할 가능성이 있는 경우는 개발을 진행하지 않습니다.

반응형

'IT-개발,DB' 카테고리의 다른 글

vscode에서 파이썬 인터프리터 설정  (0) 2021.02.08
JMeter 설치와 실행  (0) 2021.01.25
크롤링/스크래핑 ? 무슨 차이지?  (0) 2021.01.20
숫자가 아님 NaN  (0) 2021.01.10
go mod 캐시 삭제  (0) 2021.01.04
델파이 커뮤니티 무료버전 설치  (0) 2020.12.26
Posted by 사용자 SB패밀리

댓글을 달아 주세요

[웹] 웹퍼블리셔(Web Publisher)란



웹퍼블리셔(Web Publisher)란

웹표준 및 DOCTYPE를 인지하지 못하는 개발자가 작업하여 나오는 결과물이 IE와 그 외 브라우저에서 특정한 부분만 인식하는 스크립트와 그렇지 않은 스크립트, XHTML과 HTML 태그 사용법 등을 미리 선정하여 큰 문제가 없도록 최대한 디자인을 살려 개발 영역을 넓혀줄 수 있는 역할을 하는 것이 퍼블리셔이다.

 

수행직무)

퍼블리셔는 코더의 역할 뿐만이 아니라, 전체적인 프로젝트의 인식, 그리고 웹 접근성과 크로스미디어, 크로스 브라우저 같은 좀 더 많은 사용자에게 퍼블리싱(인쇄 , 출력)을 할 수 있는 환경을 제공하고자 하는 것에 좀 더 초점이 맞추어져 있다. HTML과 CSS를 활용한 효율적이고 빠른 그리고 수정 용이한 코드 작성을 목적으로 한다.

 

변화를 읽는 자기계발, 흐린 취업시장에서 성공의 길!

뜨는 IT 직종, 웹 퍼블리셔

 

IT 관련 직종의 수명이 짧아지면서, 새로운 직종에 속속 등장하고 있다. 올해 채용시장에 가장 두드러진 직종으로 평가되는 분야는 웹퍼블리셔.

4 11장애인차별금지 및 권리구제에 관한 법률(장차법)’의 시행에 따라 모든 공공기관과 종합병원, 복지시설, 특수학교 및 장애전담 보육시설 등의 홈페이지에 대한 장애인을 위한 웹 접근성이 갖춰지도록 의무화 되었고, 정부 공공기관의 웹 접근성 개선사업이 크게 늘면서 각 취업사이트마다 웹퍼블리셔를 모집하는 공고가 넘쳐나고 있다.

 

웹퍼블리셔는웹 표준 및 웹 접근성 전문가라고 정의할 수 있으며 웹 표준과 그 주변의 다양한 웹 관련 기술에 전문성을 지니고 있는 웹의 구현(출판)을 담당하는 새롭게 부각되는 업무를 행하는 사람을 지칭하기 위한 용어이다.
웹퍼블리셔가 웹표준 구현을 위하여 갖추어야 할 스킬은 아래와 같다.
• HTML, CSS, Javascript
에 대한 관심
• XHTML
마크업 및 W3C DOM을 사용한 자바스크립트 개발 역량
• XHTML
CSS로 구조와 표현 분리 개발 방법에 대한 이해
웹접근성 및 웹표준에 대한 이해
개발자와 디자이너, 컨텐츠 설계자와의 원할한 커뮤니케이션 역량
사용자 중심의 UI에 대한 관심과 이해
소수 사용자를 배려하는 마음

 

급격한 수요 증가에 대응하기 위해 강좌를 개설한 미즈 평생교육원에서는 웹표준/웹접근성 전문강좌를 개설하여 새로운 인터넷 환경을 이끌어갈 인력을 배출하고자 수강생을 모집하고 있다

반응형
Posted by 사용자 SB패밀리

댓글을 달아 주세요