천객만래 [千客萬來] (It has an interminable succession of visitors)

크롤링/스크래핑

크롤링? 스크래핑? 

요즘 뿐만이 아니라 오래전부터 사용해오던 IT계의 용어입니다.

그런데. 이 차이를 명확히 아는 사람들이 없죠.

저도 알고보니 월드컵이 있던 2002년쯤 크롤링을 해봤었네요. 

그 당시에는 스크래핑이라는 단어를 사용하지 않았습니다.

저는 근래에 웹크롤링에 대해서 공부를 하고 있습니다. 

그 때와 지금 사용하는 개발언어가 다르기 때문입니다.

그럼, 크롤링과 스크래핑에 대하여 알아볼까요.

 

크롤링과 스크래핑은 비슷한 목적이지만 상황에 따라 다르게 사용합니다. 그 목적은 다른 웹페이지의 정보를 가져와 활용하기 위한 것인데, 크롤링은 크롤링 서버에서 대상 서버로 요청을 보내 html 형태로 결과물을 가져올 수 있으면 이를 분석해서 원하는 데이터로 변환할 수 있어 상대적으로 간단한데, 대상 서버가 크롤링 서버의 접근을 막아놓은 경우는 스크래핑 방식을 이용해야 합니다.

스크래핑은 크롤링이 안 되는 경우, 브라우져 인스턴스를 생성해서 일반 사용자가 브라우져를 통해 사이트에 접근한 것처럼 해당 웹페이지 정보를 읽어올 수 있습니다. 브라우져 인스턴스를 띄우는 것은 메모리를 많이 사용하기 때문에 크롤링보다 느리고 구현도 번거로워서 비용 차이가 발생합니다. 크롤링을 먼저 시도하고 데이터를 가져오는데 실패하면 스크래핑을 시도합니다.

파이썬으로 작업하다가 보니 Chrome 인스턴스를 이용해서 하는 경우도 있더라구요. 예전에는 IE 인스턴스였는데 말입니다.

추가적으로 멀티 서버 크롤링은 대상 페이지에서 요청이 많은 IP 접속을 막는 경우 AWS 등의 클라우드 서버에서 인스턴스를 재시작하며 IP를 변경해가면서 접속을 시도할 때 사용합니다. 클라우드 운영 및 크롤링 환경 구축을 위해 많은 시간을 투입해야 하므로 비용이 많이 듭니다. 크롤링과 스크래핑은 대상 서비스에 크롤링 허락을 받은 상태 또는 일반적으로 허용되는 상태에만 구현이 가능합니다. 저작권 이슈 발생시 의뢰한 고객사의 책임이기도 하지만 저희 쪽에서도 법적인 이슈가 발생할 가능성이 있는 경우는 개발을 진행하지 않습니다.

반응형

'IT-개발,DB' 카테고리의 다른 글

vscode에서 파이썬 인터프리터 설정  (0) 2021.02.08
JMeter 설치와 실행  (0) 2021.01.25
크롤링/스크래핑 ? 무슨 차이지?  (0) 2021.01.20
숫자가 아님 NaN  (0) 2021.01.10
go mod 캐시 삭제  (0) 2021.01.04
델파이 커뮤니티 무료버전 설치  (0) 2020.12.26
Posted by 사용자 SB패밀리

댓글을 달아 주세요

[작업] IE + Chrome => 주소창+검색창 어플리케이션 목업 작성중


일주일에 3~4일의 작업기간중에 작업을 하느라 생각보다 늦기는 했지만..

처음에 크롬 확장프로그램을 만드는 것에서 최신버전에서의 보안강화로

사용자가 직접 확장프로그램을 설치해야만 작동가능하다는 것 때문에

크롬 확장프로그램은 다음을 기약하기로 했다. 나중에 기회가 된다면

다른 기능들과 함께 만들수도 있겠지만 사용자가 직접 설치해야만 한다는 것이

크리티컬한 제약사항이라 방법을 선회했다.


따라서, 번들 배포를 이용한 다운로드한 프로그램의 사용자 동의에 따라 설치가 되므로 

더 많은 배포를 할 수 있게 된다. 그리고 기존의 인터넷 익스플로러에서만 키워드를

추출하는 방식에서 벗어나 한국에서는 20%이상의 검색 점유율을 갖는 구글 크롬을

추가하여 키워드 추출율을 높였다는 것이 기존의 상품보다 장점이라고 할 수 있다.


즉, 정상적으로 크롬 확장프로그램으로서의 작동하는 주소창, 검색창 후킹이 아니라

윈도우즈 시스템 메시지를 이용한 후킹으로 크롬에서 오고가는 메시지 정보를 

들여다보고 주소창, 검색창 기능을 완성하고  엔딩팝업과 팝언더 기능을 적용하였다.

여기에 토스트 팝업(배너) 기능을 추가할까 한다.


키워드 추출은 IE + Chrome 

광고 노출은 팝언더 + 엔딩팝업(후팝업) + 토스트배너(팝업)


이렇게 구성된 어플리케이션을 완성하고 상품화 할까 한다.






반응형
Posted by 사용자 SB패밀리

댓글을 달아 주세요

인터넷 익스플로러 없이 인터넷 뱅킹을 한다 - IE TabMulti


또한 인터넷 익스플로러에서만 가능했던 인터넷 결제를 한다.


인터넷 익스플로러를 사용하면 악성코드 프로그램이나 느려지는 현상, 또는 광고 창이 나타나서 

사용하기가 꺼려지는 분들에게는 희소식입니다.

꼭 인터넷 뱅킹을 하려고 하면 인터넷 익스플로러, 그것도 32bit 인터넷 익스플로러를 사용해야 하는 것이 안타깝습니다.

우리나라에만 있는 보안 규정 때문에 이렇게 된 것인데요.

우리나라는 보안관련 프로그램이 각 사이트에 있는 것이 아니라 개개인의 PC에 설치되기 때문에

보안에 좀 더 취약하게 된다는 것입니다.


그럼 인터넷 익스플로러 없이도 인터넷 뱅킹을 사용하는 방법은 무엇인가 하면


속도가 빠른 구글 크롬을 사용하는 것입니다. 

이것도 크롬을 그냥 사용하게 되면 인터넷 뱅킹이 거의 불가능 합니다.

이 때 구글 웹 스토어에서 확장 프로그램 "IE Tab Multi"를 검색해서 설치를 합니다.





이 "IE Tab Multi"라는 확장 프로그램을 설치하고 나면 크롬 브라우저 우측에 eIPA라는 아이콘이 등록됩니다.




위에서 표시된 아이콘을 클릭하면 "IE Tab Multi"가 실행되면서 웹페이지 상단 영역에 URL주소창이 추가됩니다.

이제 "IE Tab Multi"가 실행되어 인터넷 뱅킹이 가능하게 됩니다.




브라우저의 상단의 URL 주소창이나 뒤로, 앞으로 버튼을 클릭해서 이동하지 말고 웹페이지 상단의 작은 탐색 아이콘과 주소창을 이용하면 인터넷 뱅킹이나 그 밖의 인터넷 결제가 가능합니다.





반응형
Posted by 사용자 SB패밀리

댓글을 달아 주세요


[IT/과학] 구글 사용자가 익스플로러보다 평균 IQ 30 높아

머니투데이 기사 타이틀에 이런 글을 보았다. 구글 사용자가 익스플로러 사용자보다 IQ가 높다니
이건 무슨 의미인지, 아니 무슨 근거인지 말이다.

근거는 실제 근거인데... 명확하다고는 할 수 없는. 뭐.. 혈액형 성격과도 비슷하다고나 할까?


영국 BBC는 캐나다 지능심리측정 컨설팅 회사 앱티콴트(Aptiquant)가 발표한 보고서를 인용, 브라우저 사용자 중 익스플로러(IE) 사용자들의 지능지수(IQ)가 가장 낮다고 전했다.

이 연구는 인터넷 브라우저를 사용하는 10만명을 대상 한 온라인 설문조사 결과이다.

연구 결과 익스플로러 사용자의 IQ는 80으로 전체 평균보다 낮은 아이큐를 보였다. 카미노와 오페라 사용자는 평균 IQ 120으로 가장 높았고 파이어폭스, 구글 크롬 프레임 사용자의 IQ는 110이라고 밝혔다.

또한 익스플로러 사용자들 중에서도 버전에 따른 지능지수가 차이를 나타냈다. IQ가 높은 순서로 IE8, IE9, IE7,IE6순서이며 IE6 사용자의 평균 IQ는 80으로 가장 낮았다.

앱티콴트 관계자는 "IQ가 높을 수록 변화에 적극적이라는 의미"라며 "IQ가 낮은 사람은 운영체제를 바꾸는데 소극적이라는 것이지 지능 자체가 낮다는 것은 아니다"라고 말했다.

반응형
Posted by 사용자 SB패밀리

댓글을 달아 주세요