Semalt cung cấp lời khuyên về cách đối phó với Bots, Nhện và Trình thu thập thông tin

Ngoài việc tạo các URL thân thiện với công cụ tìm kiếm , tệp .htaccess cho phép các quản trị web chặn các bot cụ thể truy cập trang web của họ. Một cách để chặn những robot này là thông qua tệp robot.txt. Tuy nhiên, Ross Barber, Giám đốc thành công của khách hàng Semalt , nói rằng ông đã thấy một số trình thu thập thông tin bỏ qua yêu cầu này. Một trong những cách tốt nhất là sử dụng tệp .htaccess để ngăn chúng lập chỉ mục nội dung của bạn.

Những bot này là gì?

Chúng là một loại phần mềm được sử dụng bởi các công cụ tìm kiếm để xóa nội dung mới khỏi internet cho mục đích lập chỉ mục.

Họ thực hiện các nhiệm vụ sau:

  • Truy cập các trang web mà bạn đã liên kết đến
  • Kiểm tra mã HTML của bạn để tìm lỗi
  • Họ lưu những trang web bạn đang liên kết đến và xem những trang web nào liên kết đến nội dung của bạn
  • Họ lập chỉ mục nội dung của bạn

Tuy nhiên, một số bot độc hại và tìm kiếm trang web của bạn để tìm địa chỉ email và biểu mẫu thường được sử dụng để gửi cho bạn các tin nhắn hoặc thư rác không mong muốn. Những người khác thậm chí tìm kiếm các lỗ hổng bảo mật trong mã của bạn.

Điều gì là cần thiết để chặn trình thu thập dữ liệu web?

Trước khi sử dụng tệp .htaccess, bạn cần kiểm tra những điều sau:

1. Trang web của bạn phải được chạy trên máy chủ Apache. Ngày nay, ngay cả những công ty lưu trữ web tốt một nửa trong công việc của họ, cung cấp cho bạn quyền truy cập vào tệp yêu cầu.

2. Bạn nên có quyền truy cập vào nhật ký máy chủ thô của trang web để bạn có thể xác định vị trí các bot đã truy cập các trang web của bạn.

Lưu ý rằng không có cách nào bạn có thể chặn tất cả các bot có hại trừ khi bạn chặn tất cả chúng, ngay cả những bot bạn cho là hữu ích. Các bot mới xuất hiện mỗi ngày và những cái cũ hơn được sửa đổi. Cách hiệu quả nhất là bảo mật mã của bạn và khiến bot khó có thể spam bạn.

Nhận dạng bot

Các bot có thể được xác định bằng địa chỉ IP hoặc từ "Chuỗi tác nhân người dùng" mà chúng gửi trong các tiêu đề HTTP. Chẳng hạn, Google sử dụng "Googlebot."

Bạn có thể cần danh sách này với 302 bot nếu bạn đã có tên của bot mà bạn muốn tránh sử dụng .htaccess

Một cách khác là tải xuống tất cả các tệp nhật ký từ máy chủ và mở chúng bằng trình soạn thảo văn bản. Vị trí của họ trên máy chủ có thể thay đổi tùy theo cấu hình máy chủ của bạn. Nếu bạn không thể tìm thấy chúng, hãy tìm kiếm sự trợ giúp từ máy chủ web của bạn.

Nếu bạn biết trang nào đã được truy cập hoặc thời gian truy cập, việc đi kèm với một bot không mong muốn sẽ dễ dàng hơn. Bạn có thể tìm kiếm tệp nhật ký với các tham số này.

Một lần, bạn đã lưu ý những bot bạn cần chặn; sau đó bạn có thể đưa chúng vào tệp .htaccess. Xin lưu ý rằng việc chặn bot không đủ để ngăn chặn nó. Nó có thể trở lại với một IP hoặc tên mới.

Làm thế nào để chặn chúng

Tải xuống một bản sao của tập tin .htaccess. Tạo bản sao lưu nếu cần.

Phương pháp 1: chặn bằng IP

Đoạn mã này chặn bot bằng địa chỉ IP 197.0.0.1

Từ chối đặt hàng, cho phép

Từ chối từ 197.0.0.1

Dòng đầu tiên có nghĩa là máy chủ sẽ chặn tất cả các yêu cầu khớp với các mẫu bạn đã chỉ định và cho phép tất cả các yêu cầu khác.

Dòng thứ hai yêu cầu máy chủ phát hành trang 403: cấm

Phương pháp 2: Chặn bởi tác nhân người dùng

Cách dễ nhất là sử dụng công cụ viết lại của Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

Viết lại. - [F, L]

Dòng đầu tiên đảm bảo rằng mô-đun viết lại được kích hoạt. Dòng hai là điều kiện áp dụng quy tắc này. "F" trong dòng 4 yêu cầu máy chủ trả về 403: Bị cấm trong khi "L" có nghĩa đây là quy tắc cuối cùng.

Sau đó, bạn sẽ tải tệp .htaccess lên máy chủ của mình và ghi đè lên tệp hiện có. Theo thời gian, bạn sẽ cần cập nhật IP của bot. Trong trường hợp bạn gây ra lỗi, chỉ cần tải lên bản sao lưu mà bạn đã thực hiện.

mass gmail