Code Dạo, Lập Trình, Thủ thuật

Crawl dữ liệu từ một website sử dụng php

AnonyHome Written by AnonyHome
· 1 min read >

Trong bài viết này AnonyHome sẽ hướng dẫn các bạn lấy dữ liệu từ 1 website khác bằng cách sử dụng thư viện trong php. Và thư viện AnonyHome giới thiệu hôm nay đó là PHP Simple HTML DOM Parser.

Crawl dữ liệu từ một website sử dụng php

Giới thiệu về php Simple HTML DOM Parser

Hiểu đơn giản PHP Simple HTML DOM Parser là một thư viện của PHP giúp chúng ta có thể lấy các thuộc tính của các thẻ HTML trong 1 website rất dễ dàng. Nó hỗi trợ một số tính năng như hỗ trợ bóc tách dữ liệu theo từng class, id hoặc theo các thẻ img, a, table..

Cài đặt

Để cài đặt thư viện này các bạn có thể truy cập vào trang chủ của nó theo đường dẫn sau http://simplehtmldom.sourceforge.net/  để tải về. Sau khi đã có thư viện các bạn có thể copy file simple_html_dom.php vào dự án của mình và include file đó vào file bạn muốn lấy dữ liệu để sử dụng.
Các bạn có thể xem các phương thức của thư viện simple_html_dom.php tại đây  http://simplehtmldom.sourceforge.net/manual.htm/

Demo một số phương thức của simple_html_dom.php

Ví dụ 1. Hiển thị toàn bộ nội dung trang Cr- Thắng Blog.

Kết quả nhận được:
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog
Ví dụ 2. Lấy ảnh từ trang Cr- Thắng Blog trên

Kết quả nhận được:
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog

Ví dụ 3. Lấy các link từ Cr- Thắng Blog

kết quả nhận được: 
Crawl dữ liệu từ một website sử dụng php Cr- Thắng Blog

Kết luận 

Như vậy trong bài viết này AnonyHome đã giới thiệu cho các bạn cách lấy dữ liệu từ một website thông qua thư viện simple_html_dom.php . Hi vọng nó sẽ ít nhiều giúp ích cho các bạn trong thực tế. 

Leave a Reply

Your email address will not be published. Required fields are marked *