• Hỏi cách lấy thông tin các doanh nghiệp trên mạng
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ongke0711 > 12-08-20, 09:27 AM

    (12-08-20, 09:21 AM)mrsiro Đã viết: Cho mình hỏi bạn ongke dùng kỹ thuật gì để lấy dữ liệu từ trang masothue.vn, trang này không có cung cấp API. Mình thấy demo bạn dùng IE rồi lấy dữ liệu qua các element, nếu trang web nó thay đổi thứ tự các element hoặc tên thì lấy dữ liệu sẽ sai đúng không bạn.

    Chính xác là vậy. Hy vọng chủ trang này không rảnh và dư tiền thay đổi thiết kế hoài.
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    mrsiro > 12-08-20, 09:56 AM

    (12-08-20, 09:27 AM)ongke0711 Đã viết: Chính xác là vậy. Hy vọng chủ trang này không rảnh và dư tiền thay đổi thiết kế hoài.
    Dùng cách này thì hơi phiêu lưu nhỉ, thường khi thay đổi thiết kế trang thì họ không có thông báo, vì thế sẽ xảy ra sai sót. Còn đối với các trang có API thì khi thay đổi API họ thường có thông báo để dev biết mà thay đổi code theo.
    Mình có tiếp xúc qua 1 vài tool cũng dùng cách lấy theo element kiểu này, cứ lâu lâu lỗi thì họ bảo phải cài IE bản mới.
    Nếu không dùng IE có thể dùng 1 trình duyệt khác không bạn google chrome chẳng hạn.
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ledangvan > 19-08-20, 10:12 PM

    Cảm ơn Onke0711 rất nhiệt tình để xử lý vấn đề của tôi, cái mà bạn đưa ra cũng đã giải quyết được nguyện vọng của tôi

    http://www.mediafire.com/file/yxxkpol9j6...9.mdb/file

    Tôi gửi lên đây bản Ongke0711 đã chỉnh sửa , các bạn cần có thể tải về, bác nào hiểu biết hơn có thể cho ý kiến chỉnh sửa để code được tốt hơn.

    Xin chân trọng cảm ơn
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ongke0711 > 20-08-20, 12:18 PM

    (19-08-20, 10:12 PM)ledangvan Đã viết: Tôi gửi lên đây bản Ongke0711 đã chỉnh sửa , các bạn cần có thể tải về, bác nào hiểu biết hơn có thể cho ý kiến chỉnh sửa để code được tốt hơn.

    Cái file này có thể gặp lỗi ở một số máy cài Windows 10. Do đó các bạn test thử xem nhé.
    Trang masothue.vn này bảo mật cao, có dùng thêm cái mã token kèm theo các tham số để Search nên tôi chỉ dùng được thư viện của Interner Explorer (IE) để tương tác với trang web (lúc trước tôi có nói dùng thư viện XMLHTTPRequest nhưng nó chạy không ra).
    Vấn đề lỗi phát sinh là do cái IE này. Theo tôi nghĩ do Windows 10 nó đã chuyển sang dùng Ms Edge thay cho IE nên có thể nó có hàng rào bảo mật không cho tự động khởi chạy IE -> Lỗi chương trình ở đoạn code "Set IE As Internet Explorer". 
    Anh ledangvan đã test: nếu người dùng mở IE trước rồi chạy ứng dụng thì không bị lỗi. Do đó tôi cũng có thêm đoạn code dùng WScript Shell để tự mở IE nhưng không cho nó ẩn hoặc Minimize cửa sổ được, lúc chạy lúc không nên nó cũng gây phiền phức.

    Mã PHP:
    Set wshShell WScript.CreateObject("WScript.Shell")    
    wshShell
    .Run "iexplore -nomerge",0,true 


    Bạn nào biết cách khắc phục thì hỗ trợ nhé.
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ongke0711 > 23-08-20, 06:13 PM

    (12-08-20, 09:56 AM)mrsiro Đã viết: Dùng cách này thì hơi phiêu lưu nhỉ, thường khi thay đổi thiết kế trang thì họ không có thông báo, vì thế sẽ xảy ra sai sót. Còn đối với các trang có API thì khi thay đổi API họ thường có thông báo để dev biết mà thay đổi code theo.
    Mình có tiếp xúc qua 1 vài tool cũng dùng cách lấy theo element kiểu này, cứ lâu lâu lỗi thì họ bảo phải cài IE bản mới.
    Nếu không dùng IE có thể dùng 1 trình duyệt khác không bạn google chrome chẳng hạn.

    Cách lấy cào thông tin từ web xuống thì như bài trên tôi có nói là dùng thư viện XMLHTTPRequest là ngon nhất nhưng gặp trang bảo mật cao thì cũng potay phải dùng thư viện Internet Explorer để lấy dữ liệu.
    Sau này IE sẽ bị khai tử nên tôi nghĩ các an toàn là dùng thư viện bên ngoài để hỗ trợ. Hiện tại tôi chỉ biết có Selenium hỗ trợ các loại trình duyệt như: FireFox, Chrome, IE, MSEdge, Opera...Dùng Selennium thì buộc người dùng phải cài thêm thư viện của nó nên cũng gây ra phiền phức khi phân phối ứng dụng nhưng không còn cách nào khác. 
    Để rảnh tôi sẽ làm demo dùng thư viện Selenium này xem sao.
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ledangvan > 12-05-21, 10:10 PM

    Rất cảm ơn Ongke0711 đã rất nhiệt tình trợ giúp và ra được kết quả mỹ mãn.

    https://www.mediafire.com/file/czqt1o4nl...3.mdb/file

    File tìm kiếm thông tin trên mạng rất nhanh và hiệu quả.
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ongke0711 > 12-05-21, 10:31 PM

    Đang thêm phần tìm kiếm theo tên công ty để cho đủ bộ tìm kiếm như trang masothue.com
    Ngày mai hoặc mốt sẽ post lên nhé.
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ngoctrung3108@gmail.com > 21-06-21, 03:09 PM

    Code hình như bị lỗi rồi ạ. Không biết do code masothue.com có thay đổi ko ạ
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    ledangvan > 17-07-21, 04:33 PM

    https://www.mediafire.com/file/77wxf6ybp...2.mdb/file
    Tôi có đổi lại, kết hợp giữa cách tìm cũ thông qua IE và cách tìm theo tên mới. 
    Khi tìm theo mã số thuế thì hiện ra kết quả luôn, Khi tìm theo tên thì sẽ ra một số tên tương tự để lựa chọn, Phía dưới có dòng lọc nội dung để lọc lại danh sách vừa tìm thấy :
    Ví dụ tìm tên : Việt Hà -> Ra 20 doanh nghiệp có tên chứa chữ Việt Hà ... nhưng muốn tìm Doanh nghiệp có tên Việt Hà nhưng có Tên Giám đốc là Anh thì đánh Anh bên dưới để lọc, hoặc doanh nghiệp có địa chỉ tại Giải phóng -> Đánh Giải phóng để lọc ...
  • RE: Hỏi cách lấy thông tin các doanh nghiệp trên mạng

    paulsteigel > 09-09-21, 10:21 PM

    (23-08-20, 06:13 PM)ongke0711 Đã viết:
    (12-08-20, 09:56 AM)mrsiro Đã viết: Dùng cách này thì hơi phiêu lưu nhỉ, thường khi thay đổi thiết kế trang thì họ không có thông báo, vì thế sẽ xảy ra sai sót. Còn đối với các trang có API thì khi thay đổi API họ thường có thông báo để dev biết mà thay đổi code theo.
    Mình có tiếp xúc qua 1 vài tool cũng dùng cách lấy theo element kiểu này, cứ lâu lâu lỗi thì họ bảo phải cài IE bản mới.
    Nếu không dùng IE có thể dùng 1 trình duyệt khác không bạn google chrome chẳng hạn.

    Cách lấy cào thông tin từ web xuống thì như bài trên tôi có nói là dùng thư viện XMLHTTPRequest là ngon nhất nhưng gặp trang bảo mật cao thì cũng potay phải dùng thư viện Internet Explorer để lấy dữ liệu.
    Sau này IE sẽ bị khai tử nên tôi nghĩ các an toàn là dùng thư viện bên ngoài để hỗ trợ. Hiện tại tôi chỉ biết có Selenium hỗ trợ các loại trình duyệt như: FireFox, Chrome, IE, MSEdge, Opera...Dùng Selennium thì buộc người dùng phải cài thêm thư viện của nó nên cũng gây ra phiền phức khi phân phối ứng dụng nhưng không còn cách nào khác. 
    Để rảnh tôi sẽ làm demo dùng thư viện Selenium này xem sao.

    Hiện tại rất nhiều trang web chuyển sang dùng ssl/TLS2.x trở lên nên cách code với Xmlhttp và Winhttp cũng phải thay đổi nhìu. Cách đây vài tháng khi làm một bản demo về lấy thông tin web về và làm phần dịch trong excel mình cũng bị tèo. tí tìm lại được code ý mình gửi lại để xem có giúp gì cho ông Kẹ không!

    Đâu ông Kẹ nhé mình dùng Wininet (cấp thấp hơn của XmlHttp và winhttp); Nói chung thấy ổn về cơ bản
    Xem trong module bass nhé! (cái này làm demo bước 1 để kiếm xiền trên upwok) giờ giải nghệ