Back to Question Center
0

קראָום וועב סקראַפּער טוטאָריאַל פון סעמאַלט עקספּערט

1 answers:

אויב איר זענען ניצן Google קראָום, עס איז אַ פאַרלענגערונג פֿאַר דיין בלעטערער וואָס קענען העלפן צו סקראַפּ וועב בלעטער. עס איז באקאנט ווי '' סקראַפּער, '' און עס קענען זיין יוטאַלייזד אָן פראבלעמען. סקראַפּער וועט העלפן סקראַפּינג אַ וועבזייַטל צופרידן און ופּלאָאַדינג די רעזולטאַטן צו Google דאָקומענטן.

ווי צו ברעקל אַ וועבזייטל ניצן סקראַפּער פאַרלענגערונג?

1. אויסקלייַבן קראָום וועב סטאָר אין Google קראָום;

2. אין יקסטענשאַנז, דורכפירן אַ זוכן פֿאַר '' סקראַפּער '';

3. דער ערשטער זוכן רעזולטאַט איז די געשפּרייט באקאנט ווי '' סקראַפּער '';

4. אויסקלייַבן די קנעפּל ליסטעד ווי '' לייג צו קראָום ';

5. באַקומען צוריק צו די וק מפּס ליסטינג

6. גיט די פאלגענדע לינק ;

7. איצט קוק פֿאַר איין מפּ און ענשור דער אַרייַנשרייַב איז אנגעצייכנט;

8. רעכט גיט צו קלייַבן די "סקראַפּ ענלעכע ... "אָפּציע;

9. די קאַנסאָול פֿאַר סקראַפּער וועט קנאַל אַרויף אין אנדערן פֿענצטער,

10. View די סקרייפּט צופרידן אין די סקרייפּער

11. צו ינשור דער אינהאַלט איז געראטעוועט ווי אַ Google ספּרעאַדשעעט, אויסקלייַבן "היט צו Google Docs ..."

עקסטענדעד סקרייפּינג

איידער סטיקינג דעם רעצעפּט

זאל ​​ס ימאַדזשאַן מיר זענען אינטערעסירט אין אַלע קינאָ וואָס סטאַרץ אזיע אַרגענטאָ,

1. עס איז אַ זייער דיטיילד אַרקייוו פון אַקטערז אין ימדב. אזיע אַרגענטאָ פּלאַץ איז: https://www.imdb.com/name/nm0000782/;

2. דאָ, איר קענען זען אַלע ראָלעס געשפילט דורך די אַקטריסע..זאל ס אָנהייבן סקראַפּינג די אינפֿאָרמאַציע מיר זענען אינטערעסירט אין;

3. פּרובירן צו סקראַפּ עס ווי עס איז געווען דיסקרייבד אויבן;

4. איר וועט זען אַז די רשימה איז אַ ביסל פאַרקרימט. דאָס איז רעכט צו דעם פאַקט אַז די רשימה דאָ קען זיין סטראַקטשערד אַנדערש;

5. קאָפּ צו די סקרייפּער קאַנסאָול. שפּיץ לינקס, איר וועט זען דעם קליין קעסטל וואָס האט קספּאַטה;

6. קספּאַטה איז אַ סאָרט פון אָנפֿרעג שפּראַך ווערק פֿאַר קסמל און HTML;

7. קספּאַטה קענען העלפן געפינען די טייל פון די זייַט איר זענט אינטערעסירט. דער ווייַטער זאַך איז צו געפֿינען אַ צונעמען עלעמענט און שרייַבן די קספּאַטה פֿאַר אים;

8. איצט לאָזן 'ס צולייגן אונדזער טיש;

9. איר וועט זען אַז אונדזער יגזיסטינג קספּאַטה וואָס האט אַלע די דאַטע דארף איז "/ / דיוו 3 [3] / דיווידי [3] / דיוו [2] / דיוו";

10. קספּאַטה ינפאָרמז די סיסטעם צו זען די HTML שולדבאַנק און קלייַבן די דריט עלעמענט, דעמאָלט דער רגע עלעמענט און דעמאָלט אַלע פון ​​זיי;

11. אבער, מיר וואָלט ווי צו האָבן אונדזער דאַטן ויסגעשעפּט;

12. ניצן די שפאלטן אָפּטיילונג אין די קאַנסאָול פֿאַר סקראַפּער צו באַקומען דעם געטאן;

13. לאָמיר ערשטער געפֿינען אונדזער טיטל ריפּאָרט ניצן ינספּעקט עלעמענט צו מיינונג דעם טיטל;

14. קאָנטראָלירן דעם טיטל אין אַ צעטל. לייג דעם קוויטל צו די קספּאַטה;

15. די אויסדרוק אויס צו אַרבעטן אַפּראָופּרייטלי, אַזוי מאַכן עס אונדזער ערשטער זייַל;

16. אין דעם אָפּטיילונג "קאָלומנס", replace the first column's name to "title";

17. לייג די XPath צו עס; (קסנומקס) קסנומקס. אין דעם זייַל אָפּטיילונג, די קספּאַטהס זענען קאָרעוו און עס מיטל אַז "./ ב" וועט קלייַבן די עלעמענט

19. אין די קספּאַטה פֿאַר דעם טיטל זייַל, לייגן "./ ב" און אויסקלייַבן "שאָבן";

20. איצט לאָזן 'ס האַלטן גיי פֿאַר אַ יאָר. יאָרן קענען זיין געפונען אין איין שפּאַן;

21. שאַפֿן אַ נייַ זייַל דורך סעלינג די קליין פּלוס ווייַטער צו די זייַל פֿאַר דיין טיטל;

22. ניצן קספּאַטה "./ספּאַן" שאַפֿן אַ זייַל פֿאַר "יאָר";

23. דריקט סקראַפּ און קוק ווי די יאָר איז צוגעגעבן;

24. געטאן!

December 6, 2017
קראָום וועב סקראַפּער טוטאָריאַל פון סעמאַלט עקספּערט
Reply