SemaltがURLitorについて詳しく説明します–非常にクールなWebスクレイピングおよびデータ抽出ツール

URLitorは、新しいが効果的なWebスクレイピングおよびデータ抽出ツールです。 URLitorを使用するには、提供されたテンプレートにコンテンツをオンラインでスクレイピングしたいすべてのURLのリストを追加する必要があります。次に、Webページから抽出するHTML要素を指定して、送信ボタンをクリックする必要があります。それはそれと同じくらい簡単です。このツールを使用すると、ブラウザからコピーや貼り付けを行う必要がなくなります。

xPathは、XMLファイル内の情報を検索するために使用される言語です。特定の式を使用して、XMLファイル内のノードセットまたはノードを選択します。 XPathが理解する表現は、通常のコンピューターファイルまたはドキュメントで使用される表現と非常によく似ています。

XPathはいくつかのプログラミング言語で使用されますが、このツールはプログラミングの知識がないユーザー向けに作成されています。したがって、それを利用するためにプログラマーである必要はありません。このツールを使用すると、複数のHTMLおよびXMLページからデータを抽出できます。

使用を簡単にするために、頻繁に使用されるいくつかのXPath式がドロップダウンメニューに事前定義されているため、ユーザーは目的に応じていずれかを選択するだけで済みます。ただし、XPathの経験豊富なユーザーは、必要なときにいつでもカスタム式を使用できます。

このツールは、1回のスクレイピングセッションで100個のURLを処理できるように設計されており、一度に最大10個の式を使用できます。つまり、一度に最大100のURLからデータを取得できます。

変更または追加できるいくつかの重要なXPathカスタム式の概要を以下に示します。

1. // div [2] -この式は、2番目のdivを階層的に選択します。

2. // link [@ rel = 'canonical'] / @ href –この式は、rel属性をcanonicalに設定するために使用されるタグの場所(ref)を選択します。

3. / html / head / meta [@ name = 'description'] / @ content –この式はコンテンツの選択に使用されます。

4. // * [@ class = 'class-name'] –この式を使用して、CSSクラスとして「class-name」を持つすべての要素を選択できます。

5. // h2 | // title –この式は、最初のH2とページタイトルの両方を選択するために使用できます。

6. // * [name()= 'h1' or name()= 'title'] –この式は、上記の式とまったく同じように機能します。ただし、上記の表現は短いため、より優れています。

7. // * [contains(@class、 'thumb')] –この式は、CSSクラスがあり、抽出用の「thumb」も含むすべての要素を選択します。

8. // parent :: * [text()= 'Welcome'] –この式は、テキスト「Welcome」を持つ任意の要素の親を選択します。

このツールはベータ版であり、まだいくつかのエラーで動作する可能性があります。ただし、前述のように、頻繁に使用されるすべての式がメニューに事前定義されているため、プログラミングの知識がほとんどまたはまったくないユーザーにとっては、このツールは依然として優れたツールです。

mass gmail