Semalt專家:如何從網頁提取文本

雖然抓取工具能夠在幾秒鐘內從多個頁面提取數據,這是從Web提取文本的一種可靠方法頁面始終突出顯示和復製文本。但是這種方法比較麻煩,特別是在必須從多個頁面複製文本的情況下。另外,Web開發人員正在想出一種方法來鎖定網頁內容,以防止“複製”它。

'現在開始,有多種從網頁提取文本的快速方法。根據要獲取的文本量,可以選擇以下模式:

1。保存頁面方法

此技術依賴於瀏覽器在本地保存當前網頁副本的能力。為此,只需將Control + S按鈕同時按住即可,或者您可以右鍵單擊頁面,然後從彈出菜單中選擇“保存頁面”。這將啟動一個瀏覽器窗口,要求您指定網頁的某些屬性。

在下部,有一個“文件名”選項,您可以藉此指定網頁文件的名稱。重要的是要注意,瀏覽器還將創建一個名稱相似的文件夾,其中將包含來自網頁的所有附加數據,例如圖像和背景。

在此之下,有一個“另存為類型”選項,允許您指定要另存為的文件類型。考慮到我們只對文本感興趣,請選擇另存為“ .txt”,這將自動創建一個包含所有網頁文本的文本文件,並且可以使用任何文字處理器進行編輯。在必須複製整頁的情況下,此方法特別有用。如果您需要保留文本的某些部分,只需打開文本文件並剪切掉不必要的文本即可。

2。 Ctrl + C和Ctrl + V方法

這可能是本書中最古老的技巧,只需使用鼠標突出顯示要提取的文本,然後繼續複製即可並將其粘貼到其他位置。當您需要復制代碼片段並在另一個文檔中快速使用它們時,此方法很有用。

要執行此操作,您需要滾動到包含所需文本的部分,按住鼠標左鍵將光標從“導航”模式更改為“突出顯示”模式。這將允許您突出顯示文本,為此,請繼續按住鼠標左鍵並在周圍移動光標以突出顯示文本。完成後,釋放按鈕,然後右鍵單擊已復制的文本以彈出導航菜單。在其上單擊“複製”選項以復制所選文本。

導航至要保存文本的文本文檔,然後右鍵單擊以彈出菜單並單擊粘貼。

重要的是要注意,您可以在各種粘貼模式之間進行選擇,但是如果您僅對文本感興趣,請單擊純文本粘貼。

mass gmail