BOPZ scrapper v1 #49

llop00 · 2024-01-27T20:04:58Z

BOPZ scraper v1:

Cambios específicos de este scrapper

Creada una nueva clase de Metadatos a partir de la del BOPZ original, este no presenta campos específicos al estar menos enriquecido que el BOE, los metadatos insertados son un subconjunto de estos.
Adjunto pantallazo de los metadatos cargados en qdrant.

Pruebas

Probados los módulos daily y batch desde 2019
fecha_publicación y fecha_disposición tienen el mismo valor al no ser posible diferenciarlos.

Requisitos

Es necesario actualizar el requirements para incluir la libreria Unstructured mediante langchain_community utilizada para el scrapping
from langchain_community.document_loaders import UnstructuredPDFLoader

Para ello es necesario:

Instalar tesseract. "sudo apt-get install tesseract-ocr" en sistemas basados en Linux
Actualizar langchain a "langchain==0.1.4". Esto crea una serie de warnings de aviso de cara a la versión 0.2.0 respecto a varios imports.
Instalar "unstructured[pdf]==0.12.2"

bukosabino

Podemos añadir un fichero src/etls/bopz/README.md en el cuál añadir algo de documentación. Por ejemplo:

La provincia a la que hace referencia el módulo bopz (Zaragoza en este caso).
Link a la web
Algún ejemplo de pdf que estamos scrappeando

bukosabino · 2024-01-29T12:43:42Z

src/etls/bopz/metadata.py

+from src.etls.common.metadata import MetadataDocument
+
+
+class BOPZMetadataReferencia(BaseModel):


Remove this class.
It is not used, right?

src/etls/bopz/scrapper.py

bukosabino · 2024-01-29T13:59:33Z

src/etls/bopz/scrapper.py

+    return id_links
+
+class BOPZScrapper(BaseScrapper):
+    BASE_URL = 'http://bop.dpz.es/BOPZ'


We should use lowercase for class variable.

bukosabino · 2024-01-29T14:00:48Z

src/etls/bopz/scrapper.py

+initialize_logging()
+
+# POST data to filter retrieved BOPZ documents
+data_post = {


Use uppercase for global variable. Also, you can port this dict to a utils.py file.

bukosabino · 2024-01-29T14:46:39Z

src/etls/bopz/scrapper.py

+
+    return metadata_dict
+
+def _list_links_day(url: str, day: date) -> tp.List[str]:


Right?

Suggested change

def _list_links_day(url: str, day: date) -> tp.List[str]:

def _list_links_day(url: str, day: date) -> tp.List[BeautifulSoup]:

bukosabino · 2024-01-29T15:01:11Z

Modifica el fichero requirements.txt con todo lo que necesites.

Co-authored-by: Darío López Padial <[email protected]>

llop00 · 2024-01-30T18:35:46Z

Removido OCR

He encontrado la forma de scrapear el texto sin necesidad del ocr.

Incluido url_html en los metadatos

Cambios sugeridos

Añadido utils.py con DATA_POST necesario para filtrar documentos interesados
Creado README.md con rutas al BOPZ y documentos de ejemplo
Ya no hay necesidad de actualizar el requirements al no hacer uso de la librería de OCR
Actualizado el resto de cambios sugeridos

src/etls/bopz/scrapper.py

+    logger.info("Scrapping day: %s", day_str)
+    DATA_POST['fechaPubInf'] = day_str
+    DATA_POST['fechaPubSup'] = day_str
+    response = requests.post(url, data=DATA_POST)


src/etls/bopz/scrapper.py

+        """
+        logger = lg.getLogger(self.download_document.__name__)
+        logger.info("Scrapping document: %s", url)
+        response = requests.get(url)


bukosabino

LGTM

BOPZ scrapper v1

e1381d1

bukosabino reviewed Jan 29, 2024

View reviewed changes

llop00 and others added 2 commits January 29, 2024 16:40

Update src/etls/bopz/scrapper.py

04c5d93

Co-authored-by: Darío López Padial <[email protected]>

Removed ocr

a1a9357

llop00 added 2 commits January 30, 2024 19:41

Fix error in download_document description

aa54bd9

Updated load

bb2a251

github-advanced-security bot found potential problems Feb 4, 2024

View reviewed changes

Error on class import

18b938f

bukosabino self-requested a review February 4, 2024 11:13

bukosabino approved these changes Feb 4, 2024

View reviewed changes

llop00 merged commit e80e35b into bukosabino:main Feb 4, 2024
2 checks passed

llop00 deleted the develop branch February 17, 2024 18:38

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

BOPZ scrapper v1 #49

BOPZ scrapper v1 #49

llop00 commented Jan 27, 2024 •

edited

Loading

bukosabino left a comment

bukosabino Jan 29, 2024

bukosabino Jan 29, 2024

bukosabino Jan 29, 2024

bukosabino Jan 29, 2024

bukosabino commented Jan 29, 2024

llop00 commented Jan 30, 2024 •

edited

Loading

bukosabino left a comment

		from src.etls.common.metadata import MetadataDocument


		class BOPZMetadataReferencia(BaseModel):


		return metadata_dict

		def _list_links_day(url: str, day: date) -> tp.List[str]:

BOPZ scrapper v1 #49

BOPZ scrapper v1 #49

Conversation

llop00 commented Jan 27, 2024 • edited Loading

BOPZ scraper v1:

Cambios específicos de este scrapper

Pruebas

Requisitos

Para ello es necesario:

bukosabino left a comment

Choose a reason for hiding this comment

bukosabino Jan 29, 2024

Choose a reason for hiding this comment

bukosabino Jan 29, 2024

Choose a reason for hiding this comment

bukosabino Jan 29, 2024

Choose a reason for hiding this comment

bukosabino Jan 29, 2024

Choose a reason for hiding this comment

bukosabino commented Jan 29, 2024

llop00 commented Jan 30, 2024 • edited Loading

Removido OCR

Incluido url_html en los metadatos

Cambios sugeridos

bukosabino left a comment

Choose a reason for hiding this comment

llop00 commented Jan 27, 2024 •

edited

Loading

llop00 commented Jan 30, 2024 •

edited

Loading