Programació del WebScrapping

Llibreries

He seleccionat un conjunt d’eines específiques per automatitzar la recollida d’informació:

Requests i BeautifulSoup: Són les encarregades d’accedir a la web i analitzar-ne el contingut. Mentre que Requests descarrega la pàgina, BeautifulSoup neteja el codi HTML sobrant per quedar-nos només amb la informació útil.
Flask: És la llibreria que transforma el codi en un servidor operatiu que rep les preguntes dels usuaris i envia les respostes de tornada.
Google GenAI: El connector necessari per delegar la generació de respostes a la intel·ligència artificial de Gemini.

Crawler

La funció de rastreig és l’encarregada de fer la feina de camp. Així és com funciona pas a pas:

Punt d’accés: L’exploració comença a la meva pàgina principal i s’estén per tot el domini.
Filtre de contingut: Salta entre enllaços interns amb un límit de 200 pàgines, descartant automàticament qualsevol fitxer multimèdia o PDF que pugui «mecanitzar» la lectura.
Optimització de lectura: He configurat el script per suprimir el «soroll» visual (navegadors i footers). D’aquesta manera, la IA no analitza informació repetitiva i se centra exclusivament en el contingut real de cada secció.

El xatbot sap que respondre perquè prèviament hem fet un prompt dient-li com ha de respondre.

Ngrok

Per connectar el xat del web amb el meu ordinador, utilitzo Ngrok. Com que no disposo d’un servidor fix, aquesta eina em facilita un enllaç extern que serveix de pont. Només cal enganxar aquesta URL a la configuració del WordPress perquè el xat sàpiga exactament on ha d’enviar les preguntes per ser processades.