Está en la página 1de 2

Expresiones Regulares en infobae y fansided

^[0-9]{1,}\n[a-z0-9-. ]*
^[0-9]{1,}\n[a-zA-Z0-9.]*
^[0-9]{1,}\n[a-zA-Z0-9. \/]*
^[0-9]{1,}\n[a-zA-Z0-9_. \/]*

sublime text
^[0-9]{1,}\n[A-Za-z0-9]{1,}
^.*?(Getty Images).*
^(.+?)/Getty Images\)$
.*?(Getty Images).*
^(.+?)/Getty Images\)
^(.+?)/GettyImages$
.*\n(.+?)/GettyImages$
^(.+?)/ GettyImages$
^(.+?)/ Getty Images$
^.*?AP Foto.*
^.*?AP)
^(.+?)AP\)$

^(.+?),Getty Images$
^(.+?),Getty Images\n(.+?)*
^(.+?),Getty Images\nPie de foto,
^(.+?),Getty Images\nPie de foto,\n(.+?)*
^(.+?),GETTY IMAGES\nPie de foto,\n(.+?)*

^(.+?)(\n)\(.* / .*\)

Multilinea

a regex to extract a line that only contains number and the line beneath
^\d+\n.*

grep -E '^(.*)(\n\1)+$' <filename>

Detectar lineas duplicadas y consecutivas.


^(.*)(\n\1)+$
^.*\n\K(.+)\n\1$
^(.*)(\s\n\1)+$
^(.*)(\s\s\n\1)+$
^(.*)(\n\n\1)+$

Detectar espacio al final de la línea


\s+$

^(.*)\.jpg$\n[a-z.]*
^(.*)\.png$\n[a-z.]*
^Te puede interesar.+$
^Te puede interesar.+$\n[a-zA-Z0-9_. áéíóú:‘’,\(\)“”]*$
^Te puede interesar.+$\n[a-zA-Z0-9_. áéíóúñ:‘’,\(\)“”]*$
^Te puede interesar:\n[a-zA-Z0-9_. áéíóúñ:‘’,\-\(\)“”]*
^Te puede interesar.+$\n[a-zA-Z0-9_. &áéíóúñ:‘’,\(\)“”"]*$

Líneas que contiene

\[CRÉDITO\](.*?)\[/CRÉDITO\]

Lineas que contienen una direccion que termina en .com y toda la página que le precede
.*\n.*\.[A-Za-z]{2,3}$
.*\n.*\.[A-Za-z]{2,4}$

.*\nWikimedia$
.*\nWikimedia commons$
.*\nWikimediacommons$
.*\n(.+?)/ wikicommons$
^(.+?)/Wikimedia Commons

.*\nPinterest$

También podría gustarte