copy current state of medienstaatsvertrag.org, to be verified

2017-12-18 10:58:50 +01:00
parent 8b35e7c5c2
commit 69e5d0e4c6
401 changed files with 74197 additions and 0 deletions
--- a/lib/calcms/markup.pm
+++ b/lib/calcms/markup.pm
@@ -0,0 +1,485 @@
+use warnings "all";
+use strict;
+use Data::Dumper;
+use Text::WikiCreole;
+
+use HTML::Parse;
+use HTML::FormatText;
+
+use log;
+
+package markup;
+
+use Encode;
+
+require Exporter;
+our @ISA = qw(Exporter);
+#our @EXPORT = qw(all);
+our @EXPORT_OK = qw(fix_line_ends html_to_creole creole_to_html creole_to_plain plain_to_ical ical_to_plain ical_to_xml html_to_plain fix_utf8 uri_encode compress base26);
+our %EXPORT_TAGS = ( 'all'  => [ @EXPORT_OK ] );
+
+sub fix_line_ends{
+    my $s=shift;
+    $s=~s/\r?\n|\r/\n/g;
+    return $s;
+}
+
+# convert 1..26 to a..z, 27 to aa, inspired by ConvertAA
+sub base26{
+    my $num = shift ;
+    return '' if $num <= 0;
+
+    my $s = "";
+    while($num){
+	    $s= chr (--$num % 26 + ord "a").$s;
+	    $num = int $num/26;
+	}
+
+    return $s;
+}
+
+sub html_to_creole{
+	my $s=shift;
+
+	#remove elements
+#	$s=~s/[\r\f\n]+/\n/gi;
+#	$s=~s/<\/p.*?>//gi;
+#	$s=~s/<\/br.*?>//gi;
+	$s=~s/\<\!\-\-[\s\S]*?\-\-\>//gi;
+	$s=~s/<script.*?>.*?<\/script.*?>//gi;
+#	$s=~s/<\/?span.*?>//gi;
+#	$s=~s/<\/?font.*?>//gi;
+#	$s=~s/<\/?meta.*?>//gi;
+#	$s=~s/<\/?title.*?>//gi;
+#	$s=~s/<\/?style.*?>//gi;
+#	$s=~s/<\/?col.*?>//gi;
+#	$s=~s/<\/?thead.*?>//gi;
+#	$s=~s/<\/?tbody.*?>//gi;
+	$s=~s/<\/?form.*?>//gi;
+	$s=~s/<\/?select.*?>//gi;
+	$s=~s/<\/?option.*?//gi;
+	$s=~s/<\/?input.*?>//gi;
+#	$s=~s/<\/?button.*?>//gi;
+#	$s=~s/<\/?textarea.*?>//gi;
+	$s=~s/<\/?script.*?>//gi;
+
+	#table elements
+#	$s=~s/\s*<\/?td.*?>//gi;
+#	$s=~s/\s*<\/?th.*?>//gi;
+
+	#remove line breaks
+	$s=~s/[\r\n]+/ /gi;
+
+	#formats	
+	$s=~s/<img.*?src="(.*?)".*?>/{{$1\|}}/gi;	
+	$s=~s/<img.*?title="(.*?)".*?>/{{$2\|$1}}/gi;	
+	$s=~s/<img.*?src="(.*?)"[^>]*?title="(.*?)".*?>/{{$1\|$2}}/gi;	
+	$s=~s/<img.*?title="(.*?)"[^>]*?src="(.*?)".*?>/{{$2\|$1}}/gi;	
+	$s=~s/<\/?img.*?>//gi;
+	#replace line breaks from images
+	$s=~s/(\{\{[^\}\n]*?)\n([^\}\n]*?\}\})/$1$2/g;
+	$s=~s/(\{\{[^\}\n]*?)\n([^\}\n]*?\}\})/$1$2/g;
+	$s=~s/(\{\{[^\}\n]*?)\n([^\}\n]*?\}\})/$1$2/g;
+
+	$s=~s/<i.*?>(.*?)<\/i>/\/\/$1\/\//gi;	
+	$s=~s/<\/?i.*?>//gi;
+	$s=~s/<b.*?>(.*?)<\/b>/\*\*$1\*\*/gi;	
+#	$s=~s/<\/?b.*?>//gi;
+
+	$s=~s/<strong.*?>(.*?)<\/strong>/\*\*$1\*\*/gi;	
+	$s=~s/<em.*?>(.*?)<\/em>/\/\/$1\/\//gi;	
+	$s=~s/<blockquote.*?>((\W+|\w+)*?)<\/blockquote>/{{{$1}}}/gi;	
+#	$s=~s/<a\s+.*?href="(.*?)".*?>((\W+|\w+)*?)<\/a>/\[\[$1\|$2\]\]$3/gi;
+	$s=~s/<a\s+.*?href="(.*?)".*?>(.*?)(\s*)<\/a>/\[\[$1\|$2\]\]$3/gi;
+	$s=~s/<a.*?>//gi;
+	#replace line breaks from links
+	$s=~s/(\[\[[^\]\n]*?)\n([^\]]*?\]\])/$1$2/g;
+	$s=~s/(\[\[[^\]\n]*?)\n([^\]]*?\]\])/$1$2/g;
+	$s=~s/(\[\[[^\]\n]*?)\n([^\]]*?\]\])/$1$2/g;
+
+#	print STDERR Dumper($s) if ($s=~/</);
+
+	$s=~s/[\s]+/ /gi;
+#	$s=~s/\n[ \t\r\n]+\n/\n\n/gi;
+#	$s=~s/\n[ ]+/\n /gi;
+#	$s=~s/\n+/\n/gi;
+#	$s=~s/\n+/\\\n/gi;
+
+	#line elements, increase head line level to avoid breaking single = chars
+	$s=~s/\s*<h1.*?>/== /gi;	
+	$s=~s/\s*<h2.*?>/=== /gi;	
+	$s=~s/\s*<h3.*?>/==== /gi;
+	$s=~s/\s*<h\d.*?>/===== /gi;
+#	$s=~s/\s*<\/h\d.*?>/\n/gi;
+
+#	$s=~s/<br.*?>/\\\\<br>/gi;
+#	$s=~s/\s*<div.*?>//gi;
+#	$s=~s/\s*<\/div>/\n/gi;
+
+#	$s=~s/<table.*?>/\n/gi;
+#	$s=~s/<\/table>/\n/gi;
+#	$s=~s/\s*<tr.*?>//gi;
+#	$s=~s/\s*<\/tr>//gi;
+
+#	$s=~s/\s*<ol.*?>/\n/gi;
+#	$s=~s/\s*<\/ol>/\n/gi;
+#	$s=~s/\s*<ul.*?>/\n/gi;
+#	$s=~s/\s*<\/ul>/\n/gi;
+#	$s=~s/\s*<li.*?>/\n\* /gi;
+#	$s=~s/\s*<\/li>//gi;
+
+#	$s=~s/\s*<p.*?>\s*/\n\n/gi;
+#	$s=~s/\s*<br.*?>\s*/\n /gi;
+
+	my $tree=HTML::Parse::parse_html('<body>'.$s.'</body>');
+	my $formatter = HTML::FormatText->new(leftmargin => 0, rightmargin => 2000);
+	$s= $formatter->format($tree);
+	#use Data::Dumper; print "asd:<textarea cols=100 rows=5>".Dumper($s);print "</textarea>";
+	$s=~s/\</\&lt;/g;
+
+	#fix line endings
+	$s=~s/\n[ \t]+/\n/gi;
+	#$s=~s/\n[\t\r ]+\n/\n\n/g;
+	$s=~s/\n{3,99}/\n\n/g;
+	$s=~s/\n*\*[\s]+/\n\* /g;
+	#$s=~s/(\n\*.*?\n)([^\*])/$1\n\n$2/g;
+
+	#enter line break before headlines
+	$s=~s/(={2,99})/\n$1/g;
+	#reduce head line level
+	$s=~s/=(=+)/$1/g;
+
+	$s=~s/^\s+//gi;
+	$s=~s/\s+$//gi;
+	$s=~s/\n{3,99}/\n\n/g;
+#	$s=~s/\n\n+/ \\\\\n/g;
+	$s=~s/\n/\\\\\n/g;
+	$s=~s/\\\\\n\=/\n\=/g;
+
+	#$s=~s/\n\n/ \\\\\n/g;
+#	$s=~s/(\\\\\n){3,99}/\\\\\n\\\\\n/g;
+	#$s=~s/\\\\[ \t]+/\\\\\n/g;
+	
+#	$s=~s/<\/a>//gi;
+
+	return $s;
+}
+
+sub creole_to_html{
+	my $s=$_[0]||'';
+	
+	#$s=~s/\n\#\n/\n/g;
+    #fix_line_ends($s);
+	$s=~s/<a\s+.*?href="(.*?)".*?>(.*?)(\s*)<\/a>/\[\[$1\|$2\]\]$3/gi;
+	$s=~s/<a.*?>//gi;
+
+	$s=~s/(\[\[[^\]\n]*?)\n([^\]]*?\]\])/$1$2/g;
+	$s=~s/(\[\[[^\]\n]*?)\n([^\]]*?\]\])/$1$2/g;
+	$s=~s/(\[\[[^\]\n]*?)\n([^\]]*?\]\])/$1$2/g;
+	$s=~s/^\s+//g;
+	$s=~s/\s+$//g;
+
+	$s=Text::WikiCreole::creole_parse($s)||'';
+#	$s=~s/<p>/\n/gi;
+#	$s=~s/\{\{\{((\W+|\w+)+?)\}\}\}/<blockquote>$1<\/blockquote>/g;
+#	$s=~s/\{\{(.+?)\|(.*?)\}\}/<img src="$1" title="$2" \/>/g;
+#	$s=~s/\[\[(.+?)\|(.*?)\]\]/<a href="$1">$2<\/a>/g;
+#	$s=~s/([^\:])\/\/(.*?[^\:])\/\//$1<em>$2<\/em> /g;
+#	$s=~s/\n=== (.*?)\n/<h3>$1<\/h3>\n/g;
+#	$s=~s/\n== (.*?)\n/<h2>$1<\/h2>\n/g;
+	#replace line breaks from images
+	$s=~s/(\{\{[^\}\n]*?)\n([^\}\n]*?\}\})/$1$2/g;
+	$s=~s/(\{\{[^\}\n]*?)\n([^\}\n]*?\}\})/$1$2/g;
+	$s=~s/(\{\{[^\}\n]*?)\n([^\}\n]*?\}\})/$1$2/g;
+	#replace line breaks from links
+#	$s=~s/\n= (.*?)\n/<h1>$1<\/h1>\n/g;
+#	$s=~s/\*\*(.*?)\*\*/<strong>$1<\/strong> /g;
+#	$s=~s/^== (.*?)\n/<h2>$1<\/h2>\n/g;
+#	$s=~s/\n\* (.*?)([\r\n]+)/<li>$1<\/li>\n/g;
+#	$s=~s/\n\- (.*?)\n/<lo>$1<\/lo>\n/g;
+#	$s=~s/\n\n/<p>/gi;
+#	$s=~s/\n+/<br \/>/gi;
+#	$s=~s/\</\&lt;/g;
+
+    #remove whitespaces and break lines at start or end of elements
+    for my $elem ('p','li'){
+        $s=~s|<$elem>\s*<br/><br/>|<$elem>|g;
+        $s=~s|<br/><br/>\s*</$elem>|</$elem>|g;
+    }
+
+	return $s;
+}
+
+sub creole_to_plain{
+	my $s=shift;
+	
+	$s=~s/\<p\>/\n/gi;
+	$s=~s/\{\{\{((\W+|\w+)+?)\}\}\}/<blockquote>$1<\/blockquote>/g;
+	$s=~s/\{\{(.+?)\|(.*?)\}\}//g;
+	$s=~s/\[\[(.+?)\|(.*?)\]\]/$2/g;
+	$s=~s/\/\/([^\/\/]*?)\/\//<em>$1<\/em> /g;
+	$s=~s/\n=== (.*?)\n/\n<h3>$1<\/h3>\n/g;
+	$s=~s/\n== (.*?)\n/\n<h2>$1<\/h2>\n/g;
+	$s=~s/\*\*(.*?)\*\*/<strong>$1<\/strong> /g;
+	$s=~s/^== (.*?)\n/<h2>$1<\/h2>\n/g;
+	$s=~s/\n\* (.*?)\n/\n<li>$1<\/li>\n/g;
+	$s=~s/\n\* (.*?)\n/\n<li>$1<\/li>\n/g;
+	$s=~s/\n\- (.*?)\n/\n<lo>$1<\/lo>\n/g;
+	$s=~s/\n\- (.*?)\n/\n<lo>$1<\/lo>\n/g;
+	$s=~s/\n\n/\n<p>/gi;
+	$s=~s/\n/\n<br\/>/gi;
+	return $s;
+}
+
+sub html_to_plain{
+	my $s=shift;
+	return '' unless (defined $s);
+	my $tree=HTML::Parse::parse_html('<body>'.$s.'</body>');
+	my $formatter = HTML::FormatText->new(leftmargin => 0, rightmargin => 2000);
+	$s= $formatter->format($tree);
+	return $s;
+}
+
+sub ical_to_plain{
+	return '' unless defined ($_[0]);
+	$_[0]=~s/\\n/\n/gi;
+	$_[0]=~s/   /\t/gi;
+	$_[0]=~s/\\\./\./gi;
+	$_[0]=~s/\\\,/\,/gi;
+	$_[0]=~s/\\\\/\\/gi;
+	return $_[0];
+}
+
+sub plain_to_ical{
+	return '' unless defined ($_[0]);
+	#remove images + links
+	$_[0]=~s/\[\[.+?\|(.+?)\]\]/$1/g;
+	$_[0]=~s/\{\{.+?\}\}//g;
+	$_[0]=~s/^\s+//g;
+	$_[0]=~s/\\/\\\\/gi;
+	$_[0]=~s/\,/\\\,/gi;
+#	$_[0]=~s/\./\\\./gi;
+	$_[0]=~s/[\r\n]/\\n/gi;
+	$_[0]=~s/\t/   /gi;
+	return $_[0];
+}
+
+sub plain_to_xml{
+	return '' unless defined ($_[0]);
+	$_[0]=~s/\n\={1,6} (.*?)\s+/\n\[\[$1\]\]\n/gi;
+	#remove images + links
+	$_[0]=~s/\[\[.+?\|(.+?)\]\]/$1/g;
+	$_[0]=~s/\{\{.+?\}\}//g;
+	return encode_xml_element($_[0]);
+
+#	$_[0]=~s/\&auml;/ä/gi;
+#	$_[0]=~s/\&ouml;/ö/gi;
+#	$_[0]=~s/\&uuml;/ü/gi;
+#	$_[0]=~s/\&Auml;/Ä/gi;
+#	$_[0]=~s/\&Ouml;/Ö/gi;
+#	$_[0]=~s/\&Uuml;/Ü/gi;
+#	$_[0]=~s/\&szlig;/ß/gi;
+#	$_[0]=~s/\&/\&amp;/gi;
+#	$_[0]=~s/\</\&lt;/gi;
+#	$_[0]=~s/\>/\&gt;/gi;
+#	$_[0]=~s/\"/\&quot;/gi;
+
+##	$_[0]=~s/\n/<br\/>/gi;
+##	$_[0]=~s/\&amp;amp;/\&amp;/gi;
+##	$_[0]=~s/\&amp;amp;/+/gi;
+##	$_[0]=~s/\&amp;/+/gi;
+##	$_[0]=~s/\&/+/gi;
+#	return $_[0];
+}
+
+sub fix_utf8{
+	$_[0] = decode( 'cp1252', $_[0] );
+	return $_[0];
+}
+
+sub uri_encode{
+	$_[0] =~s/([^a-zA-Z0-9_\.\-])/sprintf("%%%02lx",ord($1))/esg;
+	return $_[0];
+}
+
+sub compress{
+	my $header='';
+
+	if($_[0]=~/(Content\-type\:[^\n]+[\n]+)/){
+		$header=$1;
+	}else{
+		#return;
+	}
+
+	my $start=index($_[0],$header);
+	return if ($start<0);
+
+	my $header_length=length($header);
+	$header =substr($_[0],0,$start+$header_length);
+#	print $header."\n";
+
+	my $content=substr($_[0],$start+$header_length);
+
+#	#remove multiple line breaks 
+	$content=~s/[\r\n]+[\s]*[\r\n]+/\n/g;
+
+	#remove leading whitespaces
+	$content=~s/[\r\n]+[\s]+/\n/g;
+
+	#remove tailing whitespaces
+	$content=~s/[\t ]*[\r\n]+/\n/g;
+
+	#remove whitespaces inside tags
+	$content=~s/([\n]\<[^\n]+)[\r\n]+/$1 /g;
+	$content=~s/\"\s+\>/\"\>/g;
+
+	#get closing tags closer
+	$content=~s/[\r\n]+(\<[\/\!])/$1/g;
+	$content=~s/(\>)[\r\n]+([^\<])/$1$2/g;
+
+	#remove leading whitespaces
+	#$content=~s/[\r\n]+([\d\S])/$1/g;
+
+	#remove empty lines
+	$content=~s/[\n\r]+/\n/g;
+
+	#remove whitespaces between tags
+	$content=~s/\>[\t ]+\<(^\/T)/\>\<$1/g;
+
+	#multiple whitespaces
+	$content=~s/[\t ]+/ /g;
+
+	#restore content-type line break
+	$_[0]=$header.$content;
+	#$_[0]=~s/HTTP_CONTENT_TYPE/\n\n/;
+#	return $_[0];
+}
+
+#from XML::RSS.pm
+my %entity = (
+	      nbsp   => "&#160;",
+	      iexcl  => "&#161;",
+	      cent   => "&#162;",
+	      pound  => "&#163;",
+	      curren => "&#164;",
+	      yen    => "&#165;",
+	      brvbar => "&#166;",
+	      sect   => "&#167;",
+	      uml    => "&#168;",
+	      copy   => "&#169;",
+	      ordf   => "&#170;",
+	      laquo  => "&#171;",
+	      not    => "&#172;",
+	      shy    => "&#173;",
+	      reg    => "&#174;",
+	      macr   => "&#175;",
+	      deg    => "&#176;",
+	      plusmn => "&#177;",
+	      sup2   => "&#178;",
+	      sup3   => "&#179;",
+	      acute  => "&#180;",
+	      micro  => "&#181;",
+	      para   => "&#182;",
+	      middot => "&#183;",
+	      cedil  => "&#184;",
+	      sup1   => "&#185;",
+	      ordm   => "&#186;",
+	      raquo  => "&#187;",
+	      frac14 => "&#188;",
+	      frac12 => "&#189;",
+	      frac34 => "&#190;",
+	      iquest => "&#191;",
+	      Agrave => "&#192;",
+	      Aacute => "&#193;",
+	      Acirc  => "&#194;",
+	      Atilde => "&#195;",
+	      Auml   => "&#196;",
+	      Aring  => "&#197;",
+	      AElig  => "&#198;",
+	      Ccedil => "&#199;",
+	      Egrave => "&#200;",
+	      Eacute => "&#201;",
+	      Ecirc  => "&#202;",
+	      Euml   => "&#203;",
+	      Igrave => "&#204;",
+	      Iacute => "&#205;",
+	      Icirc  => "&#206;",
+	      Iuml   => "&#207;",
+	      ETH    => "&#208;",
+	      Ntilde => "&#209;",
+	      Ograve => "&#210;",
+	      Oacute => "&#211;",
+	      Ocirc  => "&#212;",
+	      Otilde => "&#213;",
+	      Ouml   => "&#214;",
+	      times  => "&#215;",
+	      Oslash => "&#216;",
+	      Ugrave => "&#217;",
+	      Uacute => "&#218;",
+	      Ucirc  => "&#219;",
+	      Uuml   => "&#220;",
+	      Yacute => "&#221;",
+	      THORN  => "&#222;",
+	      szlig  => "&#223;",
+	      agrave => "&#224;",
+	      aacute => "&#225;",
+	      acirc  => "&#226;",
+	      atilde => "&#227;",
+	      auml   => "&#228;",
+	      aring  => "&#229;",
+	      aelig  => "&#230;",
+	      ccedil => "&#231;",
+	      egrave => "&#232;",
+	      eacute => "&#233;",
+	      ecirc  => "&#234;",
+	      euml   => "&#235;",
+	      igrave => "&#236;",
+	      iacute => "&#237;",
+	      icirc  => "&#238;",
+	      iuml   => "&#239;",
+	      eth    => "&#240;",
+	      ntilde => "&#241;",
+	      ograve => "&#242;",
+	      oacute => "&#243;",
+	      ocirc  => "&#244;",
+	      otilde => "&#245;",
+	      ouml   => "&#246;",
+	      divide => "&#247;",
+	      oslash => "&#248;",
+	      ugrave => "&#249;",
+	      uacute => "&#250;",
+	      ucirc  => "&#251;",
+	      uuml   => "&#252;",
+	      yacute => "&#253;",
+	      thorn  => "&#254;",
+	      yuml   => "&#255;",
+	      );
+
+my $entities = join('|', keys %entity);
+
+sub encode_xml_element {
+	my $text = shift;
+	
+	my $encoded_text = '';
+	
+	while ( $text =~ s/(.*?)(\<\!\[CDATA\[.*?\]\]\>)//s ) {
+		$encoded_text .= encode_xml_element_text($1) . $2;
+	}
+	$encoded_text .= encode_xml_element_text($text);
+
+	return $encoded_text;
+}
+
+sub encode_xml_element_text {
+	my $text = shift;
+	
+	$text =~ s/&(?!(#[0-9]+|#x[0-9a-fA-F]+|\w+);)/&amp;/g;
+	$text =~ s/&($entities);/$entity{$1}/g;
+	$text =~ s/\</\&lt\;/g;
+	$text =~ s/\>/\&gt\;/g;
+
+	return $text;
+}
+
+#do not delete last line!
+1;