内容优化

内容优化

Products

当前位置:首页 > 内容优化 >

火车头采集器内容中的段落重排和去重方案

96SEO 2025-01-18 10:56 87


火车头段落:码代#C给重排+去重,直接给C#代码:

using System;
using System.Collections.Gen}
}
;tsiLdereric;
using System.Text.RegularExpressions;
using SpiderInterface;

class LocoyCode
{
private const double ShuffleThreshold = 0.9;

public string Run(string content, ResponseEntry response)
{
// 使用正则表达式匹配出所有的 p 标签
Regex regex = new Regex("<p[^>]*>.*?</p>", RegexOptions.IgnoreCase);
MatchCollection matches = regex.Matches(content);

// 将所有的 p 标签存储到一个列表中
List<string> paragraphs = new List<string>();
foreach (Match match in matches)
{
paragraphs.Add(match.Value);
}

// 根据阈值决定是否打乱段落顺序
if (new Random().NextDouble() < ShuffleThreshold)
{
Shuffle(paragraphs);
}

// 去除重复的段落
paragraphs = RemoveDuplicates(paragraphs);

// 将列表中的所有元素重新拼接成字符串,并返回
return string.Join("", paragraphs);
}

private static void Shuffle<T>(IList<T> list)
{
int n = list.Count;
Random rng = new Random();
while (n > 1)
{
n--;
int k = rng.Next(n + 1);
T value = list[k];
list[k] = list[n];
list[n] = value;
}
}

private static List<string> RemoveDuplicates(List<string> list)
{
List<string> uniqueItems = new List<string>();
List<string> filteredList = new List<string>();

foreach (var item in list)
{
if (!uniqueItems.Contains(item))
{
uniqueItems.Add(item);
filteredList.Add(item);
}
}

return filteredList;
}
}

标签: 火车头采集器


提交需求或反馈

Demand feedback